本地知识库搭建

# 本地知识库搭建

# Ollama + Anything LLM + deepseek + big em3

# 步骤

安装 Ollama，然后拉取 deepseek-r1:7b，不同大小的区别如下:

RAG：检索增强生成

相应工具：Chatbox, dify, Cherry Studio

# 设置

# 问题

解决回答幻觉问题。

rag开发步骤。

把公司的语料库，加载进来。

命中率较低。

# 提升知识库效果

PDF转markdown。MinerU来转换。

https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

长文本：限定明确的提示词。

RAG：给AI限定搜索的范围，每次回答问题前，先去知识库进行查找。知识库是用来检索的，不是用来学习的。RAGFlow开源。

微调：投喂，并形成参数或者规律。

知识库不符合预期的原因：https://www.bilibili.com/video/BV1NANLeREUe?spm_id_from=333.788.recommend_more_video.1&vd_source=51388900e83402b21f004ea8d1d80feb

# MaxKB + Ollama + DeepSeek

# 步骤

# docker安装

macos直接选择官方的dmg安装包即可。

# 本地docker部署

命令：

docker run -d --name=maxkb --restart=always -p 8080:8080 -v C:/maxkb:/var/lib/postgresql/data -v C:/python-packages:/opt/maxkb/app/sandbox/python-package

# 文档语料预处理

图片文档处理，https://blog.csdn.net/fuhanghang/article/details/136699641

1.文档转markdown

2.图片转文本

3.使用markdown来编辑

4.代码使用code

# 5.识别图片，根据问题，直接展示图片？

pdf转为markdown文本

处理前

## 研发流程

### release

![](iamges/test.png) // 存储在本地，无法预览

处理后

## 研发流程

### release

// 图片上传到oss
![](https://static.xyb2b.com/images/dd43899aa3a859d36aa2492da89b638f.png)

图片上传到OSS

6.ollama在macos下配置 OLLAMA_HOST

launchctl setenv OLLAMA_HOST "0.0.0.0"

然后重启 ollama

找到本地局域网的ip地址，确保能访问：http://172.22.10.143:11434/ 这个是 ollama 在本地的服务ip

配置本地 ollama 的时候，api就写这个就好。使用127.0.0.1:11343 会提示无效，localhost:11343 也不行。

原因：https://bbs.fit2cloud.com/t/topic/4165

# Ragflow

# 工具

pdf转md

Mathpix:https://mathpix.com/ 效果好，需要付费

Marker: https://github.com/VikParuchuri/marker 免费，依赖本地GPU

MinerU:

https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#%E5%9C%A8%E7%BA%BF%E4%BD%93%E9%AA%8C

https://www.bilibili.com/video/BV1eqzBYzEd9/?spm_id_from=333.788.recommend_more_video.-1&vd_source=51388900e83402b21f004ea8d1d80feb

# 其他

通过模型把各种内容（词、句子、图片、whatever）转化成高维向量的过程，我们称为Embedding（嵌入）

# Chunk【文本分块】 + Embedding【向量化】 + VectorDB【向量数据库】 = RAG

优化RAG的质量

个人技术分享

Choose mode

本地知识库搭建

# 本地知识库搭建

# Ollama + Anything LLM + deepseek + big em3

# 步骤

# 设置

# 问题

# 提升知识库效果

# MaxKB + Ollama + DeepSeek

# 步骤

# docker安装

# 本地docker部署

# 文档语料预处理

# 5.识别图片，根据问题，直接展示图片？

# Ragflow

# 工具

# 其他

# Chunk【文本分块】 + Embedding【向量化】 + VectorDB【向量数据库】 = RAG