本地知识库搭建

# 本地知识库搭建

# Ollama + Anything LLM + deepseek + big em3

# 步骤

安装 Ollama,然后拉取 deepseek-r1:7b,不同大小的区别如下:

Image

RAG:检索增强生成

相应工具:Chatbox, dify, Cherry Studio

Image

# 设置

Image

# 问题

解决回答幻觉问题。

rag开发步骤。

把公司的语料库,加载进来。

命中率较低。

# 提升知识库效果

PDF转markdown。MinerU来转换。

https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md

长文本:限定明确的提示词。

RAG:给AI限定搜索的范围,每次回答问题前,先去知识库进行查找。知识库是用来检索的,不是用来学习的。RAGFlow开源。

微调:投喂,并形成参数或者规律。

知识库不符合预期的原因:https://www.bilibili.com/video/BV1NANLeREUe?spm_id_from=333.788.recommend_more_video.1&vd_source=51388900e83402b21f004ea8d1d80feb

# MaxKB + Ollama + DeepSeek

# 步骤

# docker安装

macos直接选择官方的dmg安装包即可。

# 本地docker部署

命令:

docker run -d --name=maxkb --restart=always -p 8080:8080 -v C:/maxkb:/var/lib/postgresql/data -v C:/python-packages:/opt/maxkb/app/sandbox/python-package

Image

# 文档语料预处理

图片文档处理,https://blog.csdn.net/fuhanghang/article/details/136699641

1.文档转markdown

2.图片转文本

3.使用markdown来编辑

4.代码使用code

# 5.识别图片,根据问题,直接展示图片?

pdf转为markdown文本

处理前

## 研发流程

### release

![](iamges/test.png) // 存储在本地,无法预览

处理后

## 研发流程

### release

// 图片上传到oss
![](https://static.xyb2b.com/images/dd43899aa3a859d36aa2492da89b638f.png)

图片上传到OSS

Image

6.ollama在macos下配置 OLLAMA_HOST

launchctl setenv OLLAMA_HOST "0.0.0.0"

然后重启 ollama

找到本地局域网的ip地址,确保能访问:http://172.22.10.143:11434/ 这个是 ollama 在本地的服务ip

Image

配置本地 ollama 的时候,api就写这个就好。使用127.0.0.1:11343 会提示无效,localhost:11343 也不行。

Image

原因:https://bbs.fit2cloud.com/t/topic/4165

# Ragflow

# 工具

pdf转md

Mathpix:https://mathpix.com/ 效果好,需要付费

Marker: https://github.com/VikParuchuri/marker 免费,依赖本地GPU

MinerU:

https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#%E5%9C%A8%E7%BA%BF%E4%BD%93%E9%AA%8C

https://www.bilibili.com/video/BV1eqzBYzEd9/?spm_id_from=333.788.recommend_more_video.-1&vd_source=51388900e83402b21f004ea8d1d80feb

# 其他

通过模型把各种内容(词、句子、图片、whatever)转化成高维向量 的过程,我们称为Embedding(嵌入)

# Chunk【文本分块】 + Embedding【向量化】 + VectorDB【向量数据库】 = RAG

优化RAG的质量