本地知识库搭建
# 本地知识库搭建
# Ollama + Anything LLM + deepseek + big em3
# 步骤
安装 Ollama,然后拉取 deepseek-r1:7b,不同大小的区别如下:
RAG:检索增强生成
相应工具:Chatbox, dify, Cherry Studio
# 设置
# 问题
解决回答幻觉问题。
rag开发步骤。
把公司的语料库,加载进来。
命中率较低。
# 提升知识库效果
PDF转markdown。MinerU来转换。
https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md
长文本:限定明确的提示词。
RAG:给AI限定搜索的范围,每次回答问题前,先去知识库进行查找。知识库是用来检索的,不是用来学习的。RAGFlow开源。
微调:投喂,并形成参数或者规律。
知识库不符合预期的原因:https://www.bilibili.com/video/BV1NANLeREUe?spm_id_from=333.788.recommend_more_video.1&vd_source=51388900e83402b21f004ea8d1d80feb
# MaxKB + Ollama + DeepSeek
# 步骤
# docker安装
macos直接选择官方的dmg安装包即可。
# 本地docker部署
命令:
docker run -d --name=maxkb --restart=always -p 8080:8080 -v C:/maxkb:/var/lib/postgresql/data -v C:/python-packages:/opt/maxkb/app/sandbox/python-package
# 文档语料预处理
图片文档处理,https://blog.csdn.net/fuhanghang/article/details/136699641
1.文档转markdown
2.图片转文本
3.使用markdown来编辑
4.代码使用code
# 5.识别图片,根据问题,直接展示图片?
pdf转为markdown文本
处理前
## 研发流程
### release
 // 存储在本地,无法预览
处理后
## 研发流程
### release
// 图片上传到oss

图片上传到OSS
6.ollama在macos下配置 OLLAMA_HOST
launchctl setenv OLLAMA_HOST "0.0.0.0"
然后重启 ollama
找到本地局域网的ip地址,确保能访问:http://172.22.10.143:11434/ 这个是 ollama 在本地的服务ip
配置本地 ollama 的时候,api就写这个就好。使用127.0.0.1:11343 会提示无效,localhost:11343 也不行。
原因:https://bbs.fit2cloud.com/t/topic/4165
# Ragflow
# 工具
pdf转md
Mathpix:https://mathpix.com/ 效果好,需要付费
Marker: https://github.com/VikParuchuri/marker 免费,依赖本地GPU
MinerU:
https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md#%E5%9C%A8%E7%BA%BF%E4%BD%93%E9%AA%8C
https://www.bilibili.com/video/BV1eqzBYzEd9/?spm_id_from=333.788.recommend_more_video.-1&vd_source=51388900e83402b21f004ea8d1d80feb
# 其他
通过模型把各种内容(词、句子、图片、whatever)转化成高维向量 的过程,我们称为Embedding(嵌入)
# Chunk【文本分块】 + Embedding【向量化】 + VectorDB【向量数据库】 = RAG
优化RAG的质量