這種流程是極度依賴于基于相似度的向量檢索技術(shù),存在幾個(gè)核心問(wèn)題:

對(duì)應(yīng)以上核心技術(shù)問(wèn)題就會(huì)導(dǎo)致兩個(gè)很普遍的現(xiàn)象:

1.2 為什么要在RAG中引入知識(shí)圖譜?

知識(shí)圖譜是對(duì)現(xiàn)實(shí)世界實(shí)體及其關(guān)系的結(jié)構(gòu)化表示。它們由兩個(gè)主要部分組成:節(jié)點(diǎn)和邊。節(jié)點(diǎn)表示獨(dú)立的實(shí)體,例如人物、地點(diǎn)、物體或概念。而邊則表示節(jié)點(diǎn)之間的關(guān)系,表示它們?nèi)绾蜗嗷リP(guān)聯(lián)。

image

這種結(jié)構(gòu)使 LLM 能夠訪問(wèn)精確且與上下文相關(guān)的數(shù)據(jù),從而極大地提高了其生成信息豐富答案的能力,其核心優(yōu)勢(shì)在于:

image

image

將知識(shí)圖譜(KG)引入 RAG 體系,就像為 AI 構(gòu)建了一張清晰的“知識(shí)地圖”。知識(shí)圖譜能夠表達(dá)實(shí)體之間的復(fù)雜關(guān)系,例如父子關(guān)系、朋友關(guān)系、因果關(guān)系等等,從而讓 AI 不僅能夠“查到”信息,更能夠“理解”信息之間的邏輯,給出更準(zhǔn)確、更智能的答案。從依賴自身到檢索外部信息,再到利用知識(shí)圖譜進(jìn)行深度理解。

image

1.3 圖譜+RAG需要考慮和關(guān)注的點(diǎn)

image

二、RAGFlow + GraphRAG+ 知識(shí)圖譜 + Deepseek 初步探索實(shí)踐

RAGFlow的V0.16.0版本以后對(duì)內(nèi)置的GraphRAG做了重構(gòu),并且目前支持輕量級(jí)別的LightRAG和GraphRAG兩種框架。GraphRAG利用圖結(jié)構(gòu)增強(qiáng)上下文關(guān)聯(lián)性,適用于醫(yī)療、法律等復(fù)雜領(lǐng)域,LightRAG則強(qiáng)調(diào)輕量化和高效,能夠顯著降低延遲和計(jì)算成本。這里做一個(gè)實(shí)踐記錄與分享,實(shí)踐略過(guò)了RAGFlow在window或者linux的安裝步驟,需要的話可以留言,后面可以補(bǔ)充再出一篇安裝教程。

image

2.1 配置模型供應(yīng)商

RAGFlow 支持大多數(shù)主流 LLM平臺(tái),還支持使用?Ollama、Xinference 或 LocalAI 在本地部署 LLM,這里首先要添加并配置 LLM,點(diǎn)擊頁(yè)面右上角的徽標(biāo)> 模特提供商:

image

每個(gè) RAGFlow 帳戶都可以免費(fèi)使用通義千問(wèn)的嵌入模型text-embedding-v2,這里單擊你所擁有的 LLM平臺(tái)并相應(yīng)地更新 API 密鑰,deepseek也有:

image

如果是采用本地部署的模型的話,可以找到Ollama,配置對(duì)應(yīng)的embedding和chat模型,Ollama的基礎(chǔ)URL為:

image

配置好后的模型列表,可以從“添加了的模型”這里看到:

image

配置好后,打開(kāi)系統(tǒng)模型設(shè)置,其中img2txt模型就是OCR模型:

image

2.2 配置知識(shí)庫(kù)

正確配置知識(shí)庫(kù)對(duì)于 AI 智能助手至關(guān)重要,選擇錯(cuò)誤的嵌入模型或塊方法很容易導(dǎo)致聊天中出現(xiàn)意外的語(yǔ)義丟失或答案不匹配。

image

在知識(shí)庫(kù)配置中,RAGFlow 通過(guò)嵌入模型、解析方法、頁(yè)面排名、自動(dòng)關(guān)鍵詞、自動(dòng)問(wèn)題、召回增強(qiáng)及 RAPTOR 策略等技術(shù),提升檢索和生成效果,其中:

image

2.3 配置知識(shí)圖譜方法

往下翻到知識(shí)圖譜部分,打開(kāi)提取知識(shí)圖譜,實(shí)體類型可以就選默認(rèn)的,然后方法選擇General,然后打開(kāi)實(shí)體歸一化和社區(qū)報(bào)告生成,其中,實(shí)體類型是知識(shí)圖譜的重要組成部分。常見(jiàn)的實(shí)體類型包括:

image

實(shí)體歸一化是指將不同表達(dá)方式的實(shí)體統(tǒng)一為標(biāo)準(zhǔn)形式。例如,“馬云”可能在不同的文本中被表達(dá)為“Jack Ma”、“阿里巴巴創(chuàng)始人”等。實(shí)體歸一化的目的是確保知識(shí)圖譜中的實(shí)體具有唯一性和一致性,包括:

社區(qū)報(bào)告生成是 RAGFlow 中的一個(gè)重要功能,在這一步,區(qū)塊被聚集成層次化的社區(qū),實(shí)體和關(guān)系通過(guò)更高抽象層次將每個(gè)部分連接起來(lái),它通過(guò)分析知識(shí)圖譜中的實(shí)體和關(guān)系,生成結(jié)構(gòu)化的報(bào)告。具體步驟包括:

2.4 建立知識(shí)圖譜

配置完數(shù)據(jù)庫(kù)后,上傳一條文件,然后點(diǎn)擊開(kāi)始解析:

image

image

解析完后點(diǎn)擊刷新,左側(cè)會(huì)出現(xiàn)知識(shí)圖譜菜單,點(diǎn)擊進(jìn)入查看建立好的知識(shí)圖譜,其中每個(gè)深色的圓圈代表一個(gè)實(shí)體,實(shí)體之間的連線代表實(shí)體之間存在的關(guān)系。

image

外圍淡色的圓圈代表實(shí)體組成的社區(qū):

image

2.5 基于圖譜+RAG的實(shí)踐效果測(cè)試

這里先來(lái)試一下檢索,這是沒(méi)有打開(kāi)知識(shí)圖譜的檢索結(jié)果:

image

這是打開(kāi)了知識(shí)圖譜的檢索結(jié)果:

image

然后,再測(cè)試一下,這個(gè)是沒(méi)有帶知識(shí)圖譜的回答效果:

image

原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/NJgBjKLIvjblsUjDa2yxmQ

上一篇:

Win11+CUDA 12.4+PyTorch+Anaconda+PyCharm 安裝與配置GPU版

下一篇:

TorchCodec: 用于 PyTorch 的視頻解碼庫(kù)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場(chǎng)景實(shí)測(cè),選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)