這種流程是極度依賴于基于相似度的向量檢索技術(shù),存在幾個(gè)核心問(wèn)題:
- 知識(shí)結(jié)構(gòu)的空心化:人類專家的知識(shí)體系是立體建構(gòu)的,既有學(xué)科主干脈絡(luò),又能自由調(diào)用跨領(lǐng)域知識(shí)節(jié)點(diǎn)。而LLM的知識(shí)表征更接近平面化的概率分布,當(dāng)處理需要深度領(lǐng)域知識(shí)交叉的問(wèn)題時(shí),容易暴露概念關(guān)聯(lián)的脆弱性。舉個(gè)例子,用戶詢問(wèn)“哪些藥物可以治療高血壓?”,而知識(shí)庫(kù)中有一段描述“β受體阻滯劑可以降低心率,從而減輕心臟負(fù)擔(dān)”。盡管這段文本與高血壓治療相關(guān),但由于未明確提及“高血壓”,傳統(tǒng)RAG可能根本無(wú)法將其納入檢索結(jié)果。
- 邏輯推理鏈條的斷裂:LLM都是通過(guò)概率建模習(xí)得知識(shí)的表層特征,在面對(duì)需多步推演的任務(wù)(比如橋梁設(shè)計(jì)需同步整合地質(zhì)勘探報(bào)告、荷載計(jì)算模型與環(huán)保法規(guī)等等流程)時(shí),模型容易陷入"知識(shí)拼貼"的陷阱,很多時(shí)候,其更像博聞強(qiáng)記的策展人,而非真正意義上的思考者。
- TopK截?cái)鄦?wèn)題:在檢索過(guò)程中,系統(tǒng)通常只保留相似度最高的TopK個(gè)文檔片段。而對(duì)于全局性問(wèn)題往往涉及到非常多的上下文文檔,這種截?cái)嗖呗钥赡軐?dǎo)致與查詢相關(guān)但相似度較低的文檔被忽略,生成答案時(shí)遺漏重要內(nèi)容。
對(duì)應(yīng)以上核心技術(shù)問(wèn)題就會(huì)導(dǎo)致兩個(gè)很普遍的現(xiàn)象:
- 缺少事情之間關(guān)系的理解:當(dāng)需要關(guān)聯(lián)不同信息以提供綜合見(jiàn)解時(shí),傳統(tǒng) RAG 很難將這些點(diǎn)連接起來(lái)。
- 缺乏整體視角:當(dāng)要求 RAG 全面理解大型知識(shí)庫(kù)甚至單個(gè)大型文檔的整體語(yǔ)義概念時(shí),缺乏宏觀視角。
1.2 為什么要在RAG中引入知識(shí)圖譜?
知識(shí)圖譜是對(duì)現(xiàn)實(shí)世界實(shí)體及其關(guān)系的結(jié)構(gòu)化表示。它們由兩個(gè)主要部分組成:節(jié)點(diǎn)和邊。節(jié)點(diǎn)表示獨(dú)立的實(shí)體,例如人物、地點(diǎn)、物體或概念。而邊則表示節(jié)點(diǎn)之間的關(guān)系,表示它們?nèi)绾蜗嗷リP(guān)聯(lián)。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_2.jpg)
這種結(jié)構(gòu)使 LLM 能夠訪問(wèn)精確且與上下文相關(guān)的數(shù)據(jù),從而極大地提高了其生成信息豐富答案的能力,其核心優(yōu)勢(shì)在于:
- 捕捉復(fù)雜關(guān)系:知識(shí)圖譜能夠表示實(shí)體間的多層次、多類型關(guān)系。例如,在醫(yī)療領(lǐng)域,知識(shí)圖譜可以表示“藥物-疾病-癥狀”之間的復(fù)雜關(guān)聯(lián)。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_3.jpg)
- 支持語(yǔ)義推理:基于圖結(jié)構(gòu)的遍歷和推理能力,知識(shí)圖譜能夠回答涉及多跳關(guān)系(Multi-hop Reasoning)的復(fù)雜查詢。例如在電影領(lǐng)域,知識(shí)圖譜可以表示“演員-電影-導(dǎo)演”之間的關(guān)系。當(dāng)用戶查詢“湯姆·克魯斯主演的科幻電影有哪些?”時(shí),系統(tǒng)可以通過(guò)圖譜快速找到相關(guān)電影,如《碟中諜》系列。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_4.jpg)
將知識(shí)圖譜(KG)引入 RAG 體系,就像為 AI 構(gòu)建了一張清晰的“知識(shí)地圖”。知識(shí)圖譜能夠表達(dá)實(shí)體之間的復(fù)雜關(guān)系,例如父子關(guān)系、朋友關(guān)系、因果關(guān)系等等,從而讓 AI 不僅能夠“查到”信息,更能夠“理解”信息之間的邏輯,給出更準(zhǔn)確、更智能的答案。從依賴自身到檢索外部信息,再到利用知識(shí)圖譜進(jìn)行深度理解。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_5.jpg)
1.3 圖譜+RAG需要考慮和關(guān)注的點(diǎn)
- 構(gòu)建知識(shí)圖譜:構(gòu)建圖譜是一項(xiàng)非常耗時(shí)的工作,通常需要人工完成。目前有方案通過(guò)大型模型來(lái)構(gòu)建圖譜,通過(guò)提示詞和文本,讓大模型提取文本中的實(shí)體和關(guān)系,構(gòu)建三元素,但基于LLM來(lái)建圖,會(huì)引入非常多的噪聲。如何在充分利用LLM知識(shí)的基礎(chǔ)上,在人為可控的方式下建圖?也是非常重要的一個(gè)問(wèn)題。
- 內(nèi)容去重過(guò)濾:合并后的信息可能包含重復(fù)內(nèi)容,比如“特朗普、川普、Trump、唐納德·特朗普”都是一個(gè)人,通常需要對(duì)合并后的內(nèi)容進(jìn)行過(guò)濾。
- 建模的合理性:圖模型能夠直觀地表示實(shí)體之間的復(fù)雜關(guān)系,但不代表圖這種方式就能對(duì)現(xiàn)實(shí)世界的信息進(jìn)行全面的建模。對(duì)于一些特殊類型的數(shù)據(jù),如歷史數(shù)據(jù)、時(shí)間序列數(shù)據(jù),仍然面臨挑戰(zhàn)。
- 圖譜的規(guī)模:知識(shí)圖譜到底能支持多大規(guī)模,還是未經(jīng)驗(yàn)證的問(wèn)題。它能應(yīng)用到開(kāi)放域,還是只能夠用于特定領(lǐng)域?另一方面,隨著數(shù)據(jù)規(guī)模的增大,建圖的成本也會(huì)急劇上升。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_6.jpg)
- 適合的應(yīng)用場(chǎng)景:通常來(lái)說(shuō),具備如下特征的數(shù)據(jù)和場(chǎng)景更適合使用圖譜+RAG。
- 第一類是有較多相互關(guān)聯(lián)實(shí)體與復(fù)雜關(guān)系,且結(jié)構(gòu)較明確的數(shù)據(jù)。
- 人物關(guān)系網(wǎng)絡(luò)數(shù)據(jù):社交網(wǎng)絡(luò)中的用戶關(guān)系、歷史人物關(guān)系、家族圖譜等。
- 企業(yè)級(jí)關(guān)系數(shù)據(jù):公司結(jié)構(gòu)、供應(yīng)鏈、客戶等之間的關(guān)系。
- 醫(yī)學(xué)類數(shù)據(jù):疾病、癥狀、治療、藥物、傳播、病例等之間復(fù)雜關(guān)系。
- 法律法規(guī)數(shù)據(jù):法律條款之間的引用關(guān)系、解釋、判例與適用法律條推薦系統(tǒng)數(shù)據(jù):產(chǎn)品、用戶、瀏覽內(nèi)容、產(chǎn)品之間的關(guān)聯(lián)、用戶之間的關(guān)系等。
- 第二類是涉及復(fù)雜關(guān)系、語(yǔ)義推理和多步邏輯關(guān)聯(lián)的查詢,比如:
- 多跳關(guān)系查詢:在華東區(qū)所有的門店中,哪個(gè)導(dǎo)購(gòu)的消費(fèi)者客單價(jià)最高?
- 知識(shí)推理查詢:根據(jù)患者的癥狀和病史,推斷可能的疾病并提供治療方案。
- 聚合統(tǒng)計(jì)查詢:在《三國(guó)演義》中,出場(chǎng)次數(shù)最多的人是誰(shuí)?
- 時(shí)序關(guān)聯(lián)查詢:過(guò)去一年都有哪些AI大模型的投資與并購(gòu)事件?
- 跨多文檔查詢:在《三體3》中,有哪些人物在《三體1》中出現(xiàn)?
二、RAGFlow + GraphRAG+ 知識(shí)圖譜 + Deepseek 初步探索實(shí)踐
RAGFlow的V0.16.0版本以后對(duì)內(nèi)置的GraphRAG做了重構(gòu),并且目前支持輕量級(jí)別的LightRAG和GraphRAG兩種框架。GraphRAG利用圖結(jié)構(gòu)增強(qiáng)上下文關(guān)聯(lián)性,適用于醫(yī)療、法律等復(fù)雜領(lǐng)域,LightRAG則強(qiáng)調(diào)輕量化和高效,能夠顯著降低延遲和計(jì)算成本。這里做一個(gè)實(shí)踐記錄與分享,實(shí)踐略過(guò)了RAGFlow在window或者linux的安裝步驟,需要的話可以留言,后面可以補(bǔ)充再出一篇安裝教程。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_7.jpg)
2.1 配置模型供應(yīng)商
RAGFlow 支持大多數(shù)主流 LLM平臺(tái),還支持使用?Ollama、Xinference 或 LocalAI 在本地部署 LLM,這里首先要添加并配置 LLM,點(diǎn)擊頁(yè)面右上角的徽標(biāo)> 模特提供商:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_8.jpg)
每個(gè) RAGFlow 帳戶都可以免費(fèi)使用通義千問(wèn)的嵌入模型text-embedding-v2,這里單擊你所擁有的 LLM平臺(tái)并相應(yīng)地更新 API 密鑰,deepseek也有:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_9.jpg)
如果是采用本地部署的模型的話,可以找到Ollama,配置對(duì)應(yīng)的embedding和chat模型,Ollama的基礎(chǔ)URL為:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_10.jpg)
配置好后的模型列表,可以從“添加了的模型”這里看到:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_11.jpg)
配置好后,打開(kāi)系統(tǒng)模型設(shè)置,其中img2txt模型就是OCR模型:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_12.jpg)
2.2 配置知識(shí)庫(kù)
正確配置知識(shí)庫(kù)對(duì)于 AI 智能助手至關(guān)重要,選擇錯(cuò)誤的嵌入模型或塊方法很容易導(dǎo)致聊天中出現(xiàn)意外的語(yǔ)義丟失或答案不匹配。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_13.jpg)
在知識(shí)庫(kù)配置中,RAGFlow 通過(guò)嵌入模型、解析方法、頁(yè)面排名、自動(dòng)關(guān)鍵詞、自動(dòng)問(wèn)題、召回增強(qiáng)及 RAPTOR 策略等技術(shù),提升檢索和生成效果,其中:
- 嵌入模型:將文本轉(zhuǎn)換為向量,捕捉語(yǔ)義信息,常用于文本相似度計(jì)算和檢索。RAGFlow 使用嵌入模型將文檔和查詢轉(zhuǎn)換為向量,以便在向量空間中進(jìn)行相似度匹配。
- 解析方法:RAGFlow 提供多種分塊模板,方便對(duì)不同布局的文件進(jìn)行分塊。通過(guò)不同的解析方法,其可以將原始文本(如 PDF、HTML)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),便于后續(xù)處理。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_14.jpg)
- 頁(yè)面排名:頁(yè)面排名用于評(píng)估文檔或段落的重要性,幫助系統(tǒng)優(yōu)先檢索更相關(guān)的內(nèi)容,優(yōu)先返回高質(zhì)量信息。
- 自動(dòng)關(guān)鍵詞:用于在查詢此類關(guān)鍵詞時(shí),為每個(gè)塊提取 N 個(gè)關(guān)鍵詞以提高其排名得分。
- 自動(dòng)問(wèn)題:自動(dòng)問(wèn)題生成從文本中生成相關(guān)問(wèn)題,用于增強(qiáng)檢索和生成。
- 使用召回增強(qiáng)RAPTOR策略:結(jié)合召回增強(qiáng)和任務(wù)導(dǎo)向的排序,優(yōu)化檢索結(jié)果。RAGFlow 可能通過(guò)動(dòng)態(tài)調(diào)整檢索范圍或重新排序,確保生成模型獲得最相關(guān)的信息。
2.3 配置知識(shí)圖譜方法
往下翻到知識(shí)圖譜部分,打開(kāi)提取知識(shí)圖譜,實(shí)體類型可以就選默認(rèn)的,然后方法選擇General,然后打開(kāi)實(shí)體歸一化和社區(qū)報(bào)告生成,其中,實(shí)體類型是知識(shí)圖譜的重要組成部分。常見(jiàn)的實(shí)體類型包括:
- Organization(組織):如公司、機(jī)構(gòu)、政府等。例如,“阿里巴巴”、“聯(lián)合國(guó)”。
- Person(人物):如歷史人物、名人、科學(xué)家等。例如,“馬云”、“愛(ài)因斯坦”。
- Geo(地理):如國(guó)家、城市、地區(qū)等。例如,“中國(guó)”、“北京”。
- Event(事件):如歷史事件、會(huì)議、比賽等。例如,“第二次世界大戰(zhàn)”、“奧運(yùn)會(huì)”。
- Category(類別):如產(chǎn)品、技術(shù)、學(xué)科等。例如,“人工智能”、“量子力學(xué)”。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_15.jpg)
實(shí)體歸一化是指將不同表達(dá)方式的實(shí)體統(tǒng)一為標(biāo)準(zhǔn)形式。例如,“馬云”可能在不同的文本中被表達(dá)為“Jack Ma”、“阿里巴巴創(chuàng)始人”等。實(shí)體歸一化的目的是確保知識(shí)圖譜中的實(shí)體具有唯一性和一致性,包括:
- 同義詞處理:將不同表達(dá)方式的實(shí)體映射到同一個(gè)標(biāo)準(zhǔn)實(shí)體。例如,“Jack Ma”和“馬云”都映射到“馬云”。
- 消歧:處理同名實(shí)體的歧義問(wèn)題。例如,“蘋果”可能指“蘋果公司”或“水果”,需要通過(guò)上下文進(jìn)行消歧。
社區(qū)報(bào)告生成是 RAGFlow 中的一個(gè)重要功能,在這一步,區(qū)塊被聚集成層次化的社區(qū),實(shí)體和關(guān)系通過(guò)更高抽象層次將每個(gè)部分連接起來(lái),它通過(guò)分析知識(shí)圖譜中的實(shí)體和關(guān)系,生成結(jié)構(gòu)化的報(bào)告。具體步驟包括:
- 通過(guò)圖算法(如 Louvain 算法)發(fā)現(xiàn)知識(shí)圖譜中的社區(qū)結(jié)構(gòu)。社區(qū)是指一組緊密相連的實(shí)體,例如“科技公司社區(qū)”可能包括“阿里巴巴”、“騰訊”、“百度”等。
2.4 建立知識(shí)圖譜
配置完數(shù)據(jù)庫(kù)后,上傳一條文件,然后點(diǎn)擊開(kāi)始解析:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_16.jpg)
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_17.jpg)
解析完后點(diǎn)擊刷新,左側(cè)會(huì)出現(xiàn)知識(shí)圖譜菜單,點(diǎn)擊進(jìn)入查看建立好的知識(shí)圖譜,其中每個(gè)深色的圓圈代表一個(gè)實(shí)體,實(shí)體之間的連線代表實(shí)體之間存在的關(guān)系。
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_18.jpg)
外圍淡色的圓圈代表實(shí)體組成的社區(qū):
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_19.jpg)
2.5 基于圖譜+RAG的實(shí)踐效果測(cè)試
這里先來(lái)試一下檢索,這是沒(méi)有打開(kāi)知識(shí)圖譜的檢索結(jié)果:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_20.jpg)
這是打開(kāi)了知識(shí)圖譜的檢索結(jié)果:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_21.jpg)
然后,再測(cè)試一下,這個(gè)是沒(méi)有帶知識(shí)圖譜的回答效果:
用實(shí)戰(zhàn)_RAGFlow___知識(shí)圖譜___Dee/image_22.jpg)
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/NJgBjKLIvjblsUjDa2yxmQ
我們有何不同?
API服務(wù)商零注冊(cè)
多API并行試用
數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率
查看全部API→
??
熱門場(chǎng)景實(shí)測(cè),選對(duì)API