日韩卡一卡2卡3卡限时免费,欧美国产成人一区二区三区,久草视频资源在线

這種流程是極度依賴于基于相似度的向量檢索技術(shù)，存在幾個核心問題：

知識結(jié)構(gòu)的空心化：人類專家的知識體系是立體建構(gòu)的，既有學科主干脈絡(luò)，又能自由調(diào)用跨領(lǐng)域知識節(jié)點。而LLM的知識表征更接近平面化的概率分布，當處理需要深度領(lǐng)域知識交叉的問題時，容易暴露概念關(guān)聯(lián)的脆弱性。舉個例子，用戶詢問“哪些藥物可以治療高血壓？”，而知識庫中有一段描述“β受體阻滯劑可以降低心率，從而減輕心臟負擔”。盡管這段文本與高血壓治療相關(guān)，但由于未明確提及“高血壓”，傳統(tǒng)RAG可能根本無法將其納入檢索結(jié)果。
邏輯推理鏈條的斷裂：LLM都是通過概率建模習得知識的表層特征，在面對需多步推演的任務(wù)（比如橋梁設(shè)計需同步整合地質(zhì)勘探報告、荷載計算模型與環(huán)保法規(guī)等等流程）時，模型容易陷入"知識拼貼"的陷阱，很多時候，其更像博聞強記的策展人，而非真正意義上的思考者。
TopK截斷問題：在檢索過程中，系統(tǒng)通常只保留相似度最高的TopK個文檔片段。而對于全局性問題往往涉及到非常多的上下文文檔，這種截斷策略可能導(dǎo)致與查詢相關(guān)但相似度較低的文檔被忽略，生成答案時遺漏重要內(nèi)容。

對應(yīng)以上核心技術(shù)問題就會導(dǎo)致兩個很普遍的現(xiàn)象：

缺少事情之間關(guān)系的理解：當需要關(guān)聯(lián)不同信息以提供綜合見解時，傳統(tǒng) RAG 很難將這些點連接起來。
缺乏整體視角：當要求 RAG 全面理解大型知識庫甚至單個大型文檔的整體語義概念時，缺乏宏觀視角。

1.2 為什么要在RAG中引入知識圖譜？

知識圖譜是對現(xiàn)實世界實體及其關(guān)系的結(jié)構(gòu)化表示。它們由兩個主要部分組成：節(jié)點和邊。節(jié)點表示獨立的實體，例如人物、地點、物體或概念。而邊則表示節(jié)點之間的關(guān)系，表示它們?nèi)绾蜗嗷リP(guān)聯(lián)。

這種結(jié)構(gòu)使 LLM 能夠訪問精確且與上下文相關(guān)的數(shù)據(jù)，從而極大地提高了其生成信息豐富答案的能力，其核心優(yōu)勢在于：

捕捉復(fù)雜關(guān)系：知識圖譜能夠表示實體間的多層次、多類型關(guān)系。例如，在醫(yī)療領(lǐng)域，知識圖譜可以表示“藥物-疾病-癥狀”之間的復(fù)雜關(guān)聯(lián)。

支持語義推理：基于圖結(jié)構(gòu)的遍歷和推理能力，知識圖譜能夠回答涉及多跳關(guān)系（Multi-hop Reasoning）的復(fù)雜查詢。例如在電影領(lǐng)域，知識圖譜可以表示“演員-電影-導(dǎo)演”之間的關(guān)系。當用戶查詢“湯姆·克魯斯主演的科幻電影有哪些？”時，系統(tǒng)可以通過圖譜快速找到相關(guān)電影，如《碟中諜》系列。

將知識圖譜（KG）引入 RAG 體系，就像為 AI 構(gòu)建了一張清晰的“知識地圖”。知識圖譜能夠表達實體之間的復(fù)雜關(guān)系，例如父子關(guān)系、朋友關(guān)系、因果關(guān)系等等，從而讓 AI 不僅能夠“查到”信息，更能夠“理解”信息之間的邏輯，給出更準確、更智能的答案。從依賴自身到檢索外部信息，再到利用知識圖譜進行深度理解。

1.3 圖譜+RAG需要考慮和關(guān)注的點

構(gòu)建知識圖譜：構(gòu)建圖譜是一項非常耗時的工作，通常需要人工完成。目前有方案通過大型模型來構(gòu)建圖譜，通過提示詞和文本，讓大模型提取文本中的實體和關(guān)系，構(gòu)建三元素，但基于LLM來建圖，會引入非常多的噪聲。如何在充分利用LLM知識的基礎(chǔ)上，在人為可控的方式下建圖？也是非常重要的一個問題。
內(nèi)容去重過濾：合并后的信息可能包含重復(fù)內(nèi)容，比如“特朗普、川普、Trump、唐納德·特朗普”都是一個人，通常需要對合并后的內(nèi)容進行過濾。
建模的合理性：圖模型能夠直觀地表示實體之間的復(fù)雜關(guān)系，但不代表圖這種方式就能對現(xiàn)實世界的信息進行全面的建模。對于一些特殊類型的數(shù)據(jù)，如歷史數(shù)據(jù)、時間序列數(shù)據(jù)，仍然面臨挑戰(zhàn)。
圖譜的規(guī)模：知識圖譜到底能支持多大規(guī)模，還是未經(jīng)驗證的問題。它能應(yīng)用到開放域，還是只能夠用于特定領(lǐng)域？另一方面，隨著數(shù)據(jù)規(guī)模的增大，建圖的成本也會急劇上升。

適合的應(yīng)用場景：通常來說，具備如下特征的數(shù)據(jù)和場景更適合使用圖譜+RAG。
- 第一類是有較多相互關(guān)聯(lián)實體與復(fù)雜關(guān)系，且結(jié)構(gòu)較明確的數(shù)據(jù)。
- 人物關(guān)系網(wǎng)絡(luò)數(shù)據(jù)：社交網(wǎng)絡(luò)中的用戶關(guān)系、歷史人物關(guān)系、家族圖譜等。
- 企業(yè)級關(guān)系數(shù)據(jù)：公司結(jié)構(gòu)、供應(yīng)鏈、客戶等之間的關(guān)系。
- 醫(yī)學類數(shù)據(jù)：疾病、癥狀、治療、藥物、傳播、病例等之間復(fù)雜關(guān)系。
- 法律法規(guī)數(shù)據(jù)：法律條款之間的引用關(guān)系、解釋、判例與適用法律條推薦系統(tǒng)數(shù)據(jù)：產(chǎn)品、用戶、瀏覽內(nèi)容、產(chǎn)品之間的關(guān)聯(lián)、用戶之間的關(guān)系等。
- 第二類是涉及復(fù)雜關(guān)系、語義推理和多步邏輯關(guān)聯(lián)的查詢，比如：
- 多跳關(guān)系查詢：在華東區(qū)所有的門店中，哪個導(dǎo)購的消費者客單價最高？
- 知識推理查詢：根據(jù)患者的癥狀和病史，推斷可能的疾病并提供治療方案。
- 聚合統(tǒng)計查詢：在《三國演義》中，出場次數(shù)最多的人是誰？
- 時序關(guān)聯(lián)查詢：過去一年都有哪些AI大模型的投資與并購事件？
- 跨多文檔查詢：在《三體3》中，有哪些人物在《三體1》中出現(xiàn)？

二、RAGFlow + GraphRAG+ 知識圖譜 + Deepseek 初步探索實踐

RAGFlow的V0.16.0版本以后對內(nèi)置的GraphRAG做了重構(gòu)，并且目前支持輕量級別的LightRAG和GraphRAG兩種框架。GraphRAG利用圖結(jié)構(gòu)增強上下文關(guān)聯(lián)性，適用于醫(yī)療、法律等復(fù)雜領(lǐng)域，LightRAG則強調(diào)輕量化和高效，能夠顯著降低延遲和計算成本。這里做一個實踐記錄與分享，實踐略過了RAGFlow在window或者linux的安裝步驟，需要的話可以留言，后面可以補充再出一篇安裝教程。

2.1 配置模型供應(yīng)商

RAGFlow 支持大多數(shù)主流 LLM平臺，還支持使用?Ollama、Xinference 或 LocalAI 在本地部署 LLM，這里首先要添加并配置 LLM，點擊頁面右上角的徽標> 模特提供商：

每個 RAGFlow 帳戶都可以免費使用通義千問的嵌入模型text-embedding-v2，這里單擊你所擁有的 LLM平臺并相應(yīng)地更新 API 密鑰，deepseek也有：

如果是采用本地部署的模型的話，可以找到Ollama，配置對應(yīng)的embedding和chat模型，Ollama的基礎(chǔ)URL為：

配置好后的模型列表，可以從“添加了的模型”這里看到：

配置好后，打開系統(tǒng)模型設(shè)置，其中img2txt模型就是OCR模型：

2.2 配置知識庫

正確配置知識庫對于 AI 智能助手至關(guān)重要，選擇錯誤的嵌入模型或塊方法很容易導(dǎo)致聊天中出現(xiàn)意外的語義丟失或答案不匹配。

在知識庫配置中，RAGFlow 通過嵌入模型、解析方法、頁面排名、自動關(guān)鍵詞、自動問題、召回增強及 RAPTOR 策略等技術(shù)，提升檢索和生成效果，其中：

嵌入模型：將文本轉(zhuǎn)換為向量，捕捉語義信息，常用于文本相似度計算和檢索。RAGFlow 使用嵌入模型將文檔和查詢轉(zhuǎn)換為向量，以便在向量空間中進行相似度匹配。
解析方法：RAGFlow 提供多種分塊模板，方便對不同布局的文件進行分塊。通過不同的解析方法，其可以將原始文本（如 PDF、HTML）轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，便于后續(xù)處理。

頁面排名：頁面排名用于評估文檔或段落的重要性，幫助系統(tǒng)優(yōu)先檢索更相關(guān)的內(nèi)容，優(yōu)先返回高質(zhì)量信息。
自動關(guān)鍵詞：用于在查詢此類關(guān)鍵詞時，為每個塊提取 N 個關(guān)鍵詞以提高其排名得分。
自動問題：自動問題生成從文本中生成相關(guān)問題，用于增強檢索和生成。
使用召回增強RAPTOR策略：結(jié)合召回增強和任務(wù)導(dǎo)向的排序，優(yōu)化檢索結(jié)果。RAGFlow 可能通過動態(tài)調(diào)整檢索范圍或重新排序，確保生成模型獲得最相關(guān)的信息。