
IT咨詢顧問(wèn)的關(guān)鍵抓手-DeepSeek+企業(yè)架構(gòu)-快速的熟悉和洞察一個(gè)新的行業(yè)
文檔解析技術(shù)是從這些海量且復(fù)雜的數(shù)據(jù)中高效準(zhǔn)確地提取有價(jià)值信息的關(guān)鍵。它從輸入文檔圖像開(kāi)始,經(jīng)過(guò)圖像處理、版面分析、內(nèi)容識(shí)別和語(yǔ)義理解等流程,最終輸出結(jié)構(gòu)化電子文檔或語(yǔ)義信息。通過(guò)文檔解析技術(shù),我們能夠深入理解文檔的結(jié)構(gòu)、內(nèi)容和主題,使得信息更易于檢索、分析和利用。其中:
現(xiàn)如今,以ChatGPT為代表的先進(jìn)大語(yǔ)言模型(LLM)已經(jīng)能夠勝任復(fù)雜的自然語(yǔ)言處理任務(wù)。將LLM與文檔解析技術(shù)相結(jié)合,不僅能夠顯著提升文檔解析的準(zhǔn)確性和效率,還能挖掘出更廣闊的應(yīng)用場(chǎng)景,降低文檔理解的門檻,從而有力推動(dòng)自然語(yǔ)言處理領(lǐng)域的蓬勃發(fā)展。盡管當(dāng)前國(guó)內(nèi)外的大模型紛紛加入了文檔解析功能,然而,在對(duì)照文檔解析的四個(gè)關(guān)鍵步驟(圖像處理、版面分析、內(nèi)容識(shí)別、語(yǔ)義理解)時(shí),這些大模型并未展現(xiàn)出無(wú)懈可擊的解決能力。
它們?cè)趯?shí)際應(yīng)用中仍然面臨著一定的挑戰(zhàn)和限制,下面我們使用LLM對(duì)文檔解析中的一些經(jīng)典問(wèn)題進(jìn)行分析:
圖像處理難題——圖像傾斜矯正
下面,我們嘗試將一段具有傾斜角度的文檔圖片輸入到LLM中,如下圖所示,由于文檔圖像存在顯著的傾斜度,LLM在自動(dòng)進(jìn)行圖像傾斜矯正時(shí)遇到了困難,導(dǎo)致了內(nèi)容解析的失敗。這一挑戰(zhàn)凸顯了當(dāng)前LLM在圖像預(yù)處理和矯正方面仍面臨一定的困難。
版面分析難題——邏輯結(jié)構(gòu)識(shí)別
在下圖所示的示例中,我們嘗試將一篇具有無(wú)線有線混排的表格文檔輸入給LLM中,并就其中的“AdaBoost需要使用到的特征”進(jìn)行提問(wèn),可以發(fā)現(xiàn),在使用大模型自帶的解析時(shí),找到的信息與原始文檔相悖,這一錯(cuò)誤信息無(wú)疑給用戶帶來(lái)嚴(yán)重的誤導(dǎo)。
內(nèi)容識(shí)別難題——公式識(shí)別解析
數(shù)學(xué)公式,作為文本中獨(dú)特的元素,通常融合了文字和符號(hào),呈現(xiàn)出復(fù)雜的二維結(jié)構(gòu)關(guān)系。在識(shí)別這些公式時(shí),不僅需要對(duì)構(gòu)成其基礎(chǔ)的文字和符號(hào)進(jìn)行精確識(shí)別,還需深入分析這些元素之間的二維結(jié)構(gòu),準(zhǔn)確描述它們之間的關(guān)系。在如下圖示的案例中,我們將一篇包含中等難度公式的文檔輸入到LLM中,希望它能協(xié)助總結(jié)節(jié)點(diǎn)定位誤差的公式。盡管LLM輸出了相應(yīng)的公式,但仔細(xì)觀察后不難發(fā)現(xiàn),該公式明顯缺少一個(gè)關(guān)鍵的根號(hào),產(chǎn)生一定的誤導(dǎo)。這一疏忽表明,LLM在結(jié)構(gòu)化符號(hào)和圖形識(shí)別方面仍有待提高,在處理數(shù)學(xué)公式這類具有嚴(yán)格結(jié)構(gòu)和邏輯的文本元素時(shí),其準(zhǔn)確性和完整性仍需進(jìn)一步加強(qiáng)。
語(yǔ)義理解難題——閱讀順序推斷
語(yǔ)義理解階段的核心任務(wù)是識(shí)別并理解文檔中不同部分之間的內(nèi)在關(guān)聯(lián)和邏輯關(guān)系。在原始文檔中,“把握跨境支付數(shù)據(jù)取得與流量數(shù)據(jù)價(jià)值定位的主動(dòng)權(quán)”這一關(guān)鍵論點(diǎn)與第⑦篇《大力增強(qiáng)支付產(chǎn)業(yè)國(guó)際競(jìng)爭(zhēng)力》之間存在明確的對(duì)應(yīng)關(guān)系。而當(dāng)我們將此文檔輸入到LLM系統(tǒng)時(shí),它未能按照人類的思維邏輯來(lái)正確解析和展示文檔內(nèi)容。相反,其錯(cuò)誤地編造了一篇文獻(xiàn)作為回應(yīng),這凸顯了當(dāng)前LLM在語(yǔ)義理解,尤其是閱讀順序與邏輯關(guān)聯(lián)推斷方面的不足。
針對(duì)以上痛點(diǎn),合合信息憑借其強(qiáng)大的研發(fā)實(shí)力,成功自研出TextIn文檔解析技術(shù)。該技術(shù)深度融合了文字識(shí)別、計(jì)算機(jī)圖形圖像技術(shù)以及智能圖像處理引擎,使得紙質(zhì)文檔或圖片中的文字信息能夠迅速、精準(zhǔn)地轉(zhuǎn)化為計(jì)算機(jī)易于處理的文本格式。目前,TextIn平臺(tái)已經(jīng)開(kāi)放了通用文檔解析的試用權(quán)限和API調(diào)試接口,任何開(kāi)發(fā)者都可以注冊(cè)賬號(hào)并開(kāi)通使用。
首先進(jìn)入TextIn官網(wǎng):https://www.textin.com/console/recognition/robot_struct?service=pdf_to_markdown選擇1千頁(yè)的套餐進(jìn)行試用。
點(diǎn)擊開(kāi)通試用,然后進(jìn)入工作臺(tái),找到已開(kāi)通機(jī)器人-公有云API-通用文檔解析-在線使用。
進(jìn)入網(wǎng)頁(yè)后,上傳一份檢索報(bào)告的掃描件,可以看到,TextIn通用文檔解析能夠精準(zhǔn)地識(shí)別掃描件中的表格元素。不論是簡(jiǎn)單的單行表格還是復(fù)雜的跨頁(yè)表格,它都能準(zhǔn)確地捕捉并創(chuàng)建出結(jié)構(gòu)清晰、布局合理的電子表格,還能將單元格的內(nèi)容一一對(duì)應(yīng)解析,確保數(shù)據(jù)項(xiàng)都被準(zhǔn)確無(wú)誤地提取。
不僅如此,它還能夠?qū)⒔馕鼋Y(jié)果導(dǎo)出為Markdown或JSON格式。Markdown格式的輸出具有直觀性和編輯便捷性,特別適用于解析結(jié)果的查看、修改及后續(xù)處理。而JSON格式在數(shù)據(jù)交換中具有相當(dāng)?shù)耐ㄓ眯院鸵子眯裕軌蚺c主流數(shù)據(jù)處理軟件或平臺(tái)無(wú)縫對(duì)接,確保數(shù)據(jù)的流暢交換和共享。通過(guò)這兩種格式的輸出選項(xiàng),我們可以將解析結(jié)果直接應(yīng)用于數(shù)據(jù)分析和處理,并且能夠輕松實(shí)現(xiàn)與其他系統(tǒng)的數(shù)據(jù)交換和集成。
除了在線調(diào)用,TextIn通用文檔解析還提供了API調(diào)試與示例代碼,首先點(diǎn)擊API集成,進(jìn)入API文檔。
API文檔給出了請(qǐng)求頭、URL參數(shù)、請(qǐng)求體說(shuō)明、響應(yīng)體說(shuō)明和錯(cuò)誤碼說(shuō)明,包括必要的認(rèn)證信息、內(nèi)容類型、清晰的示例和說(shuō)明、字段的含義和格式。這里我使用JS設(shè)計(jì)一個(gè)簡(jiǎn)單的demo,其中onload事件處理函數(shù)用于獲取讀取到的文件數(shù)據(jù)(ArrayBuffer),XMLHttpRequest對(duì)象向服務(wù)器發(fā)送數(shù)據(jù)后,onreadystatechange事件處理函數(shù)檢查請(qǐng)求的readyState屬性并對(duì)返回內(nèi)容進(jìn)行解析,主要核心代碼如下:
// 示例代碼
實(shí)際使用時(shí),只需要點(diǎn)擊選擇文件,然后上傳需要解析的PDF或圖片,在右側(cè)就會(huì)打印出對(duì)應(yīng)的解析結(jié)果。
文檔解析技術(shù)以其精湛的技能,致力于將多樣化格式的文檔轉(zhuǎn)化為計(jì)算機(jī)易于理解和操作的文本格式。而強(qiáng)大的大型語(yǔ)言模型則以其卓越的能力,能夠深入理解和把握不同文本格式的上下文脈絡(luò),精準(zhǔn)捕捉文本中蘊(yùn)含的深層語(yǔ)義,從而生成更加貼合用戶需求的下游任務(wù)輸出。那么,我不禁思考:是否有可能將TextIn文檔解析API與LLM的語(yǔ)言理解能力巧妙結(jié)合,打造出一個(gè)高效且強(qiáng)大的文檔處理流程?話不多說(shuō),讓我們立即付諸實(shí)踐。
首先,我們調(diào)用TextIn文檔解析API,將原本難以直接使用的文檔(如PDF和圖片格式)轉(zhuǎn)化為計(jì)算機(jī)易于理解的信息,選擇輸出Markdown或JSON格式的文檔內(nèi)容,為后續(xù)的數(shù)據(jù)分析和處理提供清晰、結(jié)構(gòu)化的數(shù)據(jù)支持。
接下來(lái),我們將TextIn API生成的Markdown數(shù)據(jù)或JSON數(shù)據(jù)作為輸入傳遞給LLM,本次實(shí)踐選用了moonshot的Kimi。通過(guò)這一步驟,我們?yōu)镵imi提供了豐富的結(jié)構(gòu)化數(shù)據(jù),使其能夠深入分析文檔內(nèi)容,并為后續(xù)處理提供更為全面和準(zhǔn)確的上下文支持。
最后利用LLM的能力,對(duì)輸入的JSON數(shù)據(jù)進(jìn)行處理,根據(jù)特定的業(yè)務(wù)場(chǎng)景和用戶需求,我們可以讓LLM執(zhí)行一系列高級(jí)任務(wù),如生成摘要、提取關(guān)鍵信息、分類總結(jié)等。以下圖的鄉(xiāng)村旅游熱度季節(jié)變化規(guī)律為例,我們可以將包含鄉(xiāng)村旅游數(shù)據(jù)的JSON文件輸入給LLM。LLM會(huì)利用其深度學(xué)習(xí)和自然語(yǔ)言處理的能力,分析這些數(shù)據(jù),識(shí)別出鄉(xiāng)村旅游熱度的季節(jié)性趨勢(shì)和變化規(guī)律,基于這些分析,生成一份詳盡的分析報(bào)告,包含鄉(xiāng)村旅游熱度的季節(jié)分析、未來(lái)趨勢(shì)預(yù)測(cè)以及相應(yīng)的建議或策略,從而為鄉(xiāng)村旅游的決策者提供有價(jià)值的參考,幫助規(guī)劃和管理鄉(xiāng)村旅游資源,提升游客的滿意度和體驗(yàn)。
通過(guò)以上體驗(yàn),可以看到,TextIn文檔解析API以其卓越的性能為我們提供了強(qiáng)大的文檔解析工具,而Kimi智能文檔助手則以其對(duì)文本深層語(yǔ)義的精準(zhǔn)捕捉和理解能力,進(jìn)一步提升了文檔內(nèi)容的下游任務(wù)處理水平,結(jié)合兩者,不僅打破了傳統(tǒng)文檔處理的局限,還可以實(shí)現(xiàn)對(duì)文檔更深層次的理解和處理,并且能夠應(yīng)對(duì)各種類型文檔處理需求。想象一下,當(dāng)你面對(duì)一堆繁雜的PDF文件、圖片或掃描件時(shí),你不再需要逐頁(yè)翻閱、手動(dòng)輸入或依賴低效的OCR工具,而是可以借助TextIn文檔解析 + LLM將其迅速轉(zhuǎn)化為結(jié)構(gòu)化的文本數(shù)據(jù),進(jìn)而提取關(guān)鍵信息、生成摘要、分類歸檔,甚至進(jìn)行更復(fù)雜的文本挖掘和數(shù)據(jù)分析。
如果你對(duì)智能圖像處理、文字表格識(shí)別、文檔內(nèi)容提取感興趣,那么我強(qiáng)烈推薦你前往TextIn的官方網(wǎng)站進(jìn)行親身體驗(yàn)。讓TextIn成為你文檔處理的得力助手,讓智能化、高效化的文檔解析成為你工作的新常態(tài)吧!
原文轉(zhuǎn)載自:https://mp.weixin.qq.com/s/J-msYAYwSymRTZvLVgHnXw
IT咨詢顧問(wèn)的關(guān)鍵抓手-DeepSeek+企業(yè)架構(gòu)-快速的熟悉和洞察一個(gè)新的行業(yè)
基于Ollama與AnythingLLM的DeepSeek-R1本地RAG應(yīng)用實(shí)踐
模型引擎的技術(shù)債務(wù)?一個(gè)Deepseek三種API引發(fā)的連鎖反應(yīng)
Windows 上快速部署.NET Core Web 項(xiàng)目
.NET開(kāi)發(fā)者看過(guò)來(lái)!DeepSeek SDK 集成
LangChain4j實(shí)戰(zhàn)-Java AI應(yīng)用開(kāi)源框架之LangChain4j和Spring AI
后端開(kāi)發(fā)人員Docker快速入門
生產(chǎn)級(jí)滿血版Deepseek-r1 671B部署實(shí)例
生產(chǎn)級(jí)滿血版Deepseek-r1 671B部署后續(xù)問(wèn)題、調(diào)優(yōu)以及壓測(cè)
對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力
一鍵對(duì)比試用API 限時(shí)免費(fèi)