圖2：總體研究結(jié)構(gòu)框架

為什么工具學(xué)習(xí)是有益的？

一方面，將工具整合到LLMs中可以增強(qiáng)多個(gè)領(lǐng)域內(nèi)的能力，即知識(shí)獲取、專業(yè)技能提升、自動(dòng)化與效率以及交互增強(qiáng)。另一方面，采用工具學(xué)習(xí)范式可以增強(qiáng)響應(yīng)的穩(wěn)健性和生成過(guò)程的透明度，從而提高可解釋性和用戶信任度，以及改善系統(tǒng)的穩(wěn)健性和適應(yīng)性

知識(shí)獲取（Knowledge Acquisition）：
1. LLMs 的能力受限于預(yù)訓(xùn)練期間學(xué)習(xí)的知識(shí)范圍，這些知識(shí)是固定的，不能動(dòng)態(tài)更新。
2. 通過(guò)集成外部工具，如搜索引擎、數(shù)據(jù)庫(kù)和知識(shí)圖譜、天氣或地圖工具，LLMs 能夠動(dòng)態(tài)獲取和整合外部知識(shí)，從而提供更準(zhǔn)確、與上下文相關(guān)的輸出。
專業(yè)知識(shí)增強(qiáng)（Expertise Enhancement）：
1. LLMs 在特定領(lǐng)域缺乏專業(yè)知識(shí)，例如復(fù)雜數(shù)學(xué)計(jì)算、編程和科學(xué)問(wèn)題解決。
2. 通過(guò)使用在線計(jì)算器、數(shù)學(xué)工具、Python解釋器等工具，LLMs 能夠執(zhí)行復(fù)雜計(jì)算、解決方程式、分析統(tǒng)計(jì)數(shù)據(jù)，從而增強(qiáng)其在專業(yè)領(lǐng)域的能力。
自動(dòng)化和效率（Automation and Efficiency）：
1. LLMs 本質(zhì)上是語(yǔ)言處理器，缺乏獨(dú)立執(zhí)行外部操作的能力，如預(yù)訂會(huì)議室或機(jī)票。
2. 通過(guò)與外部工具集成，LLMs 可以自動(dòng)化執(zhí)行任務(wù)，如日程安排、設(shè)置提醒、過(guò)濾電子郵件等，提高實(shí)用性和用戶交互的效率。
交互增強(qiáng)（Interaction Enhancement）：
1. 用戶查詢具有多樣性和多模態(tài)性，LLMs 在理解不同類型輸入時(shí)面臨挑戰(zhàn)。
2. 利用多模態(tài)工具和機(jī)器翻譯工具，LLMs 可以更好地理解和響應(yīng)更廣泛的用戶輸入，優(yōu)化對(duì)話管理和意圖識(shí)別。
增強(qiáng)的可解釋性和用戶信任（Enhanced Interpretability and User Trust）：
1. 當(dāng)前LLMs的“黑箱”特性導(dǎo)致其決策過(guò)程對(duì)用戶不透明，缺乏可解釋性。
2. 通過(guò)工具學(xué)習(xí)，LLMs可以展示決策過(guò)程的每一步，增加操作透明度，使用戶能夠快速識(shí)別和理解錯(cuò)誤來(lái)源，增強(qiáng)對(duì)LLMs決策的信任。
改進(jìn)的魯棒性和適應(yīng)性（Improved Robustness and Adaptability）：
1. LLMs 對(duì)用戶輸入非常敏感，微小的變化可能導(dǎo)致響應(yīng)的大幅變化，顯示出缺乏魯棒性。
2. 集成專用工具可以減少對(duì)訓(xùn)練數(shù)據(jù)中統(tǒng)計(jì)模式的依賴，提高對(duì)輸入擾動(dòng)的抵抗力和對(duì)新環(huán)境的適應(yīng)性。

如何實(shí)現(xiàn)工具學(xué)習(xí)？

圖3：使用大型語(yǔ)言模型進(jìn)行工具學(xué)習(xí)的整體工作流程。左側(cè)部分展示了工具學(xué)習(xí)的四個(gè)階段：任務(wù)規(guī)劃、工具選擇、工具調(diào)用和響應(yīng)生成。右側(cè)部分展示了兩種工具學(xué)習(xí)范式：一步式任務(wù)解決的工具學(xué)習(xí)和迭代式任務(wù)解決的工具學(xué)習(xí)。

任務(wù)規(guī)劃（Task Planning ）

任務(wù)規(guī)劃的重要性：
1. 任務(wù)規(guī)劃是工具學(xué)習(xí)過(guò)程中的首要階段，它涉及對(duì)用戶查詢的全面分析，以理解用戶意圖。
2. 用戶的問(wèn)題往往包含復(fù)雜的意圖，需要被分解為多個(gè)可執(zhí)行的子問(wèn)題。
任務(wù)規(guī)劃的步驟：
1. 任務(wù)分解：將用戶的問(wèn)題分解為多個(gè)子問(wèn)題，這有助于逐步解決復(fù)雜問(wèn)題。
2. 依賴關(guān)系和執(zhí)行順序：確定子問(wèn)題之間的依賴關(guān)系以及它們應(yīng)該被執(zhí)行的順序。
任務(wù)規(guī)劃的方法：
1. 無(wú)需調(diào)整的方法（Tuning-free Methods）：利用LLMs的內(nèi)在能力，通過(guò)少量示例或零示例提示來(lái)實(shí)現(xiàn)任務(wù)規(guī)劃。例如，使用CoT（Chain of Thought）或ReACT等框架來(lái)引導(dǎo)LLMs逐步思考和規(guī)劃。
2. 基于調(diào)整的方法（Tuning-based Methods）：通過(guò)在特定任務(wù)上微調(diào)LLMs來(lái)提高任務(wù)規(guī)劃能力。例如，Toolformer等方法通過(guò)微調(diào)來(lái)增強(qiáng)LLMs對(duì)工具使用的意識(shí)和能力。

工具選擇（Tool Selection）

工具選擇的重要性：

工具選擇是工具學(xué)習(xí)過(guò)程中的關(guān)鍵步驟，它緊接著任務(wù)規(guī)劃階段。
在這個(gè)階段，需要從可用的工具集中選擇最合適的工具來(lái)解決特定的子問(wèn)題。

工具選擇的分類：

基于檢索器的工具選擇（Retriever-based Tool Selection）：
- 當(dāng)工具庫(kù)龐大時(shí)，使用檢索器（如TF-IDF、BM25等）來(lái)從大量工具中檢索出與子問(wèn)題最相關(guān)的前K個(gè)工具。
- 這種方法側(cè)重于通過(guò)關(guān)鍵詞匹配和語(yǔ)義相似性來(lái)快速縮小工具選擇范圍。
基于LLM的工具選擇（LLM-based Tool Selection）：
- 當(dāng)工具數(shù)量有限或者在檢索階段已經(jīng)縮小了工具范圍時(shí)，可以直接將工具描述和參數(shù)列表與用戶查詢一起提供給LLM。
- LLM需要根據(jù)用戶查詢和工具描述來(lái)選擇最合適的工具。

工具選擇的方法：

無(wú)需調(diào)整的方法（Tuning-free Methods）：
- 利用LLMs的上下文學(xué)習(xí)能力，通過(guò)策略性提示來(lái)增強(qiáng)工具選擇能力。
- 例如，通過(guò)鏈?zhǔn)剿季S（Chain of Thought）或ReACT框架來(lái)引導(dǎo)LLMs進(jìn)行推理和行動(dòng)。
基于調(diào)整的方法（Tuning-based Methods）：
- 通過(guò)在工具學(xué)習(xí)數(shù)據(jù)集上微調(diào)LLMs的參數(shù)來(lái)提高工具選擇的能力。
- 例如，Toolbench和TRICE等方法通過(guò)微調(diào)和行為克隆來(lái)增強(qiáng)LLMs的工具使用能力。

工具調(diào)用（Tool Calling）

工具調(diào)用的重要性：

工具調(diào)用是工具學(xué)習(xí)流程中的第三個(gè)階段，它緊跟在工具選擇之后。
在這個(gè)階段，大型語(yǔ)言模型（LLMs）需要根據(jù)所選工具的要求提取用戶查詢中的必要參數(shù)，并調(diào)用工具服務(wù)器獲取數(shù)據(jù)。

工具調(diào)用的步驟：

參數(shù)提取：LLMs必須能夠從用戶查詢中提取出符合工具描述中指定格式的參數(shù)。
調(diào)用工具：使用提取的參數(shù)向工具服務(wù)器發(fā)送請(qǐng)求，并接收響應(yīng)。

工具調(diào)用的方法：

無(wú)需調(diào)整的方法（Tuning-free Methods）：
- 利用少量示例或規(guī)則方法來(lái)指導(dǎo)LLMs識(shí)別和提取參數(shù)。
- 例如，Reverse Chain方法通過(guò)逆向思維選擇工具，然后填充所需參數(shù)。
基于調(diào)整的方法（Tuning-based Methods）：
- 通過(guò)微調(diào)LLMs的參數(shù)來(lái)增強(qiáng)工具調(diào)用能力，使用特定的優(yōu)化技術(shù)如LoRA。
- 例如，GPT4Tools通過(guò)微調(diào)開源LLMs來(lái)集成工具使用能力。

響應(yīng)生成（Response Generation）

響應(yīng)生成的重要性：

響應(yīng)生成是工具學(xué)習(xí)流程中的最后一個(gè)階段，它涉及將工具的輸出與LLMs的內(nèi)部知識(shí)結(jié)合起來(lái)，生成對(duì)用戶的全面響應(yīng)。
此階段的目標(biāo)是為用戶提供準(zhǔn)確、相關(guān)且有用的回答。

響應(yīng)生成的方法：

直接插入方法（Direct Insertion Methods）：
- 在早期工作中，直接將工具的輸出插入到生成的響應(yīng)中。
- 這種方法簡(jiǎn)單直接，但可能因?yàn)楣ぞ咻敵龅牟豢深A(yù)測(cè)性而影響用戶體驗(yàn)。
信息整合方法（Information Integration Methods）：
- 大多數(shù)方法選擇將工具的輸出作為L(zhǎng)LMs的輸入上下文，使LLMs能夠根據(jù)工具提供的信息制定更優(yōu)質(zhì)的回答。
- 由于LLMs的上下文長(zhǎng)度有限，需要采用不同的策略來(lái)處理工具的長(zhǎng)輸出。

信息整合的策略：

簡(jiǎn)化輸出：使用預(yù)創(chuàng)建的模式或文檔來(lái)簡(jiǎn)化長(zhǎng)輸出。
截?cái)噍敵?/strong>：將輸出截?cái)嘁赃m應(yīng)長(zhǎng)度限制，但可能會(huì)丟失解決用戶查詢所需的信息。

壓縮信息：開發(fā)壓縮器將長(zhǎng)信息壓縮成更簡(jiǎn)潔的格式，保留最有用的信息。

無(wú)模式方法：動(dòng)態(tài)生成函數(shù)以根據(jù)指令提取目標(biāo)輸出。

工具學(xué)習(xí)范式（Paradigms of Tool Learning）

工具學(xué)習(xí)范式：

一步任務(wù)解決（Tool Learning with One-step Task Solving）:

這種范式涉及到在收到用戶問(wèn)題后，LLMs立即分析用戶請(qǐng)求，理解用戶意圖，并規(guī)劃出所有需要的子任務(wù)來(lái)解決問(wèn)題。

在這個(gè)過(guò)程中，LLMs會(huì)直接生成一個(gè)基于選定工具返回結(jié)果的響應(yīng)，而不會(huì)考慮過(guò)程中可能出現(xiàn)的錯(cuò)誤或根據(jù)工具的反饋調(diào)整計(jì)劃。

迭代任務(wù)解決（Tool Learning with Iterative Task Solving）:

這種范式允許LLMs與工具進(jìn)行迭代交互，不預(yù)先承諾一個(gè)完整的任務(wù)計(jì)劃。

相反，它允許基于工具的反饋逐步調(diào)整子任務(wù)，使LLMs能夠一步步地解決問(wèn)題，并根據(jù)工具返回的結(jié)果不斷完善計(jì)劃。

這種方法增強(qiáng)了LLMs的問(wèn)題解決能力，因?yàn)樗试S模型在響應(yīng)工具反饋時(shí)進(jìn)行適應(yīng)和學(xué)習(xí)。

范式的特點(diǎn)：

規(guī)劃無(wú)反饋（Planning without Feedback）：在一步任務(wù)解決范式中，LLMs在沒(méi)有反饋的情況下進(jìn)行規(guī)劃，這可能導(dǎo)致在面對(duì)錯(cuò)誤或意外情況時(shí)缺乏適應(yīng)性。

規(guī)劃有反饋（Planning with Feedback）：在迭代任務(wù)解決范式中，LLMs的規(guī)劃過(guò)程包括接收和利用來(lái)自工具的反饋，這允許更靈活和動(dòng)態(tài)的問(wèn)題解決。

工具學(xué)習(xí)評(píng)估基準(zhǔn)與指標(biāo)

評(píng)估指標(biāo)（Evaluation）

任務(wù)規(guī)劃評(píng)估（Task Planning Evaluation）:

工具使用意識(shí)（Tool Usage Awareness）：評(píng)估LLMs是否能夠準(zhǔn)確識(shí)別何時(shí)需要使用外部工具。

任務(wù)規(guī)劃效果（Effectiveness of Task Planning）：使用通過(guò)率（pass rate）或人類評(píng)估來(lái)衡量任務(wù)規(guī)劃解決查詢的有效性。

計(jì)劃精度（Precision of the Plan）：通過(guò)與最優(yōu)解決方案比較，定量分析LLMs生成的計(jì)劃的準(zhǔn)確性。

工具選擇評(píng)估（Tool Selection Evaluation）:

召回率（Recall）：衡量模型選擇的前K個(gè)工具中有多少是正確的。

歸一化折扣累積增益（NDCG, Normalized Discounted Cumulative Gain）：不僅考慮正面工具的比例，還考慮它們?cè)诹斜碇械奈恢谩?/li>
完整性（COMP, Completeness）：評(píng)估前K個(gè)選擇的工具是否形成了一個(gè)相對(duì)于真實(shí)集合的完整集合。

工具調(diào)用評(píng)估（Tool Calling Evaluation）:

評(píng)估LLMs在執(zhí)行工具調(diào)用功能時(shí)的有效性，檢查輸入?yún)?shù)是否符合工具文檔中的規(guī)定。

響應(yīng)生成評(píng)估（Response Generation Evaluation）:

評(píng)估工具學(xué)習(xí)最終目標(biāo)，即提高LLMs解決下游任務(wù)的能力。

使用諸如ROUGE-L、精確匹配（Exact Match）、F1分?jǐn)?shù)等指標(biāo)來(lái)評(píng)估最終響應(yīng)的質(zhì)量。

圖4：不同基準(zhǔn)測(cè)試及其具體配置的詳細(xì)列表。符號(hào)①、②、③和④分別代表工具學(xué)習(xí)的四個(gè)階段——任務(wù)規(guī)劃、工具選擇、工具調(diào)用和響應(yīng)生成

Tool Learning with Large Language Models: A Survey https://arxiv.org/pdf/2405.17935 https://github.com/quchangle1/LLM-Tool-Surve

本文轉(zhuǎn)自微信公眾號(hào)@PaperAgent

上一篇：

AI Agent框架 - 7大認(rèn)知框架全解析與代碼講解ai實(shí)現(xiàn)

下一篇：

7 款便捷好用的AI AP推薦

#你可能也喜歡這些API文章!

AI Agent框架 – 7大認(rèn)知框架全解析與代碼講解ai實(shí)現(xiàn)

探索API主導(dǎo)的最佳AI創(chuàng)業(yè)項(xiàng)目商業(yè)模式

為什么公司在 B2B 集成中使用 API？

超越 HTTP API：Web Assembly 和系統(tǒng)集成的未來(lái)

人工智能如何改變 API 的未來(lái)

2024 年 API 面貌將發(fā)生的 4 種變化

我們有何不同？

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型，提升決策效率
查看全部API→

??
熱門場(chǎng)景實(shí)測(cè)，選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

冪簡(jiǎn)集成是創(chuàng)新的API接口平臺(tái)，一站搜索、試用、集成國(guó)內(nèi)外API接口。

API接口

API接口大全

免費(fèi)API接口

抽象API接口

精選API接口

美國(guó)API接口

國(guó)外API接口

API接口

人工智能API

AI生成API

Web3 API

SEO API接口

數(shù)據(jù)API接口

在線工具API

API知識(shí)庫(kù)

API是什么

如何調(diào)用API

如何集成API

API貨幣化

如何開發(fā)API

API安全

冪簡(jiǎn)集成

關(guān)于我們

加入我們

服務(wù)條款

隱私協(xié)議

網(wǎng)站地圖

Copyright ? 2024 All Rights Reserved 北京蜜堂有信科技有限公司

增值電信業(yè)務(wù)經(jīng)營(yíng)許可證：京B2-20191889

京ICP備18034931號(hào)

公司地址：北京市朝陽(yáng)區(qū)光華路和喬大廈C座1508

意見(jiàn)反饋：010-533324933,mtyy@miitang.com

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国内精品久久久久影院日本

<td id="f2tkc"></td>