圖2:總體研究結(jié)構(gòu)框架

為什么工具學(xué)習(xí)是有益的?

一方面,將工具整合到LLMs中可以增強多個領(lǐng)域內(nèi)的能力,即知識獲取、專業(yè)技能提升、自動化與效率以及交互增強。另一方面,采用工具學(xué)習(xí)范式可以增強響應(yīng)的穩(wěn)健性和生成過程的透明度,從而提高可解釋性和用戶信任度,以及改善系統(tǒng)的穩(wěn)健性和適應(yīng)性

  1. 知識獲取(Knowledge Acquisition)
    1. LLMs 的能力受限于預(yù)訓(xùn)練期間學(xué)習(xí)的知識范圍,這些知識是固定的,不能動態(tài)更新。
    2. 通過集成外部工具,如搜索引擎、數(shù)據(jù)庫和知識圖譜、天氣或地圖工具,LLMs 能夠動態(tài)獲取和整合外部知識,從而提供更準(zhǔn)確、與上下文相關(guān)的輸出。
  2. 專業(yè)知識增強(Expertise Enhancement)
    1. LLMs 在特定領(lǐng)域缺乏專業(yè)知識,例如復(fù)雜數(shù)學(xué)計算、編程和科學(xué)問題解決。
    2. 通過使用在線計算器、數(shù)學(xué)工具、Python解釋器等工具,LLMs 能夠執(zhí)行復(fù)雜計算、解決方程式、分析統(tǒng)計數(shù)據(jù),從而增強其在專業(yè)領(lǐng)域的能力。
  3. 自動化和效率(Automation and Efficiency)
    1. LLMs 本質(zhì)上是語言處理器,缺乏獨立執(zhí)行外部操作的能力,如預(yù)訂會議室或機票。
    2. 通過與外部工具集成,LLMs 可以自動化執(zhí)行任務(wù),如日程安排、設(shè)置提醒、過濾電子郵件等,提高實用性和用戶交互的效率。
  4. 交互增強(Interaction Enhancement)
    1. 用戶查詢具有多樣性和多模態(tài)性,LLMs 在理解不同類型輸入時面臨挑戰(zhàn)。
    2. 利用多模態(tài)工具和機器翻譯工具,LLMs 可以更好地理解和響應(yīng)更廣泛的用戶輸入,優(yōu)化對話管理和意圖識別。
  5. 增強的可解釋性和用戶信任(Enhanced Interpretability and User Trust)
    1. 當(dāng)前LLMs的“黑箱”特性導(dǎo)致其決策過程對用戶不透明,缺乏可解釋性。
    2. 通過工具學(xué)習(xí),LLMs可以展示決策過程的每一步,增加操作透明度,使用戶能夠快速識別和理解錯誤來源,增強對LLMs決策的信任。
  6. 改進(jìn)的魯棒性和適應(yīng)性(Improved Robustness and Adaptability)
    1. LLMs 對用戶輸入非常敏感,微小的變化可能導(dǎo)致響應(yīng)的大幅變化,顯示出缺乏魯棒性。
    2. 集成專用工具可以減少對訓(xùn)練數(shù)據(jù)中統(tǒng)計模式的依賴,提高對輸入擾動的抵抗力和對新環(huán)境的適應(yīng)性。

如何實現(xiàn)工具學(xué)習(xí)?

圖3:使用大型語言模型進(jìn)行工具學(xué)習(xí)的整體工作流程左側(cè)部分展示了工具學(xué)習(xí)的四個階段:任務(wù)規(guī)劃、工具選擇、工具調(diào)用和響應(yīng)生成。右側(cè)部分展示了兩種工具學(xué)習(xí)范式:一步式任務(wù)解決的工具學(xué)習(xí)和迭代式任務(wù)解決的工具學(xué)習(xí)。

任務(wù)規(guī)劃(Task Planning )

  1. 任務(wù)規(guī)劃的重要性:
    1. 任務(wù)規(guī)劃是工具學(xué)習(xí)過程中的首要階段,它涉及對用戶查詢的全面分析,以理解用戶意圖。
    2. 用戶的問題往往包含復(fù)雜的意圖,需要被分解為多個可執(zhí)行的子問題。
  2. 任務(wù)規(guī)劃的步驟:
    1. 任務(wù)分解:將用戶的問題分解為多個子問題,這有助于逐步解決復(fù)雜問題。
    2. 依賴關(guān)系和執(zhí)行順序:確定子問題之間的依賴關(guān)系以及它們應(yīng)該被執(zhí)行的順序。
  3. 任務(wù)規(guī)劃的方法:
    1. 無需調(diào)整的方法(Tuning-free Methods):利用LLMs的內(nèi)在能力,通過少量示例或零示例提示來實現(xiàn)任務(wù)規(guī)劃。例如,使用CoT(Chain of Thought)或ReACT等框架來引導(dǎo)LLMs逐步思考和規(guī)劃。
    2. 基于調(diào)整的方法(Tuning-based Methods):通過在特定任務(wù)上微調(diào)LLMs來提高任務(wù)規(guī)劃能力。例如,Toolformer等方法通過微調(diào)來增強LLMs對工具使用的意識和能力。

工具選擇(Tool Selection)

工具選擇的重要性:

工具選擇的分類:

  1. 基于檢索器的工具選擇(Retriever-based Tool Selection)
  2. 基于LLM的工具選擇(LLM-based Tool Selection)

工具選擇的方法:

工具調(diào)用(Tool Calling)

工具調(diào)用的重要性:

工具調(diào)用的步驟:

  1. 參數(shù)提取:LLMs必須能夠從用戶查詢中提取出符合工具描述中指定格式的參數(shù)。
  2. 調(diào)用工具:使用提取的參數(shù)向工具服務(wù)器發(fā)送請求,并接收響應(yīng)。

工具調(diào)用的方法:

響應(yīng)生成(Response Generation)

響應(yīng)生成的重要性:

響應(yīng)生成的方法:

  1. 直接插入方法(Direct Insertion Methods)
  2. 信息整合方法(Information Integration Methods)

信息整合的策略:

工具學(xué)習(xí)范式(Paradigms of Tool Learning)

工具學(xué)習(xí)范式:

  1. 一步任務(wù)解決(Tool Learning with One-step Task Solving):
  2. 迭代任務(wù)解決(Tool Learning with Iterative Task Solving):

范式的特點:

工具學(xué)習(xí)評估基準(zhǔn)與指標(biāo)

評估指標(biāo)(Evaluation)

任務(wù)規(guī)劃評估(Task Planning Evaluation):

工具選擇評估(Tool Selection Evaluation):

工具調(diào)用評估(Tool Calling Evaluation):

響應(yīng)生成評估(Response Generation Evaluation):

圖4:不同基準(zhǔn)測試及其具體配置的詳細(xì)列表。符號①、②、③和④分別代表工具學(xué)習(xí)的四個階段——任務(wù)規(guī)劃、工具選擇、工具調(diào)用和響應(yīng)生成

Tool Learning with Large Language Models: A Survey
https://arxiv.org/pdf/2405.17935
https://github.com/quchangle1/LLM-Tool-Surve

本文轉(zhuǎn)自微信公眾號@PaperAgent

上一篇:

AI Agent框架 - 7大認(rèn)知框架全解析與代碼講解ai實現(xiàn)

下一篇:

7 款便捷好用的AI AP推薦
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費