Coze的Bot構(gòu)建頁面在實(shí)際操作中,智能體工作流的應(yīng)用模式比我們通常所知的四種模式要豐富得多。例如,Coze平臺(tái)不僅提供了多智能體和工作流功能,還擴(kuò)展到了圖像流領(lǐng)域。
通過插件、大型模型、代碼、知識(shí)庫、工作流、圖像流、選擇器、文本處理、消息、變量、數(shù)據(jù)庫等多種元素構(gòu)建的工作流,最終會(huì)被整合到“技能”模塊中,形成一個(gè)智能體(Coze稱之為Bot)。這些智能體能夠執(zhí)行更多任務(wù),并參與到更復(fù)雜的業(yè)務(wù)流程中。
仔細(xì)觀察可以發(fā)現(xiàn),在大型語言模型(LLM)應(yīng)用日益普及的背景下,許多工作流都是將傳統(tǒng)業(yè)務(wù)流程與智能體工作流相結(jié)合的。這些工作流不僅包括了“四種模式”,還包括了將傳統(tǒng)應(yīng)用與生成式AI(GenAI)結(jié)合的工作流,以及直接應(yīng)用大型語言模型的簡(jiǎn)單工作流。
一個(gè)典型的例子是,目前通過AI代理構(gòu)建平臺(tái)構(gòu)建的智能體工作流還無法處理操作企業(yè)管理軟件等復(fù)雜業(yè)務(wù)流程(受到API和連接能力的限制),而通過RPA等超自動(dòng)化工具連接更多的簡(jiǎn)單智能體工作流是一種有效的解決方案。
同時(shí),RPA等超自動(dòng)化工具現(xiàn)在已經(jīng)發(fā)展成為RPA Agent,使用RPA本身也是智能體工作流應(yīng)用的一種形式。這種應(yīng)用方式正在越來越多地被用于企業(yè)級(jí)業(yè)務(wù)場(chǎng)景。
在王吉偉頻道的觀點(diǎn)中,Agentic Workflow不僅僅是智能體工作流,它是一個(gè)包含傳統(tǒng)軟件(工具、解決方案)、大型語言模型、AI代理等在內(nèi)的新型業(yè)務(wù)流程的集合。當(dāng)傳統(tǒng)業(yè)務(wù)流程包含了LLM工作流或Agent工作流時(shí),都可以被視為Agentic Workflow。
特別是在大型語言模型代理化以及智能助手(如Copilot,具備反思、規(guī)劃、工具使用能力,并能調(diào)用代理)代理化的趨勢(shì)下,它們更符合Agentic Workflow的定義。
因此,研究Agentic Workflow不僅要關(guān)注AI代理和Agentic Workflow本身,還要關(guān)注大型語言模型及RPA等傳統(tǒng)業(yè)務(wù)流程在LLM和Workflow方面的進(jìn)展。
為了幫助大家更好地學(xué)習(xí)和理解Agentic Workflow,本文精選了25篇與智能體工作流相關(guān)的論文,并將其分為技術(shù)框架、系統(tǒng)(套件與工具)、評(píng)估測(cè)試基準(zhǔn)、編程語言、模型與工作流及方法論六大類別,希望對(duì)讀者有所啟發(fā)。
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning
論文地址:https://arxiv.org/abs/2407.10718
,通過最少工具有效處理復(fù)雜推理任務(wù)。
Sibyl從全球工作空間理論中獲取靈感,整合了全球工作空間,加強(qiáng)了系統(tǒng)知識(shí)和對(duì)話歷史的管理與共享。在心智理論的指導(dǎo)下,Sibyl通過多主體辯論的陪審團(tuán)機(jī)制自我完善答案,確保全面性和平衡性。這一設(shè)計(jì)旨在簡(jiǎn)化系統(tǒng)復(fù)雜性,拓寬問題解決范圍,促進(jìn)從系統(tǒng)1到系統(tǒng)2的思維轉(zhuǎn)變。
Sibyl注重可擴(kuò)展性和易調(diào)試性,采用函數(shù)式編程中的重入概念,以無縫集成到其他LLM應(yīng)用中。在GAIA基準(zhǔn)測(cè)試集中,Sibyl實(shí)現(xiàn)了34.55%的平均得分,展現(xiàn)了其先進(jìn)性能。論文作者期望Sibyl能推動(dòng)開發(fā)更可靠和可重用的LLM智能體,以應(yīng)對(duì)復(fù)雜的現(xiàn)實(shí)世界推理挑戰(zhàn)。
PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods
論文地址:https://arxiv.org/abs/2407.06985
在專業(yè)領(lǐng)域應(yīng)用中,GPT-4 通過精確的提示和檢索增強(qiáng)生成(RAG)技術(shù)展現(xiàn)出巨大潛力,但同時(shí)也面臨性能、成本和數(shù)據(jù)隱私的三重困境。高性能需求往往需要復(fù)雜的技術(shù)處理,而要管理多個(gè)智能體在復(fù)雜工作流程中的表現(xiàn),不僅成本高,難度也大。
為應(yīng)對(duì)這些挑戰(zhàn),論文提出了 PEER(規(guī)劃、執(zhí)行、表達(dá)、審查)多智能體框架。該框架通過整合精細(xì)的問題拆解、高效的信息檢索、綜合的總結(jié)能力以及嚴(yán)格的自我評(píng)估,系統(tǒng)化地處理專業(yè)領(lǐng)域任務(wù)。
考慮到成本和數(shù)據(jù)隱私的顧慮,許多企業(yè)正從 GPT-4 等專有模型轉(zhuǎn)向定制模型,以期在成本、安全性與性能之間找到平衡點(diǎn)。團(tuán)隊(duì)利用在線數(shù)據(jù)和用戶反饋,開發(fā)了一套行業(yè)實(shí)踐,旨在實(shí)現(xiàn)模型的高效調(diào)整。
本研究提供了一套最佳實(shí)踐指南,用于在特定領(lǐng)域問題解決中應(yīng)用多智能體系統(tǒng),并實(shí)施有效的智能體調(diào)優(yōu)策略。特別是在金融問答領(lǐng)域的實(shí)證研究表明,該方法達(dá)到了 GPT-4 性能的 95.0%,同時(shí)在成本控制和數(shù)據(jù)隱私保護(hù)方面表現(xiàn)出色。
BMW Agents — A Framework For Task Automation Through Multi-Agent Collaboration
論文地址:https://arxiv.org/abs/2406.20041
由大型語言模型(LLM)驅(qū)動(dòng)的自主智能體展現(xiàn)了自動(dòng)化的巨大潛力。技術(shù)的初步成效已在多個(gè)演示中顯現(xiàn),其中包括智能體解決復(fù)雜任務(wù)、與外部系統(tǒng)交互以擴(kuò)展知識(shí),以及觸發(fā)必要操作。
特別是,多個(gè)智能體以協(xié)作方式共同解決復(fù)雜任務(wù)的場(chǎng)景,彰顯了它們?cè)诜菄?yán)格和非明確環(huán)境下的運(yùn)作能力。因此,多智能體方法在許多工業(yè)應(yīng)用中具有極大的應(yīng)用潛力,無論是構(gòu)建復(fù)雜的知識(shí)檢索系統(tǒng)還是開發(fā)下一代機(jī)器人流程自動(dòng)化。
考慮到當(dāng)前LLM一代的推理能力,處理復(fù)雜流程需要采取多步驟策略,這包括制定明確定義的模塊化任務(wù)計(jì)劃。這些任務(wù)可以由單一智能體或一組智能體根據(jù)其復(fù)雜性執(zhí)行。在本項(xiàng)研究中,團(tuán)隊(duì)專注于構(gòu)建一個(gè)靈活的智能體工程框架,特別關(guān)注規(guī)劃和執(zhí)行階段,以應(yīng)對(duì)跨不同領(lǐng)域的復(fù)雜應(yīng)用案例。
該框架能夠?yàn)楣I(yè)應(yīng)用提供了所需的可靠性,并且為確保多個(gè)自主智能體能夠協(xié)同工作、共同解決問題提供了一套可擴(kuò)展、靈活且協(xié)作的技術(shù)流程。
Trace is the New AutoDiff — Unlocking Efficient Optimization of Computational Workflows
論文地址:https://arxiv.org/abs/2406.16218
項(xiàng)目地址:https://microsoft.github.io/Trace
論文探索了一種針對(duì)自動(dòng)化編碼助手、機(jī)器人和副駕駛等人工智能系統(tǒng)的優(yōu)化問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為Trace的端到端優(yōu)化框架,它將AI系統(tǒng)的計(jì)算流程視為神經(jīng)網(wǎng)絡(luò)圖,并基于反向傳播的泛化進(jìn)行優(yōu)化。這種優(yōu)化處理了包括豐富反饋、異構(gòu)參數(shù)和復(fù)雜目標(biāo)在內(nèi)的多種因素,并能適應(yīng)動(dòng)態(tài)變化的計(jì)算圖。
Trace框架通過一種新的迭代優(yōu)化數(shù)學(xué)設(shè)置——使用跟蹤預(yù)言機(jī)優(yōu)化(OPTO)——來捕獲和抽象AI系統(tǒng)的特性,以設(shè)計(jì)跨領(lǐng)域的優(yōu)化器。在OPTO中,優(yōu)化器通過接收?qǐng)?zhí)行跟蹤和輸出反饋來迭代更新參數(shù)。Trace提供了一個(gè)Python接口,利用類似PyTorch的接口高效地將計(jì)算流程轉(zhuǎn)換為OPTO實(shí)例。
利用Trace,團(tuán)隊(duì)開發(fā)了一個(gè)名為OptoPrime的通用優(yōu)化器,它基于LLM,能夠解決多種OPTO問題,包括數(shù)值優(yōu)化、提示優(yōu)化、超參數(shù)調(diào)優(yōu)、機(jī)器人控制器設(shè)計(jì)和代碼調(diào)試等,且性能可與領(lǐng)域內(nèi)專業(yè)優(yōu)化器相媲美。論文認(rèn)為,Trace、OptoPrime和OPTO框架將推動(dòng)下一代交互式智能體的發(fā)展,使其能夠利用各種反饋實(shí)現(xiàn)自動(dòng)適應(yīng)。
RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models
https://arxiv.org/abs/2310.16340
近期,云根本原因分析(RCA)領(lǐng)域?qū)Υ笮驼Z言模型(LLM)的應(yīng)用進(jìn)行了積極探索。但現(xiàn)有方法仍依賴手動(dòng)設(shè)置工作流,未能充分發(fā)揮LLM在決策和環(huán)境交互方面的能力。為此,研究團(tuán)隊(duì)推出了RCAgent,這是一個(gè)工具增強(qiáng)的LLM自治智能體框架,專為實(shí)用且注重隱私的工業(yè)RCA設(shè)計(jì)。
RCAgent不依賴外部模型如GPT系列,而是在內(nèi)部部署的模型上運(yùn)行,能夠自主進(jìn)行自由格式的數(shù)據(jù)收集和綜合分析。該框架融合了多項(xiàng)增強(qiáng)功能,包括行動(dòng)軌跡的自洽性,以及一系列用于上下文管理、穩(wěn)定性提升和領(lǐng)域知識(shí)導(dǎo)入的方法。
實(shí)驗(yàn)結(jié)果表明,RCAgent在RCA的多個(gè)方面(如預(yù)測(cè)根本原因、解決方案、證據(jù)和責(zé)任)以及規(guī)則內(nèi)外任務(wù)上均顯示出顯著且一致的優(yōu)勢(shì),這些優(yōu)勢(shì)已通過自動(dòng)化指標(biāo)和人工評(píng)估得到驗(yàn)證。此外,RCAgent已成功集成至阿里云Apache Flink實(shí)時(shí)計(jì)算平臺(tái)的診斷和問題發(fā)現(xiàn)工作流程中,進(jìn)一步提升了工業(yè)RCA的效率和準(zhǔn)確性。
AgileCoder: Dynamic Collaborative Agents for Software Development based on Agile Methodology
論文地址:https://arxiv.org/abs/2406.11912
軟件智能體正成為解決復(fù)雜軟件工程任務(wù)的有前景的工具。然而,現(xiàn)有研究常常過于簡(jiǎn)化軟件開發(fā)流程,而現(xiàn)實(shí)世界中的這些流程往往更為復(fù)雜。
為了應(yīng)對(duì)這一挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了AgileCoder,這是一個(gè)將敏捷方法論(AM)整合進(jìn)框架的多智能體系統(tǒng)。該系統(tǒng)將特定的AM角色,如產(chǎn)品經(jīng)理、開發(fā)人員和測(cè)試人員,分配給不同的智能體,它們根據(jù)用戶輸入?yún)f(xié)作開發(fā)軟件。
AgileCoder通過組織工作為一系列沖刺(sprint),提高開發(fā)效率,并專注于逐步完成軟件的開發(fā)。此外,還引入了一個(gè)動(dòng)態(tài)代碼圖生成器,該模塊能夠在代碼庫更新時(shí)動(dòng)態(tài)創(chuàng)建代碼依賴圖。這使得智能體能夠更深入地理解代碼庫,從而在軟件開發(fā)過程中實(shí)現(xiàn)更精確的代碼生成和修改。
AgileCoder在性能上超越了現(xiàn)有的基準(zhǔn),如ChatDev和MetaGPT,樹立了新的標(biāo)準(zhǔn),并展現(xiàn)了多智能體系統(tǒng)在高級(jí)軟件工程環(huán)境中的強(qiáng)大能力。這標(biāo)志著軟件開發(fā)向更自動(dòng)化、智能化方向邁出了重要一步。
Parrot: Efficient Serving of LLM-based Applications with Semantic Variable
論文地址:https://arxiv.org/abs/2405.19888
(也叫副駕駛),這是一種軟件新范式。
不同租戶的LLM應(yīng)用程序通過多個(gè)LLM請(qǐng)求設(shè)計(jì)復(fù)雜工作流以完成任務(wù),但受限于當(dāng)前公共LLM服務(wù)提供的簡(jiǎn)化請(qǐng)求級(jí)API,丟失了關(guān)鍵的應(yīng)用程序級(jí)信息。這些服務(wù)只能盲目?jī)?yōu)化單個(gè)LLM請(qǐng)求,導(dǎo)致應(yīng)用程序的整體性能不佳。
該論文介紹了Parrot,這是一個(gè)專注于LLM應(yīng)用程序端到端體驗(yàn)的服務(wù)系統(tǒng)。Parrot引入了語義變量的概念,這是一種統(tǒng)一的抽象,將應(yīng)用程序級(jí)知識(shí)暴露給公共LLM服務(wù)。語義變量在請(qǐng)求提示中標(biāo)注輸入/輸出變量,并在連接多個(gè)LLM請(qǐng)求時(shí)形成數(shù)據(jù)管道,提供了一種自然的LLM應(yīng)用程序編程方式。
公開語義變量給公共LLM服務(wù),使其能夠執(zhí)行數(shù)據(jù)流分析,揭示多個(gè)LLM請(qǐng)求間的相關(guān)性,為L(zhǎng)LM應(yīng)用程序的整體性能優(yōu)化開辟了新空間。廣泛的評(píng)估顯示,Parrot針對(duì)流行和實(shí)際的LLM應(yīng)用程序用例實(shí)現(xiàn)了顯著的性能提升。
Automating the Enterprise with Foundation Models
論文地址:https://arxiv.org/abs/2405.03710
項(xiàng)目地址:https://github.com/HazyResearch/eclair-agents
自動(dòng)化(RPA),這些機(jī)器人通常被硬編碼以遵循預(yù)設(shè)規(guī)則。
通過對(duì)醫(yī)院和大型B2B企業(yè)的案例研究,研究團(tuán)隊(duì)發(fā)現(xiàn)RPA的普及受到諸如高設(shè)置成本(12-18個(gè)月)、執(zhí)行不可靠(初始準(zhǔn)確率60%)和維護(hù)繁重等問題的制約。新一代多模態(tài)基礎(chǔ)模型(FM),如GPT-4,以其卓越的推理和規(guī)劃能力,為工作流自動(dòng)化提供了新的可能性。
為此,論文提出了ECLAIR系統(tǒng),它在最少人工監(jiān)督下實(shí)現(xiàn)企業(yè)工作流程自動(dòng)化。初步實(shí)驗(yàn)顯示,ECLAIR通過多模態(tài)FM實(shí)現(xiàn)了接近人類水平的工作流理解(準(zhǔn)確率93%),并基于工作流的自然語言描述即可快速設(shè)置,實(shí)現(xiàn)了40%的端到端完成率。論文認(rèn)為,人與AI的協(xié)作、驗(yàn)證和自我改進(jìn)是未來研究的開放性挑戰(zhàn),并提出利用數(shù)據(jù)管理技術(shù)來解決這些問題。
S-Agents: Self-organizing Agents in Open-ended Environments
https://arxiv.org/abs/2402.04578
利用LLM,自主智能體在處理各類任務(wù)上取得了顯著進(jìn)步。在開放環(huán)境中,為了提升協(xié)作的效率和有效性,需要靈活調(diào)整策略。然而,現(xiàn)有研究多聚焦于固定且任務(wù)導(dǎo)向的工作流程,而忽視了以智能體為中心的組織結(jié)構(gòu)。
受人類組織行為的啟發(fā),該團(tuán)隊(duì)提出了一種自組織智能體系統(tǒng)(S-Agents),它包括動(dòng)態(tài)工作流的“智能體樹”結(jié)構(gòu)、用于平衡信息優(yōu)先級(jí)的“沙漏智能體架構(gòu)”,以及支持智能體間異步任務(wù)執(zhí)行的“非阻礙協(xié)作”方法。這一結(jié)構(gòu)使得一組智能體能在無人為干預(yù)下,有效應(yīng)對(duì)開放和動(dòng)態(tài)環(huán)境的挑戰(zhàn)。
團(tuán)隊(duì)的實(shí)驗(yàn)在Minecraft環(huán)境中進(jìn)行,S-Agent系統(tǒng)在執(zhí)行協(xié)作建造和資源收集任務(wù)時(shí)表現(xiàn)出了熟練和高效,從而驗(yàn)證了其組織結(jié)構(gòu)和協(xié)作方法的有效性。這一研究成果為智能體在復(fù)雜環(huán)境中的自組織協(xié)作提供了新的視角和解決方案。
A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples
論文地址:https://arxiv.org/abs/2404.15974
單個(gè)大型語言模型(LLM)智能體在解決復(fù)雜任務(wù)時(shí)能力有限。通過將多個(gè)LLM智能體連接成網(wǎng)絡(luò),可以顯著提升整體性能。然而,構(gòu)建這樣的LLM智能體網(wǎng)絡(luò)(LAN)是一項(xiàng)耗時(shí)且復(fù)雜的過程。
在本研究中,團(tuán)隊(duì)推出了EasyLAN,這是一個(gè)旨在幫助開發(fā)者構(gòu)建智能體網(wǎng)絡(luò)的人機(jī)協(xié)作工具。EasyLAN首先根據(jù)任務(wù)描述生成一個(gè)只包含單個(gè)智能體的網(wǎng)絡(luò)。然后,它利用訓(xùn)練樣本來逐步優(yōu)化網(wǎng)絡(luò)。EasyLAN會(huì)分析輸出與實(shí)際值之間的差異,診斷錯(cuò)誤原因,并采取策略進(jìn)行修正。用戶可以參與EasyLAN的工作流程,或直接對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)整。
最終,網(wǎng)絡(luò)從單一智能體發(fā)展成為一個(gè)成熟的LLM智能體網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果表明,使用EasyLAN,開發(fā)者能夠迅速構(gòu)建出性能優(yōu)異的智能體網(wǎng)絡(luò)。這一工具極大地簡(jiǎn)化了智能體網(wǎng)絡(luò)的構(gòu)建過程,提高了開發(fā)效率。
PromptRPA: Generating Robotic Process Automation on Smartphones from Textual Prompts
論文地址:https://arxiv.org/abs/2404.02475
機(jī)器人流程自動(dòng)化(RPA)通過模擬人機(jī)交互,在不修改現(xiàn)有代碼的基礎(chǔ)上,為自動(dòng)化圖形用戶界面(GUI)上的任務(wù)提供了有效的解決方案。但RPA的廣泛應(yīng)用受限于對(duì)腳本語言和工作流設(shè)計(jì)專業(yè)知識(shí)的需求。
為解決這一問題,研究團(tuán)隊(duì)提出了PromptRPA,這是一個(gè)能夠理解與任務(wù)相關(guān)的各種文本提示(如目標(biāo)、程序)并生成及執(zhí)行相應(yīng)RPA任務(wù)的系統(tǒng)。
PromptRPA由一系列智能體組成,它們模仿人類的認(rèn)知功能,專門用于解讀用戶意圖、管理由RPA生成的外部信息,并在智能手機(jī)上執(zhí)行操作。這些智能體能夠從用戶反饋中學(xué)習(xí),并根據(jù)積累的知識(shí)不斷提升性能。
實(shí)驗(yàn)結(jié)果顯示,使用PromptRPA后,性能從基線的22.28%顯著提升至95.21%,且每個(gè)新任務(wù)平均僅需1.66次用戶干預(yù)。
PromptRPA在創(chuàng)建教程、智能輔助以及客戶服務(wù)等領(lǐng)域展現(xiàn)出廣闊的應(yīng)用前景,為RPA技術(shù)的進(jìn)一步普及和應(yīng)用提供了新的可能性。
ProAgent: From Robotic Process Automation to Agentic Process Automation
論文地址:https://arxiv.org/abs/2311.10751
項(xiàng)目地址:https://github.com/OpenBMB/ProAgent
自動(dòng)化技術(shù)從古代的水車發(fā)展到今天的RPA,一直在解放人類從事繁重任務(wù)。但RPA在處理需要人類智能的任務(wù)時(shí)面臨挑戰(zhàn),尤其是在精心設(shè)計(jì)工作流和執(zhí)行中的動(dòng)態(tài)決策方面。
隨著大型語言模型(LLM)的出現(xiàn),研究團(tuán)隊(duì)提出了智能體流程自動(dòng)化(APA),這是一種革命性的自動(dòng)化新范式,利用基于LLM的智能體實(shí)現(xiàn)高級(jí)自動(dòng)化,通過將任務(wù)分配給負(fù)責(zé)構(gòu)建和執(zhí)行的智能體來減輕人力負(fù)擔(dān)。
論文具體實(shí)現(xiàn)了ProAgent,這是一個(gè)基于LLM的智能體,它可以根據(jù)人工指令創(chuàng)建工作流程,并通過協(xié)調(diào)專業(yè)的智能體做出復(fù)雜決策。
通過實(shí)證實(shí)驗(yàn),論文詳細(xì)展示了APA在工作流構(gòu)建和執(zhí)行方面的過程,證明了APA的可行性,并展現(xiàn)了由智能體驅(qū)動(dòng)的自動(dòng)化新范式的巨大潛力。這不僅為自動(dòng)化領(lǐng)域帶來了新的視角,也為未來智能自動(dòng)化的發(fā)展提供了新的方向。
A Survey on LLM-Based Agents: Common Workflows and Reusable LLM-Profiled Components
論文地址:https://arxiv.org/abs/2406.05804
大型語言模型(LLM)的最新進(jìn)展推動(dòng)了基于LLM的復(fù)雜智能體框架的開發(fā)。然而,這些框架的復(fù)雜性在一定程度上阻礙了細(xì)粒度差異化的實(shí)現(xiàn),這對(duì)于在不同框架間高效實(shí)現(xiàn)功能和推動(dòng)未來研究至關(guān)重要。因此,該調(diào)查的主要目標(biāo)是通過識(shí)別通用工作流程和可重用的LLM分析組件(LMPC),來促進(jìn)對(duì)近期提出的多種框架的統(tǒng)一理解。
這項(xiàng)工作旨在簡(jiǎn)化不同智能體框架之間的差異,通過提取共通的工作流程和分析組件,為研究者和開發(fā)者提供一個(gè)更加清晰和一致的視角。通過這種方式,論文希望能夠降低開發(fā)和維護(hù)智能體框架的難度,同時(shí)為未來的研究和創(chuàng)新打下堅(jiān)實(shí)的基礎(chǔ)。
WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks
論文地址:https://arxiv.org/abs/2407.05291
基準(zhǔn)測(cè)試項(xiàng)目:https://github.com/ServiceNow/WorkArena/tree/workarena-plus-plus
大型語言模型(LLM)因其模仿人類智能的能力而備受關(guān)注,這促使基于LLM的自主智能體數(shù)量激增。盡管最新的LLM展現(xiàn)出根據(jù)用戶指令進(jìn)行規(guī)劃和推理的潛力,但它們?cè)谧灾魅蝿?wù)解決方面的實(shí)際應(yīng)用效果尚待深入研究。特別是在企業(yè)環(huán)境中,自動(dòng)化智能體的應(yīng)用被寄予厚望,期望能夠帶來顯著的影響。
為了解決這一研究空白,論文提出了WorkArena++,這是一個(gè)創(chuàng)新的基準(zhǔn)測(cè)試套件,包含682個(gè)任務(wù),覆蓋知識(shí)工作者日常執(zhí)行的實(shí)際工作流程。WorkArena++的目標(biāo)是全面評(píng)估網(wǎng)絡(luò)智能體在規(guī)劃、問題解決、邏輯/算術(shù)推理、信息檢索以及上下文理解等方面的能力。
通過對(duì)最先進(jìn)的LLM、視覺語言模型(VLM)以及人類工作者的實(shí)證研究,論文揭示了這些模型在職場(chǎng)中作為有效助手所面臨的若干挑戰(zhàn)。
除了基準(zhǔn)測(cè)試,論文還提供了一種機(jī)制,能夠輕松生成數(shù)千條基于真實(shí)情境的觀察/動(dòng)作軌跡,這些軌跡可以用于微調(diào)現(xiàn)有的智能體模型,并期望這項(xiàng)工作能夠成為推動(dòng)社區(qū)向有能力的自主智能體發(fā)展的重要資源。
FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agent
論文地址:https://arxiv.org/abs/2406.14884
大型語言模型(LLM)驅(qū)動(dòng)的智能體已成為執(zhí)行復(fù)雜任務(wù)的有前途工具,它們通過迭代規(guī)劃和行動(dòng)來完成任務(wù)。但當(dāng)缺乏對(duì)專業(yè)知識(shí)密集型任務(wù)的深入理解時(shí),這些智能體可能會(huì)產(chǎn)生不切實(shí)際的規(guī)劃幻想。為提高規(guī)劃的可靠性,該團(tuán)隊(duì)嘗試整合與工作流相關(guān)的外部知識(shí)。
盡管這一方法有潛力,但整合的知識(shí)往往雜亂無章、形式多樣,缺乏嚴(yán)格的形式化和全面評(píng)估。因此,該團(tuán)隊(duì)對(duì)不同格式的工作流知識(shí)進(jìn)行形式化處理,并推出了FlowBench——首個(gè)工作流引導(dǎo)規(guī)劃的基準(zhǔn)測(cè)試。FlowBench覆蓋6個(gè)領(lǐng)域的51個(gè)不同場(chǎng)景,以多種形式展現(xiàn)知識(shí)。
為了在FlowBench上評(píng)估不同的LLM,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)多層評(píng)估框架,評(píng)估了工作流知識(shí)在多種格式下的有效性。結(jié)果表明,現(xiàn)有的LLM智能體在規(guī)劃方面還有很大的提升空間。論文期望FlowBench這一具有挑戰(zhàn)性的基準(zhǔn)測(cè)試能夠?yàn)槲磥碇悄荏w規(guī)劃研究提供參考,推動(dòng)相關(guān)技術(shù)的進(jìn)步。
Do Multimodal Foundation Models Understand Enterprise Workflows? A Benchmark for Business Process Management Tasks
論文地址:https://arxiv.org/abs/2406.13264
數(shù)據(jù)集和實(shí)驗(yàn)項(xiàng)目地址:https://github.com/HazyResearch/wonderbread
現(xiàn)有的機(jī)器學(xué)習(xí)(ML)基準(zhǔn)測(cè)試在評(píng)估業(yè)務(wù)流程管理(BPM)任務(wù)時(shí),缺乏足夠的深度和多樣性的注釋。BPM 是一種旨在記錄、衡量、改進(jìn)和自動(dòng)化企業(yè)工作流的實(shí)踐。
目前的研究幾乎完全集中在單一任務(wù)上,即利用多模態(tài)基礎(chǔ)模型(FM)如 GPT-4 實(shí)現(xiàn)端到端的自動(dòng)化。這種對(duì)自動(dòng)化的專注忽視了大多數(shù)BPM工具的實(shí)際應(yīng)用情況——在典型的流程優(yōu)化項(xiàng)目中,僅僅記錄相關(guān)工作流就占據(jù)了60%的時(shí)間。
為了填補(bǔ)這一空白,研究團(tuán)隊(duì)推出了WONDERBREAD,這是首個(gè)用于評(píng)估BPM任務(wù)的多模態(tài)FM基準(zhǔn)測(cè)試,它超越了自動(dòng)化的范疇。該論文的貢獻(xiàn)包括:
團(tuán)隊(duì)期望WONDERBREAD能夠激勵(lì)開發(fā)更多以人為中心的AI工具,用于企業(yè)應(yīng)用程序,并進(jìn)一步探索多模態(tài)FM在更廣泛的BPM任務(wù)中的應(yīng)用。
APPL: A Prompt Programming Language for Harmonious Integration of Programs and Large Language Model Prompts
論文地址:https://arxiv.org/abs/2406.13161
大型語言模型(LLM)通過精心設(shè)計(jì)的提示和外部工具的集成,日益展現(xiàn)出處理各類任務(wù)的能力。然而,隨著任務(wù)復(fù)雜性的提升,涉及LLM的工作流程可能變得復(fù)雜,難以實(shí)現(xiàn)和維護(hù)。為解決這一難題,研究團(tuán)隊(duì)提出了APPL,一種新穎的提示編程語言,它作為計(jì)算機(jī)程序與LLM之間的橋梁,支持將提示無縫嵌入Python函數(shù),反之亦然。
APPL具備直觀的Python原生語法,擁有異步語義的高效并行化運(yùn)行時(shí)環(huán)境,并且配備了無需額外成本的跟蹤模塊,以支持有效的故障診斷和重放。論文通過三個(gè)典型場(chǎng)景——自一致性的思維鏈(CoT-SC)、ReAct工具使用的智能體,以及多智能體聊天——證明了APPL程序的直觀性、簡(jiǎn)潔性和高效性。
此外,對(duì)三個(gè)可并行化工作流的實(shí)驗(yàn)進(jìn)一步證實(shí)了APPL在并行化獨(dú)立LLM調(diào)用方面的有效性,并實(shí)現(xiàn)了與預(yù)期估算相匹配的顯著加速比。這表明APPL是一個(gè)強(qiáng)大的工具,能夠提升LLM在復(fù)雜任務(wù)中的性能和可用性。
Granite Code Models: A Family of Open Foundation Models for Code Intelligence
論文地址:https://arxiv.org/abs/2405.04324
項(xiàng)目地址:https://github.com/ibm-granite/granite-code-models
LLM在代碼訓(xùn)練方面取得了突破性進(jìn)展,正深刻改變著軟件開發(fā)的生態(tài)。越來越多的代碼LLM被融入到軟件開發(fā)工具中,以提升程序員的工作效率。同時(shí),基于LLM的智能體也開始展現(xiàn)出獨(dú)立處理復(fù)雜編碼任務(wù)的能力。
要充分發(fā)揮代碼LLM的潛力,需要它們具備廣泛的能力,如代碼生成、錯(cuò)誤修復(fù)、代碼解釋、文檔編寫和代碼庫維護(hù)等。在本項(xiàng)研究中,團(tuán)隊(duì)推出了Granite系列僅解碼器代碼模型,專門用于代碼生成任務(wù)。這些模型經(jīng)過了116種編程語言的代碼訓(xùn)練,覆蓋了從30億到340億參數(shù)大小不等的多種模型,能夠滿足從復(fù)雜的應(yīng)用現(xiàn)代化到設(shè)備內(nèi)存受限的各種場(chǎng)景。
通過一系列綜合任務(wù)的評(píng)估,團(tuán)隊(duì)發(fā)現(xiàn)Granite Code模型在所有可用的開源代碼LLM中始終保持最先進(jìn)的性能。
該模型系列針對(duì)企業(yè)級(jí)軟件開發(fā)流程進(jìn)行了特別優(yōu)化,在代碼生成、修復(fù)和解釋等多項(xiàng)編碼任務(wù)中均有出色表現(xiàn),成為一個(gè)多功能的全能型代碼模型。所有Granite Code模型均在Apache 2.0許可下發(fā)布,既適用于研究也適用于商業(yè)用途,為軟件開發(fā)領(lǐng)域帶來了前所未有的靈活性和創(chuàng)新潛力。
Towards Hierarchical Multi-Agent Workflows for Zero-Shot Prompt Optimization
論文地址:https://arxiv.org/abs/2405.20252
大型語言模型(LLM)在解答用戶問題上取得了顯著進(jìn)步,支撐了多樣化的應(yīng)用場(chǎng)景。但LLM的回答質(zhì)量極大程度上依賴于提示的質(zhì)量,一個(gè)精心設(shè)計(jì)的提示能夠引導(dǎo)LLM準(zhǔn)確回答極具挑戰(zhàn)性的問題。
盡管已有研究開發(fā)了多種策略來優(yōu)化提示,包括手工制作和領(lǐng)域內(nèi)優(yōu)化,它們?cè)陂_放場(chǎng)景下的有效性仍受限,因?yàn)榍罢咭蕾囉谌祟悓?duì)問題的理解,而后者對(duì)未見過場(chǎng)景的泛化能力不足。
為克服這些限制,研究團(tuán)隊(duì)提出了一種讓LLM自主設(shè)計(jì)最佳提示的方法。具體來說,團(tuán)隊(duì)構(gòu)建了一個(gè)分層的提示生成框架,首先創(chuàng)建包含精確指令和準(zhǔn)確措辭的提示,再基于此生成最終答案。這一流程稱為分層多智能體工作流(HMAW)。
與現(xiàn)有方法相比,HMAW不受任何人類預(yù)設(shè)限制,無需訓(xùn)練,完全任務(wù)獨(dú)立,同時(shí)能夠適應(yīng)任務(wù)的細(xì)微差別。通過跨多個(gè)基準(zhǔn)的實(shí)驗(yàn),證實(shí)了HMAW雖然簡(jiǎn)單,卻能創(chuàng)建出詳盡且合適的提示,進(jìn)一步提升了LLM的性能。
Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality
論文地址:https://arxiv.org/abs/2405.13034
自主人工智能智能體(Autonomous Agent)在自動(dòng)理解基于語言的環(huán)境中展現(xiàn)出巨大潛力,尤其是在大型語言模型(LLM)迅猛發(fā)展的背景下。然而,對(duì)多模態(tài)環(huán)境的深入理解尚待進(jìn)一步探索。本研究設(shè)計(jì)了一個(gè)自主工作流程,旨在將AI智能體無障礙地集成到擴(kuò)展現(xiàn)實(shí)(XR)應(yīng)用中,實(shí)現(xiàn)細(xì)粒度訓(xùn)練。
論文展示了一個(gè)在XR環(huán)境中用于樂高積木組裝的多模態(tài)細(xì)粒度培訓(xùn)助手的案例。該智能體結(jié)合了LLM、記憶、規(guī)劃功能以及與XR工具的交互能力,能夠根據(jù)歷史經(jīng)驗(yàn)做出決策。此外,論文介紹了LEGO-MRTA,這是一個(gè)多模態(tài)細(xì)粒度裝配對(duì)話數(shù)據(jù)集,它能夠在商業(yè)LLM服務(wù)的工作流程中自動(dòng)合成,包含多模態(tài)說明、對(duì)話、XR響應(yīng)和視覺問答。
研究團(tuán)隊(duì)選取了幾個(gè)流行的開放資源LLM作為基準(zhǔn),評(píng)估它們?cè)谖⒄{(diào)和未微調(diào)狀態(tài)下對(duì)團(tuán)隊(duì)提出的數(shù)據(jù)集的性能。論文期望這一工作流程能夠推動(dòng)更智能助手的開發(fā),實(shí)現(xiàn)XR環(huán)境中的無縫用戶交互,并促進(jìn)AI和人機(jī)交互(HCI)社區(qū)的研究。
Leveraging Multi-AI Agents for Cross-Domain Knowledge Discovery
論文地址:https://arxiv.org/abs/2404.08511
在迅速發(fā)展的人工智能領(lǐng)域,跨領(lǐng)域知識(shí)的整合與應(yīng)用是一項(xiàng)關(guān)鍵的挑戰(zhàn)與機(jī)遇。本研究提出了一種新方法,通過部署專注于不同知識(shí)領(lǐng)域的多人工智能智能體,實(shí)現(xiàn)跨學(xué)科的知識(shí)發(fā)現(xiàn)。每個(gè)智能體都像特定領(lǐng)域的專家,在統(tǒng)一框架下協(xié)同工作,提供綜合的、超越單一領(lǐng)域限制的深入見解。
研究團(tuán)隊(duì)的平臺(tái)通過促進(jìn)智能體間的無縫互動(dòng),利用每個(gè)智能體的獨(dú)特優(yōu)勢(shì),增強(qiáng)了知識(shí)發(fā)現(xiàn)和決策過程。通過對(duì)比分析不同的多智能體工作流場(chǎng)景,評(píng)估了它們?cè)谛?、?zhǔn)確性和知識(shí)整合廣度上的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,這些特定領(lǐng)域的多智能體系統(tǒng)在識(shí)別和填補(bǔ)知識(shí)空白方面表現(xiàn)出色。
這項(xiàng)研究不僅凸顯了協(xié)作智能在促進(jìn)創(chuàng)新中的關(guān)鍵作用,也為人工智能推動(dòng)的跨學(xué)科研究和應(yīng)用的發(fā)展奠定了基礎(chǔ)。團(tuán)隊(duì)在小規(guī)模試點(diǎn)數(shù)據(jù)上評(píng)估了其方法,結(jié)果顯示出預(yù)期趨勢(shì),隨著自定義訓(xùn)練智能體的數(shù)據(jù)量增加,這些趨勢(shì)預(yù)計(jì)將變得更加明顯。
The Case for Developing a Foundation Model for Planning-like Tasks from Scratch
論文地址:https://arxiv.org/abs/2404.04540
基礎(chǔ)模型 (FM) 徹底改變了許多計(jì)算領(lǐng)域,包括自動(dòng)規(guī)劃和調(diào)度 (APS)。例如,最近的一項(xiàng)研究發(fā)現(xiàn)它們對(duì)規(guī)劃問題很有用:計(jì)劃生成、語言翻譯、模型構(gòu)建、多智能體規(guī)劃、交互式規(guī)劃、啟發(fā)式優(yōu)化、工具集成和大腦啟發(fā)規(guī)劃。
除了APS,還有許多任務(wù)涉及生成一系列行動(dòng),這些行動(dòng)對(duì)于達(dá)成目標(biāo)的可執(zhí)行性有不同的保障,團(tuán)隊(duì)統(tǒng)稱這些為類似計(jì)劃(PL)任務(wù),例如業(yè)務(wù)流程、程序編寫、工作流管理和指南制定。研究人員正考慮將FM應(yīng)用于這些領(lǐng)域。
然而,以往的研究多集中在使用現(xiàn)成的預(yù)訓(xùn)練FM,并可能對(duì)它們進(jìn)行微調(diào)。該論文討論了為PL任務(wù)從頭開始設(shè)計(jì)全面的FM的必要性,并探討了設(shè)計(jì)時(shí)需考慮的因素。論文認(rèn)為,這樣的FM將為PL問題提供新的有效解決方案,正如大型語言模型(LLM)為APS領(lǐng)域所做的那樣。
Transformations in the Time of The Transformer
論文地址:https://arxiv.org/abs/2401.10897
基礎(chǔ)模型為以人工智能為主導(dǎo)的視角重新設(shè)計(jì)現(xiàn)有系統(tǒng)和工作流程提供了新的機(jī)遇。然而,實(shí)現(xiàn)這一轉(zhuǎn)型面臨著挑戰(zhàn)和需要權(quán)衡的問題。本文旨在提供一個(gè)結(jié)構(gòu)化的框架,幫助企業(yè)在向以AI為優(yōu)先的組織轉(zhuǎn)型過程中做出明智的決策。所提供的建議旨在幫助企業(yè)全面、有意識(shí)地做出知情的選擇,同時(shí)避免受到不必要的干擾。
盡管這個(gè)領(lǐng)域看似發(fā)展迅猛,但其中一些核心的基礎(chǔ)要素發(fā)展步伐相對(duì)較慢。團(tuán)隊(duì)專注于這些穩(wěn)定不變的因素,以此構(gòu)建論證的邏輯基礎(chǔ)。通過深入理解這些不變的基本面,企業(yè)可以更穩(wěn)健地把握AI轉(zhuǎn)型的方向和步驟。
Synergizing Human-AI Agency: A Guide of 23 Heuristics for Service Co-Creation with LLM-Based Agents
論文地址:https://arxiv.org/abs/2310.15065
本項(xiàng)實(shí)證研究為服務(wù)供應(yīng)商提供了入門知識(shí),幫助他們確定是否以及如何將大型語言模型(LLM)技術(shù)集成到其從業(yè)者和更廣泛社區(qū)的工作之中。通過CoAGent——一種與基于LLM的智能體共同創(chuàng)造服務(wù)的工具,研究團(tuán)隊(duì)探索了非AI專家與AI相互學(xué)習(xí)的過程。
這項(xiàng)研究通過與23位來自美國(guó)公共圖書館的領(lǐng)域?qū)<液献?,?jīng)歷了一個(gè)三階段的參與式設(shè)計(jì)流程,揭示了將AI集成到人類工作流程中所面臨的根本性挑戰(zhàn)。
研究結(jié)果提供了23種可操作的“與AI共同創(chuàng)造服務(wù)的啟發(fā)式方法”,這些方法突出了人類與AI之間微妙的共同責(zé)任。并進(jìn)一步提出了人工智能的9個(gè)基本智能體方面,強(qiáng)調(diào)了所有權(quán)、公平待遇和言論自由等基本要素。這種創(chuàng)新方法通過將AI視為關(guān)鍵利益相關(guān)者,并利用AI與AI的交互來識(shí)別盲點(diǎn),從而豐富了參與式設(shè)計(jì)模型。
這些見解為服務(wù)環(huán)境中協(xié)同和道德的人類與AI共創(chuàng)鋪平了道路,為人工智能共存的勞動(dòng)力生態(tài)系統(tǒng)做好了準(zhǔn)備。這不僅為服務(wù)供應(yīng)商提供了實(shí)用的指導(dǎo),也為構(gòu)建人機(jī)協(xié)作的未來提供了寶貴的洞見。
The Foundations of Computational Management: A Systematic Approach to Task Automation for the Integration of Artificial Intelligence into Existing Workflows
論文地址:https://arxiv.org/abs/2402.05142
在AI迅猛發(fā)展的今天,組織面臨一個(gè)核心問題:如何將AI技術(shù)有效融入現(xiàn)有運(yùn)營(yíng)?為解答這一問題、調(diào)控期望并減少挑戰(zhàn),該論文引入了計(jì)算管理——一種系統(tǒng)化的任務(wù)自動(dòng)化方法,旨在增強(qiáng)組織利用AI的潛力。計(jì)算管理融合了管理科學(xué)的戰(zhàn)略洞察與計(jì)算思維的分析精確性,架設(shè)了二者之間的橋梁。
論文提供三個(gè)分步流程,以助于在工作流中啟動(dòng)AI的集成。
首先是任務(wù)(重新)制定,它將工作活動(dòng)拆解為基本單元,每個(gè)單元由智能體執(zhí)行,包括明確行動(dòng)并產(chǎn)生多樣結(jié)果。
第二,評(píng)估任務(wù)自動(dòng)化潛力,通過任務(wù)自動(dòng)化指數(shù)對(duì)任務(wù)進(jìn)行評(píng)估,依據(jù)其標(biāo)準(zhǔn)化輸入、規(guī)則明確性、重復(fù)性、數(shù)據(jù)依賴性和客觀輸出進(jìn)行排序。
第三,任務(wù)規(guī)范模板詳述了16個(gè)關(guān)鍵組件,作為選擇或調(diào)整AI解決方案以適應(yīng)現(xiàn)有工作流程的清單。
這些流程結(jié)合了手動(dòng)和自動(dòng)方法,并為現(xiàn)有的大型語言模型(LLM)提供了使用提示,以輔助完成這些步驟。計(jì)算管理為人與AI的協(xié)同提供了路線圖和工具,提升了組織效率和創(chuàng)新力,為人機(jī)共榮的未來鋪平了道路。
注:本文論文敘述部分配圖,皆來自論文截圖,具體內(nèi)容請(qǐng)參考論文詳情。
本文轉(zhuǎn)自 微信公眾號(hào)@王吉偉