1.規劃模塊（Planning）

規劃模塊是Manus的”大腦”，負責理解用戶意圖，將復雜任務分解為可執行的步驟，并制定執行計劃。這一模塊使Manus能夠處理抽象的任務描述，并將其轉化為具體的行動步驟。

作為系統的決策中樞，規劃模塊實現：

? 任務理解與分析
? 任務分解與優先級排序
? 執行計劃制定
? 資源分配與工具選擇
? 語義理解與意圖識別（NLU）
? 復雜任務分解為DAG結構
? 異常處理與流程優化

2.記憶模塊（Memory）

記憶模塊使Manus能夠存儲和利用歷史信息，提高任務執行的連貫性和個性化程度。該模塊管理三類關鍵信息：

? 用戶偏好：記錄用戶的習慣和喜好，使后續交互更加個性化
? 歷史交互：保存過去的對話和任務執行記錄，提供上下文連貫性
? 中間結果：存儲任務執行過程中的臨時數據，支持復雜任務的分步執行

構建長期記憶體系：

class MemorySystem:

    def __init__(self):

        self.user_profile = UserVector()  # 用戶偏好向量

        self.history_db = ChromaDB()      # 交互歷史數據庫

        self.cache = LRUCache()           # 短期記憶緩存

3.工具使用（Tool Use）

工具使用模塊是Manus的”手”，負責實際執行各種操作。該模塊能夠調用和使用多種工具來完成任務，包括：

? 網絡搜索與信息檢索
? 數據分析與處理
? 代碼編寫與執行
? 文檔生成
? 數據可視化

這種多工具集成能力使Manus能夠處理各種復雜任務，從信息收集到內容創建，再到數據分析。

Multi-Agent 系統：智能協作的藝術

Multi-Agent 系統（MAS）由多個交互的智能體組成，每個智能體都是能夠感知、學習環境模型、做出決策并執行行動的自主實體。這些智能體可以是軟件程序、機器人、無人機、傳感器、人類，或它們的組合。

在典型的 Multi-Agent 架構中，各個智能體具有專業化的能力和目標。例如，一個系統可能包含專注于內容摘要、翻譯、內容生成等不同任務的智能體。它們通過信息共享和任務分工的方式協同工作，實現更復雜、更高效的問題解決能力。

運轉邏輯與工作流程

Manus采用多代理架構（Multiple Agent Architecture），在獨立的虛擬環境中運行。其運轉邏輯可以概括為以下流程：

完整執行流程

? 任務接收：用戶提交任務請求，可以是簡單的查詢，也可以是復雜的項目需求。Manus接收這一輸入，并開始處理。
? 任務理解：Manus分析用戶輸入，理解任務的本質和目標。在這一階段，記憶模塊提供用戶偏好和歷史交互信息，幫助更準確地理解用戶意圖。
? 運用先進的自然語言處理技術對用戶輸入進行意圖識別和關鍵詞提取
? 在需求不明確時，通過對話式引導幫助用戶明晰目標
? 支持文本、圖片、文檔等多模態輸入，提升交互體驗
? 任務分解：規劃模塊將復雜任務自動分解為多個可執行的子任務，建立任務依賴關系和執行順序。

// todo.md

- [ ] 調研日本熱門旅游城市

- [ ] 收集交通信息

- [ ] 制定行程安排

- [ ] 預算規劃

任務初始化與環境準備：為確保任務執行的隔離性和安全性，系統創建獨立的執行環境：

# 創建任務目錄結構

mkdir -p {task_id}/

docker run -d --name task_{task_id} task_image

執行計劃制定：為每個子任務制定執行計劃，包括所需的工具和資源。歷史交互記錄在這一階段提供參考，幫助優化執行計劃。

自主執行：工具使用模塊在虛擬環境中自主執行各個子任務，包括搜索信息、檢索數據、編寫代碼、生成文檔和數據分析與可視化等。執行過程中的中間結果被記憶模塊保存，用于后續步驟。

系統采用多個專業化 Agent 協同工作，各司其職：

每個 Agent 的執行結果都會保存到任務目錄，確保可追溯性：

class SearchAgent:

    def execute(self, task):

        # 調用搜索 API

        results = search_api.query(task.keywords)



        # 模擬瀏覽器行為

        browser = HeadlessBrowser()

        for result in results:

            content = browser.visit(result.url)

            if self.validate_content(content):

                self.save_result(content)

Search Agent: 負責網絡信息搜索，獲取最新、最相關的數據，采用混合搜索策略（關鍵詞+語義）

Code Agent: 處理代碼生成和執行，實現自動化操作，支持Python/JS/SQL等語言

Data Analysis Agent: 進行數據分析，提取有價值的洞見，Pandas/Matplotlib集成

動態質量檢測：

def quality_check(result):

    if result.confidence < 0.7:

        trigger_self_correction()

    return generate_validation_report()

結果整合：將各個子任務的結果整合為最終輸出，確保內容的連貫性和完整性。

智能整合所有 Agent 的執行結果，消除冗余和矛盾

生成用戶友好的多模態輸出，確保內容的可理解性和實用性

結果交付：向用戶提供完整的任務結果，可能是報告、分析、代碼、圖表或其他形式的輸出。

用戶反饋與學習：用戶對結果提供反饋，這些反饋被記憶模塊記錄，用于改進未來的任務執行。強化模型微調，不斷提升系統性能。

manus的核心能力-推測與拆解

1. manus核心優勢在Controller層

在agent flow能力（observe，plan和tool decide的大模型環節），大概率這些是使用自己調優訓練的大模型的，并且基礎模型大概率是qwen

? Manus比較亮眼的能力：
? Plan較為充分，有條理
? 決定使用什么tool的能力很強（例如可以玩2048，用yahoo api下載布倫特原油價格數據）
? 瀏覽器上的觀察能力不弱（例如可以展開日歷控件并且嘗試翻頁）
? 與用戶的交互能力不弱（可以理解到彈出了小紅書登錄框并且交互要求登錄）
? 初步判斷agent flow中應該是使用了自己調優的模型
? 單步的tool或者agent調用可能沒有調優，例如codeact模型未必需要在論文基礎上調優（目前看官方爆料，大概率用的是Claude Sonnet 3.7）

2. manus的核心壁壘是數據

? 很簡單，如果得知核心優勢是調優的模型，那么核心壁壘就一定是調優數據
? Manus團隊之前是做AI瀏覽器的，瀏覽器交互數據可能很充分（這也說明了為什么他們瀏覽器操作很多，并且只能程度很高）；這里可以貢獻了plan和observe部分的數據。
? 其他agent flow的數據未知，尤其是tool decide的數據情況未知

3. manus的AgentFlow有沒有可能使用了其他黑科技

? 之前覺得有黑科技，或者說實際上之后可以發展為CodeAgent（就是整個plan和tasks都是code描述的，包括方法調用，狀態碼，任務復雜結構，try catch容錯等）
? 但目前看manus的模式不是，還是本地起todo.md，里面是task-》subtask模式
? 不能排除其他黑科技

4. manus不用MCP協議的原因

? 本質上Manus只使用了3個工具調用：vscode – python, Linux sandbox – computer use, chrome – browser use。并且開發人員否認了MCP的使用，hidecloud也在群里表示完全不理解為什么要用MCP。
? MCP其實提供了一個更大范圍的可調用tool list，但是它沒有解決排行問題和檢索問題
? MCP對于Manus模式的貢獻可能會有2個，一個是更好的搜索源，一個是官方的長尾rpa（例如操作美團或者12306），除此之外沒有什么幫助

技術特點與創新

Manus具有多項技術特點，使其在AI代理領域脫穎而出：

1. 自主規劃能力

Manus能夠獨立思考和規劃，確保任務的執行，這是其與之前工具的主要區別。在GAIA基準測試（General AI Assistant Benchmark）中，Manus取得了最新的SOTA（State-of-the-Art）成績，這一測試旨在評估通用AI助手在現實世界中解決問題的能力。在復雜任務中實現94%的自動完成率。

2. 上下文理解

Manus能夠從模糊或抽象的描述中準確識別用戶需求。例如，用戶只需描述視頻內容，Manus就能在平臺上定位相應的視頻鏈接。這種高效的匹配能力確保了更流暢的用戶體驗。支持10輪以上的長對話維護。

3. 多代理協作

Manus采用多代理架構，類似于Anthropic的Computer Use功能，在獨立的虛擬機中運行。這種架構使不同功能模塊能夠協同工作，處理復雜任務。

4. 工具集成

Manus能夠自動調用各種工具，如搜索、數據分析和代碼生成，顯著提高效率。這種集成能力使其能夠處理各種復雜任務，從信息收集到內容創建，再到數據分析。支持自定義工具插件開發。

5. 安全隔離

基于gVisor的沙箱環境，確保任務執行的安全性和穩定性。

6. 其他技術優勢

? 環境隔離的任務執行，確保安全性和穩定性
? 模塊化的 Agent 設計，支持靈活擴展
? 智能化的任務調度機制，最大化資源利用

未來優化方向

? 任務依賴關系升級為 DAG (有向無環圖) 結構，支持更復雜的任務流
? 引入自動化測試和質量控制，提高執行結果的可靠性
? 發展人機混合交互模式，結合人類洞察和 AI 效率

技術架構依賴

系統的強大能力得益于多層次的模型協作：

? 輕量級模型：負責意圖識別，提供快速響應
? Deepseek-r1：專注于任務規劃，把控全局策略
? Claude-3.7-sonnet：處理復雜的多模態任務，提供深度理解能力

應用場景擴展

場景類型	典型案例	輸出形式
旅行規劃	日本深度游定制	交互式地圖 + 預算表
金融分析	特斯拉股票多維分析	動態儀表盤 + 風險評估
教育支持	動量定理教學方案	互動式課件 + 實驗模擬
商業決策	保險產品對比分析	可視化對比矩陣 + 建議書
市場研究	亞馬遜市場情緒分析	季度趨勢報告 + 預測模型

與傳統AI助手的差異對比

優點：

? 端到端任務交付：不僅提供建議，還能直接執行任務并交付結果
? 任務分解能力：能夠將復雜任務分解為可管理的步驟
? 工具使用能力：能夠調用和使用各種工具完成任務
? 動態環境適應能力：能夠根據任務需求調整執行策略
? 長期記憶保持：能夠記住用戶偏好和歷史交互，提供個性化體驗
? 結果導向：注重交付完整的任務結果，而非僅提供信息

缺點：

? 單次交互模式：傳統AI主要停留在”對話”層面
? 靜態響應機制：缺乏自主執行能力
? 無狀態設計：每次對話獨立，缺乏連續性

開放手冊

繼deepseek之后，武漢一個開發monica的團隊又開發了manus，號稱是全球第一個通用的agent！各路自媒體企圖復刻下一個deepseek，瘋狂報道！

然而manus發布后不久，metaGPT團隊5個工程師號稱耗時3小時就搞定了一個demo版本的manus，取名openManus，才幾天時間就收獲了34.4K的start，又火出圈了！現在研究一下openManus的核心原理！

為什么要agent

? 目前的LLM只能做決策，無法落地實施，所以還需要外部的tool具體干活
? 目前的LLM雖然已經有各種COT，但純粹依靠LLM自己完成整個鏈條是不行的，還是需要人為介入做plan、action、review等工作

所以agent誕生了！不管是deep search、deep research、manus等，核心思路都是一樣的：plan->action->review->action->review…… 如此循環下去，直到觸發結束的條件！大概的流程如下：

具體到openManus，核心的流程是這樣的：用戶輸入prompt后，有專門的agent調用LLM針對prompt做任務拆分，把復雜的問題拆解成一個個細分的、邏輯連貫的小問題，然后對于這些小問題，挨個調用tool box的工具執行，最后返回結果給用戶！

這類通用agent最核心的競爭力就兩點了：

? plan是否準確：這個主要看底層LLM的能力，對prompt做命名實體識別和意圖識別！
? tool box的工具是否豐富：用戶的需求是多樣的，tool是否足夠滿足用戶需求？

openManus的目錄結構

4個文件夾，分別是agent、flow、prompt、tool，只看名字就知道這個模塊的功能了

整個程序入口肯定是各種agent啦！各大agent之間的關系如下：

（1）agent核心的功能之一不就是plan么，openManus的prompt是這么干的：promt中就直接說明了是expert plan agent，需要生成可執行的plan！

PLANNING_SYSTEM_PROMPT = """

You are an expert Planning Agent tasked with solving problems efficiently through structured plans.

Your job is:

1. Analyze requests to understand the task scope

2. Create a clear, actionable plan that makes meaningful progress with the planning tool
3. Execute steps using available tools as needed
4. Track progress and adapt plans when necessary
5. Use finish to conclude immediately when the task is complete

Available tools will vary by task but may include:
- planning: Create, update, and track plans (commands: create, update, mark_step, etc.)
- finish: End the task when complete
Break tasks into logical steps with clear outcomes. Avoid excessive detail or sub-steps.
Think about dependencies and verification methods.
Know when to conclude - don't continue thinking once objectives are met.
"""

NEXT_STEP_PROMPT = """
Based on the current state, what's your next action?
Choose the most efficient path forward:
1. Is the plan sufficient, or does it need refinement?
2. Can you execute the next step immediately?
3. Is the task complete? If so, use finish right away.

Be concise in your reasoning, then select the appropriate tool or action.
"""

prompt有了，接著就是讓LLM對prompt生成plan了，在agent/planning.py文件中：

async def create_initial_plan(self, request: str) -> None:

        """Create an initial plan based on the request."""

        logger.info(f"Creating initial plan with ID: {self.active_plan_id}")



        messages = [

            Message.user_message(

                f"Analyze the request and create a plan with ID {self.active_plan_id}: {request}"

            )

        ]

        self.memory.add_messages(messages)

        response = await self.llm.ask_tool(

            messages=messages,

            system_msgs=[Message.system_message(self.system_prompt)],

            tools=self.available_tools.to_params(),

            tool_choice=ToolChoice.AUTO,

        )

        assistant_msg = Message.from_tool_calls(

            content=response.content, tool_calls=response.tool_calls

        )



        self.memory.add_message(assistant_msg)



        plan_created = False

        for tool_call in response.tool_calls:

            if tool_call.function.name == "planning":

                result = await self.execute_tool(tool_call)

                logger.info(

                    f"Executed tool {tool_call.function.name} with result: {result}"

                )



                # Add tool response to memory

                tool_msg = Message.tool_message(

                    content=result,

                    tool_call_id=tool_call.id,

                    name=tool_call.function.name,

                )

                self.memory.add_message(tool_msg)

                plan_created = True

                break



        if not plan_created:

            logger.warning("No plan created from initial request")

            tool_msg = Message.assistant_message(

                "Error: Parameter plan_id is required for command: create"
            )
            self.memory.add_message(tool_msg)

plan生成后，就是think和act的循環啦！同理，這部分實現代碼在agent/toolcall.py中，如下：think的功能是讓LLM選擇干活的工具，act負責調用具體的工具執行

async def think(self) -> bool:

        """Process current state and decide next actions using tools"""

        if self.next_step_prompt:

            user_msg = Message.user_message(self.next_step_prompt)

            self.messages += [user_msg]



        # Get response with tool options：讓LLM選擇使用哪種工具干活

        response = await self.llm.ask_tool(

            messages=self.messages,

            system_msgs=[Message.system_message(self.system_prompt)]

            if self.system_prompt

            else None,

            tools=self.available_tools.to_params(),

            tool_choice=self.tool_choices,

        )

        self.tool_calls = response.tool_calls



        # Log response info

        logger.info(f"? {self.name}'s thoughts: {response.content}")

        logger.info(

            f" ? {self.name} selected {len(response.tool_calls) if response.tool_calls else 0} tools to use"

        )

        if response.tool_calls:

            logger.info(

                f"  Tools being prepared: {[call.function.name for call in response.tool_calls]}"

            )



        try:

            # Handle different tool_choices modes

            if self.tool_choices == ToolChoice.NONE:

                if response.tool_calls:

                    logger.warning(

                        f"  Hmm, {self.name} tried to use tools when they weren't available!"

                    )

                if response.content:

                    self.memory.add_message(Message.assistant_message(response.content))

                    return True

                return False



            # Create and add assistant message

            assistant_msg = (

                Message.from_tool_calls(

                    content=response.content, tool_calls=self.tool_calls

                )

                if self.tool_calls

                else Message.assistant_message(response.content)

            )

            self.memory.add_message(assistant_msg)



            if self.tool_choices == ToolChoice.REQUIRED and not self.tool_calls:

                return True  # Will be handled in act()



            # For 'auto' mode, continue with content if no commands but content exists

            if self.tool_choices == ToolChoice.AUTO and not self.tool_calls:

                return bool(response.content)



            return bool(self.tool_calls)

        except Exception as e:

            logger.error(f"  Oops! The {self.name}'s thinking process hit a snag: {e}")

            self.memory.add_message(

                Message.assistant_message(

                    f"Error encountered while processing: {str(e)}"

                )

            )

            return False



    async def act(self) -> str:

        """Execute tool calls and handle their results"""

        if not self.tool_calls:

            if self.tool_choices == ToolChoice.REQUIRED:

                raise ValueError(TOOL_CALL_REQUIRED)



            # Return last message content if no tool calls

            return self.messages[-1].content or "No content or commands to execute"



        results = []

        for command in self.tool_calls:

            result = await self.execute_tool(command)#調用具體的工具干活



            if self.max_observe:

                result = result[: self.max_observe]



            logger.info(

                f"  Tool '{command.function.name}' completed its mission! Result: {result}"

            )



            # Add tool response to memory

            tool_msg = Message.tool_message(

                content=result, tool_call_id=command.id, name=command.function.name

            )

            self.memory.add_message(tool_msg)

            results.append(result)



        return "\n\n".join(results)

think和act是循環執行的，直到滿足停止條件，這部分功能在agent/base.py實現的：

async def run(self, request: Optional[str] = None) -> str:

        """Execute the agent's main loop asynchronously.



        Args:

            request: Optional initial user request to process.



        Returns:

            A string summarizing the execution results.



        Raises:

            RuntimeError: If the agent is not in IDLE state at start.

        """

        if self.state != AgentState.IDLE:

            raise RuntimeError(f"Cannot run agent from state: {self.state}")



        if request:

            self.update_memory("user", request)



        results: List[str] = []

        async with self.state_context(AgentState.RUNNING):

            while ( # 循環停止的條件：達到最大步數，或agent的狀態已經是完成的了

                self.current_step < self.max_steps and self.state != AgentState.FINISHED

            ):

                self.current_step += 1

                logger.info(f"Executing step {self.current_step}/{self.max_steps}")

                step_result = await self.step()



                # Check for stuck state

                if self.is_stuck():

                    self.handle_stuck_state()



                results.append(f"Step {self.current_step}: {step_result}")



            if self.current_step >= self.max_steps:

                self.current_step = 0

                self.state = AgentState.IDLE

                results.append(f"Terminated: Reached max steps ({self.max_steps})")



        return "\n".join(results) if results else "No steps executed"

既然是while循環迭代，那每次迭代又有啥不一樣的了？舉個例子：查找AI最新的新聞，并保存到文件中。第一次think，調用LLM的時候輸入用戶的prompt和相應的人設、能使用的tool，讓LLM自己選擇一個合適的tool，并輸出到response中！這里的LLM選擇了google search去查找新聞，并提供了google search的query！

第二次think，給LLM輸入的prompt帶上了第一輪的prompt和response，類似多輪對話，把多個context收集到一起作為這次的最新的prompt，讓LLM繼續輸出結果，也就是第三次的action是啥！

第三次think：同樣包含前面兩次的promt！但這次LLM反饋已經不需要調用任何工具了，所以這個query至此已經完全結束！

整個流程簡單！另外，用戶也可以添加自己的tool，只要符合MCP協議就行！

openManus的設計思路

從外部來看，Manus（以及復刻的 OpenManus）本質上是一個多智能體系統（Multi-Agent System）。不同于單一大模型那種一次性”大而全”的回答方式，多智能體系統通過”規劃—執行—反饋”的循環，逐步解決復雜的真實世界問題。在 OpenManus 的設計中，最核心的思路可以概括為以下幾點：

極簡可插拔框架

OpenManus 的核心設計是構建一個非常精簡的 Agent 框架，強調模塊化和可擴展性。它通過可插拔的工具（Tools）和提示詞（Prompt）的組合來定義 Agent 的功能和行為，降低了開發和定制 Agent 的門檻。

? Prompt 決定 Agent 的行為邏輯和思考方式
? Tools 則提供行動能力（如計算機操作、代碼執行、搜索等）

通過對 Prompt 和 Tools 的自由組合，就能快速”拼裝”出新的 Agent，賦予其處理不同類型任務的能力。

工具驅動的 ReAct Agent

OpenManus 基于 ReAct（Reason + Act）模式，并以工具為核心驅動 Agent 的行動。Prompt 引導 Agent 的推理和邏輯，而 Tools 則賦予 Agent 行動能力。ToolCall Agent 的引入，進一步提升了工具使用的效率和規范性。

規劃能力處理復雜任務

OpenManus 延續了 Manus 的多智能體規劃優勢，將 PlanningTool 用于對用戶需求進行高層規劃。這種”先規劃，后執行”的思路在復雜、長鏈任務上效果更佳。PlanningTool 將復雜的用戶需求分解為線性的子任務計劃，這種規劃能力是處理現實世界復雜問題的關鍵。過去的研究表明，在相同模型能力下，如果缺乏系統的分解和規劃，許多真實問題的成功率會大打折扣；而加入規劃后，成功率會有顯著提升。

動態 Agent 分配與工具調度

當一個任務拆解出若干子任務后，系統會根據子任務類型，動態將其分配給預先定義或適配的 Agent（有各自的工具集和能力傾向）。這種”臨時分配 + 工具協作”的機制，可以最大化利用多模型、多工具的組合優勢，提高應對不同問題場景的靈活度。Agent 預先裝備了不同的工具集以應對不同類型的任務，提高了系統的靈活性和效率。

工作流程與執行路徑

OpenMan

us 的運行流程可以清晰概括為”規劃→分配→執行”，具體步驟如下：

用戶需求輸入

用戶在前端或命令行中輸入復雜的需求，例如”寫一段代碼完成某種功能，并自動部署到服務器上”。

規劃工具

系統先調用 PlanningTool，對需求進行分析與分解，形成一個線性結構的計劃或任務序列。比如，會將需求拆解為：

? 分析需求與環境
? 編寫初始代碼
? 測試并修復錯誤
? 部署并驗證結果

這些子任務被記錄在一個 plan 或類似結構中。

任務分配與執行

如果任務中涉及大規模數據分析或機器學習流程，可能會調用一個具備 Data Interpreter 能力的 Agent；

若任務需要復雜的代碼修復或文件管理，則會調用另一個能夠使用 ComputerUse 工具的 Agent；

系統按照順序從計劃中依次取出子任務；

根據任務關鍵字或意圖判定，分配給最合適的 Agent。目前 Agent 分配主要基于正則匹配，未來考慮使用 LLM 實現更智能的任務分配。

每個 Agent 都會采用 ReAct 循環（Reason + Act）與 Tools 進行交互，以完成自己所負責的子任務。

結果匯總與狀態更新

當某個子任務執行完畢后，系統會將執行結果、關鍵上下文信息進行必要的”總結與壓縮”（以避免不斷增加的冗長 Memory），然后存入當前的”Plan 內存”或全局可訪問的共享內存。

如果任務完成順利，進入下一子任務；

若出現執行失敗或結果異常，系統可進行自動調試或重新規劃，視設計實現程度而定。

整體產出

當所有子任務執行完畢，系統對整體結果進行匯總并返回給用戶，或完成如網頁部署、自動執行腳本等操作。

在這個過程中，多 Agent + 工具的結構會在復雜需求上展現明顯的優勢，尤其當需要長鏈思考、結合搜索或外部工具時，能夠更好地完成通用大模型難以一次性解決的工作。

技術架構剖析

工程結構概覽

項目依賴相對簡單，主要包括一些用于數據驗證（pydantic）、AI 服務調用（openai）、瀏覽器控制（playwright、browsergym、browser-use）和一些基礎工具庫：

? pydantic：數據驗證和設置管理
? openai：OpenAI API 的客戶端庫
? browser-use：構建能使用網絡瀏覽器的 AI 代理框架
? browsergym：訓練 AI 使用網絡瀏覽器的環境
? playwright：瀏覽器自動化庫
? googlesearch-python：無需 API 密鑰進行搜索的庫

這樣的結構設計使得 OpenManus 在提供強大功能的同時保持了極高的可維護性和可擴展性。

核心系統組件

OpenManus 的架構由四個主要模塊構成：

核心多智能體框架（Agent）

Agent 模塊采用清晰的繼承層次，自底向上逐步增強功能：

示例代碼（Manus 實現）：

class Manus(ToolCallAgent):

"""

A versatile general-purpose agent that uses planning to solve various tasks.

"""

name: str = "Manus"

description: str = "A versatile agent that can solve various tasks using multiple tools"



system_prompt: str = SYSTEM_PROMPT

next_step_prompt: str = NEXT_STEP_PROMPT



# Add general-purpose tools to the tool collection

available_tools: ToolCollection = Field(

default_factory=lambda: ToolCollection(

PythonExecute(), GoogleSearch(), BrowserUseTool(), FileSaver(), Terminate()

)

)

? BaseAgent：定義了智能體的基礎屬性（name、memory、system_prompt）和基本行為（執行邏輯、狀態檢查）。
? ReActAgent：實現了經典的 “Reasoning + Acting” 模式，先思考后行動，每一步執行都分為 think 和 act 兩個階段。
? ToolCallAgent：在 ReAct 基礎上進一步細化，使 think 階段專注于工具選擇，act 階段負責執行所選工具。
? Manus：繼承 ToolCallAgent，主要通過定制 system_prompt 和 available_tools 來賦予不同能力。

Tools（工具層）

工具模塊是 OpenManus 的行動能力基礎，各類工具均繼承自 BaseTool：

其中，planning.py 實現了 Manus 著名的計劃功能，用 Markdown 格式管理任務計劃并跟蹤執行進度。

? ComputerUse：命令行和計算機操作
? BrowserUse：網絡瀏覽和交互
? PythonExecute：執行 Python 代碼
? GoogleSearch：網絡搜索
? FileSaver：文件讀寫
? PlanningTool：任務規劃與追蹤

Prompt（提示詞模塊）

Prompt 模塊包含了各種 Agent 使用的指令模板，例如 Planning 的系統提示：

PLANNING_SYSTEM_PROMPT = """

You are an expert Planning Agent tasked with solving complex problems by creating and managing structured plans.

Your job is:

1. Analyze requests to understand the task scope

2. Create clear, actionable plans with the planning tool
3. Execute steps using available tools as needed
4. Track progress and adapt plans dynamically
5. Use finish to conclude when the task is complete

Available tools will vary by task but may include:
- planning: Create, update, and track plans (commands: create, update, mark_step, etc.)
- finish: End the task when complete

Break tasks into logical, sequential steps. Think about dependencies and verification methods.
"""

而 Manus 的系統提示則更加簡潔：

SYSTEM_PROMPT = "You are OpenManus, an all-capable AI assistant, aimed at solving any task presented by the user. 

You have various tools at your disposal that you can call upon to efficiently complete complex requests. 

Whether it's programming, information retrieval, file processing, or web browsing, you can handle it all."

Flow（執行流程模塊）

Flow 模塊負責任務的高層編排和執行流程管理：

PlanningFlow 的執行流程：

每步執行前，系統會生成上下文豐富的提示：

step_prompt = f"""

CURRENT PLAN STATUS:

{plan_status}



YOUR CURRENT TASK:

You are now working on step {self.current_step_index}: "{step_text}"



Please execute this step using the appropriate tools. When you're done, provide a summary of what you accomplished.

"""

BaseFlow：抽象基類，定義了 Agent 管理和執行接口

PlanningFlow：實現基于規劃的執行策略

創建初始計劃（_create_initial_plan）

按計劃步驟調用適當的 Agent

跟蹤計劃執行狀態并動態調整

系統運行機制

基礎版本（Manus）

? 用戶輸入需求，調用 Manus agent 的 run 函數
? run 函數循環執行 step 操作（來自 ReActAgent）
? 每個 step 包含 think（選工具）和 act（執行工具）兩個環節
? 直接使用基礎工具集（Python執行、搜索、瀏覽器、文件保存等）

高級版本（PlanningFlow）

? 使用 PlanningTool 對需求進行整體規劃
? 針對每個子任務動態生成適合的上下文和指令
? 調用 Manus agent 執行各個子任務
? 維護計劃狀態和執行進度

值得注意的是，在當前版本中，雖然 PlanningFlow 具備多智能體調度的能力，但實際上只有單一的 Manus 智能體在執行任務。未來版本可引入更多專業化的 Agent 以充分發揮多智能體協作的優勢。

Memory 管理與 Agent 分配

與前文描述一致，OpenManus 實現了簡單但有效的記憶管理和 Agent 分配機制：

? Memory 管理：每個子任務執行后進行總結壓縮，避免上下文過長
? Agent 分配：當前主要基于正則匹配和規則，后續可考慮 LLM 輔助分配

本體語言

在AI領域，開源項目正逐漸成為推動技術發展的重要力量。OWL Agent，一個由CAMEL-AI團隊推出的開源AI智能體項目，不僅完全復刻了Manus的核心功能，還在靈活性和開源生態上實現了超越。深入了解OWL Agent如何幫助你零成本打造全能的開源AI打工人。

OWL簡介

OWL 的多智能體協作機制通過分層架構和模塊化設計實現高效協作。它的核心組件包括 BaseAgent、ChatAgent、RolePlaying、Workforce 以及 Task 相關 Agent 等，這些組件各司其職，共同完成任務分解、角色分配和任務執行等功能。

核心架構

OWL 的多智能體協作機制主要基于以下幾個核心組件：

? BaseAgent：所有智能體的基類，定義了基本的 reset（）和 step（）接口
? ChatAgent：基礎的對話智能體，負責管理對話和消息處理
? RolePlaying：實現兩個智能體之間的角色扮演對話
? Workforce：實現多個工作節點（agents）協同工作的系統
? Task 相關 Agent：包括 TaskSpecifyAgent、TaskPlannerAgent、TaskCreationAgent 等，負責任務的分解、規劃和創建
? RoleAssignmentAgent：負責根據任務分配合適的角色

架構特點

? 分層架構：通過層次化設計，提升系統的可擴展性和靈活性。
? 任務分解與優先級調整：通過 TaskPlannerAgent 和 TaskPrioritizationAgent 實現復雜任務的分解與優先級動態調整。
? 協作模式：支持多樣化的協作方式，包括角色扮演和工作節點協同。
? 記憶管理：利用 ChatHistoryMemory 記錄并管理對話歷史。
? 工具與 API 集成：支持外部工具和 API 的擴展能力。

這種設計使 OWL 能夠高效處理復雜任務，動態調整任務角色分配，提升多智能體間的協作效率，同時具備自適應學習和優化能力，滿足多樣化的應用需求。

核心功能

? 在線搜索：使用維基百科、谷歌搜索等，進行實時信息檢索
? 多模態處理：支持互聯網或本地視頻、圖片、語音處理
? 瀏覽器操作：借助Playwright框架開發瀏覽器模擬交互，支持頁面滾動、點擊、輸入、下載、歷史回退等功能
? 文件解析：word、excel、PDF、PowerPoint信息提取，內容轉文文本/Markdown
? 代碼執行：編寫python代碼，并使用解釋器運行

核心工作流

OWL將Manus的核心工作流拆解為以下六步：

? 啟動Ubuntu容器，為Agent遠程工作準備環境。
? 知識召回，快速調用已學習的內容。
? 連接數據源，覆蓋數據庫、網盤、云存儲等。
? 數據掛載到Ubuntu，為Agent提供數據支持。
? 自動生成todo.md，規劃任務并創建待辦清單。
? 使用Ubuntu工具鏈和外接工具執行全流程任務。

Ubuntu 工具包

為了實現Agent的遠程操作，OWL配備了強大的Ubuntu Toolkit，支持以下功能：

? 終端命令執行，滿足運維和部署需求。
? 文件解析，支持PDF轉Markdown、網頁爬取等。
? 自動生成報告、代碼和文檔，直接交付成果。
? 瀏覽器操作，支持滾動、點擊、輸入等交互。

內存工具包

與Manus類似，OWL也具備記憶功能，能夠實時存儲新知識，并在任務中召回過往經驗。這使得OWL在處理類似任務時更加高效。

CRAB+OWL：跨平臺掌控力

在Manus爆火之前，CAMEL-AI已經開發了CRAB——一套強大的跨平臺操作系統通用智能體。CRAB不僅能操控Ubuntu容器，還能直接控制手機和電腦中的任何應用。未來，CRAB技術將融入OWL，實現跨平臺、多設備、全場景的遠程操作。

在AI領域，開源的力量是無窮的。OWL項目不僅在0天內復刻了Manus的核心功能，還通過開源模式吸引了全球開發者的參與。它不僅性能卓越，還具備高度的靈活性和擴展性。

OWL 與 openmanus 功能對比

維度	OWL	開放手冊
執行環境	Docker 容器 + 原生系統穿透	本地沙箱環境
任務復雜度	支持多設備聯動任務	單設備線性任務
記憶系統	增量式知識圖譜（支持版本回溯）	臨時記憶池（任務級隔離）
資源消耗	單任務平均 8 萬 tokens	單任務峰值 24 萬 tokens
擴展性	插件市場 + 自定義工具鏈	固定模塊組合