快轉到主要內容
  1. AI/

AI Agent 架構解析|從對話機器人到自主執行

Idle Engineer
作者
Idle Engineer
AI Runs. I Nap. | 404 Career Not Found
目錄

TL;DR | 面試情境模擬
#

👴 面試官:AI Agent 跟一般 Chatbot 差在哪?它的底層架構長怎樣?

🧑‍💻 :Chatbot 是「被動問答」,Agent 是「主動執行」。核心架構包含四大模組:規劃 (Planning)記憶 (Memory)工具使用 (Tool Use)行動 (Action)。Agent 會透過 ReAct 框架拆解任務,自主呼叫外部 API 或寫程式,並根據執行結果自我修正,直到完成目標。


💡 核心比喻:從「客服」到「實習生」
#

  • Chatbot (客服):你問一句,它回一句。它只有「嘴」,沒有「手腳」,也記不住你上個月說過什麼。
  • Agent (實習生):你只給它一個目標(例如:「幫我整理本週伺服器錯誤日誌並寄給主管」)。它會自己拆步驟:登入資料庫 -> 撈資料 -> 跑 Python 分析 -> 寫 Email -> 發送。它有大腦規劃能力長期記憶,還有會操作工具的手

🧱 AI Agent 四大核心模組
#

現代 AI Agent 的架構通常基於 LangChain 或 AutoGen 等框架,但底層邏輯皆由以下四大支柱組成:

1. 大腦 / 規劃 (Planning & Brain)
#

LLM 本身只負責「理解與生成文字」,Planning 模組讓它學會思考:

  • 任務拆解 (Task Decomposition):將複雜目標拆成可執行的小步驟(如:先搜尋 -> 再篩選 -> 最後總結)。
  • 自我反思 (Self-Reflection):如果工具回傳錯誤,Agent 會判斷是參數錯還是邏輯錯,自動調整策略重試,而不是直接當機。

2. 記憶系統 (Memory)
#

  • 短期記憶:即時的對話上下文(Context Window),讓 Agent 知道目前進行到哪一步。
  • 長期記憶:將歷史經驗、使用者偏好或重要知識轉為 Embeddings 存入向量資料庫。下次遇到類似任務時,能直接檢索過去的解決方案。

3. 工具集 (Tools / Plugins)
#

LLM 被隔離在沙盒中,不知道現在幾點、無法連網。Tools 就是賦予它「手腳」的介面:

  • 搜尋引擎:Google Search / Bing API(獲取即時資訊)。
  • 程式碼執行器 (Code Interpreter):跑 Python 進行數據計算或畫圖。
  • 資料庫/檔案系統:讀取 CSV、查詢 MySQL。
  • API 串接:發送 Slack 訊息、叫外送、建立 Jira Ticket。

4. 行動與反饋 (Action & Observation)
#

Agent 發出指令後,環境會回傳結果(Observation)。這個迴圈是 Agent 能否「自主」的關鍵。


📊 數據流:Agent 是怎麼工作的?(ReAct 框架)
#

業界最標準的 Agent 執行邏輯是 ReAct (Reasoning + Acting)。以下以「查詢台北明天天氣並提醒我帶傘」為例:

[使用者輸入] "明天台北天氣如何?需要帶傘嗎?"
1️⃣ Thought (思考):我需要查台北明天的天氣預報。應該呼叫 Weather_API。
2️⃣ Action (行動):呼叫 tool: weather_api(location="Taipei", date="tomorrow")
3️⃣ Observation (觀察):API 回傳結果 -> { rain_prob: 85%, temp: 22°C }
4️⃣ Thought (反思):降雨機率 85% 很高,結論是需要帶傘。整理成回覆。
5️⃣ Final Answer (輸出):"明天台北降雨機率高達 85%,氣溫 22 度,建議攜帶雨傘。"

關鍵點:整個過程是循環 (Loop)。如果第 3 步 API 回傳錯誤或資料不足,Agent 會回到第 1 步換個工具或參數再試,直到拿到足夠資訊為止。


💡 進階補充:Agent 的演進路線
#

階段 架構名稱 能力特徵 適合場景
L1 Zero-Shot Chatbot 純問答,無記憶無工具 翻譯、閒聊、基礎知識查詢
L2 Chain of Thought (CoT) 會一步步推理解題 數學計算、邏輯推理
L3 ReAct Agent 會思考 + 呼叫外部工具 資料分析、即時資訊搜尋、自動化流程
L4 Multi-Agent System 多個 Agent 分工合作(如 PM 分配任務給 Engineer 與 Tester) 大型軟體開發、複雜專案模擬

📝 總結:一句話秒懂
#

  • Chatbot 是「知識庫」,負責回答你已經知道的或網路上有的東西。
  • AI Agent 是「執行引擎」,負責把「不知道怎麼做」的目標,拆解成步驟、動用工具,最後幫你做完

面試一句話總結: Agent 的核心在於 ReAct 循環工具串接 (Tool Calling)。它讓 LLM 從「只會說話的大腦」進化成「能操作系統、具備長期記憶的數位員工」,是未來企業自動化的關鍵架構。