AI Agent 架構解析｜從對話機器人到自主執行

TL;DR | 面試情境模擬
#

👴 面試官：AI Agent 跟一般 Chatbot 差在哪？它的底層架構長怎樣？

🧑‍💻 你：Chatbot 是「被動問答」，Agent 是「主動執行」。核心架構包含四大模組：規劃 (Planning)、記憶 (Memory)、工具使用 (Tool Use) 與 行動 (Action)。Agent 會透過 ReAct 框架拆解任務，自主呼叫外部 API 或寫程式，並根據執行結果自我修正，直到完成目標。

💡 核心比喻：從「客服」到「實習生」
#

Chatbot (客服)：你問一句，它回一句。它只有「嘴」，沒有「手腳」，也記不住你上個月說過什麼。
Agent (實習生)：你只給它一個目標（例如：「幫我整理本週伺服器錯誤日誌並寄給主管」）。它會自己拆步驟：登入資料庫 -> 撈資料 -> 跑 Python 分析 -> 寫 Email -> 發送。它有大腦規劃能力、長期記憶，還有會操作工具的手。

🧱 AI Agent 四大核心模組
#

現代 AI Agent 的架構通常基於 LangChain 或 AutoGen 等框架，但底層邏輯皆由以下四大支柱組成：

1. 大腦 / 規劃 (Planning & Brain)
#

LLM 本身只負責「理解與生成文字」，Planning 模組讓它學會思考：

任務拆解 (Task Decomposition)：將複雜目標拆成可執行的小步驟（如：先搜尋 -> 再篩選 -> 最後總結）。
自我反思 (Self-Reflection)：如果工具回傳錯誤，Agent 會判斷是參數錯還是邏輯錯，自動調整策略重試，而不是直接當機。

2. 記憶系統 (Memory)
#

短期記憶：即時的對話上下文（Context Window），讓 Agent 知道目前進行到哪一步。
長期記憶：將歷史經驗、使用者偏好或重要知識轉為 Embeddings 存入向量資料庫。下次遇到類似任務時，能直接檢索過去的解決方案。

3. 工具集 (Tools / Plugins)
#

LLM 被隔離在沙盒中，不知道現在幾點、無法連網。Tools 就是賦予它「手腳」的介面：

搜尋引擎：Google Search / Bing API（獲取即時資訊）。
程式碼執行器 (Code Interpreter)：跑 Python 進行數據計算或畫圖。
資料庫/檔案系統：讀取 CSV、查詢 MySQL。
API 串接：發送 Slack 訊息、叫外送、建立 Jira Ticket。

4. 行動與反饋 (Action & Observation)
#

Agent 發出指令後，環境會回傳結果（Observation）。這個迴圈是 Agent 能否「自主」的關鍵。

📊 數據流：Agent 是怎麼工作的？（ReAct 框架）
#

業界最標準的 Agent 執行邏輯是 ReAct (Reasoning + Acting)。以下以「查詢台北明天天氣並提醒我帶傘」為例：

[使用者輸入] "明天台北天氣如何？需要帶傘嗎？"
      ↓
1️⃣ Thought (思考)：我需要查台北明天的天氣預報。應該呼叫 Weather_API。
      ↓
2️⃣ Action (行動)：呼叫 tool: weather_api(location="Taipei", date="tomorrow")
      ↓
3️⃣ Observation (觀察)：API 回傳結果 -> { rain_prob: 85%, temp: 22°C }
      ↓
4️⃣ Thought (反思)：降雨機率 85% 很高，結論是需要帶傘。整理成回覆。
      ↓
5️⃣ Final Answer (輸出)："明天台北降雨機率高達 85%，氣溫 22 度，建議攜帶雨傘。"

關鍵點：整個過程是循環 (Loop)。如果第 3 步 API 回傳錯誤或資料不足，Agent 會回到第 1 步換個工具或參數再試，直到拿到足夠資訊為止。

💡 進階補充：Agent 的演進路線
#

階段	架構名稱	能力特徵	適合場景
L1	Zero-Shot Chatbot	純問答，無記憶無工具	翻譯、閒聊、基礎知識查詢
L2	Chain of Thought (CoT)	會一步步推理解題	數學計算、邏輯推理
L3	ReAct Agent	會思考 + 呼叫外部工具	資料分析、即時資訊搜尋、自動化流程
L4	Multi-Agent System	多個 Agent 分工合作（如 PM 分配任務給 Engineer 與 Tester）	大型軟體開發、複雜專案模擬

📝 總結：一句話秒懂
#

Chatbot 是「知識庫」，負責回答你已經知道的或網路上有的東西。
AI Agent 是「執行引擎」，負責把「不知道怎麼做」的目標，拆解成步驟、動用工具，最後幫你做完。

面試一句話總結： Agent 的核心在於 ReAct 循環與工具串接 (Tool Calling)。它讓 LLM 從「只會說話的大腦」進化成「能操作系統、具備長期記憶的數位員工」，是未來企業自動化的關鍵架構。

TL;DR | 面試情境模擬 #

💡 核心比喻：從「客服」到「實習生」 #

🧱 AI Agent 四大核心模組 #

1. 大腦 / 規劃 (Planning & Brain) #

2. 記憶系統 (Memory) #

3. 工具集 (Tools / Plugins) #

4. 行動與反饋 (Action & Observation) #

📊 數據流：Agent 是怎麼工作的？（ReAct 框架） #

💡 進階補充：Agent 的演進路線 #

📝 總結：一句話秒懂 #