TL;DR | 面試情境模擬 #
👴 面試官:AI Agent 跟一般 Chatbot 差在哪?它的底層架構長怎樣?
🧑💻 你:Chatbot 是「被動問答」,Agent 是「主動執行」。核心架構包含四大模組:規劃 (Planning)、記憶 (Memory)、工具使用 (Tool Use) 與 行動 (Action)。Agent 會透過 ReAct 框架拆解任務,自主呼叫外部 API 或寫程式,並根據執行結果自我修正,直到完成目標。
💡 核心比喻:從「客服」到「實習生」 #
- Chatbot (客服):你問一句,它回一句。它只有「嘴」,沒有「手腳」,也記不住你上個月說過什麼。
- Agent (實習生):你只給它一個目標(例如:「幫我整理本週伺服器錯誤日誌並寄給主管」)。它會自己拆步驟:登入資料庫 -> 撈資料 -> 跑 Python 分析 -> 寫 Email -> 發送。它有大腦規劃能力、長期記憶,還有會操作工具的手。
🧱 AI Agent 四大核心模組 #
現代 AI Agent 的架構通常基於 LangChain 或 AutoGen 等框架,但底層邏輯皆由以下四大支柱組成:
1. 大腦 / 規劃 (Planning & Brain) #
LLM 本身只負責「理解與生成文字」,Planning 模組讓它學會思考:
- 任務拆解 (Task Decomposition):將複雜目標拆成可執行的小步驟(如:先搜尋 -> 再篩選 -> 最後總結)。
- 自我反思 (Self-Reflection):如果工具回傳錯誤,Agent 會判斷是參數錯還是邏輯錯,自動調整策略重試,而不是直接當機。
2. 記憶系統 (Memory) #
- 短期記憶:即時的對話上下文(Context Window),讓 Agent 知道目前進行到哪一步。
- 長期記憶:將歷史經驗、使用者偏好或重要知識轉為 Embeddings 存入向量資料庫。下次遇到類似任務時,能直接檢索過去的解決方案。
3. 工具集 (Tools / Plugins) #
LLM 被隔離在沙盒中,不知道現在幾點、無法連網。Tools 就是賦予它「手腳」的介面:
- 搜尋引擎:Google Search / Bing API(獲取即時資訊)。
- 程式碼執行器 (Code Interpreter):跑 Python 進行數據計算或畫圖。
- 資料庫/檔案系統:讀取 CSV、查詢 MySQL。
- API 串接:發送 Slack 訊息、叫外送、建立 Jira Ticket。
4. 行動與反饋 (Action & Observation) #
Agent 發出指令後,環境會回傳結果(Observation)。這個迴圈是 Agent 能否「自主」的關鍵。
📊 數據流:Agent 是怎麼工作的?(ReAct 框架) #
業界最標準的 Agent 執行邏輯是 ReAct (Reasoning + Acting)。以下以「查詢台北明天天氣並提醒我帶傘」為例:
[使用者輸入] "明天台北天氣如何?需要帶傘嗎?"
↓
1️⃣ Thought (思考):我需要查台北明天的天氣預報。應該呼叫 Weather_API。
↓
2️⃣ Action (行動):呼叫 tool: weather_api(location="Taipei", date="tomorrow")
↓
3️⃣ Observation (觀察):API 回傳結果 -> { rain_prob: 85%, temp: 22°C }
↓
4️⃣ Thought (反思):降雨機率 85% 很高,結論是需要帶傘。整理成回覆。
↓
5️⃣ Final Answer (輸出):"明天台北降雨機率高達 85%,氣溫 22 度,建議攜帶雨傘。"
關鍵點:整個過程是循環 (Loop)。如果第 3 步 API 回傳錯誤或資料不足,Agent 會回到第 1 步換個工具或參數再試,直到拿到足夠資訊為止。
💡 進階補充:Agent 的演進路線 #
| 階段 | 架構名稱 | 能力特徵 | 適合場景 |
|---|---|---|---|
| L1 | Zero-Shot Chatbot | 純問答,無記憶無工具 | 翻譯、閒聊、基礎知識查詢 |
| L2 | Chain of Thought (CoT) | 會一步步推理解題 | 數學計算、邏輯推理 |
| L3 | ReAct Agent | 會思考 + 呼叫外部工具 | 資料分析、即時資訊搜尋、自動化流程 |
| L4 | Multi-Agent System | 多個 Agent 分工合作(如 PM 分配任務給 Engineer 與 Tester) | 大型軟體開發、複雜專案模擬 |
📝 總結:一句話秒懂 #
- Chatbot 是「知識庫」,負責回答你已經知道的或網路上有的東西。
- AI Agent 是「執行引擎」,負責把「不知道怎麼做」的目標,拆解成步驟、動用工具,最後幫你做完。
面試一句話總結: Agent 的核心在於 ReAct 循環與工具串接 (Tool Calling)。它讓 LLM 從「只會說話的大腦」進化成「能操作系統、具備長期記憶的數位員工」,是未來企業自動化的關鍵架構。