TL;DR | 面試情境模擬 #
👴 面試官:LLM 是什麼?它怎麼生成文字的?
🧑💻 你:LLM(Large Language Model)是用大量文字資料訓練的神經網路,核心架構是 Transformer。它的運作原理是:給定一段輸入文字,預測「接下來最可能出現的 token 是什麼」,然後把這個 token 加進去,再預測下一個,不斷重複直到結束。它不是「理解」語言,而是學到了語言的統計規律。GPT、Claude、Gemini 都是這個架構的應用。
比喻:超強的文字接龍 #
想像一個人看過了整個網路上的所有文字,現在你說「The capital of France is」,他不需要「知道」法國首都,他只需要知道「在這個句型之後,接 Paris 的機率最高」。LLM 就是做這件事——超精準的文字接龍機器。
核心概念 #
Token 是什麼? #
LLM 不是以「字」為單位,而是以 Token 為單位處理文字。
"Hello, world!" → ["Hello", ",", " world", "!"] → 4 tokens
"ChatGPT" → ["Chat", "G", "PT"] → 3 tokens
「你好」 → ["你", "好"] → 2 tokens
英文大約 1 token ≈ 0.75 個字,中文大約 1 token ≈ 1 個字。API 計費就是以 token 數計算。
Transformer 架構 #
2017 年 Google 的論文《Attention Is All You Need》提出,現代幾乎所有 LLM 都基於這個架構。
輸入 tokens
│
▼
Embedding(把 token 轉成數字向量)
│
▼
Attention 層(計算每個 token 和其他 token 的關聯程度)
│
▼
Feed Forward 層(非線性轉換)
│
▼
重複 N 次(GPT-4 約 96 層)
│
▼
輸出:下一個 token 的機率分佈
Attention 機制 是關鍵:讓模型在處理每個詞時,能「注意到」句子中其他相關的詞。例如處理「它」時,能回頭找到指的是哪個名詞。
訓練過程 #
LLM 的訓練分三個階段:
1. Pre-training(預訓練) #
在數兆個 token 的文字上,學會預測下一個 token。這個階段產生的模型叫 Base Model,知識淵博但不知道怎麼和人對話。
2. Supervised Fine-tuning(SFT) #
用人工標記的對話資料微調,讓模型學會「問答」的格式。
3. RLHF(人類回饋強化學習) #
人類對模型的回應打分數,用強化學習讓模型更傾向於人類喜歡的輸出(有幫助、無害、誠實)。
Base Model(知識多但不會對話)
→ SFT(學會問答格式)
→ RLHF(讓回答更好更安全)
→ 最終產品(ChatGPT / Claude)
常見 LLM 比較 #
| 模型 | 公司 | 特點 |
|---|---|---|
| GPT-4o | OpenAI | 多模態(文字、圖片、語音) |
| Claude 3.5 Sonnet | Anthropic | 長 context、安全性強 |
| Gemini 1.5 Pro | 超長 context(1M tokens) | |
| Llama 3 | Meta | 開源,可本地運行 |
| Mistral | Mistral AI | 開源,效能/大小比優秀 |
💡 延伸問題 #
Q1:LLM 有沒有「真的理解」語言? #
這是哲學問題,沒有定論。LLM 確實展現出推理能力,但它的機制是統計預測,不是符號邏輯推理。「中文房間」思想實驗描述了類似的問題:一個按規則操作符號的系統是否真的「理解」?
Q2:為什麼 LLM 會幻覺(Hallucination)? #
LLM 的訓練目標是「生成高機率的下一個 token」,而不是「說出事實」。當它不知道某件事時,不會說「我不知道」,而是生成聽起來合理的文字。解法:RAG(讓模型引用真實文件)、Chain-of-Thought(讓推理過程可見)、要求模型說明信心程度。
Q3:參數量(1B、70B、405B)代表什麼? #
參數是模型神經網路的權重數量,越多代表模型容量越大,通常效能越好,但推理成本也越高。7B 模型可以在消費級 GPU 跑,70B 需要高階 GPU,405B 需要多張 A100。