LLM 是什麼｜從 Transformer 到 ChatGPT 的核心原理

TL;DR | 面試情境模擬
#

👴 面試官：LLM 是什麼？它怎麼生成文字的？

🧑‍💻 你：LLM（Large Language Model）是用大量文字資料訓練的神經網路，核心架構是 Transformer。它的運作原理是：給定一段輸入文字，預測「接下來最可能出現的 token 是什麼」，然後把這個 token 加進去，再預測下一個，不斷重複直到結束。它不是「理解」語言，而是學到了語言的統計規律。GPT、Claude、Gemini 都是這個架構的應用。

比喻：超強的文字接龍
#

想像一個人看過了整個網路上的所有文字，現在你說「The capital of France is」，他不需要「知道」法國首都，他只需要知道「在這個句型之後，接 Paris 的機率最高」。LLM 就是做這件事——超精準的文字接龍機器。

核心概念
#

Token 是什麼？
#

LLM 不是以「字」為單位，而是以 Token 為單位處理文字。

"Hello, world!"  →  ["Hello", ",", " world", "!"]  →  4 tokens
"ChatGPT"        →  ["Chat", "G", "PT"]            →  3 tokens
「你好」          →  ["你", "好"]                   →  2 tokens

英文大約 1 token ≈ 0.75 個字，中文大約 1 token ≈ 1 個字。API 計費就是以 token 數計算。

Transformer 架構
#

2017 年 Google 的論文《Attention Is All You Need》提出，現代幾乎所有 LLM 都基於這個架構。

輸入 tokens
    │
    ▼
Embedding（把 token 轉成數字向量）
    │
    ▼
Attention 層（計算每個 token 和其他 token 的關聯程度）
    │
    ▼
Feed Forward 層（非線性轉換）
    │
    ▼
重複 N 次（GPT-4 約 96 層）
    │
    ▼
輸出：下一個 token 的機率分佈

Attention 機制 是關鍵：讓模型在處理每個詞時，能「注意到」句子中其他相關的詞。例如處理「它」時，能回頭找到指的是哪個名詞。

訓練過程
#

LLM 的訓練分三個階段：

1. Pre-training（預訓練）
#

在數兆個 token 的文字上，學會預測下一個 token。這個階段產生的模型叫 Base Model，知識淵博但不知道怎麼和人對話。

2. Supervised Fine-tuning（SFT）
#

用人工標記的對話資料微調，讓模型學會「問答」的格式。

3. RLHF（人類回饋強化學習）
#

人類對模型的回應打分數，用強化學習讓模型更傾向於人類喜歡的輸出（有幫助、無害、誠實）。

Base Model（知識多但不會對話）
    → SFT（學會問答格式）
    → RLHF（讓回答更好更安全）
    → 最終產品（ChatGPT / Claude）

常見 LLM 比較
#

模型	公司	特點
GPT-4o	OpenAI	多模態（文字、圖片、語音）
Claude 3.5 Sonnet	Anthropic	長 context、安全性強
Gemini 1.5 Pro	Google	超長 context（1M tokens）
Llama 3	Meta	開源，可本地運行
Mistral	Mistral AI	開源，效能/大小比優秀

💡 延伸問題
#

Q1：LLM 有沒有「真的理解」語言？
#

這是哲學問題，沒有定論。LLM 確實展現出推理能力，但它的機制是統計預測，不是符號邏輯推理。「中文房間」思想實驗描述了類似的問題：一個按規則操作符號的系統是否真的「理解」？

Q2：為什麼 LLM 會幻覺（Hallucination）？
#

LLM 的訓練目標是「生成高機率的下一個 token」，而不是「說出事實」。當它不知道某件事時，不會說「我不知道」，而是生成聽起來合理的文字。解法：RAG（讓模型引用真實文件）、Chain-of-Thought（讓推理過程可見）、要求模型說明信心程度。

Q3：參數量（1B、70B、405B）代表什麼？
#

參數是模型神經網路的權重數量，越多代表模型容量越大，通常效能越好，但推理成本也越高。7B 模型可以在消費級 GPU 跑，70B 需要高階 GPU，405B 需要多張 A100。

TL;DR | 面試情境模擬 #

比喻：超強的文字接龍 #

核心概念 #

Token 是什麼？ #

Transformer 架構 #

訓練過程 #

1. Pre-training（預訓練） #

2. Supervised Fine-tuning（SFT） #

3. RLHF（人類回饋強化學習） #

常見 LLM 比較 #

💡 延伸問題 #

Q1：LLM 有沒有「真的理解」語言？ #

Q2：為什麼 LLM 會幻覺（Hallucination）？ #

Q3：參數量（1B、70B、405B）代表什麼？ #