快轉到主要內容
  1. AI/

LLM 是什麼|從 Transformer 到 ChatGPT 的核心原理

Idle Engineer
作者
Idle Engineer
AI Runs. I Nap. | 404 Career Not Found
目錄

TL;DR | 面試情境模擬
#

👴 面試官:LLM 是什麼?它怎麼生成文字的?

🧑‍💻 :LLM(Large Language Model)是用大量文字資料訓練的神經網路,核心架構是 Transformer。它的運作原理是:給定一段輸入文字,預測「接下來最可能出現的 token 是什麼」,然後把這個 token 加進去,再預測下一個,不斷重複直到結束。它不是「理解」語言,而是學到了語言的統計規律。GPT、Claude、Gemini 都是這個架構的應用。


比喻:超強的文字接龍
#

想像一個人看過了整個網路上的所有文字,現在你說「The capital of France is」,他不需要「知道」法國首都,他只需要知道「在這個句型之後,接 Paris 的機率最高」。LLM 就是做這件事——超精準的文字接龍機器。


核心概念
#

Token 是什麼?
#

LLM 不是以「字」為單位,而是以 Token 為單位處理文字。

"Hello, world!"  →  ["Hello", ",", " world", "!"]  →  4 tokens
"ChatGPT"        →  ["Chat", "G", "PT"]            →  3 tokens
「你好」          →  ["你", "好"]                   →  2 tokens

英文大約 1 token ≈ 0.75 個字,中文大約 1 token ≈ 1 個字。API 計費就是以 token 數計算。

Transformer 架構
#

2017 年 Google 的論文《Attention Is All You Need》提出,現代幾乎所有 LLM 都基於這個架構。

輸入 tokens
Embedding(把 token 轉成數字向量)
Attention 層(計算每個 token 和其他 token 的關聯程度)
Feed Forward 層(非線性轉換)
重複 N 次(GPT-4 約 96 層)
輸出:下一個 token 的機率分佈

Attention 機制 是關鍵:讓模型在處理每個詞時,能「注意到」句子中其他相關的詞。例如處理「它」時,能回頭找到指的是哪個名詞。


訓練過程
#

LLM 的訓練分三個階段:

1. Pre-training(預訓練)
#

在數兆個 token 的文字上,學會預測下一個 token。這個階段產生的模型叫 Base Model,知識淵博但不知道怎麼和人對話。

2. Supervised Fine-tuning(SFT)
#

用人工標記的對話資料微調,讓模型學會「問答」的格式。

3. RLHF(人類回饋強化學習)
#

人類對模型的回應打分數,用強化學習讓模型更傾向於人類喜歡的輸出(有幫助、無害、誠實)。

Base Model(知識多但不會對話)
    → SFT(學會問答格式)
    → RLHF(讓回答更好更安全)
    → 最終產品(ChatGPT / Claude)

常見 LLM 比較
#

模型 公司 特點
GPT-4o OpenAI 多模態(文字、圖片、語音)
Claude 3.5 Sonnet Anthropic 長 context、安全性強
Gemini 1.5 Pro Google 超長 context(1M tokens)
Llama 3 Meta 開源,可本地運行
Mistral Mistral AI 開源,效能/大小比優秀

💡 延伸問題
#

Q1:LLM 有沒有「真的理解」語言?
#

這是哲學問題,沒有定論。LLM 確實展現出推理能力,但它的機制是統計預測,不是符號邏輯推理。「中文房間」思想實驗描述了類似的問題:一個按規則操作符號的系統是否真的「理解」?

Q2:為什麼 LLM 會幻覺(Hallucination)?
#

LLM 的訓練目標是「生成高機率的下一個 token」,而不是「說出事實」。當它不知道某件事時,不會說「我不知道」,而是生成聽起來合理的文字。解法:RAG(讓模型引用真實文件)、Chain-of-Thought(讓推理過程可見)、要求模型說明信心程度。

Q3:參數量(1B、70B、405B)代表什麼?
#

參數是模型神經網路的權重數量,越多代表模型容量越大,通常效能越好,但推理成本也越高。7B 模型可以在消費級 GPU 跑,70B 需要高階 GPU,405B 需要多張 A100。