GenAI演進之路：關鍵技術里程碑

過去這十年，對於AI可算是一段人類腦力大爆發，激動人心的時刻。從對深度學習潛力的各種驚喜探索，到最終引發GenAI全領域的爆發式增長。本文沿著記憶的軌跡回顧過去超過一甲子時間，重新審視GenAI一路走來的重要里程碑。

Mar 14, 2026

前言

在交大攻讀研究所期間，我曾對當時流行的類神經網路抱有偏見，因而未加入那位教授的研究室，反而選擇了偏向數理統計的研究方向。我的論文探討時間序列，涉及股價與總體經濟的關係。當時，我認定類神經網路是「偽科學」，認為學好線性代數、機率與統計才是正統之道。殊不知，當時的神經網路研究正處於隧道深處，距離曙光僅咫尺之遙。那個實驗室的同學們，日後成為微軟台灣總經理、鉅亨網總經理、Google副總經理、富邦銀行香港財富管理總經理，還有交大傑出校友及交大資工傑出系友等。多年後，我才意識到這個實驗室真是人才輩出。

三年前，我投入時間深入了解機器學習，並順利取得IBM Professional Data Scientist證照。當時我自以為深度學習不過是機器學習的延伸，卻未料到這是截然不同的知識領域。後來重返台大進修，終於有機會坐在課堂上系統地學習。

秉持著向Elon Musk學習的精神，堅持追求知識的第一性原理，我深信GenAI（生成式AI）將徹底顛覆未來的工作模式並重塑世界。GenAI如此強大，其知識積累的過程究竟經歷了哪些重要的里程碑？我花了兩週時間仔細梳理，試圖整理出這段歷程。如果你也想探究這段精彩的知識之旅，歡迎跟隨本文一同探索。

在整個AI革命的背後，蘊藏著一個深刻的理念：模式預測可以引導智能。機器所感知或聽到的一切、它所執行的每個動作，甚至思想本身，都可以透過模式來理解。一旦機器學會預測這些模式，它便能創造出新的模式，進而模仿並常常超越人類的能力。

可以說，自然界在三個不同的層次上解決了學習問題。第一層是進化學習，它基於一個簡單的策略：嘗試隨機的變異，並保留那些能夠存活下來的變異。然而，這是一個極為緩慢的學習過程，跨越數代進行，難以適應生命中快速的環境變化。於是，自然界演化出了第二層學習，其速度快得多——利用大腦在個體的生命週期內適應行為。大腦使生物能夠進行隨機探索，並根據獎勵或痛苦的經驗，選擇更有效的行為，這便是所謂的強化學習。這一機制構成了AI範式——機器學習的基礎。我們不再試圖透過指令來編程機器，而是讓它從零開始，通過學習信號來掌握一切。

早在1960年代，當時在MIT任職的Donald Michie展示了他的第一台強化學習機器。這台機器利用火柴盒和彩色珠子來玩井字遊戲（Tic-Tac-Toe）：每個火柴盒代表一個特定的棋盤狀態，內含的彩色珠子則對應於從該狀態出發的各種可能移動。遊戲的玩法十分簡單：當你走完一步後，操作員（當時尚無電腦）會找到對應當前棋盤狀態的火柴盒，隨機抽出一顆珠子，珠子的顏色決定機器的下一步移動。如果機器贏得比賽，便會在該場遊戲中所有移動對應的火柴盒中，添加更多獲勝顏色的珠子，以強化這些動作；反之，若輸掉比賽，則移除相應的珠子。透過這一簡單的基於獎勵的過程，機器逐漸發現了完美的遊戲策略。這些獲勝的策略並非透過編程預先設定，而是從經驗中自然湧現的。
（關於這個遊戲 MENACE（Matchbox Educable Noughts and Crosses Engine）的介紹，Youtube連結在此）

Tic-Tac-Toe computer learns with beans - Make:

雖然這表明機器可以學習，但它有一個關鍵限制：每種可能的情況或棋盤狀態都需要一個單獨的盒子，由人類選擇。要真正模擬大腦，機器需要自己的感知能力，也就是自行識別模式的能力，這就是我們所說的抽象（abstraction）。形成抽象是你自動進行的行為，忽略瑣碎的差異，專注於潛在的相似性。抽象讓你能夠忽略無關緊要的差異，關注事物背後的共同模式。

為了打造一台能學習抽象的機器，研究人員從自然界尋找靈感。在19世紀末，腦科學家發現，大腦是一個由神經元組成的龐大網路。來自五官接受到的信息，深入大腦層次進行處理，神經元分層次發射，形成連鎖反應，構成一連串的活動模式。當看到一隻貓或一隻狗時，如果觀察大腦第一層的神經元，依這些模式，起初很難區分是貓是狗，但隨著信號穿過更深層的大腦，它們開始分離成不同的激活模式1。到最深層時，貓和狗觸發的是完全不同的神經元群。事實上，你所有的思想都以深層腦中的獨特激活模式存在。一個思想就是一大群神經元中的活動模式。事實上，科學家現在可以透過觀察人的大腦活動，知道實驗者正在想什麼圖像。

Frank Rosenblatt with his Mark I perceptron(left), and a graphical representation of it(right)

上圖是Frank Rosenblatt在1958年試圖打造的——由電子元件組成的人工腦組織。他使用電晶體（一種微型的電子開關）作為人工神經元，並將其連接成一個三層網絡。第一層連接到一個人工視網膜，負責讀取圖像中的像素點；隨後的層次則採用隨機連接，並通過學習過程逐步演化。網絡的輸出極為簡單：僅有兩個燈泡，其中一個代表「正方形」，另一個代表「圓形」。Rosenblatt的網絡依賴於試錯學習法，每個神經元之間的連接強度由一個調光旋鈕控制，該旋鈕調節電流的大小，模擬大腦中神經連接的增強或減弱。

起初，當網絡接收到一張圖像時，它無法準確判斷圖像的形狀，會同時激活代表圓形和正方形的輸出。為了訓練網絡，Rosenblatt會微調每個連接的旋鈕，觀察輸出的變化，並保留那些有助於正確識別的調整。經過足夠多的訓練樣本後，網絡便能獨立識別模式，無需再進行手動調整。這種通過調整權重並保留有益變化的方法，正是當今所有AI學習算法的基礎。在這個網絡中，某些神經元學會了對曲線產生敏感反應，而其他神經元則專注於檢測邊緣，這與人類大腦的運作方式類似。

Rosenblatt's perceptron, the first modern neural network | by Jean-Christophe B. Loiseau | TDS Archive | Medium

關於 Rosenblatt 的感知網路介紹，連結在此。

Yann LeCun takes the road untraveled to redefine the AI world — Yann LeCun

到1980年代末，Yann LeCun 展示了大型神經網絡的潛力，成功解決了業界面臨的一項實際問題——快速識別信封上的手寫地址。他訓練了一個網絡，透過數千個樣本學習識別手寫數字。與 Rosenblatt 的網絡類似，其早期層次負責檢測基本的曲線和邊緣，而更深層次則構建了一個層次結構，將這些簡單的模式組合成更複雜的特徵，例如環形檢測器，最終形成數字檢測器。這個過程將無數的手寫變體轉化為九種可能的數字輸出。

Image Classification in 10 Minutes with MNIST Dataset | by Orhan G. Yalçın | TDS Archive | Medium

為了深入理解這些網絡內部的工作機制，我們可以可視化它們如何在空間上組織信息。在網絡的第一層，相似的對象（例如不同的手寫數字「2」）是隨機分散的。然而，隨著信號穿過各個層次，網絡學會了轉換這個空間，逐漸將相似的樣本聚集在一起。到了最後一層，所有的「2」會聚集在一個區域，所有的「3」則聚集在另一個區域，形成我們所謂的「概念區域」。這一現象為我們提供了一個深刻的洞見：一個概念在本質上就是空間中的一個區域。

MNIST Database Multilayer Perceptron Artificial Neural Network Statistical Classification Machine Learning, PNG, 1600x734px, Mnist Database, Area,

然而，這種方法直到2012年的ImageNet比賽才迎來了真正的突破。ImageNet是一個年度競賽，旨在挑戰研究人員創建能自動識別圖像內容的電腦程序。來自多倫多大學的團隊2將Yann LeCun的技術擴展到前所未有的規模，他們利用數百萬張標記圖像訓練自己的神經網絡，並發現了一些令人驚嘆的現象：儘管網絡的早期層次仍專注於檢測邊緣、曲線和基本形狀，但更深層次卻能識別出越來越複雜的模式——如紋理，甚至是面部特徵。這一發現解釋了為何兩張像素完全不同的狗的圖像，在第一層會激活截然不同的神經元，但在更深層次卻能觸發相同的「狗」神經元。

Google Hires Brains that Helped Supercharge Machine Learning | WIRED — Geoffrey Hinton, Alex Krizhevsky, and Ilya Sutskever (right to left)

這個神經網絡完全依靠自身學習，無需人類編程，最終在圖像識別任務上超越了人類的表現。這一成就，在比賽前夕，幾乎無人預料。該方法被稱為深度學習，其核心論點無可辯駁：只要神經網絡足夠深且規模足夠大，它就能被訓練來解決極其困難的任務。關鍵在於「深度」和「規模」。起初，學界並未重視大型神經網絡的潛力，然而，正是這種對模式識別的深入探索，帶來了革命性的突破。

下一個重大進展源於一個關鍵的轉變：訓練神經網絡的目標從識別轉向了預測。1992年，Gerald Tesauro 在這一理念的基礎上，開發了一個能夠玩雙陸棋的神經網絡。與傳統方法不同，這個網絡並未依賴人類設計的規則，而是被訓練來根據給定的棋盤狀態，輸出勝利的概率。透過無數次自我對弈和基於勝負的獎勵信號，網絡學會了識別出能夠帶來勝利的棋盤模式。它甚至發現了一些連專業玩家都感到驚訝的策略。從預測勝率到生成行動的轉變自然而然：網絡開始輸出所有可能下一步動作的概率，並將最高概率的動作視為最佳選擇。很快，神經網絡在各類遊戲中——如西洋棋、圍棋、電子遊戲乃至策略遊戲——逐漸擊敗了人類。

20 Years after Deep Blue: How AI Has Advanced Since ... — 1997, Garry Kasparov與IBM Deep Blue

由Google提供的李世石與AlphaGo的比賽現場圖像。 — 2016, 李世乭與AlphaGo比賽現場

然而，這些成就僅限於相對簡化的環境。真正的挑戰始終在於應對現實世界的複雜性，例如物理機器人技術。OpenAI（當時還是一個影響力有限的小型研究實驗室）提供了一個極佳的例證。他們堅信，模式學習的原則同樣適用於現實世界的問題。為驗證這一觀點，他們訓練了一隻機器手來操作一個立方體。與傳統方法不同，他們並未編寫任何具體的動作指令，而是採用了一個大型神經網絡：該網絡以圖像作為輸入，學習輸出動作的概率——具體而言，是各種馬達動作的下一步選擇。通過數百萬次的嘗試和模擬，系統獨立發現了成功的操作模式，其最終展現的行為驚人地類似於人類。

在更為複雜的任務中，如機器人足球，網絡從零開始學會了走路、踢球，甚至能預測對手的射門並及時攔截。所有這些複雜的行為皆源自同一個學習過程。這正是行為抽象的體現：儘管每次足球射門的細節各異，網絡卻能捕捉到導致成功的潛在動作模式。然而，這些網絡的抽象能力仍相當有限——每個網絡僅針對特定任務進行訓練，導致它們只能在單一領域內表現出色。

2016年，非監督式學習（Unsupervised Learning） 仍是機器學習領域中一個尚未解決的難題，當時無人確知如何有效實現這一目標。最終的突破源於AI達到了自然界學習的第三層次——語言。語言之所以成為AI進化的下一階段關鍵，是因為它賦予了AI從他人經驗中學習的能力。有了語言，AI擁有了通用的想像力，能夠構想任何可以用文字表達的事物。相較之下，遊戲AI僅能設想棋盤上的走法，而語言則開啟了無限的可能性。

要實現這一突破，必須追求一個宏大的目標：理解語言本身。這一挑戰的關鍵洞見來自信息論之父克勞德·香農（Claude Shannon）。早在1940年代，香農提出將語言視為一系列預測過程——每個詞的出現都是基於前文從多個可能詞語中選出的結果。基於這一理念，1980年代，研究人員開始訓練小型神經網絡來預測文本中的下一個詞，類似於讓網絡學習預測遊戲中的下一步動作。這些網絡不僅學會了預測下一個字母，還展現出驚人的能力：它們能自動將相似的詞彙聚集在一起，例如動詞與動詞、名詞與名詞，甚至是意義相近的詞語。

2015年，Andre Karpathy 證明了這一方法的潛力。他發現，當在大量文本數據上訓練時，這些網絡不僅能預測模式，還能生成模式。他透過輸入一個起始短語，並將輸出循環回輸入，讓網絡延續所學模式，進而生成連貫且風格多樣的文本——從莎士比亞式的文學到數學論述，成果令人震撼。次年，OpenAI的Alex Radford 將這一實驗推向新高度，訓練了一個更大的網絡，基於數百萬條亞馬遜網站的評論數據。他們發現，網絡能從簡單的語法結構逐步構建出複雜的語義概念，例如一個著名的「情感神經元」，能夠比當時的專業系統更精確地檢測評論中的正面或負面情感。

這一發現直接促成了 GPT（Generative Pre-trained Transformer）系列 的誕生。GPT模型完全依靠自身學習理解了語言的奧秘。OpenAI意識到這一技術的深遠影響，隨即探索更大規模模型的潛力。他們採用了一種名為「Transformers」的新架構，這種架構能以前所未有的效率處理模式。其特點在於，當數據通過每一層時，網絡能動態形成神經元之間的連接，使單一層次完成過去需要多層才能實現的工作。這一創新最終促成了 GPT-1 的誕生——當時規模最大的語言模型，其訓練目標是預測數千本書中的下一個詞，這是迄今為止最具通用性的訓練設計。結果令人驚歎：GPT-1不僅能連貫地延續任何給定的文本片段，還能回答訓練文本中未曾出現的問題。這一現象進一步證實，簡單的預測任務正逐步引導模型走向真正的語言理解。

隨著GPT的每次新版本，神經網絡的規模不斷擴大，訓練數據也日益豐富，從書籍到互聯網，最終涵蓋了人類知識的廣泛領域。GPT-3展現了一些令人驚嘆的能力，例如著名的「wug測試」（一種用於兒童的語言測試）。只需向模型描述一個新概念，它就能立即自然地加以運用，這種能力被稱為上下文學習。這種從新例子中學習的能力適用於任何指定的任務，類似於人類快速掌握新概念的方式。這意味著，只要加以描述，你就能從神經網絡中獲得所需的任何行為。

ChatGPT的公開亮相標誌著一個重大的突破。它在GPT-3的基礎上進一步訓練，採用強化學習來評估其輸出，判斷其是否準確遵循指令或進行合理推理。這使得ChatGPT在指令遵循和推理能力上表現更為出色。與人類相似，這些系統在被允許「大聲思考」並逐步推理時，能夠產生更優質的結果。實驗表明，與其一味追求建造更大的模型，簡單地延長系統的思考時間，就能顯著提升其表現。這標誌著我們進入了一個全新的計算時代，機器開始在概念和詞語層面進行運作。

這種方法迅速超越了語言領域的限制。研究人員發現，幾乎所有信息都可以被視為某種序列：歌曲分解為音符，視頻分解為幀，動作分解為移動。例如，Transformer網絡透過預測下一個音符來生成音樂，每個注意力頭負責識別音樂中的不同模式。注意力頭數量越多，網絡的能力就越強大。這種架構能夠同時關注所有元素。如今，一個模型不僅能理解用詞語給出的指令，還能生成相應的圖像和視頻，並指導機器人執行對應的動作。這意味著機器人能夠透過想像，練習用詞語描述的物理動作。

現在的問題在於：我們的AI是否具備足夠的結構和世界建模能力？我個人認為完全足夠。例如，Runway（一個AI模型）在內部表徵方面已達到當前的先進水平。這種跨越視覺、聲音和動作的統一理解，反映了人類大腦的工作方式，因為它們的核心都是基於可預測和生成的模式。從進化的簡單原則「嘗試並保留有效的方法」，到從直接經驗中學習，再到通過語言學習，AI已經實現了自然界的第三層智能——靈活的想像力。這一進展的速度遠超所有人的預期。

然而，奇點（Singular，即AI超越人類智能的時刻）或許不會以戲劇性的接管形式突然發生，而是可能悄無聲息地滲入我們的生活，隨著AI逐漸重塑世界，一個模式接著一個模式。領先AI實驗室的創始人，包括OpenAI的成員，現在表示，我們比以往任何時候都能更清晰地看到通往人工通用智能（AGI）的道路。關鍵問題不在於我們是否能實現AGI，而在於我們將如何部署它。這些AI代理就像數位勞動力，與你的員工並肩工作。你向它們展示工作成果的範例，它們會嘗試生成相應內容，並由你提供反饋和限制。我們正步入一個充滿巨大不確定性的時代，當我們開始與比我們更智能的實體互動時，未來將變得難以預測。

最終，智能的未來——無論是人工的還是人類的——可能並不取決於機器是否真正理解世界，而是取決於我們選擇接受的模式，以及更重要的，我們賦予它們的自主權。

激活函數（Activation Function）是一種添加到人工神經網路中的函數，旨在説明網路學習資料中的複雜模式。類似於人類大腦中基於神經元的模型，激活函數最終決定了要發射給下一個神經元的內容。目前常用的激活函數為ReLU。關於激活函數的介紹，可參閱這篇介紹

AlexNet是一個卷積神經網路，由Alex Krizhevsky設計，與Ilya Sutskever和Geoffrey Hinton共同發表。AlexNet作為一種具有里程碑意義的深度神經網路模型，引領了圖像識別和電腦視覺領域的革命性突破。輸入到AlexNet的圖像是以RGB強度值的三維矩陣或張量表示的，而輸出是一個長度為1,000的單一向量，每個條目對應於AlexNet預測的輸入圖像屬於ImageNet數據集中1,000個類別之一的概率，例如虎斑貓、德國牧羊犬、熱狗、烤麵包機和航空母艦。關於AlexNet的介紹文章或影片很多，可參閱這篇介紹