Scaling Laws 是最早由 Open AI 提出的大模型開發的黃金經驗法則,核心在於得到模 型參數規模、模型訓練資料量以及模型計算資源三因素之間關係。實驗結果顯示,在 Transformer 架構下,如果不斷擴大模型三因素規模,得到的模型效果越優,算力規模增大和升級仍是通往 AGI 的關鍵。
過去1–2年,投資人對AI伺服器供應鏈的投資邏輯主要基於AI伺服器出貨量在Scaling law成立下可持續成長。然而,Scaling law的邊際效益正逐漸遞減,這讓市場更加關注DeepSeek透過Scaling law以外的方式顯著提升模型效益。
雖然規模法則(Scaling Law)是推動LLM成功的核心驅動力之一,但若將其視為LLM的第一性原理的「全部」,可能會忽略更深層的基礎邏輯。更精準地說,Scaling Law是LLM第一性原理的「必要條件」而非「充分條件」。
Scaling Law 的應用場景
1. 預測模型性能
研究人員可以在訓練大模型之前,基於小規模實驗預測其最終性能,從而優化計算資源分配。
2. 在計算資源有限時如何選擇最佳模型大小和訓練數據量
(1) OpenAI Scaling Laws(2020)
在固定計算資源下,增加模型大小比增加數據量更有效。
經驗法則:
計算量增加 10× → 模型大小 5×,數據量 2×
計算量增加 100× → 模型大小 25×,數據量 4×
(2) Chinchilla Scaling Laws(2022)
研究發現,模型參數量與訓練數據量應當同比例增長,否則性能可能受限。
經驗法則:
計算量增加 10× → 模型大小和數據量各 3.1×
計算量增加 100× → 模型大小和數據量各 10×
(3) DeepSeek Scaling Laws(2024)
在研究語言模型的縮放規律時,數據品質和數據選擇比單純增加數據量更重要。
Scaling Law 的局限性
雖然 Scaling Law 提供了大規模模型訓練的基本規律,但它在實際應用中存在 多種局限性。
1. 性能提升的邊際效應遞減
研究發現,隨著模型規模和數據量的增加,模型性能提升會逐漸放緩,甚至可能下降。
例如,GPT-4 相較於 GPT-3 的提升,遠小於 GPT-3 相較於 GPT-2 的提升。
2. 訓練數據量的限制
如果當前發展速度不變,預計到 2028 年,全球可用高品質數據可能被耗盡。
這可能導致以大數據驅動的大模型發展放緩,甚至停滯。
3. 數據品質比數據量更重要
盲目增加數據量可能不會提升性能,數據品質和多樣性更關鍵。
例如,GPT-4 採用了更精細的數據過濾和數據合成策略,而不僅僅依賴更大數據集。
4. 模型架構和訓練方法的影響
Scaling Law 只關注 N、D、C 三個因素,但現實中模型架構、訓練方法、優化算法等也會影響性能。
例如,Sparse Transformer、Mixture of Experts(MoE)等架構可以降低計算成本,提高模型效率。
5. 可解釋性和透明度不足
Scaling Law 只是一種經驗總結,並不能解釋其背後的機理。
例如,它無法預測為什麼某些模型會出現「湧現能力」(Emergent Abilities)。
6. 低精度感知的限制
研究發現,低精度訓練可能降低大模型的「有效參數量」,從而影響最終性能。
這意味著 AI 領域依賴 低精度計算加速 的時代可能面臨瓶頸。