OpenAI「打死都不說」的GPT-4 訓練細節被傳出，這是我的解讀

巴比特_

2023-07-17 05:58:58

原文來源：少數派

圖片來源：由無界AI 生成

那是前幾天一個普通的上午。我正在日常搬磚，突然各路信息席捲而來：「趕緊的，GPT-4 模型構架洩露啦，國產大模型要再次超越啦！」

打開社媒一看，好麼，都不用會英語，國內的人翻機翻都已經上線了，這速度，我是真的服氣。但是，等我去追根溯源，看看信息到底有幾分靠譜的時候，我突然就有把科技圈逛出了娛樂圈的感覺。

鑑於目前「Fake News」滿天飛的互聯網現狀，我看到這個消息後，幹的第一件事就是追本溯源。

▍來龍去脈

我信息挖掘的起點是Hacker News 上分享的、通過Thread Reader 提取的推文串（存檔於7 月11 日）。點開一看，上來就是兩句：

GPT-4 的詳細信息被洩露。結束了。

這標題黨水平完全不遜色於國內。

眾所周知，OpenAI 在發布GPT-4 的同時打破了自己對open 的承諾，沒有透露任何權重或技術細節，被業界廣泛批評。這大概就是博主為什麼要用It is over 這個梗來渲染「情節反轉」的戲劇效果。

再看內容，正是OpenAI 守口如瓶的GPT-4 訓練細節。這些信息前面有過很多猜測，但是官方一直都沒有披露，提到的時候都說的很模糊（原文比較晦澀，用了很多縮寫和行話，一些會在後文解釋）：

模型參數量：1.8 萬億，比GPT-3.5（1750 億）大10 倍左右。
模型層深：120 層。
模型構架：混合專家模型（MoE，解釋見後文），一共16 個「專家」，每個專家1110 億參數量。每次向前傳遞推理（生成一個token 的輸出）選擇兩個專家。
訓練數據：共13T（13 萬億個）token 的數據。文本數據被重複訓練了2 次，代碼數據被重複訓練了4 次。這個數據其實挺重要的，後續具體分析。
並行策略：8 路張量並行+ 16 路管道並行。有多個位於不同數據中心的多個GPU 集群同時訓練，每個集群有128 個GPU。
預訓練上下文：8K。 32K 版本是在8K 基礎上微調的。
訓練成本：在約25000 張A100 上，以大約2.15e25 flops 的速率，持續訓練90 至100 天。按照每張A100 小時1 美元，大約需要6300 萬美元。（如今可在約55 天內使用約8192 張H100 完成，費用估算為2150 萬美元。）

問題是，這些信息是怎麼弄來的，是否靠譜呢？

順藤摸「瓜」，我又找到了這串推文的發布者——Yam Peleg。

這老哥的賬號雖然我沒關注，但還真看過他以前的文章。他是以色列一個「創業公司」的CEO（但成立有15 年，可能再叫創業公司不太合適了）；本人工程經歷豐富，很懂大語言模型，曾經嘗試反向破解過GPT-4 和ChatGPT 代碼解釋器。今年六月，OpenAI 成員訪問以色列的時候，Peleg 還去參加座談溝通了，並且還和CEO Sam Altman 合影。

讀這老哥的文章，我就禁不住想起來在以色列時候見過的一位學生聯絡員Tom，隨便說點啥都能給你搞得熱血沸騰的。

左起：Sam Altman、Yam Peleg（來源：@Yampeleg）

考慮到這老哥一直在研究OpenAI，也認識OpenAI 內部很多人，所以他如果得到了點啥內部消息，我覺得可信度其實還挺高的。

但等我晚上準備去仔細研讀下他發的東西的時候，突然發現他把前面發的都刪了。本來我以為是被OpenAI 摀嘴了，還慶幸自己留了檔。後面仔細一看，發現不是因為OpenAI 要求刪除，而是因為他也是從一個付費專欄轉述的，被人投訴侵犯了版權。

這篇原始來源是一個叫做SemiAnalysis 的Substack 專欄，他們稍早之前發了一篇題為GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE 的文章，放在付費牆後。

查了一下得知：

SemiAnalysis 是一個精品半導體研究和諮詢公司，專注於從化學原料到晶圓廠到設計IP 和戰略的半導體供應鏈。該公司由Dylan Patel 創辦，一位有著多年半導體行業經驗的分析師和工程師。 Patel 曾在英特爾、AMD、高通等公司擔任過從設計工程師到市場營銷經理等的角色。 SemiAnalysis 的團隊還包括多位專業的半導體分析師和諮詢顧問。他們各自有著不同的專長領域，如AI、雲計算、網絡、存儲、電動汽車、射頻、物聯網等。他們為客戶提供了從化學原料到晶圓廠到設計IP 和戰略的全方位的半導體供應鏈分析和諮詢服務。

早些時候，SemiAnalysis 還發過一篇文章披露谷歌工程師在內部通信中說「我們沒有護城河，但OpenAI 也沒有」（We Have No Moat, And Neither Does OpenAI），引起不小議論。這篇文章後面被證實為真。

這樣看來，Dylan Patel 老哥可能確實有些內線，他們給出的信息可信度應該還是可以的。

至於他們為啥這麼急著讓Yam 老哥刪推——因為這些「內部信息」確實價值不菲，訂閱SemiAnalysis 的付費文章，一年要500 美元。 Yam 老哥訂閱的精英版更是要1000 美元。

▍梳理分析

根據這個來龍去脈，我的看法是，這個傳聞還是有一定的可信度的。以下則是我基於這些信息的一些分析，提出來供大家討論。

私有模型的競爭將集中在並行能力上

根據此次傳聞，目前如果要訓練一個GPT-4 競品，按照使用約8,192 個H100 芯片來估算，以每小時2 美元的價格，在約55 天內可以完成預訓練，成本約為2150 萬美元（1.5 億人民幣）。

這個成本對於目前波濤洶湧的LLM 市場來說，真的不算大。國內目前的主要玩家都可以比較輕鬆地承擔數次訓練。所以，這次說真的，再過半年模型能力（起碼參數規模）對標GPT-4 可能真的不是吹牛。

如果訓練成本不是問題，那麼訓練數據會不會成為問題呢？我認為也不會。傳聞稱，GPT-4 的訓練數據共13T（13 萬億個）token。作為對比，CommonCrawl 和RefinedWeb 兩個公開數據集都是5T 個token，傳聞稱，餘下部分來源Twitter、Reddit 和YouTube；一些訴訟還主張OpenAI 使用了來自LibGen、SciHub 等「影子圖書館」的盜版數據。

因此，我認為這個數據規模並不是不可企及，再加上國內本身也積累了很多中文資源，所以訓練數據也應該問題不大。

其他的類似預訓練、微調以及中文編解碼等問題，其實也不存在太多的技術秘密，方法還是比較公開的。給足夠的資源，半年時間應該都可以解決。

所以，最後剩下的門檻就是並行能力了。其實這次傳聞裡面用了極大的篇幅去介紹相關的內容，專業程度還是比較高的，這裡我只能做些粗淺解釋。

粗略地說，所謂並行問題，就是你有了大模型，如何以最低的成本讓最多的人同時使用。這裡面涉及到很多專業的設計問題，在運算資源固定的情況下，應該如何分配不同環節的運算資源？如何處理並發？如何管理內存？

並行處理的能力直接決定了用戶體驗。目前基於GPT-3.5 的ChatGPT 和API 都比較流暢了，這是非常厲害的。這里大家可能會說，我體驗的其他國產LLM 或者Claude 都比GPT-3.5 還快啊。但是，大家沒有考慮使用的量級問題，GPT-3.5 在這麼高的並發下有這樣的性能，其他的廠商如果匹配不了OpenAI 的這個能力，也就沒能力來搶OpenAI 的市場。

所以，並行能力可能會成為各路OpenAI 競爭對手的角逐重點之一。

GPT-5 的重點在於多模態

前面提到，傳聞稱GPT-4 是由16 個專家模型組成的「專家混合」（mixture of experts, MoE）模型。這裡簡單解釋一下什麼是「專家混合」，這是指將用戶的「問題」劃分成若干子問題，每個子問題交給一個較小的模型（也就是一個「專家」）去解決，然後通過一個「路由模型」進行選擇和組合，再輸出給用戶。

传闻进一步称，GPT-4 的每个「专家」有 1110 亿参数量——相当于 GPT-3（这个和 Sam Altman 前期说的 GPT-4 参数甚至小于 GPT-3.5 相符），其中有 550 亿个参数是共享的。每次向前传递推理（生成一个 token 的输出）使用两个「专家」，事实上耗费的参数量约为 2800 亿。这个数字显著小于不用 MoE 所需的数量，也和前期很多学者预测的类似。

值得注意的是，傳聞指出GPT-4 訓練所用的文本和代碼數據都是被重複使用過的。再結合使用MoE 構架的選擇，我個人猜測：要么目前可以比較方便獲取的高質量文本數據已經接近枯竭，要么無限制增大數據量對LLM 性能的提升已經非常有限了。

但是，無論是哪一種情況，GPT-5 想要有大的性能突破，就必須能夠充分利用現存的大量視頻、圖片以及音頻數據，換言之是一個「多模態」的模型。

問題在於，根據這次的傳聞，OpenAI 目前的視覺多模態並沒有太多的過人之處。它是一個獨立的視覺編碼器，使用文本做輸入進行預訓練，然後使用約2 萬億個Token 進行微調。這種訓練方式，明顯無法充分利用已有的視頻、圖片以及音頻數據。

所以，OpenAI 一直強調還沒有訓練GPT-5，大概率是真話。在訓練GPT-5 之前，他們還得找到一個更好的多模態模型構架，讓模型可以充分利用音視頻數據。而只有能夠利用這些優質的訓練數據，GPT-5 才有可能獲得足夠的能力提升。（同時，如果GPT-5 真的能夠充分利用這些音視頻數據的話，那不管是AGI 還是OpenAI 最近提出的「超智體」，似乎確實也沒那麼遙遠了。）

OpenAI 可能是有意放出的本次傳聞

這個推論就完全是個人的瞎猜了。事實根據不足，大家看看就好。

我的理解是，OpenAI 很清楚GPT-4 的護城河並不深；在如今這種熱潮中，競爭對手迎頭趕上也並不困難。並且如上分析，他們現在的多模態大模型構架應該還沒有搞定，這個時候如果有新的玩家上來就從多模態開始突破，OpenAI 被彎道超車的概率也是很大的。

所以，這也許是OpenAI 的緩兵之計——我就給你們透露一些GPT-4 的信息，讓頭部的玩家都先去做GPT-4 的複刻工作，把OpenAI 已經走過的路也再走一遍。

如果在這個過程中，OpenAI 給GPT-5 的訓練打好了基礎，完成了多模態大模型的前期攻關，即使GPT-4 已經被其他的大語言模型超越，OpenAI 也不慌了。個人認為，多模態很可能就是人卷人的最後一代了，再未來的模型開發和演進說不定就以AGI 為主力了。也就是說，這次贏了，可能就贏到最後了。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言