🎤 爲偶像應援 · Gate送你直達 Token of Love! 🎶
家人們,現在在Gate廣場爲 打 Token of Love CALL,20 張音樂節門票等你來瓜分!🔥
泫雅 / SUECO / DJ KAKA / CLICK#15 —— 你最期待誰?快來一起應援吧!
📌 參與方式(任選,參與越多中獎幾率越高!)
1️⃣ 本帖互動
點讚 & 轉發本帖 + 投票你最愛的藝人
評論區打出 “我在 Gate 廣場爲 Token of Love 打 Call !”
2️⃣ 廣場發帖爲 TA 打 Call
帶上 #歌手名字# + #TokenOfLove#
發帖內容任選:
🎵 最想現場聽到的歌 + 心情宣言
📣 應援口號(例:泫雅女王衝鴨!Gate廣場全員打 Call!)
😎 自制表情包/海報/短視頻(加分項,更容易中獎!)
3️⃣ 推特 / 小紅書發帖打 Call
同樣帶上 #歌手名字# + #TokenOfLove#
內容同上,記得回鏈到表單 👉️ https://www.gate.com/questionnaire/7008
🎟️ 獎勵安排
廣場優質發帖用戶:8張門票
廣場幸運互動用戶:2張門票
Twitter 優質發帖用戶:5張門票
小紅書優質發帖用戶:5張門票
📌 優質帖文將根據文章豐富度、熱度、創意度綜合評分,禁止小號水貼,原創發帖更易獲獎!
🕒 8
OpenAI「打死都不說」的GPT-4 訓練細節被傳出,這是我的解讀
原文來源:少數派
那是前幾天一個普通的上午。我正在日常搬磚,突然各路信息席捲而來:「趕緊的,GPT-4 模型構架洩露啦,國產大模型要再次超越啦!」
打開社媒一看,好麼,都不用會英語,國內的人翻機翻都已經上線了,這速度,我是真的服氣。但是,等我去追根溯源,看看信息到底有幾分靠譜的時候,我突然就有把科技圈逛出了娛樂圈的感覺。
鑑於目前「Fake News」滿天飛的互聯網現狀,我看到這個消息後,幹的第一件事就是追本溯源。
▍來龍去脈
我信息挖掘的起點是Hacker News 上分享的、通過Thread Reader 提取的推文串(存檔於7 月11 日)。點開一看,上來就是兩句:
這標題黨水平完全不遜色於國內。
眾所周知,OpenAI 在發布GPT-4 的同時打破了自己對open 的承諾,沒有透露任何權重或技術細節,被業界廣泛批評。這大概就是博主為什麼要用It is over 這個梗來渲染「情節反轉」的戲劇效果。
再看內容,正是OpenAI 守口如瓶的GPT-4 訓練細節。這些信息前面有過很多猜測,但是官方一直都沒有披露,提到的時候都說的很模糊(原文比較晦澀,用了很多縮寫和行話,一些會在後文解釋):
問題是,這些信息是怎麼弄來的,是否靠譜呢?
順藤摸「瓜」,我又找到了這串推文的發布者——Yam Peleg。
讀這老哥的文章,我就禁不住想起來在以色列時候見過的一位學生聯絡員Tom,隨便說點啥都能給你搞得熱血沸騰的。
考慮到這老哥一直在研究OpenAI,也認識OpenAI 內部很多人,所以他如果得到了點啥內部消息,我覺得可信度其實還挺高的。
但等我晚上準備去仔細研讀下他發的東西的時候,突然發現他把前面發的都刪了。本來我以為是被OpenAI 摀嘴了,還慶幸自己留了檔。後面仔細一看,發現不是因為OpenAI 要求刪除,而是因為他也是從一個付費專欄轉述的,被人投訴侵犯了版權。
查了一下得知:
早些時候,SemiAnalysis 還發過一篇文章披露谷歌工程師在內部通信中說「我們沒有護城河,但OpenAI 也沒有」(We Have No Moat, And Neither Does OpenAI),引起不小議論。這篇文章後面被證實為真。
這樣看來,Dylan Patel 老哥可能確實有些內線,他們給出的信息可信度應該還是可以的。
至於他們為啥這麼急著讓Yam 老哥刪推——因為這些「內部信息」確實價值不菲,訂閱SemiAnalysis 的付費文章,一年要500 美元。 Yam 老哥訂閱的精英版更是要1000 美元。
▍梳理分析
根據這個來龍去脈,我的看法是,這個傳聞還是有一定的可信度的。以下則是我基於這些信息的一些分析,提出來供大家討論。
私有模型的競爭將集中在並行能力上
根據此次傳聞,目前如果要訓練一個GPT-4 競品,按照使用約8,192 個H100 芯片來估算,以每小時2 美元的價格,在約55 天內可以完成預訓練,成本約為2150 萬美元(1.5 億人民幣)。
這個成本對於目前波濤洶湧的LLM 市場來說,真的不算大。國內目前的主要玩家都可以比較輕鬆地承擔數次訓練。所以,這次說真的,再過半年模型能力(起碼參數規模)對標GPT-4 可能真的不是吹牛。
如果訓練成本不是問題,那麼訓練數據會不會成為問題呢?我認為也不會。傳聞稱,GPT-4 的訓練數據共13T(13 萬億個)token。作為對比,CommonCrawl 和RefinedWeb 兩個公開數據集都是5T 個token,傳聞稱,餘下部分來源Twitter、Reddit 和YouTube;一些訴訟還主張OpenAI 使用了來自LibGen、SciHub 等「影子圖書館」的盜版數據。
因此,我認為這個數據規模並不是不可企及,再加上國內本身也積累了很多中文資源,所以訓練數據也應該問題不大。
其他的類似預訓練、微調以及中文編解碼等問題,其實也不存在太多的技術秘密,方法還是比較公開的。給足夠的資源,半年時間應該都可以解決。
所以,最後剩下的門檻就是並行能力了。其實這次傳聞裡面用了極大的篇幅去介紹相關的內容,專業程度還是比較高的,這裡我只能做些粗淺解釋。
粗略地說,所謂並行問題,就是你有了大模型,如何以最低的成本讓最多的人同時使用。這裡面涉及到很多專業的設計問題,在運算資源固定的情況下,應該如何分配不同環節的運算資源?如何處理並發?如何管理內存?
並行處理的能力直接決定了用戶體驗。目前基於GPT-3.5 的ChatGPT 和API 都比較流暢了,這是非常厲害的。這里大家可能會說,我體驗的其他國產LLM 或者Claude 都比GPT-3.5 還快啊。但是,大家沒有考慮使用的量級問題,GPT-3.5 在這麼高的並發下有這樣的性能,其他的廠商如果匹配不了OpenAI 的這個能力,也就沒能力來搶OpenAI 的市場。
所以,並行能力可能會成為各路OpenAI 競爭對手的角逐重點之一。
GPT-5 的重點在於多模態
前面提到,傳聞稱GPT-4 是由16 個專家模型組成的「專家混合」(mixture of experts, MoE)模型。這裡簡單解釋一下什麼是「專家混合」,這是指將用戶的「問題」劃分成若干子問題,每個子問題交給一個較小的模型(也就是一個「專家」)去解決,然後通過一個「路由模型」進行選擇和組合,再輸出給用戶。
传闻进一步称,GPT-4 的每个「专家」有 1110 亿参数量——相当于 GPT-3(这个和 Sam Altman 前期说的 GPT-4 参数甚至小于 GPT-3.5 相符),其中有 550 亿个参数是共享的。每次向前传递推理(生成一个 token 的输出)使用两个「专家」,事实上耗费的参数量约为 2800 亿。这个数字显著小于不用 MoE 所需的数量,也和前期很多学者预测的类似。
值得注意的是,傳聞指出GPT-4 訓練所用的文本和代碼數據都是被重複使用過的。再結合使用MoE 構架的選擇,我個人猜測:要么目前可以比較方便獲取的高質量文本數據已經接近枯竭,要么無限制增大數據量對LLM 性能的提升已經非常有限了。
但是,無論是哪一種情況,GPT-5 想要有大的性能突破,就必須能夠充分利用現存的大量視頻、圖片以及音頻數據,換言之是一個「多模態」的模型。
問題在於,根據這次的傳聞,OpenAI 目前的視覺多模態並沒有太多的過人之處。它是一個獨立的視覺編碼器,使用文本做輸入進行預訓練,然後使用約2 萬億個Token 進行微調。這種訓練方式,明顯無法充分利用已有的視頻、圖片以及音頻數據。
所以,OpenAI 一直強調還沒有訓練GPT-5,大概率是真話。在訓練GPT-5 之前,他們還得找到一個更好的多模態模型構架,讓模型可以充分利用音視頻數據。而只有能夠利用這些優質的訓練數據,GPT-5 才有可能獲得足夠的能力提升。 (同時,如果GPT-5 真的能夠充分利用這些音視頻數據的話,那不管是AGI 還是OpenAI 最近提出的「超智體」,似乎確實也沒那麼遙遠了。)
OpenAI 可能是有意放出的本次傳聞
這個推論就完全是個人的瞎猜了。事實根據不足,大家看看就好。
我的理解是,OpenAI 很清楚GPT-4 的護城河並不深;在如今這種熱潮中,競爭對手迎頭趕上也並不困難。並且如上分析,他們現在的多模態大模型構架應該還沒有搞定,這個時候如果有新的玩家上來就從多模態開始突破,OpenAI 被彎道超車的概率也是很大的。
所以,這也許是OpenAI 的緩兵之計——我就給你們透露一些GPT-4 的信息,讓頭部的玩家都先去做GPT-4 的複刻工作,把OpenAI 已經走過的路也再走一遍。
如果在這個過程中,OpenAI 給GPT-5 的訓練打好了基礎,完成了多模態大模型的前期攻關,即使GPT-4 已經被其他的大語言模型超越,OpenAI 也不慌了。個人認為,多模態很可能就是人卷人的最後一代了,再未來的模型開發和演進說不定就以AGI 為主力了。也就是說,這次贏了,可能就贏到最後了。