當(dāng)前位置:首頁(yè) > 熱點(diǎn)資訊 > 內(nèi)容
時(shí)間:2025-08-14 00:08 來(lái)源:投資界 閱讀量:11416
GPT-5上線次日,OpenAl在一片用戶的批評(píng)聲中宣布向付費(fèi)用戶恢復(fù) GPT-4o。
與GPT-3到GPT-4的驚艷跨越相比,GPT-5的發(fā)布略顯匆忙:翻車(chē)的數(shù)據(jù)圖表、帶bug的代碼演示、誤導(dǎo)的“博士級(jí)”科學(xué)原理解釋?zhuān)约白鳛楹诵募夹g(shù)更新的“Router”也被硅谷AI從業(yè)者指出是已經(jīng)存在好幾年的技術(shù)。
從內(nèi)部代號(hào)Q-Star到Orion項(xiàng)目的接連受挫,從數(shù)據(jù)匱乏到模型崩潰的技術(shù)困境,OpenAI正面臨前所未有的挑戰(zhàn)。
但不可否認(rèn)的是,作為一款產(chǎn)品,GPT-5有著明顯進(jìn)步以及對(duì)用戶交互的進(jìn)一步優(yōu)化。ChatGPT正打入更多垂類(lèi)領(lǐng)域,朝著“AI超級(jí)應(yīng)用”產(chǎn)品進(jìn)發(fā)。而一場(chǎng)搶占市場(chǎng)份額、爭(zhēng)奪企業(yè)訂單的價(jià)格戰(zhàn),也在頭部大模型公司之間正式開(kāi)打。
本期文章,我們將深入聊聊GPT-5發(fā)布背后的技術(shù)困境、商業(yè)焦慮與未來(lái)趨勢(shì)。
OpenAI為什么引發(fā)外界這么多的吐槽?GPT-5的開(kāi)發(fā)過(guò)程遇到了哪些技術(shù)瓶頸,最終選擇了什么架構(gòu)來(lái)攻克?作為產(chǎn)品的ChatGPT,為什么選擇進(jìn)軍教育、健康醫(yī)療和編程市場(chǎng)?
而更令人擔(dān)憂的是,AI scaling law已經(jīng)碰壁,強(qiáng)化學(xué)習(xí)、多模態(tài)能力和新架構(gòu)范式能否為AI發(fā)展指明新的方向?
GPT-5發(fā)布會(huì)
漏洞百出,突破放緩
說(shuō)實(shí)話,外界對(duì)GPT-5的發(fā)布非常期待。原因很簡(jiǎn)單:GPT-4發(fā)布已經(jīng)是兩年半之前的事情了,而外界已經(jīng)等新一代模型很久了。
但總結(jié)來(lái)說(shuō),GPT-3到GPT-4的能力跨越太過(guò)驚艷——所謂的“ChatGPT Moment”。
這樣的“Wow moment”是這一輪生成式AI技術(shù)革命的基礎(chǔ),但GPT-4到GPT-5的能力跨越,卻遠(yuǎn)沒(méi)有達(dá)到外界的期待。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
你要橫向?qū)Ρ龋褪荊PT4和當(dāng)年GPT3的對(duì)比,這個(gè)是天和地的區(qū)別,對(duì)吧?GPT4跟GP5如果你是以同樣的標(biāo)準(zhǔn)來(lái)做對(duì)比的話,其實(shí)差距是沒(méi)有那么大的。就是它可能是一個(gè)在我看來(lái)是個(gè)改進(jìn),而不是一個(gè)階段性變化。
GPT-5發(fā)布了什么呢?
Chapter 1.1業(yè)內(nèi)推測(cè)GPT-5技術(shù)路線
首先,此前新聞爆料,GPT-5會(huì)成為一個(gè)“統(tǒng)一大模型”,能強(qiáng)大地將推理、編碼、語(yǔ)音、研究等能力整合進(jìn)單一模型,實(shí)現(xiàn)“既要”和“又要”的用戶需求,將GPT系列和o系列的模型融合,這個(gè)單一模態(tài)架構(gòu)能自動(dòng)調(diào)取相應(yīng)的模型和能力,而不需要用戶之后自己選擇模型了。
雖然OpenAI目前還沒(méi)有正式發(fā)布詳細(xì)的GPT-5技術(shù)報(bào)告,但業(yè)內(nèi)的技術(shù)專(zhuān)家們猜測(cè),這其實(shí)不是一個(gè)端到端的超級(jí)大模型,而是由一個(gè)實(shí)時(shí)的“路由器”來(lái)“拼接”下面的不同子模型。
其實(shí)這個(gè)技術(shù)路線,不是創(chuàng)新也不是突破,早在硅谷初創(chuàng)技術(shù)圈里就存在很久了。
Aiden He
TensorOpera AI聯(lián)合創(chuàng)始人:
GPT-5就是一個(gè)典型的聯(lián)合的系統(tǒng),它是把已有的GPT-4,o3等推理和非推理的模型串聯(lián)到一起。
它可能是因?yàn)樯虡I(yè)化比較著急吧,我覺(jué)得更應(yīng)該把它叫做GPT 4.99,因?yàn)樗窃谒械臍v史上的一個(gè)聚合方案。這個(gè)路由器,其實(shí)并不是一個(gè)很新的東西。
這種路由器的方案主要是一些初創(chuàng)公司在使用,大概有三個(gè)使用場(chǎng)景和原因:
第 一,是在手機(jī)這樣的設(shè)備端上,有端上的小模型,也有云端的大模型,簡(jiǎn)單的問(wèn)題用本地模型,復(fù)雜的問(wèn)題用云端模型,就需要有個(gè)路由器去幫你做選擇。
第二,是初創(chuàng)公司們做模型層之上的開(kāi)發(fā)和應(yīng)用的時(shí)候,把所有開(kāi)源和閉源模型聚合起來(lái),把不同的任務(wù)給不同的模型來(lái)調(diào)用。
第三,是要去平衡系統(tǒng)的成本,比如說(shuō)用戶的一些高頻又簡(jiǎn)單的提問(wèn),像“hello”和“thank you”這種query量非常大,光是這種簡(jiǎn)單的問(wèn)題每天都在消耗OpenAI上百萬(wàn)美元的費(fèi)用,所以這些典型問(wèn)題都可以直接分發(fā)給非常小的模型去解決。
所以,這些是之前初創(chuàng)企業(yè)們因?yàn)橐胶庀到y(tǒng)成本,開(kāi)發(fā)和應(yīng)用時(shí)的主要三大使用場(chǎng)景,但如今被GPT-5作為主打技術(shù)突破,讓外界不少人懷疑,一個(gè)端到端訓(xùn)練的超級(jí)大模型路線已經(jīng)觸頂。
而OpenAI不得不開(kāi)始用這些“取巧”的技術(shù)來(lái)解決“產(chǎn)品層面”的問(wèn)題,而不是AI大模型“智能飛躍”的問(wèn)題,這是和外界的期待非常相悖的。
當(dāng)然,實(shí)時(shí)路由器也沒(méi)有那么好做,整合各種多模態(tài)也有很多技術(shù)上的挑戰(zhàn),這也可能是發(fā)布推遲的原因之一。
Aiden He
TensorOpera AI聯(lián)合創(chuàng)始人:
有的模型擅長(zhǎng)于數(shù)學(xué),有的模型擅長(zhǎng)于寫(xiě)作,有的模型擅長(zhǎng)于編碼,所以你要根據(jù)用戶的意圖、語(yǔ)言類(lèi)型、各種各樣的地域位置,包括它的語(yǔ)言偏好去分發(fā)模型,這是一個(gè)非常復(fù)雜的問(wèn)題。
Jenny Xiao
前OpenAI研究員
Leonis Capital合伙人:
不同的模態(tài)會(huì)有非常不同的計(jì)算需求,以及許多不同的推理需求。例如,如果是語(yǔ)音模塊,它就會(huì)需要非常低的延時(shí)。因?yàn)槿绻舆t太大,你和AI進(jìn)行對(duì)話時(shí)就會(huì)變得很尷尬。而其他模塊,比如深度推理或研究,可能會(huì)有兩三分鐘的延時(shí),甚至更長(zhǎng),有時(shí)候我覺(jué)得都有30分鐘。所以把所有這些模態(tài)整合在一起,還要確保產(chǎn)品不卡頓,這是一個(gè)相當(dāng)大的技術(shù)挑戰(zhàn)。
拋開(kāi)這不是一個(gè)多么酷炫的技術(shù)不談,說(shuō)實(shí)話,單從用戶角度來(lái)看,我本來(lái)覺(jué)得這點(diǎn)改進(jìn)還挺好的。
因?yàn)橹暗腃hatGPT確實(shí)像個(gè)大雜燴:4o,o3,o4-mini,o4-mini-high,GPT-4.5,GPT-4.1,GPT-4.1-mini,旁邊還有Codex,視頻模型Sora,以及agent生態(tài)的GPTs……簡(jiǎn)直太亂了。
所以,如果GPT-5能自動(dòng)為我挑選最適合的模型,其實(shí)在用戶交互上是挺重要的。
但這里的關(guān)鍵詞是:你得能選對(duì),且效果得比之前好。
然而,當(dāng)OpenAI取消此前自選模式,在社交媒體上用戶們卻開(kāi)始集體抗議,很多人認(rèn)為GPT-5沒(méi)有4o的親切感,效果甚至不如4o,并且用戶有種被剝奪了選擇權(quán)的感受,所以在X上,非常多用戶集體呼吁“讓4o回來(lái),不然就注銷(xiāo)ChatGPT賬號(hào)。”
這也讓OpenAI CEO Sam Altman不得不在周末之前回應(yīng),保證將上線更多定制化的功能和內(nèi)容,并持續(xù)對(duì)GPT-5進(jìn)行改進(jìn)。
OpenAI在這次發(fā)布會(huì)中,一直在強(qiáng)調(diào)要給用戶的不是“more information”“越多的信息不一定是越好的”,而是要給“just right”的信息,“剛剛好的、適合”的信息。
這個(gè)出發(fā)點(diǎn)看起來(lái)沒(méi)有什么問(wèn)題,但在技術(shù)上,怎么去定義“just right”,什么是“剛剛好”,還蠻有爭(zhēng)議的。關(guān)于GPT-5的優(yōu)化,我們也會(huì)繼續(xù)關(guān)注。
接下來(lái),我們?cè)倭牧倪@次發(fā)布會(huì)上,OpenAI展示的三個(gè)應(yīng)用場(chǎng)景:教育,健康醫(yī)療以及編程。
毫無(wú)疑問(wèn),這將是OpenAI進(jìn)軍商業(yè)化的主要三個(gè)戰(zhàn)場(chǎng)。
Chapter 1.2 三大垂直應(yīng)用場(chǎng)景
在發(fā)布會(huì)上,OpenAI展示了用多模態(tài)學(xué)習(xí)韓語(yǔ)的場(chǎng)景,效果確實(shí)看上去挺絲滑的:語(yǔ)音模型進(jìn)一步升級(jí),可以實(shí)時(shí)加快放慢,感覺(jué)會(huì)是非常好的教育交互場(chǎng)景。
GPT-5的玩法更加升級(jí)。你還可以讓ChatGPT直接給你做個(gè)學(xué)法語(yǔ)的網(wǎng)頁(yè),或者小游戲應(yīng)用,幾分鐘時(shí)間,記憶閃卡、單詞測(cè)驗(yàn)、進(jìn)度追蹤等等功能應(yīng)有盡有。
所以我們看到語(yǔ)言學(xué)習(xí)公司多鄰國(guó)股價(jià)在GPT-5發(fā)布會(huì)期間就開(kāi)始大幅度震蕩,本來(lái)因?yàn)樨?cái)報(bào)非常好出現(xiàn)盤(pán)中大漲,但OpenAI發(fā)布會(huì)之后開(kāi)始一路狂跌,也是市場(chǎng)在質(zhì)疑,ChatGPT在之后會(huì)搶奪多少教育市場(chǎng)的份額。
Jenny Xiao
前OpenAI研究員
Leonis Capital合伙人:
我認(rèn)為教育是OpenAI非常明確的一個(gè)垂直領(lǐng)域。ChatGPT剛推出時(shí),基本上把Chegg給“干掉”了。Chegg是一家教育公司,學(xué)生主要用它從同伴那里抄作業(yè)。ChatGPT推出后,學(xué)生們就覺(jué)得,我們好像不再需要Chegg了。如果你看OpenAI模型在2023年初的早期用戶,你會(huì)發(fā)現(xiàn)很多都是學(xué)生,而且在暑假期間,OpenAI的使用量會(huì)大幅下降。接著,OpenAI最近推出了“學(xué)習(xí)”功能,我覺(jué)得這個(gè)功能更多是針對(duì)那些想隨便學(xué)學(xué)或者是探索某個(gè)主題的人。
就語(yǔ)言學(xué)習(xí)而言,我一直在用ChatGPT練習(xí)粵語(yǔ),我感覺(jué)它效果非常好。我以前是用多鄰國(guó),但我覺(jué)得OpenAI比多鄰國(guó)自由度高得多,因?yàn)槟憧梢杂肙penAI探索任何話題。我認(rèn)為OpenAI肯定會(huì)去切入這些公司的營(yíng)收領(lǐng)域,因?yàn)樵贑hatGPT的原生環(huán)境下,復(fù)刻它們的模式實(shí)在太容易了。
另外,OpenAI強(qiáng)調(diào)的市場(chǎng)蛋糕還有健康醫(yī)療領(lǐng)域。因?yàn)镚PT-5號(hào)稱有著博士級(jí)別的能力,所以在醫(yī)療健康領(lǐng)域,也能夠?qū)?zhuān)業(yè)的癌癥診斷報(bào)告做通俗易懂的解讀。
在發(fā)布會(huì)中,OpenAI請(qǐng)到一名女性癌癥患者,她分享到說(shuō),去年被診斷出癌癥病情,收到的報(bào)告有許多醫(yī)學(xué)術(shù)語(yǔ),她讓ChatGPT先幫助她厘清資訊,并與醫(yī)生的評(píng)估進(jìn)行比對(duì),再做出關(guān)鍵決策。
而她也形容說(shuō),GPT-5更快速、更完整,在整個(gè)治療過(guò)程中,讓她覺(jué)得有了一個(gè)“伙伴”。
這一點(diǎn)我也感觸蠻深的。醫(yī)療領(lǐng)域是一個(gè)醫(yī)生和患者知識(shí)差距巨大的行業(yè),因?yàn)檫@樣的知識(shí)差距,導(dǎo)致了兩者關(guān)系的不平衡,患者通常沒(méi)有選擇。
我最近身邊有個(gè)好朋友進(jìn)了重癥監(jiān)護(hù)室,陷入昏迷整整五天,她家人剛開(kāi)始除了每天去醫(yī)院求醫(yī)生,感覺(jué)什么都做不了,但很快用上了AI,開(kāi)始對(duì)病情和治療方案各種學(xué)習(xí)和討論,之后感覺(jué)和醫(yī)生交流的時(shí)候障礙變小了很多,在做出一些關(guān)鍵決策的時(shí)候也心里更有底了。
我覺(jué)得這就是技術(shù)的光明面:賦予人們自主權(quán)。
而健康醫(yī)療行業(yè)占據(jù)美國(guó)GDP的18%左右,是巨大的市場(chǎng),OpenAI不會(huì)放過(guò)這個(gè)市場(chǎng)。
同時(shí),我們看到全球AI醫(yī)療市場(chǎng)也在井噴式發(fā)展。市場(chǎng)預(yù)測(cè),全球AI醫(yī)療領(lǐng)域規(guī)模會(huì)從2024年的26.69億美元飆升至2030年的188.38億美元,年復(fù)合增長(zhǎng)率高達(dá)38.62%。
包括OpenAI參與投資的、專(zhuān)注于利用AI減輕醫(yī)療專(zhuān)業(yè)人員行政負(fù)擔(dān)的初創(chuàng)公司Ambience Healthcare最近C輪融資2.43億美元,邁進(jìn)獨(dú)角獸行列。所以我們接下來(lái)會(huì)看到OpenAI在醫(yī)療健康領(lǐng)域的進(jìn)一步動(dòng)作。
另外一個(gè)GPT-5要打的核心商業(yè)戰(zhàn)爭(zhēng),就是編程市場(chǎng)了。
無(wú)論是低提示詞的非專(zhuān)業(yè)用戶場(chǎng)景,還是專(zhuān)業(yè)編程場(chǎng)景,都展現(xiàn)出代碼能力的強(qiáng)勢(shì)升級(jí)。
同時(shí),OpenAI還請(qǐng)到了最炙手可熱的AI編程初創(chuàng)公司Cursor CEO到現(xiàn)場(chǎng)分享如何用GPT-5打造出最高效的編程體驗(yàn)。
這里能看出,自從Anthropic開(kāi)啟了Claude Code產(chǎn)品之后,AI coding初創(chuàng)公司就開(kāi)始紛紛站隊(duì)了。
之前OpenAI本來(lái)想買(mǎi)Windsurf沒(méi)買(mǎi)成,我們之前也出了視頻跟大家講了這個(gè)狗血的收購(gòu)大瓜,現(xiàn)在Cursor明顯站隊(duì)OpenAI一起來(lái)打Claude,這是一輪新的編程市場(chǎng)爭(zhēng)奪戰(zhàn)。
Aiden He
TensorOpera AI聯(lián)合創(chuàng)始人:
Anthropic其實(shí)做了很多很多事情,它在開(kāi)發(fā)者社區(qū)的影響力,我覺(jué)得會(huì)大于GPT-5;GPT-5可能大家會(huì)做應(yīng)用,各種東西PoC快速起步,但是一些專(zhuān)業(yè)的開(kāi)發(fā)者可能還是比較喜歡Anthropic,所以它一定是各有所長(zhǎng)。但就算是OpenAI主打及自夸“世界最強(qiáng)”的編程場(chǎng)景,其實(shí)也讓很多人失望。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
我可能本來(lái)的預(yù)期可能在于,比如說(shuō)在代碼領(lǐng)域,它單一模型可以直接端到端,從架構(gòu)到寫(xiě)每一個(gè)前端、后端代碼,到它知道選擇什么工具,到我怎么把這些東西都串聯(lián)起來(lái),然后自行測(cè)試。完成測(cè)試以后,可能回過(guò)頭來(lái)再去改自己的代碼,類(lèi)似于有這樣的一個(gè)端到端的能力。從OpenAI的定義上面,能超越它第三階段agentic experience定義,再往上走一點(diǎn)那種感覺(jué)。但目前看起來(lái)完全沒(méi)有。總體在我看來(lái),是跟Anthropic的Claude Opus差不多的能力范圍。
Chapter 1.3 錯(cuò)誤百出的發(fā)布會(huì)
同時(shí),這場(chǎng)發(fā)布會(huì)不得不吐槽的,就是現(xiàn)場(chǎng)出的各種bug了,讓這場(chǎng)萬(wàn)眾期待的發(fā)布會(huì)顯得特別“草臺(tái)班子”。
這個(gè)時(shí)候,OpenAI得感謝自己還沒(méi)有上市,如果是谷歌的發(fā)布會(huì)出現(xiàn)這么多錯(cuò)誤,可能股價(jià)早就蒸發(fā)上千億美元了。
首先在發(fā)布會(huì)直播中,一張展示GPT-5在編程基準(zhǔn)測(cè)試上性能的圖表出現(xiàn)了嚴(yán)重錯(cuò)誤,圖上,代表GPT-5(52.8%準(zhǔn)確率)的柱狀圖,其高度竟明顯超過(guò)了代表舊模型o3(69.1%準(zhǔn)確率)的柱狀圖。
另一款模型4o的柱狀圖與o3的水平位置一模一樣,標(biāo)注的數(shù)字卻是30.8%。這個(gè)錯(cuò)誤低級(jí)到不敢讓人相信是OpenAI的發(fā)布會(huì)。
而更嚴(yán)重的是,這顯示出的不僅僅是匆忙和粗心,更是OpenAI團(tuán)隊(duì)試圖在數(shù)據(jù)呈現(xiàn)上營(yíng)造出的“巨大進(jìn)步”的假象。
同時(shí),Benchmark“分?jǐn)?shù)打榜”這件事,也正變得更越來(lái)越不重要。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
前兩天剛release(發(fā)布)的open-source model(開(kāi)源模型),它在Benchmark(基準(zhǔn)測(cè)試)上面的performance(表現(xiàn))也還可以,但是它真正使用起來(lái),它的代碼能力其實(shí)挺拉胯的,它出現(xiàn)了很多的bug,很多代碼都跑不通。
Jenny Xiao
前OpenAI研究員
Leonis Capital合伙人:
基準(zhǔn)測(cè)試“已死”,但新形態(tài)的“基準(zhǔn)測(cè)試”又會(huì)死灰復(fù)燃,對(duì)吧?所有這些實(shí)驗(yàn)室都非常注重在基準(zhǔn)測(cè)試表現(xiàn)上的提升。他們會(huì)為了在某個(gè)特定基準(zhǔn)上提升3%或5%而相互競(jìng)爭(zhēng),而且很多研究人員也以模型在這些基準(zhǔn)上的表現(xiàn)為傲。但作為用戶,我的感受是,基準(zhǔn)測(cè)試對(duì)用戶來(lái)說(shuō)毫無(wú)意義。所以我認(rèn)為,下一個(gè)競(jìng)爭(zhēng)前沿會(huì)主要轉(zhuǎn)向用戶體驗(yàn)。我覺(jué)得現(xiàn)在,很難靠原始性能來(lái)區(qū)分模型的優(yōu)劣。
另外還有一個(gè)尷尬的細(xì)節(jié):在演示過(guò)程中,GPT-5在解釋“伯努利效應(yīng)”時(shí),錯(cuò)誤地采用被主流物理學(xué)教材已經(jīng)證偽的“等時(shí)通過(guò)理論”。
前一秒Sam Altman還在說(shuō),GPT-5是屬于“博士級(jí)別”的AI,后一秒就直接自己打臉,還挺尷尬的。
這顯示出,GPT-5完全沒(méi)能識(shí)別過(guò)時(shí)的錯(cuò)誤解釋理論,讓外界對(duì)這個(gè)新模型的理解和推理能力有了更多的質(zhì)疑。
不過(guò)有一說(shuō)一,在解釋這個(gè)理論時(shí)自動(dòng)產(chǎn)出高質(zhì)量SVG動(dòng)畫(huà)與可交互代碼還真的挺酷炫的,也說(shuō)明OpenAI的多模態(tài)生成能力確實(shí)還是很強(qiáng)的。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
我的總體感覺(jué)是,OpenAI在嘗試在那么多個(gè)模型發(fā)布之后,想要在這個(gè)階段上站住腳跟,把自己這個(gè)領(lǐng) 先地位占住,所以它必須要去做這么一個(gè)發(fā)布。
大概總結(jié)一下GPT-5發(fā)布的重點(diǎn):GPT-5解決的都是產(chǎn)品層面的問(wèn)題,并沒(méi)有技術(shù)顛覆性的創(chuàng)新,這說(shuō)明接下來(lái)一線大模型的技術(shù)差距也會(huì)進(jìn)一步縮小,大家都用著差不多的方式在把模型能力艱難地往前推,不過(guò)就是:堆算力+堆數(shù)據(jù)+高質(zhì)量數(shù)據(jù)篩選+后訓(xùn)練+推理時(shí)長(zhǎng)+工具使用。
因此,我也看到一句話說(shuō)OpenAI從“The One”變成了“One”,從“引領(lǐng)者”變成了前沿模型“之一”。
為什么GPT-5會(huì)這么拉胯?是不是LLM的發(fā)展路徑真的已經(jīng)碰壁了?
失敗的“GPT-5們”
Transformer架構(gòu)的發(fā)展瓶頸
GPT-5的訓(xùn)練從很早就開(kāi)始了,但非常有意思的是,沒(méi)有一個(gè)模型在OpenAI從第 一天就被命名為GPT-5的。
Jenny Xiao
前OpenAI研究員
Leonis Capital合伙人:
我們都清楚,OpenAI一直在訓(xùn)練下一代模型,但肯定只有在達(dá)到一個(gè)重要的里程碑后,他們才會(huì)給模型正式命名。GPT-5自2024年以來(lái)一直在訓(xùn)練,但只有到達(dá)一個(gè)重大節(jié)點(diǎn)之后,OpenAI才會(huì)將這個(gè)模型命名為GPT-5。
OpenAI在推出GPT-4的時(shí)候,所謂的“下一代大模型”就已經(jīng)在訓(xùn)練當(dāng)中了,但如果這個(gè)模型不夠好,不夠“wow”到大家,那它就注定不能被叫做“GPT-5”。
比如說(shuō),在2023年年底就被曝出OpenAI內(nèi)部代號(hào)為“Q Star”或者“Project Q”的項(xiàng)目,但這個(gè)模型后來(lái)被稱為“o1”。
Jenny Xiao
前OpenAI研究員
Leonis Capital合伙人:
OpenAI在另外一個(gè)叫Project Q的項(xiàng)目上投入了很多精力,很多人也叫它Q star。這個(gè)項(xiàng)目在2023年11月左右,也就是Sam Altman那場(chǎng)風(fēng)波期間被泄露了出來(lái),最終成為了o1系列,也就是o系列。這個(gè)項(xiàng)目非常重視思維鏈推理,想要打造推理模型。這個(gè)就是所謂的Q項(xiàng)目。
其實(shí)“O”系列模型還算成功,后來(lái)又更新了o3和o4-mini,但依然不能被稱為GPT-5。為什么呢?
The Information在GPT-5發(fā)布之前出了一篇非常重磅的文章,爆料了OpenAI內(nèi)部的這幾次關(guān)鍵的GPT-5研發(fā)挫敗。
其中在談到o系列的時(shí)候說(shuō),這樣的推理模型似乎幫助OpenAI克服了預(yù)訓(xùn)練階段性能增長(zhǎng)放緩的問(wèn)題,而且2024年年底的o3母模型在理解各種科學(xué)領(lǐng)域及其他領(lǐng)域方面,相比o1的母模型取得了顯著的進(jìn)步,當(dāng)然這個(gè)進(jìn)步也是因?yàn)镺penAI用上了更強(qiáng)的英偉達(dá)芯片服務(wù)器。
但奇怪的事情發(fā)生了,當(dāng)OpenAI將o3母模型轉(zhuǎn)換為能讓人們提問(wèn)的ChatGPT版本時(shí),效果出現(xiàn)了顯著下降,甚至比o1表現(xiàn)好不了多少,同樣的效果下降也出現(xiàn)在了API的模型版本中。
業(yè)界有猜測(cè)是因?yàn)榛谌祟?lèi)自然語(yǔ)言的聊天產(chǎn)品形態(tài)拉低了模型的能力水平,限制了AI的發(fā)揮。
Nathan Wang
硅谷101特約研究員
資深A(yù)I Agent開(kāi)發(fā)者:
可以理解說(shuō)大模型是理解高維度復(fù)雜內(nèi)容的,但是最終它要跟我們?nèi)祟?lèi)交流,或者是要把它轉(zhuǎn)換成人類(lèi)理解的文字的時(shí)候,它需要通過(guò)這樣降維的方式。就相當(dāng)于一個(gè)高等的生物需要降維,才能跟我們?nèi)祟?lèi)進(jìn)行交流。在這個(gè)降維這個(gè)過(guò)程中,其實(shí)它會(huì)損失很多高維度的信息。
包括我們自己其實(shí)也有一些各式各樣的潛意識(shí)層面或者高維度的思考。最終我們要個(gè)人表達(dá)的時(shí)候,是要通過(guò)語(yǔ)言,但是語(yǔ)言其實(shí)并不一定真正能夠把我們大腦中的所思所想,全部都很清晰地表達(dá)出來(lái),或者甚至說(shuō),有些東西是沒(méi)有辦法去表達(dá)的。所以從這一點(diǎn)上來(lái)看,當(dāng)你去需要這個(gè)模型通過(guò)語(yǔ)言來(lái)跟人交流的時(shí)候,在一定程度上拉低了模型自身智能的表現(xiàn)。
除此之外,在o3之后,OpenAI內(nèi)部有一個(gè)代號(hào)為“Orion”的項(xiàng)目,在今年2月份推出,但也沒(méi)有掀起什么水花,估計(jì)OpenAI對(duì)它的信心也不大,所以也沒(méi)有把GPT-5的名字給它,而是叫了“GPT-4.5”。
Jenny Xiao
前OpenAI研究員
Leonis Capital合伙人:
我個(gè)人認(rèn)為最 大的挑戰(zhàn)仍然在于預(yù)訓(xùn)練,因?yàn)樵缭谌ツ昴甑祝踔粮绲臅r(shí)候,scaling law就已經(jīng)碰壁,因?yàn)槲覀冋诤谋M高質(zhì)量且多樣化的人類(lèi)生成的數(shù)據(jù)。缺乏數(shù)據(jù)是OpenAI的Orion項(xiàng)目延期的最 大因素。有些人會(huì)稱這個(gè)項(xiàng)目失敗了,有些人則會(huì)說(shuō)是延期。但本質(zhì)上,在OpenAI訓(xùn)練Orion系列模型時(shí),他們就已經(jīng)遇到了缺乏高質(zhì)量、多樣化數(shù)據(jù)的問(wèn)題。他們最終是用由OpenAI的o1模型生成的合成數(shù)據(jù)來(lái)訓(xùn)練Orion系列,但結(jié)果仍然沒(méi)有達(dá)到人們的預(yù)期。
我覺(jué)得OpenAI 4.5會(huì)沒(méi)那么成功,是因?yàn)樗娴臎](méi)有帶來(lái)讓人眼前一亮的突破。就好比幾乎沒(méi)有人特別關(guān)注4.5版本。
同時(shí),The Information的報(bào)道中說(shuō),2024年下半年,Orion沒(méi)能成功的部分原因在于其預(yù)訓(xùn)練階段的局限性。
同時(shí),OpenAI還發(fā)現(xiàn)對(duì)Orion模型做的優(yōu)化在模型較小的時(shí)候有效,但當(dāng)模型規(guī)模增大時(shí),這些優(yōu)化就不再有效了——模型訓(xùn)練的不確定性仍然非常大,有很多的因素會(huì)導(dǎo)致模型訓(xùn)練的失敗。
之前在硅谷101的播客錄制中,我們的嘉賓Bill Zhu也跟我們分享了訓(xùn)練模型中會(huì)出現(xiàn)很多模型崩潰的情況,甚至可能會(huì)在強(qiáng)化學(xué)習(xí)過(guò)程中出現(xiàn)所謂的“災(zāi)難性遺忘”。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
你是不可以無(wú)限制訓(xùn)練模型本身的,就是你訓(xùn)練到某一個(gè)程度它就會(huì)fall apart。其實(shí)在RL領(lǐng)域之前很經(jīng)常看到叫catastrophic forgetting(災(zāi)難性遺忘)——在你訓(xùn)練很久很久以后,它開(kāi)始忘記所有過(guò)往學(xué)到的知識(shí),然后整個(gè)模型像瘋了一樣,所有原來(lái)的policy(決策策略)都消失。
這是為什么你一開(kāi)始模型要變得足夠大,其實(shí)就像海綿一樣,然后你往里面不停地注水,然后你注水注到一定程度它滿了,那你再往里面注水,就會(huì)流出來(lái)一些,但流出來(lái)的不一定是注入的水,很有可能是原來(lái)已經(jīng)有的一部分水,甚至是很重要的水。
就像你大腦里面不停地灌輸知識(shí),然后最后過(guò)載了,把加減乘除忘了,那剩下的所有知識(shí)體系就直接fall apart。這個(gè)問(wèn)題本身叫model plasticity(模型可塑性),就是說(shuō)它的可塑性到了某種程度就直接崩潰了,然后你要怎么去解決這個(gè)問(wèn)題?叫Continual Learning(持續(xù)學(xué)習(xí)),現(xiàn)在可能你有一天會(huì)人類(lèi)生成一個(gè)terabyte of data(1TB的數(shù)據(jù)),那10天是10 個(gè)terabyte(TB),那未來(lái)可能生成數(shù)據(jù)還會(huì)越來(lái)越多,那你怎么能夠用一個(gè)模型無(wú)限地去訓(xùn)練它,讓它仍然能夠?qū)ξ磥?lái)的知識(shí)進(jìn)行獲取?這是不可能的。
這樣看來(lái),以Transformer架構(gòu)為基礎(chǔ)的LLM模型發(fā)展,如今確實(shí)可能到了一個(gè)關(guān)鍵的時(shí)刻,或者需要一個(gè)完全不同的新架構(gòu)來(lái)突破技術(shù)壁壘。
未來(lái)AI進(jìn)化路徑
強(qiáng)化學(xué)習(xí)、多模態(tài)、JEPA
接下來(lái)前沿的大模型該如何繼續(xù)優(yōu)化呢?我們跟身邊的技術(shù)大牛聊了一圈,總結(jié)了三種方式:第 一是強(qiáng)化學(xué)習(xí),第二押注多模態(tài)能力提升帶來(lái)的突破,而第三,是尋找其它的框架范式。
首先是強(qiáng)化學(xué)習(xí)路線,簡(jiǎn)稱RL,包括RL在預(yù)訓(xùn)練階段的嘗試。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
我先講講以RL為核心的訓(xùn)練機(jī)制為了解決什么問(wèn)題。很多的任務(wù)是以目標(biāo)驅(qū)動(dòng)的,比如說(shuō)寫(xiě)代碼,比如說(shuō)數(shù)學(xué)、物理、金融機(jī)構(gòu)的一些東西,再比如城市規(guī)劃,你做Operations research、供應(yīng)鏈這些東西它都是有明確目標(biāo)的,世界機(jī)制也很完整。如果A發(fā)生了會(huì)出現(xiàn)B。在這種情況下,Pre-training(預(yù)訓(xùn)練)就變得不是很有必要。
這種專(zhuān)業(yè)型的目標(biāo)為驅(qū)動(dòng)的場(chǎng)景,大多數(shù)都是沒(méi)有任何的數(shù)據(jù)的。數(shù)學(xué)跟代碼是僅有的兩個(gè)可能數(shù)據(jù)點(diǎn)相對(duì)多的場(chǎng)景。除此以外,我剛剛說(shuō)的剩下的那些點(diǎn)基本上都沒(méi)什么數(shù)據(jù),你很難在互聯(lián)網(wǎng)上得到大量的數(shù)據(jù)去完成訓(xùn)練。
本質(zhì)上它要解決的問(wèn)題是非常泛化的,而市面上已經(jīng)出現(xiàn)的數(shù)據(jù),大多數(shù)都聚焦在一些經(jīng)常會(huì)發(fā)生的代碼問(wèn)題和數(shù)學(xué)問(wèn)題。而那些非常高深難測(cè)的數(shù)學(xué)問(wèn)題,它是從來(lái)沒(méi)有出現(xiàn)過(guò)的,它必須要通過(guò)一個(gè)反事實(shí)的形式,就是我要生成一些市面上從來(lái)沒(méi)有出現(xiàn)過(guò)的代碼、數(shù)學(xué)、物理規(guī)劃等等的輸出。然后靠一個(gè)ground truth的validator(驗(yàn)證器)來(lái)告訴我做得對(duì)不對(duì),然后去self-train(自我訓(xùn)練)。這種訓(xùn)練方式是非常適合于這種有真實(shí)標(biāo)簽、能夠做出精確判斷的這種用例,然后去進(jìn)行優(yōu)化。
這是RL最閃光的時(shí)候了,其實(shí)有很多研究在網(wǎng)上都說(shuō)過(guò),其實(shí)現(xiàn)在最 大的問(wèn)題是驗(yàn)證,我如果能夠找到一個(gè)好的verifier,我可以認(rèn)為問(wèn)題解決了。因?yàn)榭梢酝ㄟ^(guò)RL去完成對(duì)于這個(gè)驗(yàn)證器的優(yōu)化就可以了。
Bill說(shuō)的“驗(yàn)證”是RL中非常重要的關(guān)鍵,也是The Information爆料中,GPT-5在RL上的殺手锏。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
這個(gè)方向就像我們當(dāng)年看到Alpha Zero打敗人類(lèi)一樣,它所能夠走出的一些路子是人類(lèi)正常想象不到的。通過(guò)這個(gè)機(jī)制,甚至可以發(fā)現(xiàn)新的物理定理,它可能可以真正去發(fā)現(xiàn)人類(lèi)所不擁有的知識(shí),這可能是下一步我覺(jué)得真正邁向super intelligence的一個(gè)關(guān)鍵點(diǎn),但目前還沒(méi)有很好的一個(gè)突破。
而接下來(lái),需要各大模型公司去探索的第二條路,就是多模態(tài)。
就像前面我們說(shuō)到的,大語(yǔ)言模型的維度是非常有限的,而多模態(tài),以及世界模型將對(duì)接下來(lái)AI的發(fā)展至關(guān)重要。
Aiden He
TensorOpera AI聯(lián)合創(chuàng)始人:
我們要注意多模態(tài),因?yàn)槎嗄B(tài)一旦引入,它就有非常復(fù)雜的工作流,比如說(shuō)你要用瀏覽器,你要用數(shù)學(xué),你要用代碼,你要使用各種復(fù)雜的工具。然后包括多模態(tài)的使用,比如說(shuō),你看GAIA提出來(lái)的框架,它其實(shí)是非常復(fù)雜的任務(wù),人類(lèi)去完成都可能要6-15分鐘,如果AI不斷地把時(shí)間降到6分鐘以下,我覺(jué)得這也是學(xué)術(shù)界、創(chuàng)業(yè)公司一直在追求的。比如說(shuō)我們?cè)诮鹑陬I(lǐng)域去做很復(fù)雜的自動(dòng)交易策略,包括給網(wǎng)紅們?nèi)プ霭l(fā)帖,其實(shí)這里面有非常復(fù)雜的步驟。
你怎么把它的boundary提高。我覺(jué)得兩個(gè)層面,一個(gè)是在應(yīng)用這樣的multi-agent(多智能體)系統(tǒng),不斷去推高需求;另外一個(gè)是在某些能力層面,大家不斷地去螺旋式上升,自己訓(xùn)更大的model(模型),當(dāng)模型因?yàn)樗懔湍茉聪拗频臅r(shí)候,它就會(huì)去做multi-model(多模型)的組合。
所以上面是多智能體,下面是多模型,我覺(jué)得這個(gè)是接下來(lái)我比較看好的兩到三年的一個(gè)發(fā)展路線圖。
朱哲清
前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)負(fù)責(zé)人
Pokee AI創(chuàng)始人兼CEO:
對(duì)于大方向的突破,我感覺(jué)應(yīng)該肯定會(huì)發(fā)力在多模態(tài)上面,特別是在視頻跟world model上面。因?yàn)槿祟?lèi)的語(yǔ)言本身是一個(gè)非常大的compression(壓縮包),它的信息搭載量和視頻的信息是一個(gè)數(shù)量級(jí)的差異,這件事情我同意Yann LeCun的說(shuō)法,人類(lèi)從視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)各方面的多維度信息采取、吸收量,是要比純文字要高出大幾個(gè)數(shù)量級(jí)的。
文字訓(xùn)練的一個(gè)假設(shè)是:我如果能夠通過(guò)一些簡(jiǎn)單規(guī)則,比如reinforcement,fine tuning(微調(diào))或者reward model(獎(jiǎng)勵(lì)模型),通過(guò)一個(gè)簡(jiǎn)單規(guī)則或者簡(jiǎn)單的判斷方式,或者訓(xùn)練出來(lái)、或者寫(xiě)出來(lái)的判斷方式,能夠去判斷一個(gè)模型的好壞、告訴你怎么去提升這個(gè)模型。它就相當(dāng)于一個(gè)文字領(lǐng)域的world model(世界模型)。比較復(fù)雜的點(diǎn)是,當(dāng)出現(xiàn)了多模態(tài)視頻,可以navigate environment(導(dǎo)航環(huán)境)之后,它的評(píng)估難度就會(huì)高很多。從純pixel(像素)的方式去做評(píng)估,這個(gè)是目前機(jī)器人技術(shù)領(lǐng)域肯定沒(méi)有解決的問(wèn)題。
如果world model能有大幅度提升的話,我們有一個(gè)很大的機(jī)會(huì)能夠去訓(xùn)練,比如說(shuō)視頻理解的模型、機(jī)器人技術(shù)的基礎(chǔ)模型、游戲的基礎(chǔ)模型,這些基礎(chǔ)模型的誕生再給到一個(gè)機(jī)會(huì),讓我們?nèi)ズ竺嬖偃プ鰌ost-training(后訓(xùn)練),它可以在整個(gè)多模態(tài)的世界里面創(chuàng)造text-based model(基于文字的模型)的一個(gè)同樣的可以復(fù)制的成就。
然而在那些領(lǐng)域當(dāng)中,它所代表的市場(chǎng)份額,或者整個(gè)市場(chǎng)的空間,其實(shí)比純文字的市場(chǎng)空間要更大。它可以把一個(gè)純文字交流式的非常壓縮信息的系統(tǒng)拓展成一個(gè),或者是線上的非常豐富的信息,或者說(shuō)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)的一部分,或者直接線下的機(jī)器人技術(shù)的東西,它們的能夠部署的這個(gè)領(lǐng)域有一個(gè)非常大的延展,所以我覺(jué)得我剛剛說(shuō)的像世界模型這個(gè)方向,視覺(jué)的方向,一定是下一步最重要發(fā)力的方向。
而多模態(tài)之戰(zhàn)確實(shí)在最近變得非常激烈,谷歌最近發(fā)布世界模型Genie 3,這在一些業(yè)內(nèi)人士看來(lái),重要性是要超過(guò)GPT-5的,我們《硅谷101》也在操作這個(gè)選題了,很快會(huì)放出來(lái),所以大家記得關(guān)注我們的賬號(hào),不要錯(cuò)過(guò)更新哦。
此外,Bill提到的圖靈獎(jiǎng)得主Yann LeCun近年來(lái)提出的核心研究方向叫做Joint Embedding Predictive Architecture,簡(jiǎn)稱JEPA,翻譯過(guò)來(lái)是“聯(lián)合嵌入預(yù)測(cè)架構(gòu)”,旨在克服大語(yǔ)言模型的局限,推動(dòng)AI理解物理世界。
Nathan Wang
硅谷101特約研究員
資深A(yù)I Agent開(kāi)發(fā)者:
JEPA本身它是把所有模型的訓(xùn)練放到Latent空間中去完成。它在潛層空間的話,對(duì)于你的輸入是有一個(gè)抽象的表達(dá),對(duì)于你的輸出也是一個(gè)抽象表達(dá),這樣你就可以再把輸入、輸出都同時(shí)放到這樣的一個(gè)維度空間中訓(xùn)練。然后再給到它不同狀態(tài)的量,讓它可以在潛層空間中去預(yù)測(cè)“我下一個(gè)動(dòng)作應(yīng)該是怎么樣的”或者“我下一個(gè)應(yīng)該預(yù)測(cè)的,是怎樣的一個(gè)狀態(tài)?”它在這個(gè)過(guò)程中就不是一幀或一個(gè)一個(gè)像素去預(yù)測(cè)的,而是把你遮擋了的某一塊可以整體地給預(yù)測(cè)出來(lái)。
JEPA本身其實(shí)也分I-JEPA和V-JEPA(video視頻JEPA)。最新發(fā)表這個(gè)文章其實(shí)也表現(xiàn)出,在預(yù)測(cè)整個(gè)視頻中的事物變化時(shí),也取得了非常好的表現(xiàn)。所以,我個(gè)人比較看好一些非transformer的架構(gòu),是否在未來(lái)可以給我們一個(gè)真正的智能,更加接近或模擬我們?nèi)四X思考的一個(gè)方式。
我覺(jué)得transformer的局限性是存在的,但我們也有其他架構(gòu)作為替代方案,也有不同的團(tuán)隊(duì)在進(jìn)行探索。所以大家可能也需要去關(guān)注一些非transformer方面的模型究竟是怎么樣去模擬人類(lèi)的智能。
GPT-5被過(guò)度營(yíng)銷(xiāo)反噬
但AI進(jìn)化不會(huì)停止
最后還想說(shuō),這次GPT-5的翻車(chē)與Sam Altman之前過(guò)于浮夸的營(yíng)銷(xiāo)分不開(kāi)。
在發(fā)布會(huì)之前,他在X上的各種預(yù)熱還有用詞,一會(huì)兒在他弟弟的播客上感嘆自己“相對(duì)于AI毫無(wú)用處”,一會(huì)兒又在X上曬出與GPT-5的聊天截圖,各種“暗示”,但又保持神秘,吊足了公眾的胃口,把期待值拉得太高。
結(jié)果發(fā)布會(huì)出來(lái),大家都愣了。所以,這次發(fā)布會(huì)的失利也是被視為“營(yíng)銷(xiāo)鬼才”的Sam Altman太過(guò)度營(yíng)銷(xiāo)的一次反噬。
總結(jié)一下,長(zhǎng)期來(lái)看,到達(dá)AGI之前,我們可能還有很多工作要做,還有很多技術(shù)壁壘需要突破,而這些突破需要腳踏實(shí)地的研發(fā)和創(chuàng)新。
但很遺憾的是,在人類(lèi)的技術(shù)進(jìn)一步被推進(jìn)之際,OpenAI等大模型公司卻開(kāi)始在商業(yè)化上變得非常激進(jìn),包括發(fā)布GPT-5之際正式開(kāi)始打價(jià)格戰(zhàn),來(lái)圈地、圈市場(chǎng)份額。
這讓不少人擔(dān)心,會(huì)不會(huì)這次的GPT-5發(fā)布會(huì)意味著AI泡沫破滅的開(kāi)始?AI大模型的進(jìn)展是否會(huì)就此停止呢?
聲明:免責(zé)聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),與本網(wǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。