榮耀CEO趙明確認離職:下一站去哪?IPO在即的榮耀又何去何從?

 行业资讯     |      2025-07-05

o1和o3的發布,對AGI時間表的預測的影響並不大。

Metaculus的‘強AGI’預測似乎因為o3的發布而提前了一年,預計在2031年中期實現;然而,自2023年3月以來,該預測一直在2031到2033年之間波動。

Manifold Market的‘AGI何時到來?’也提前了一年,從2030年調整為2029年,但最近這一預測也在波動。

很有可能,這些預測平台已經在某種程度上考慮了推理計算擴展的影響,因為思維鏈並不是一項新技術,即使通過RL增強。

總體來說,Ryan Kidd認為他也沒有比這些預測平台當前預測更好的見解。

部署問題

在《AI Could Defeat All Of Us Combined》中,Holden Karnofsky描述了一種模棱兩可的風險威脅模型。

在此模型中,一群人類水平的AI,憑借更快的認知速度和更好的協調能力超過了人類,而非依賴於定性上的超級智能能力。

這個情景的前提是,‘一旦第一個人類水平的AI係統被創造出來,創造它的人,可以利用創造它所需要的相同計算能力,運行數億個副本,每個副本大約運行一年。’

如果第一個AGI的運行成本和o3-high的成本一樣(約3000美元/任務),總成本至少要3000億美元,那麽這個威脅模型似乎就不那麽可信了。

因此,Ryan Kidd博士對‘部署問題’問題的擔憂較小,即一旦經過昂貴的訓練,短期模型就可以廉價地部署,從而產生巨大影響。

這在一定程度上減輕了他對‘集體’或‘高速’超級智能的擔憂,同時略微提升了對‘定性’超級智能的關注,至少對於第一代AGI係統而言。

監督思維鏈

如果模型的更多認知,是以人類可解釋的思維鏈(CoT)形式嵌入,而非內部激活,這似乎是通過監督來促進AI安全性的好消息!

盡管CoT對模型推理的描述並不總是真實或準確,但這一點可能得到改進。

Ryan Kidd也對LLM輔助的紅隊成員持樂觀態度,他們能夠防止隱秘的陰謀,或者至少限製可能秘密實施的計劃的複雜度,前提是有強有力的AI控製措施

從這個角度來看,推理計算擴展範式似乎非常有利於AI安全,前提是有足夠的CoT監督。

不幸的是,像Meta的Coconut(‘連續思維鏈’)這樣的技術可能很快就會應用於前沿模型,連續推理可以不使用語言作為中介狀態。

盡管這些技術可能帶來性能上的優勢,但它們可能會在AI安全性上帶來巨大的隱患。

正如Marius Hobbhahn所說:‘如果為了微小的性能提升,而犧牲了可讀的CoT,那簡直是在自毀前程。’

然而,考慮到用戶看不到o1的CoT,尚不確定是否能知道非語言CoT被部署的可能性,除非通過對抗性攻擊揭示這一點。

AGI來了

美國AI作家和研究員Gwern Branwen,則認為Ryan Kidd遺漏了一個重要方麵:像o1這樣的模型的主要目的之一不是將其部署,而是生成下一個模型的訓練數據。

o1解決的每一個問題現在都是o3的一個訓練數據點(例如,任何一個o1會話最終找到正確答案的例子,都來訓練更精細的直覺)。

這意味著這裏的擴展範式,可能最終看起來很像當前的訓練時範式:大量的大型數據中心,在努力訓練一個擁有最高智能的最終前沿模型,並以低搜索的方式使用,並且會被轉化為更小更便宜的模型,用於那些低搜索或無搜索的用例。

對於這些大型數據中心來說,工作負載可能幾乎完全與搜索相關(因為與實際的微調相比,推出模型的成本低廉且簡單),但這對其他人來說並不重要;就像之前一樣,所看到的基本是,使用高端GPU和大量電力,等待3到6個月,最終一個更智能的AI出現。

OpenAI部署了o1-pro,而不是將其保持為私有,並將計算資源投資於更多的o3訓練等自舉過程。

Gwern Branwen對此有點驚訝。

顯然,類似的事情也發生在Anthropic和Claude-3.6-opus上——它並沒有‘失敗’,他們隻是選擇將其保持為私有,並將其蒸餾成一個小而便宜、但又奇怪地聰明的Claude-3.6-sonnet。)

OpenAI突破‘臨界點’

OpenAI的成員突然在Twitter上變得有些奇怪、甚至有些欣喜若狂,原因可能就是看到從原始4o模型到o3(以及現在的狀態)的改進。

這就像觀看AlphaGo在圍棋中等國際排名:它一直在上升……上升……再上升……

可能他們覺得自己‘突破了’,終於跨過了臨界點:從單純的前沿AI工作,幾乎每個人幾年後都會複製的那種,跨越到起飛階段——破解了智能的關鍵,以至o4或o5將能夠自動化AI研發,並完成剩下的部分。

2024年11月,Altman表示:

我可以看到一條路徑,我們正在做的工作會繼續加速增長,過去三年取得的進展將繼續在未來三年、六年、九年或更長時間裏繼續下去。

不久卻又改口:

我們現在非常確信地知道如何構建傳統意義上的AGI……我們開始將目標超越這一點,邁向真正意義上的超級智能。我們很喜歡我們目前的產品,但我們是為了美好的未來。通過超級智能,我們可以做任何事情。

而其他AI實驗室卻隻能望洋興歎:當超級智能研究能夠自給自足時,根本無法獲得所需的大型計算設備來競爭。

最終OpenAI可能吃下整個AI市場。

畢竟AlphaGo/Zero模型不僅遠超人類,而且運行成本也非常低。僅僅搜索幾步就能達到超人類的實力;即使是僅僅前向傳遞,已接近職業人類的水平!

如果看一下下文中的相關擴展曲線,會發現原因其實顯而易見。

繼續蒸餾

推理時的搜索就像是一種刺激劑,能立即提升分數,但很快就會達到極限。

很快,你必須使用更智能的模型來改善搜索本身,而不是做更多的搜索。

如果單純的搜索能如此有效,那國際象棋在1960年代就能解決了.

而實際上,到1997年5月,計算機才擊敗了國際象棋世界冠軍,但超過國際象棋大師的搜索速度並不難。

如果你想要寫著‘Hello World’的文本,一群在打字機上的猴子可能就足夠了;但如果想要在宇宙毀滅之前,得到《哈姆雷特》的全文,你最好現在就開始去克隆莎士比亞。

幸運的是,如果你手頭有需要的訓練數據和模型,那可以用來創建一個更聰明的模型:聰明到可以寫出媲美甚至超越莎士比亞的作品。

2024年12月20日,奧特曼強調:

在今天的噪聲中,似乎有些消息被忽略了:

在編程任務中,o3-mini將超過o1的表現,而且成本還要少很多!

我預計這一趨勢將持續下去,但也預見到為獲得邊際的更多性能而付出指數級增加的資金,這將變得非常奇怪。

因此,你可以花錢來改善模型在某些輸出上的表現……但‘你’可能是‘AI 實驗室’,你隻是花錢去改善模型本身,而不僅僅是為了某個一般問題的臨時輸出。

這意味著外部人員可能永遠看不到中間模型(就像圍棋玩家無法看到AlphaZero訓練過程中第三步的隨機檢查點)。

而且,如果‘部署成本是現在的1000倍’成立,這也是不部署的一個理由。

為什麽要浪費這些計算資源來服務外部客戶,而不繼續訓練,將其蒸餾回去,最終部署一個成本為100倍、然後10倍、1倍,甚至低於1倍的更優模型呢?

因此,一旦考慮到所有的二階效應和新工作流,搜索/測試時間範式可能會看起來出奇地熟悉。