21世紀(jì)經(jīng)濟報道 見習(xí)記者郭聰聰 實習(xí)生劉欣 北京報道
9月13日凌晨,OpenAI在沒有任何預(yù)告的情況下,扔出了o1-preview模型上線的重磅炸彈。
OpenAI對該模型介紹道,“ o1模型是一個新的大型語言模型,經(jīng)過強化學(xué)習(xí)(reinforcement learning,RL)訓(xùn)練,可以執(zhí)行復(fù)雜的推理。o1模型在回應(yīng)用戶之前會產(chǎn)生長串的內(nèi)部思維鏈(chain of thought)。”這種內(nèi)部思維鏈,類似于人類通過逐步推理來解決問題。
對此OpenAI稱,這是一個重要的進(jìn)展,代表了人工智能能力的新水平。
AI可以思考?o1模型超越人類頂尖水平實力
之前就有人猜測這次發(fā)布的模型可能會被命名為GPT-5,但o1系列的創(chuàng)新性令OpenAI不惜舍棄GPT系列命名,以“Orion(獵戶座)”重新命名了一個全新的o系列,可以說是新開一頁族譜了。OpenAI稱該命名存有“將‘計數(shù)器’重置為1”的寓意。
OpenAI 的研究負(fù)責(zé)人Jerry Tworek 表示,相較于GPT,o1模型采用了全新的優(yōu)化算法和專門為其定制的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,它能夠比人類更快地回答更復(fù)雜的問題。
那么o1系列模型到底有多強呢?
OpenAI官方發(fā)布了模型的對比測試,作為比較參照數(shù)值的是今年5月上新的GPT-4o模型與人類專家水平。
在組圖對比成績中可以直觀感受到,o1模型的絕對壓制力。OpenAI官網(wǎng)直言,結(jié)果表明o1模型在大多數(shù)推理任務(wù)中明顯優(yōu)于GPT-4o。
無論是在國際數(shù)學(xué)奧林匹克的選拔考試測試(AIME)、代碼競賽還是博士及科學(xué)問題的對比測試中,o1模型都壓倒式的碾壓目前的GPT-4o模型。在數(shù)學(xué)競賽與代碼競賽的正確率上,還未發(fā)布的o1正式版是GPT-4o模型的6-8倍。而在博士級科學(xué)推理問題(GPQA Diamond)測試中,o1模型也表現(xiàn)出了接近甚至超越人類頂尖水平的實力。
比AI更恐怖的是,是AI可以思考。
之所以產(chǎn)生這種質(zhì)變的正確率,是因為o1系列模型加入了RL技術(shù),逐漸生成“思維鏈”——這一類似于人類推理的思考方式。該技術(shù)通過獎勵和懲罰來教導(dǎo)系統(tǒng),令系統(tǒng)學(xué)會了識別和糾正自己的錯誤,同時也學(xué)會了將復(fù)雜的步驟分解為更簡單的步驟。
OpenAI這次劃時代的模型創(chuàng)新帶來了人工智能從大語言模型的Scaling Law到新范式Self-play RL的跨時代轉(zhuǎn)變,這或是對于AGI時代發(fā)起的一次沖鋒。
從GPT到o1,o1模型強在哪里
自2018年6月GPT-1面世以來,Open AI一直優(yōu)化拓展GPT系列模型,至2024年5月已迭代到了GPT-4o,期間還推出了專門設(shè)計用于對話生成任務(wù)ChatGPT。
在GPT系列模型一路迭代的過程中,目光更多聚焦精進(jìn)模型參數(shù)規(guī)模來提升性能,以大語言模型訓(xùn)練模型(Scaling Law)進(jìn)行多任務(wù)學(xué)習(xí),最終在GPT-4o中實現(xiàn)了文本、音頻和圖像的任何組合作為輸入的多模態(tài)大模型。
但此次推出的o1模型是OpenAI的革新之舉,代表了一種全新的推理能力。
首先是RL技術(shù)的差異,想當(dāng)年,AlphaGo戰(zhàn)勝人類棋手,背后就是用的是RL算法。OpenAI研究員Jason Wei表示,o1模型是一個在給出最終答案之前進(jìn)行思考的模型。通過RL技術(shù)訓(xùn)練模型,能夠更好地執(zhí)行鏈?zhǔn)剿伎肌?
除了訓(xùn)練方法上的差別外,不同于GPT-4o的多任務(wù)能力,o1 模型在處理復(fù)雜的編程和數(shù)學(xué)問題時具有獨特優(yōu)勢,并能解釋其推理過程。在處理復(fù)雜的推理任務(wù)的評測中,o1模型已證明了自己的絕對實力。
同時為滿足不同需求,OpenAI推出了o1-preview與o1-mini兩個o1模型。o1-preview注重深度思考與科學(xué)推理,每周速率限制為 30 條消息。o1-mini是一種經(jīng)濟高效的推理模型,非常擅長STEM,尤其是數(shù)學(xué)和編碼,用于需要推理但不需要廣泛世界知識的應(yīng)用場景,每周速率限制為 50 條。
作為o1的早期模型,o1-preview尚為純文字版,還不具備ChatGPT處理文本、音頻和圖像組合輸入的能力。
目前,o1模型已經(jīng)逐步向所有ChatGPT Plus和 Team用戶開放,后續(xù)OpenAI 將計劃為所有ChatGPT免費用戶提供 o1-mini 訪問權(quán)限。