傳言中有高級(jí)推理能力、此前被稱為“草莓項(xiàng)目”的OpenAI新項(xiàng)目于北京時(shí)間9月13日凌晨推出了。
OpenAI在官網(wǎng)介紹,一個(gè)新的推理(reasoning)模型系列將開始提供,這個(gè)系列模型將用于解決困難問題,這些模型將在做出反應(yīng)前花更多時(shí)間思考,可以通過復(fù)雜的過程進(jìn)行推理,解決比以往更難的科學(xué)、編碼和數(shù)據(jù)問題。OpenAI此次在ChatGPT和API接口渠道上先推出該系列的預(yù)覽版本OpenAI o1-preview。
“對(duì)復(fù)雜的推理任務(wù)而言,這是一個(gè)重大進(jìn)步,代表人工智能能力的一個(gè)嶄新水平。因此我們將‘計(jì)數(shù)器’重置為1,新系列命名為OpenAI o1。”O(jiān)penAI表示。OpenAI CEO Sam Altman(薩姆·奧爾特曼)也在社交平臺(tái)上表示,該新模型是一個(gè)新范式的開始,即AI能夠進(jìn)行通用復(fù)雜推理。
OpenAI o1包括三個(gè)型號(hào),除o1-preview 之外還將有o1和o1-mini。其中o1-mini是一種更快、更便宜的推理模型且適用于需要推理但不需廣泛世界知識(shí)的應(yīng)用,o1-mini還比o1-preview便宜80%。
技術(shù)方面,OpenAI介紹,新系列模型經(jīng)過訓(xùn)練,學(xué)會(huì)完善自身思維過程并嘗試不同策略,能認(rèn)識(shí)到自己的錯(cuò)誤。新系列模型更新后的性能類似于博士生在物理、化學(xué)、生物學(xué)中完成具挑戰(zhàn)性的基準(zhǔn)任務(wù)。新系列模型還在數(shù)據(jù)和編碼方面表現(xiàn)出色,在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)的資格考試中得分83%,對(duì)比之下GPT-4o僅正確解決了13%的問題。新系列模型還在競(jìng)爭(zhēng)性編程問題Codeforces比賽中排名前89%。
在技術(shù)研究相關(guān)文章中,OpenAI介紹,公司用大規(guī)模強(qiáng)化學(xué)習(xí)算法“教會(huì)”模型在數(shù)據(jù)高效訓(xùn)練時(shí)用思維鏈進(jìn)行高效思考。隨著強(qiáng)化學(xué)習(xí)增加和思考時(shí)間增加,o1的性能不斷提高。類似于人類在回答困難問題之前思考很長(zhǎng)時(shí)間,o1也嘗試在解決問題時(shí)使用思維鏈,該模型通過強(qiáng)化學(xué)習(xí)學(xué)會(huì)磨練思維鏈并改進(jìn)策略,學(xué)會(huì)在當(dāng)前方法不起作用時(shí)嘗試不同方法,這提高了模型推理能力。
“作為早期模型,它還難以使ChatGPT變得更加有用,例如通過瀏覽網(wǎng)頁獲取信息或上傳文件和圖像。對(duì)于很多常見案例,GPT-4o短期內(nèi)能力還是更好。”O(jiān)penAI表示。不過該系列新模型增強(qiáng)的推理功能可能對(duì)解決科學(xué)、編碼、數(shù)學(xué)和類似領(lǐng)域的復(fù)雜問題更有效,例如,醫(yī)療保健研究人員可用它來注釋細(xì)胞測(cè)序數(shù)據(jù),物理學(xué)家用它生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,開發(fā)人員可用它構(gòu)建和執(zhí)行多步驟工作流程。量子物理學(xué)者M(jìn)ario Krenn就展示了GPT-4o不能回答但o1-preview正確完成計(jì)算的復(fù)雜量子物理問題。
OpenAI研究人員Noam Brown在社交平臺(tái)上提到OpenAI o1系列的更多細(xì)節(jié),他表示,o1系列經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練,在通過自己的思維鏈做出反應(yīng)前會(huì)思考,思考時(shí)間越長(zhǎng),推理任務(wù)表現(xiàn)越好。“這為大模型縮放(scaling)開辟了新維度,我們不再受預(yù)訓(xùn)練的瓶頸限制,現(xiàn)在也可以擴(kuò)展推理計(jì)算了。” Noam Brown表示,但o1模型并不總是比GPT-4o好,有時(shí)人們不值得長(zhǎng)時(shí)間等待o1響應(yīng),在個(gè)人寫作和編輯文本時(shí)人們可能會(huì)偏好GPT-4o,在計(jì)算機(jī)編程、數(shù)據(jù)分析和數(shù)學(xué)計(jì)算領(lǐng)域則可能會(huì)偏好OpenAI o1。
Noam Brown透露,OpenAI o1在回答前會(huì)思考幾秒,但OpenAI的目標(biāo)是讓未來的版本思考幾個(gè)小時(shí)、幾天甚至幾周,雖然推理成本會(huì)更高,但人們有可能也會(huì)獲得更多,例如在研發(fā)新抗癌藥等方面,人工智能可以不僅僅是聊天機(jī)器人。
不過,不是所有用戶都能立馬用上新系列模型。據(jù)OpenAI介紹,ChatGPT Plus用戶和Team用戶最早可以在幾個(gè)小時(shí)內(nèi)體驗(yàn)到新模型。o1-preview限制為每周30條消息,o1-mini限制為每周50條消息。而從下周開始,ChatGPT的企業(yè)用戶和教育(Edu)用戶也可以訪問這兩種模型。該系列模型的API訪問權(quán)限首先給Tier 5級(jí)用戶。此外,OpenAI還計(jì)劃將向所有ChatGPT免費(fèi)用戶提供o1-mini訪問權(quán)限。后續(xù),OpenAI還計(jì)劃增加瀏覽、文件和圖片上傳等功能,且在OpenAI o1系列之外繼續(xù)開發(fā)和發(fā)布GPT系列中的其他模型。
在安全方面,OpenAI則透露,新模型的思維鏈推理為確保對(duì)齊和安全提供了新的機(jī)會(huì),隱藏的思維鏈為監(jiān)控模型提供了獨(dú)特的機(jī)會(huì),使人能“讀取模型思想”并理解其思維過程。此外,公司最近與美國(guó)和英國(guó)的人工智能安全研究所達(dá)成協(xié)議,開始將相關(guān)協(xié)議付諸實(shí)施,包括允許各機(jī)構(gòu)盡早使用該模型的研究版本,這有助于建立一個(gè)在公開發(fā)布之前和之后對(duì)未來模型進(jìn)行研究、評(píng)估和測(cè)試的流程。