4月15日,由李飛飛共同主導(dǎo)的斯坦福HAI研究所發(fā)布了《The 2024 AI Index Report》,這也是HAI研究所發(fā)布的第七個人工智能指數(shù)年度報告,HAI研究所官方介紹稱:“2024年指數(shù)是我們迄今為止最全面的指數(shù)。”今年HAI研究所擴大了研究范圍,依托更多的原始數(shù)據(jù)介紹了對人工智能訓(xùn)練成本的新估算,更廣泛地涵蓋了人工智能的技術(shù)進步、公眾對技術(shù)的看法等基本趨勢,并專門介紹了人工智能對科學(xué)和醫(yī)學(xué)的影響。
世界主流AI 大模型訓(xùn)練成本分析
以下是報告的10大熱門要點:
1.人工智能在某些任務(wù)上超過了人類,但并非所有任務(wù)都是如此。
人工智能已經(jīng)在幾個基準測試中超越了人類的表現(xiàn),包括圖像分類、視覺推理和英語理解等領(lǐng)域。然而,在更復(fù)雜的任務(wù)(如競賽級別的數(shù)學(xué)問題、視覺常識推理和規(guī)劃等)上,人工智能仍然落后。
2.行業(yè)繼續(xù)主導(dǎo)前沿人工智能研究。
在2023年,行業(yè)共產(chǎn)出了51個顯著的機器學(xué)習(xí)模型,而學(xué)術(shù)界僅貢獻了15個。同時,2023年還有21個顯著的模型是由行業(yè)與學(xué)術(shù)界合作共同完成的,創(chuàng)下了新的紀錄。
3.前沿模型的訓(xùn)練成本大幅上升。
根據(jù)《AI指數(shù)》的估算,最新一代人工智能模型的訓(xùn)練成本已經(jīng)達到前所未有的水平。例如,OpenAI的GPT-4預(yù)計使用了價值7800萬美元的計算資源進行訓(xùn)練,而谷歌的Gemini Ultra則耗費了1.91億美元的計算資源成本。
4.美國領(lǐng)先于中國、歐盟和英國,成為頂尖人工智能模型的主要來源地。
在2023年,美國機構(gòu)共推出了61個顯著的人工智能模型,遠遠超過了歐盟的21個和中國的15個。
5.對LLM(語言模型)責(zé)任的穩(wěn)健和標準化評估嚴重缺乏。
AI指數(shù)的新研究顯示,在負責(zé)任的人工智能報告方面存在著嚴重的標準化缺乏。包括OpenAI、谷歌和Anthropic在內(nèi)的主要開發(fā)者主要針對不同的負責(zé)任人工智能基準進行模型測試。這種做法使得系統(tǒng)地比較頂尖人工智能模型的風(fēng)險和局限性變得更加復(fù)雜。
6.生成式人工智能投資激增。
盡管去年整體人工智能私人投資有所下降,但生成式人工智能的資金投入?yún)s激增,從2022年增長了近8倍,達到252億美元。生成式人工智能領(lǐng)域的主要參與者,包括OpenAI、Anthropic、Hugging Face和Inflection等,報告了大規(guī)模的籌款輪次。
7.數(shù)據(jù)顯示:人工智能提高了員工的生產(chǎn)力,帶來了更高質(zhì)量的工作。
在2023年,多項研究評估了人工智能對勞動力的影響,表明人工智能使員工能夠更快地完成任務(wù),并提高其工作產(chǎn)出的質(zhì)量。這些研究還展示了人工智能在彌合低技能和高技能工人之間的技能差距方面的潛力。然而,其他研究警告稱,如果沒有適當(dāng)?shù)谋O(jiān)督,使用人工智能可能會導(dǎo)致績效下降。
8.由于人工智能的推動,科學(xué)進步進一步加速。
在2022年,人工智能開始推動科學(xué)發(fā)現(xiàn)。然而,2023年見證了更多重要的與科學(xué)相關(guān)的人工智能應(yīng)用的推出——從AlphaDev,使算法排序更加高效,到GNoME,促進材料發(fā)現(xiàn)過程的進行。
9.美國的人工智能監(jiān)管數(shù)量急劇增加。
美國過去一年和過去五年的人工智能相關(guān)監(jiān)管數(shù)量顯著增加。2023年,人工智能相關(guān)監(jiān)管數(shù)量達到25個,而2016年僅為1個。僅去年一年,人工智能相關(guān)監(jiān)管的總數(shù)增長了56.3%。
10.全球各地的人們更加意識到人工智能的潛在影響,也更加緊張。
根據(jù)Ipsos的一項調(diào)查顯示,過去一年中,認為人工智能將在未來三到五年內(nèi)對其生活產(chǎn)生巨大影響的人比例從60%上升到了66%。此外,52%的人對人工智能產(chǎn)品和服務(wù)表示緊張,較2022年增加了13個百分點。在美國,根據(jù)皮尤研究中心的數(shù)據(jù)顯示,52%的美國人表示對人工智能感到更加擔(dān)憂而非興奮,較2022年的38%有所增加。
日前,Anthropic創(chuàng)始人達里奧·阿莫迪(Dario Amodei)在接受《紐約時報》采訪時表示構(gòu)建更大的模型,每次迭代都需要使用更多計算資源,目前訓(xùn)練一個模型的成本大約為1億美元,上下浮動兩到三倍。Anthropic現(xiàn)在正在訓(xùn)練的模型成本將接近10億美元。在2025年和2026年,他預(yù)計,模型訓(xùn)練成本將更加接近50億或100億美元,未來構(gòu)建大型模型、核心基礎(chǔ)模型工程正變得越來越昂貴。
在本篇研究報告中也提到了暴增的大模型訓(xùn)練成本。
在討論基礎(chǔ)模型時,一個突出的話題是它們的推理成本。盡管人工智能公司很少透露訓(xùn)練模型所涉及的費用,但普遍認為這些費用高達數(shù)百萬美元,并且正在上升。例如,OpenAI的首席執(zhí)行官Sam Altman提到,GPT-4的培訓(xùn)成本超過1億美元。這種訓(xùn)練費用的增加有效地將大學(xué)、傳統(tǒng)人工智能研究中心排除在外,使他們無法開發(fā)自己的領(lǐng)先基礎(chǔ)模型。為此政策倡議,例如拜登關(guān)于人工智能的行政命令,試圖通過創(chuàng)建國家人工智能研究資源來消除行業(yè)和學(xué)術(shù)界之間的差距,該資源將為非行業(yè)參與者提供進行更高級別的人工智能研究所需的計算和數(shù)據(jù)。
了解培訓(xùn)人工智能模型的成本非常重要,但關(guān)于這些成本的詳細信息仍然很少。去年,《AI指數(shù)》是首批提供基礎(chǔ)模型培訓(xùn)成本估算的機構(gòu)之一。今年,《AI指數(shù)》與Epoch AI(一個人工智能研究機構(gòu))合作,大幅增強和鞏固了其人工智能培訓(xùn)成本估算的穩(wěn)健性。為了估計尖端模型的成本,Epoch團隊分析了培訓(xùn)持續(xù)時間以及培訓(xùn)硬件的類型、數(shù)量和利用率,使用了與這些模型相關(guān)的出版物、新聞稿或技術(shù)報告的信息。
圖1.3.21展示了基于云計算租金價格的選擇人工智能模型的估計培訓(xùn)成本?!禔I指數(shù)》的估算結(jié)果驗證了近年來模型培訓(xùn)成本顯著增加的猜測。例如,2017年,原始Transformer模型的培訓(xùn)成本約為900美元。2019年發(fā)布的RoBERTa Large模型,在許多經(jīng)典理解基準測試中取得了最先進的結(jié)果,例如SQuAD和GLUE,其培訓(xùn)成本約為16萬美元。到2023年,據(jù)估計,OpenAI的GPT-4和Google的Gemini Ultra的培訓(xùn)成本分別約為7800萬美元和1.91億美元。
圖1.3.22顯示了AI Index估計的所有AI模型的訓(xùn)練成本。如圖所示,隨著時間的推移,模型訓(xùn)練成本急劇增加。
AI Index 估計的所有 AI 模型的訓(xùn)練成本
圖1.3.23所示,對計算訓(xùn)練需求更大的模型需要的訓(xùn)練成本更多。
對計算訓(xùn)練需求更大的模型需要的訓(xùn)練成本更多