GeminiUltra訓練燒掉近2億美元！斯坦福迄今最全AI報告發布，中國AI專利數遙遙領先

作者 | ZeR0

編輯 | 漠影

智東西4月16日報道，最新的501頁《2024斯坦福AI指數報告》剛剛發布，披露了其迄今最全面的AI指數，提供從2010年至今涉及AI研發專利、開源趨勢、技術性能、訓練成本、經濟影響、投融資、監管進程變化的數據與圖表。

根據報告，産業界繼續主導前沿AI研究，先進AI模型的訓練成本突破億級大關，其中燒錢最猛的谷歌Gemini Ultra達到了驚人的1.91億美元。

2023年生成式AI投資數量大幅增長，相比2022年接近翻倍，總額達到252億美元。而全球AI私人投資則連續第二年呈下降趨勢。

就開源與閉源路線而言，新發布的基礎模型中，開源模型占比超過6成。但從平均性能表現來看，閉源模型要優于開源模型。從2011年到2023年，GitHub上AI相關數量從845個一路暴增到181萬個，僅是去年數量就飙漲59.3%。

從專利數量來看，中國近年一直穩居第一，顯著超過第二名美國。

報告廣泛研究了包括語言處理、編程、計算機視覺（圖像與視頻分析）、推理、音頻處理、自主agents、機器人與強化學習，還聚焦過去一年顯著的AI研究突破，探討了通過提示、優化和微調來改進大語言模型的方法。

各行各業的企業正在以不同方式利用AI。報告研究了企業對AI的采用情況，以及與AI相關的勞動力需求、招聘趨勢、技能滲透率和人才可用度，評估了AI當前和預計的經濟影響。

2023年，被調研的專業開發者中，ChatGPT是最受歡迎的AI搜索工具，GitHub Copilot是最受歡迎的AI開發工具，AWS是最流行的雲平台。

同時，報告分析了隱私與數據治理、透明度與可解釋性、安全性與公平性等負責任AI的關鍵議題，並探討了AI對政治進程的潛在影響。

一、大模型訓練成本高達近2億美元，中國AI專利數問鼎全球第一

1、前沿模型越來越貴，Gemini Ultra訓練成本近2億美元

據AI指數估計，先進AI模型的訓練成本已經達到了前所未有的水平。例如，OpenAI的GPT-4花了約7800萬美元的計算成本進行訓練，谷歌Gemini Ultra更是在計算上花費了1.91億美元。

這些模型對環境造成的影響如下表所示。

不同模型推理任務造成的碳排放情況不同。

2、工業界繼續主導前沿AI研究，知名模型數“倍殺”學術界

2023年，工業界生産了51個知名機器學習模型，而學術界只貢獻了15個。2023年産學研合作産生的知名模型也達到21個，創曆史新高。

3、超6成基礎模型開源，閉源表現明顯優于開源

2023年總共發布了149個基礎模型，是2022年發布數量的2倍多。

在這些新發布的模型中，65.7%是開源的，而2022年和2021年分別只有44.4%和33.3%。

出于對風險控制等因素的考慮，基礎模型們采用了不同的開放策略，像BLOOM、GPT-J等完全開源，PaLM、Imagen等則完全閉源。

在10個AI基准測試中，閉源模型的表現優于開源模型，平均性能優勢爲24.2%。閉源模型和開源模型的表現差異對AI政策辯論具有重要意義。

自2011年以來，GitHub上與AI相關的項目數量持續增長，從2011年的845個增加到2023年的181萬個。僅在2023年，GitHub AI項目總數就急劇增長了59.3%。

從地理分布來看，美國GitHub AI項目占比最多，約爲22.93%，中國大陸占3.04%。

GitHub上AI相關項目的star總數也在2023年大幅增加，從2022年的400萬增加到1221萬，增加了2倍多。

同樣，美國AI項目的star總數遠超世界其他地區。

4、61個頂級AI模型來自美國，數量遠超歐盟和中國大陸

2023年，61個知名AI模型來自美國的機構，遠遠超過中國大陸的20個。

5、AI專利數12年暴漲31倍，中國問鼎全球第一

從2021年到2022年，全球AI專利授權量大幅增長62.7%。自2010年以來，AI專利授權數量增長了31倍以上。

2022年，中國大陸以61.1%的比例領先全球AI專利，顯著超過美國的20.9%。

6、AI出版物數量12年增加近2倍

2010年至2022年間，AI出版物的總數幾乎增加了2倍，從2010年的約8.8萬篇增加到2022年的24萬多篇。2022年同比增幅放緩。

7、GPT-4去年最受關注

被選模型中，2023年GPT-4在AI社交媒體上受到最多的關注。

2023年各季度AI模型的淨情緒得分情況如下：

8、AI加速科學發現與醫療進步

2022年，AI開始推動科學發現。023年，我們看到了更重要的與科學相關的AI應用推出——從提高算法排序效率的AlphaDev，到促進材料發現過程的GNoME。

2023年有幾個重要的醫療系統問世，包括增強大流行預測的EVEscape和協助AI驅動的突變分類的AlphaMissence。AI越來越多地被用于推動醫學進步。

過去幾年，AI系統在評估AI臨床知識的關鍵基准測試MedQA上取得了顯著進步。2023年的突出模型GPT-4 Medprompt的准確率達到了90.2%，比2022年的最高分提高了22.6%。自2019年推出該基准以來，MedQA上的AI性能幾乎增長了2倍。

2022年，FDA批准了139種與AI相關的醫療設備，比2021年增加了12.1%。自2012年以來，FDA批准的AI相關醫療器械數量增加了45倍以上。

二、多模態AI時代來了！基准測試轉向人工評估

1、AI在某些任務上勝過人類，但並非所有任務

AI在圖像分類、視覺推理、英語理解等基准上的表現超過了人類。但在更複雜的任務上，比如競賽水平的數學、視覺常識推理和規劃，它就落後了。

2、多模態AI大放異彩

傳統AI系統的適用範圍有限，語言模型在文本理解方面表現出色，但在圖像處理方面表現不佳，反之亦然。而多模態模型正在興起，例如谷歌的Gemini和OpenAI的GPT-4。這些模型展示了靈活性，能夠處理圖像和文本，在某些情況下甚至可以處理音頻。

3、基礎測試更加嚴格，並轉向人工評估

AI模型在ImageNet、SQuAD和SuperGLUE等既定基准上的性能已經達到飽和，促使研究人員開發更具挑戰性的模型。2023年出現了幾個具有挑戰性的新基准，包括用于編碼的SWE-bench、用于圖像生成的HEIM、用于通用推理的MMMU、用于道德推理的MoCa、用于基于agent的行爲的AgentBench和用于幻覺的HaluEval。

隨著生成模型産生高質量的文本、圖像和更多內容，基准測試已經慢慢開始轉向像Chatbot Arena排行榜這樣的人工評估，而不是像ImageNet或SQuAD這樣的計算機化排名。在跟蹤AI的進展時，公衆對AI的感受正成爲一個越來越重要的考慮因素。

4、更好的AI意味著更好的數據

SegmentAnything、Skoltech等新興AI模型正被用于生成圖像分割和3D重建等任務的專門數據。數據對于AI技術的改進至關重要。使用AI創建更多數據增強了當前的能力，並爲未來的算法改進鋪平了道路，特別是在更難的任務上。

5、大語言模型讓機器人更靈活

語言模型與機器人技術的融合産生了更靈活的機器人系統，如PaLM-E和RT-2。除了改進的機器人能力之外，這些模型還支持問答，這標志著機器人向能夠更有效地與現實世界互動的方向邁出了重要一步。

6、更多AI Agent技術研究

長期以來，創造能夠在特定環境中自主運行的AI Agent一直是計算機科學家面臨的挑戰。新興研究表明，自主AI Agent的性能正在提高。Agent現在可以掌握像《我的世界》這樣的複雜遊戲，並有效地處理現實世界的任務，比如在線購物和研究協助。

三、生成式AI投資猛增，新投資AI公司數量大漲

盡管去年AI私人投資總體下降，但對生成式AI的投資卻大幅增長，比2022年增長了近2倍，達到252億美元。

獲得新融資的生成式AI公司數量去年達到99家。

生成式AI領域的主要參與者，包括OpenAI、Anthropic、Hugging Face和Inflection都公布了大量融資。

全球在AI領域的私人投資總額連續第二年下降，但幅度低于2021年至2022年的急劇下降。

新獲得投資的AI公司數量飙升至1812家，比上年增長40.6%。

其中美國占了近一半。

2023年，美國在AI領域的私人投資達到672億美元，是第二名中國大陸的近8.7倍。自2022年以來，中國大陸和歐盟（包括英國）的AI領域私人投資分別下降了44.2%和14.1%，而美國在同一時間段內顯著增長了22.1%。

在生成式AI私人投資上，美國總投資額一騎絕塵，2023年達到224.6億美元。

與2022年相比，在AI Infra、研究和監管領域的私人投資總額大幅增長。

四、生成式AI成大公司焦點，近6成組織用AI增加收入

1、《財富》500強企業財報會議大量提及生成式AI

2023年，AI在財報電話會議中被提及394次（幾乎占所有財富500強公司的80%），比2022年的266次有顯著增加。自2018年以來，《財富》500強企業財報電話會議中提到AI的次數幾乎翻了一番。最常被提及的主題是生成式AI，占所有財報電話會議的19.7%。

2、全球範圍內AI工作崗位減少

2022年，AI相關職位占美國所有招聘職位的2.0%，到2023年，這一數字降至1.6%。AI職位列表的下降是由于領先的AI公司發布的職位減少，以及這些公司的技術職位比例減少。

3、超半數組織采用AI

麥肯錫2023年的一份報告顯示，55%的組織現在至少在一個業務部門或功能中使用AI（包括生成式AI），高于2022年的50%和2017年的20%。

至少一個功能或業務部門引入AI功能的調查結果如下：

4、AI降低了成本，增加了收入

麥肯錫的一項新調查顯示，42%的受訪組織表示實施AI（包括生成式AI）降低了成本，59%的組織表示收入增加。與前一年相比，報告成本下降的受訪組織增加了10個百分點，這表明AI正在推動企業效率的顯著提高。

科技、傳媒、通信領域在産品和服務開發、市場和銷售方面的AI采用率顯著增長。

5、AI提高了員工的工作效率和質量

2023年，幾項研究評估了AI對勞動力的影響，表明AI使員工能夠更快地完成任務，並提高他們的産出質量。

這些研究還表明，AI有潛力彌合低技能工人和高技能工人之間的技能差距。還有一些研究警告說，在沒有適當監督的情況下使用AI可能會導致性能下降。

6、ChatGPT、GitHub Copilot最受專業開發者歡迎

調查顯示，ChatGPT、Bing AI、WolframAlpha是最受專業開發者歡迎的3款AI搜索工具。

GitHub Copilot是2023年最受專業開發者歡迎的AI開發工具，其次是Tabnine和AWS CodeWhisperer。

雲計算平台中最受歡迎的是AWS、微軟Azure和谷歌雲。

開發者們認爲AI工具有提高生産力、加快學習、提高效率、提高代碼精確度等好處。

常用的生成式AI功能有生成草稿、個性化營銷、總結文稿、生成圖像或視頻等。

7、中國主導著工業機器人，機器人安裝更加多樣化

自2013年超越日本成爲工業機器人的主要安裝國以來，中國與最接近的競爭對手的差距已顯著擴大。2013年，中國大陸的安裝量占全球總量的20.8%，到2022年這一比例將上升到52.4%。

2017年，協作機器人僅占所有新工業機器人安裝量的2.8%，到2022年這一數字將攀升至9.9%。同樣，2022年，除了醫療機器人之外，所有應用類別的服務機器人安裝量都有所增加。

五、負責任的AI：缺乏標准化，深度僞造難被發現

1、對大語言模型負責任的健全和標准化評估嚴重缺乏

AI指數的新研究表明，負責任的AI報告嚴重缺乏標准化。

包括OpenAI、Google和Anthropic在內的領先開發人員主要針對不同的負責任的AI基准測試他們的模型。這種做法使系統地比較頂級AI模型的風險和局限性的努力變得複雜。

2、政治造假易産生、難被發現

政治深度僞造已經影響到世界各地的選舉。近期研究表明，現有的AI深度僞造檢測方法的准確率參差不齊。此外，像CounterCloud這樣的新項目展示了AI如何輕松地創建和傳播虛假內容。

3、研究人員發現大語言模型中更複雜的漏洞

以前，紅隊AI模型的大多數努力都集中在測試對人類直觀有意義的對抗性提示上。今年，研究人員發現了讓大語言模型表現出有害行爲的不太明顯的策略，比如要求模型無限重複隨機單詞。

4、AI風險是全球企業關注問題

一項關于負責任的AI的全球調查強調，企業最關心的AI問題包括隱私、安全、可靠性。調查顯示，企業已經開始采取措施來降低這些風險。然而，在全球範圍內，大多數公司迄今只減輕了這些風險的一部分。

5、大語言模型可能輸出受版權保護的材料

許多研究人員已經表明，受歡迎的大語言模型的生成輸出可能包含受版權保護的材料，比如《紐約時報》的節選或電影中的場景。這種輸出是否構成侵犯版權正成爲一個核心的法律問題。

6、AI開發者透明度得分低

新引入的基金會模型透明度指數顯示，AI開發者缺乏透明度，特別是在訓練數據和方法的披露方面。這種開放性的缺乏阻礙了進一步理解AI系統的穩健性和安全性。

7、極端的AI風險很難分析

在過去的一年裏，AI學者和從業者之間出現了一場關于關注即時模型風險（如算法歧視）與潛在的長期存在威脅的實質性辯論。區分哪些主張是有科學依據的，應該爲政策制定提供信息，已經變得具有挑戰性。與存在威脅的理論性質形成對比的是，已經存在的短期風險的實際性質使這一困難更加複雜。

8、AI濫用事件數量持續上升

根據追蹤與AI濫用相關事件的AI事件數據庫，2023年報告了123起事件，比2022年增加了32.3%。自2013年以來，AI濫用事件增長了20多倍。一個值得注意的例子包括在網上廣泛分享的由AI生成的泰勒·斯威夫特（Taylor Swift）露骨的深度僞造照片。

9、ChatGPT、圖像生成模型需持續解決偏見問題

研究人員發現，ChatGPT對美國民主黨和英國工黨存在明顯的政治偏見。這一發現引發了人們對該工具可能影響用戶政治觀點的擔憂。

5個主流商用圖像生成模型在年齡、種族、性別方面的平均偏見得分如下：

10、全球AI立法進程提速

全球立法程序中提到AI的次數幾乎翻了一番，從2022年的1247次增加到2023年的2175次。每個大洲至少有1個國家在2023年討論了AI，這突顯了AI政策話語的真正全球影響力。

在過去的一年和五年裏，美國與AI相關的法規數量顯著增加。到2023年，AI相關法規從2016年的一項增加到25項。僅去年一年，AI相關法規總數就增長了56.3%。

發布AI法規的美國監管機構從2022年的17個增加到2023年的21個，在2023年首次頒布AI相關法規的新監管機構包括交通部、能源部和職業安全與健康管理局。

結語：全球公衆更加認識到AI的潛在影響，也更加緊張

益普索（Ipsos）的縱向調查數據分析了全球對AI的態度，多倫多大學調查了公衆對ChatGPT的看法，皮尤研究中心（Pew）調查了美國人對AI的態度。

一項調查顯示，過去一年，認爲AI將在未來三到五年內極大地影響他們生活的人的比例從60%上升到66%。此外，52%的人對AI産品和服務表示緊張，比2022年上升了13個百分點。皮尤研究中心數據顯示，52%的美國人對AI感到擔憂甚于興奮，這一比例高于2022年的38%。

2022年，包括德國、荷蘭、澳大利亞、比利時、加拿大和美國在內的幾個西方發達國家，對AI産品和服務的態度最不樂觀。從那以後，這些國家中承認AI好處的受訪者比例都有所上升，其中荷蘭的轉變最爲顯著。

在益普索的一項調查中，37%的受訪者認爲AI會改善他們的工作。只有34%的人認爲AI將促進經濟發展，32%的人認爲AI將改善就業市場。

在對AI改善生計潛力的看法上存在顯著的人口差異，年輕一代普遍更爲樂觀。例如，59%的Z世代受訪者認爲AI將改善娛樂選擇，而嬰兒潮一代只有40%。此外，收入和受教育程度較高的人比收入和受教育程度較低的人更看好AI對娛樂、健康和經濟的積極影響。

多倫多大學的一項國際調查顯示，63%的受訪者知道ChatGPT。在這些人中，大約一半的人每周至少使用一次ChatGPT。

娛樂新聞吧

GeminiUltra訓練燒掉近2億美元！斯坦福迄今最全AI報告發布，中國AI專利數遙遙領先

智東西