谷歌Meta離職團隊4個月訓出比肩GPT-4大模型,清華北航校友參與

36氪 2024-04-26 14:40:49

文|李然

編輯|蘇建勳

大模型牌桌上又多一名高端玩家。

圖源:X

試用鏈接:https://chat.reka.ai/auth/login

由前DeepMind, Google Brain, FAIR出走的大佬共同創立的Reka AI,發布了它們最新的多模態大模型Reka Core,各項能力全面比肩GPT-4!

圖源:官網

在幾項最重要的測試集上,它的能力和GPT-4,Gemini Ultra打得有來有回。

而且它能支持3種模態數據的混合輸入,目前在主流大模型産品中能做到的只有Gemini,而且它的多模態性能甚至比Gemini Ultra還要略強。

圖源:官網

具體來說,Reka Core的主要技術亮點體現在這幾個方面:

多模態能力:具備圖像,視頻和音頻理解能力。它對圖像、視頻和音頻具有強大的上下文理解能力,是目前市面上除了Gemini之外唯二的全模態能力模型。 128K上下文窗口。 極強的推理能力。

Reka Core具有超強的推理能力(包括語言和數學),因此適合執行需要複雜分析的任務。

而除了超大杯Reka Core之外,團隊之前就已經放出了兩個小型的開源模型Reka Flash和Reka Edge。

最令人咂舌的是,這個模型性能完全對標GPT-4的産品誕生于一個只有22人的團隊——

成員幾乎都是遠程辦公,接近半數亞裔,分布在包括加州、西雅圖、倫敦、蘇黎世、香港和新加坡等地。

圖源:官網

用他們自己的說法,這只“小而凶猛”的團隊在過去十年中爲人工智能領域的許多突破做出了非常大貢獻。

圖源:領英

根據CTO的介紹,這個模型是20人的團隊在最近4個月內才肝出來的,因爲他們90%的算力在去年12月底才到位。

隨著Reka Core的發布,他們從幕後走到舞台中央,讓“大模型”第一次進入“小團隊”時代!

能看懂三體的大模型

在官方的演示中,Reka Core對網飛《三體》第一集那個經典場景進行了解讀:

來源:官方素材

視頻中一個人在昏暗的房間裏,將手電筒照在牆上。牆上有很多用紅色和黑色墨水寫的數字和等式。這個人似乎在很認真地研究這些數字,然後轉過身來對著鏡頭開始說話,提到了倒計時和一系列殺人案件似乎有某種關系。

如果讓一個沒有看過《三體》的人來看這段視頻,能不能這麽全面地捕捉到這些細節都很難說。而且Reka Core很自然地理解並且整合了視頻中場景的切換,人物動作的意圖,以及聲音等多模態的信息。

來源:官方素材

緊跟著再把後邊一段和“倒計時”有關的視頻餵給它,它不但清楚地理解了視頻中的信息,而且還將這個片段畫面中的倒計時和上一個視頻中聲音信息中的倒計時主動聯系了起來。

視頻中的倒計時讓人感到了不安和一種迫近的危險。這可能和那個男人提到的一連串的謀殺案有關。這可能和一個定時炸彈或者某個截止時間有關。人物可能要在這個截止時間之前來做什麽事情,從而避免災難性結果的發生,或者解決一個什麽謎題。當然,這個倒計時也可能代表了時間的有限性,人物在混亂的環境中不得不面對的掙紮。

除了多模態素材理解能力超強,Reka的代碼能力也非常彪悍。

官方演示了一段Reka Core輸出的可視化“三體問題”的python代碼:

來源:官方素材

它還能准確地識別出《三體》中的演員。Reka Core把他在其他作品中飾演的人物都自動聯想出來。

來源:官方素材

鏡頭中直升機的具體型號,大型粒子對撞機的位置,都推斷得有理有據。

來源:官方素材

技術細節

Reka Core是一個閉源模型,但是Reka之前已經開源了兩個較小的模型Reka Flash(21B)和Reka Edge(7B)

技術報告:https://publications.reka.ai/reka-core-tech-report.pdf

訓練數據

根據官方公布的對于訓練數據的說明,Reka三個模型訓練數據包括公開數據集和專有/授權數據集,數據集的知識截止日期爲知識截止日期爲2023 年 11 月。

模型所攝取的數據集包括文本、圖像、視頻和音頻片段。兩個體量較小的開源模型Reka Flash 和 Reka Edge 分別在大約5萬億和4.5萬億token的數據上進行了訓練。

預訓練數據中約有25%與代碼相關,30%與STEM相關。大約25%的數據是從網絡抓取的。

模型結構

圖源:技術報告

模型的整體架構如上圖所示,是一個模塊化的編碼器-解碼器架構。支持文本、圖像、視頻和音頻輸入,不過目前僅支持文本輸出。

骨幹Transformer基于 “Noam”架構。從架構上看,與PaLM架構相似,但沒有並行層。

數據集表現

根據官方給出的數據集表現,Reka Core已經完全不輸GPT-4,而小一些的開源模型Reka Flash的多模態能力也和Gemini Pro 1.5差不多了。

圖源:技術報告

在人類測試者參與的對于市面上幾個主流模型的打分反饋結果來看,Reka Core的多模態測試成績超過了Claude 3超大杯,落後GPT-4V不多。

圖源:技術報告

在這個測試之後,Reka團隊還讓Reka Core自己扮演人類評分者的角色,對于每個模型的輸出進行了打分評估,得到的結果也和人類評分結果非常接近。

圖源:技術報告

同樣在人類測試者參與的純文本的測試中,Reka Core的成績也僅次于GPT-4 Turbo和Claude 3超大杯。

圖源:技術報告

團隊成員介紹 CEO/聯合創始人 Dani Yogatama

圖源:官網

他出生于印尼,2015年博士畢業于CMU。曾經短暫就職于百度硅谷AI實驗室,之後加入DeepMind,工作至2022年。現在是Reka AI CEO,同時還是南加大計算機系副教授。

他在創立Reka AI之前的研究生涯,參與了多篇知名的論文。

圖源:谷歌學術

CTO/聯合創始人 Yi Tay

圖源:官網

他來自新加坡,曾經擔任谷歌Research的技術主管,谷歌大腦高級研究科學家。在谷歌任職期間,他對許多大模型項目做出了貢獻:例如 PaLM、UL2、Flan-{PaLM/UL2/T5}、LaMDA/Bard、MUM 等。

圖源:領英

他除了是一個非常成功的深度學習科學家和創業者之外,還是一個業余古典鋼琴演奏家,在2012年獲得了倫敦三一學院古典鋼琴演奏副文憑。

聯合創始人 Qi Liu

圖源:官網

他博士畢業于牛津大學,曾經在Fair擔任研究員,現在除了是Reka AI的聯合創始人之外,還在香港大學擔任計算機系助理教授。

圖源:領英

Che Zheng

圖源:官網

他本科畢業于清華大學,碩士畢業于CMU,在加入Reka AI之前曾經在快手和谷歌任職。

圖源:領英

圖源:領英

Zhongkai Zhu

圖源:官網

他在加入Reka AI之前曾今在Meta AI,微軟,特斯拉任職,本科畢業于北航。

圖源:領英

圖源:領英

0 阅读:42
评论列表
  • 2024-04-26 23:14

    初步試用了,還是有些意思的,值得關注

  • 2024-04-27 12:39

    現在的大模型就像白菜一樣啊沒有任何的技術難度,就是拼拼湊湊。