超強Siri即將到來！蘋果10篇重磅AI研究全總結，iOS18關鍵一瞥

編輯：桃子 Henry

【新智元導讀】一直以來，蘋果在大模型、語音助手上的研究不斷推陳出新，或許我們能夠從中獲得iOS 18所具備AI能力的關鍵一瞥。

「Siri太笨，根本無法與ChatGPT競爭」，前蘋果工程師John Burkey曾對Siri的評價如此不堪。

不過，誕生于11年的Siri，終于要迎來翻身的機會。

ChatGPT橫空出世之後，微軟、谷歌等科技巨頭，甚至OpenAI、Anthorpic AI等初創，都在你追我趕激烈地角逐。

在AI競賽上，蘋果卻一直姗姗來遲。

其實，早有傳言和報道稱，在過去幾個月中，蘋果實際上一直再等待一個時機，做出反擊。

先是與谷歌談判被爆出，後是與OpenAI開展合作，預計將AI模型能力整合進下一代iOS 18系統中。

除此以外，蘋果研究團隊也在一直開發自己的模型——Ajax。

而且，最近幾個月，蘋果在大模型等研究上的成果頻出，意味著這些AI能力可能會成爲現實。

距6月開發者大會WWDC，也就不過一個月左右的時間，或許我們可以從這些研究中，一瞥蘋果的AI能力。

更小、更高效LLM裝進iPhone

相信所有人的期望都是一樣的——想要一個更好的Siri。

而現在看起來，換新的Siri即將到來，完成超強進化！

ChatGPT之後，大模型誕生的數量也是數不勝數，然而許多科技公司都希望LLM能夠賦能虛擬助手，讓其變得更優秀，更智能。

對于蘋果來說，想要讓Siri不再被人，說笨就需要盡快構建這些模型，讓其能裝進手機。

彭博最近報道，在iOS 18中，蘋果計劃讓所有AI功能，都運行在設備上，而且可以完全離線使用。

而現在的困難是，即便你有一個數據中心和數千個GPU組成的網絡，要建立一個良好的多用途的模型，並裝進手機，是非常困難的。

因此，蘋果不得不發揮創意。

在一篇名爲LLM in a flash: Efficient Large Language Model Inference with Limited Memory的論文中，研究人員設計了一個系統，可以將通常存儲在設備RAM中的模型數據，存儲到固態硬盤（SSD）上。

論文地址：https://arxiv.org/pdf/2312.11514

具體來說，研究證明了，在SSD上運行的LLM的大小，可以達到可用DRAM的2倍。

與傳統的CPU加載方法相比，推理速度提高了4-5倍，而GPU提高了20-25倍。

他們發現，通過利用設備上最廉價的可用存儲模型，模型可以運行得更快、更高效。

此外，蘋果的研究人員還創建了，一個名爲EELBERT的系統，可以將大模型壓縮到更小的規模，同時不影響其性能。

通過對谷歌Bert模型進行壓縮後，體積縮小了15倍，只有1.2兆字節，質量只降低了4%。

不過，這也帶來了一些延遲問題。

論文地址：https://arxiv.org/pdf/2310.20144

總而言之，蘋果正努力解決模型領域的一個核心矛盾：模型越大越好用，但在終端上耗電快運行慢。

與其他科技公司一樣，蘋果正在這一點上找到平衡。

Siri完成超進化！

蘋果研究AI終歸解決一個至關重要的問題，如何讓Siri變得更加出色。

在內部，蘋果團隊設想開發一種，無需喚醒詞Hey Siri或Siri，就能使用AI助手的方法。

沒有聲音提示，那該如何讓設備通過「直覺」判斷一個人在講話？

這一難題，比語音觸發檢測更具挑戰性。

蘋果研究團隊不得不承認，這是因爲可能沒有一個主要的觸發語，來標志語音命令的開始。

論文地址：https://arxiv.org/pdf/2403.14438

這也許就是，爲什麽另一組研究人員，開發出了一個系統可以更准確地檢測喚醒詞。

論文地址：https://arxiv.org/pdf/2309.16036

具體來說，作者提出了語音觸發（VT）的多通道聲學模型，將前端的多通道輸出直接輸入VT模型。

他們采用了TAC（Transform-Average-Conatenate）模塊，並通過合並來自傳統通道選擇的通道，對TAC模塊進行了修改，讓模型能夠在存在多個說話人的情況下關注目標說話人。

與基線通道選擇方法相比，該方法的誤拒率降低了30%。

而在另一篇論文中，研究人員訓練了一個模型，以更好地理解不太容易被AI助手理解的罕見詞。

論文地址：https://arxiv.org/pdf/2310.07062

在這兩種情況中，LLM的魅力在于，理論上它可以更快地處理更多信息。

例如，在關于喚醒詞的研究中，研究人員發現，如果不試圖摒棄所有不必要的聲音，而是把所有聲音都輸入模型，讓它來處理哪些是重要的，哪些是不重要的，那麽喚醒詞的效果就會可靠得多。

一旦Siri聽到你的聲音，蘋果就會做很多工作，以確保它能更好地理解和溝通。

在另一篇論文中，蘋果還開發了一個名爲STEER系統，旨在改善用戶與助手之間的交流。

論文地址：https://arxiv.org/pdf/2310.16990

在另一個例子中，它使用LLM來更好地理解「模棱兩可的問題」，無論你怎麽說，它都能弄清楚你的意思。

在不確定的情況下，智能對話智能體可能需要主動提出好的問題，從而更有效地解決問題，從而減少不確定性。

在另一篇論文也旨在幫助解決這個問題，研究人員利用大模型使助手在生成答案時不再冗長，更容易理解。

蘋果每個應用，將被AI重構

除了關注原始的技術發展，蘋果也非常關注人工智能的日常應用。

對于蘋果來說，一個重點領域就是健康：

LLM可以幫助分析處理各種設備收集到的大量生物識別數據，並幫助理解這些數據。

蘋果可以通過研究收集和整理你的所有運動數據，利用步態識別和耳機來識別你的身份，以及如何跟蹤和理解你的心率數據，來監測你的身體狀況，爲你提供合適的安全建議。

蘋果還把人工智能想象成一種創造性工具。

在2月發表的一篇論文中，蘋果團隊采訪了一批動畫師、設計師和工程師，並構建了一個KeyFramer系統。

這一系統，可以讓用戶叠代地構建和改進生成的設計。

用戶只需要先輸入一個提示，然後得到一個工具包，可以根據自己的喜好調整和完善圖片的某些部分。

論文地址：https://arxiv.org/pdf/2402.06071

此外，蘋果還有開發了一款名爲MGIE的工具，可以讓你通過描述內容來編輯圖片（比如「讓天空更藍」、「讓我的臉不那麽怪異」、「添加一些石頭」等等）。

論文地址：https://arxiv.org/pdf/2309.17102

論文中，研究人員表示，MGIE不需要簡短但含糊的提示，便可以明確地推導出視覺感知的意圖，從而實現合理的圖像編輯。

「最初的實驗並不完美，但令人印象深刻」。

未來，蘋果還有可能將AI用在音樂中。

在一篇名爲Resource-constrained Stereo Singing Voice Cancellation的論文中，研究人員探索了將歌曲中的聲音與樂器分離的方法。

論文地址：https://arxiv.org/pdf/2401.12068

比如，像在TikTok或Instagram上那樣混音歌曲，這個AI可能會派上用場。

隨著時間的推移，蘋果會在iOS 上，在自身的生態系統中內置一些功能，也會以API的形式提供給第三方開發者。

之前蘋果一直在大肆宣傳自己的硬件能力，尤其是與普通的安卓設備相比。

將所有這些功率與設備上注重隱私的人工智能相結合，可能會成爲蘋果一個很大的差異化優勢。

這次iOS 18強勢來襲，網友一如既往地對蘋果期待感滿滿。

值得一提的是，蘋果在多模態大模型方面研究，也引來衆多的關注。

Ferret堪稱蘋果最大型、最雄心勃勃的人工智能項目。輸入提示之後，它可以關注你選擇的特定事物，並理解周圍的世界。

論文地址：https://arxiv.org/pdf/2404.05719

甚至，Ferret還可以幫助你導航應用程序、回答有關App Store評級的問題、描述你正在看的內容等等。

一旦這種技術得以應用，可能徹底改變每個人使用手機的方式，以及Vision Pro和智能眼鏡的使用方式。

雖然目前這些都只是研究成果，但是如果能在今年春天開始順利運行，那將是一項聞所未聞的技術成就。

WWDC大會即將發布的大型人工智能模型，必然會把技術狂歡推向新一輪的高潮。

蘋果或會全面改版iPhone産品，也就意味著你的下一台iPhone不必是iPhone。

這一切都在庫克的預料之中，接下來就等著瞧好吧。

娛樂新聞吧

超強Siri即將到來！蘋果10篇重磅AI研究全總結，iOS18關鍵一瞥

之槐看科技