2024谷歌I/O開發者大會，生成式AI被推上頂峰，大模型安卓15確定要上！

挺過最困的12點，在大家可能已經邁入睡眠的時候，在淩晨1點時刻，我們迎來了期待許久的2024谷歌I/O開發者大會！

本次開發者大會，谷歌核心的重點就放在時下非常火熱的生成式AI功能上，其中多次談及再度升級的Gemini1.5 Pro大模型，並且還發布了谷歌視頻生成模型Veo。

另外谷歌搜索也進行升級，同時也宣布Gemini模型將會用于在Android 15之上，並展示了一系列即將上線的生成式AI功能。

發布會開始，谷歌正式推出了“AI Overviews”搜索功能，不過本周會在美國率先開放，後續會陸續在其它國家和地區上線。

谷歌搜索融入Gemini大模型，搜索可以AI生成摘要，並且可以輸入一段精確的文字，然後根據文字內容以及場景，去匹配搜索的內容，在做旅遊規劃時也會創建更合理的清單，甚至會根據天氣去做推薦。同時還將上線視頻搜索功能，可以拍攝一段視頻來搜索想要查找的內容。

隨後帶來了一個“Ask Photos”功能，該功能的主要亮點就是，在Gemini大模型之下，通過聊天的方式去搜索照片或者視頻，比如詢問我的車牌是多少，通過檢索+辨別的方式，搜索出你的車牌號。另外詢問孩子的遊泳狀況，會搜集到孩子過往的遊泳照片，該功能將會在夏天正式推出。

另外谷歌還發布了一個Gemini 1.5 Flash模型，相比Gemini1.5 Pro成本更低，並且針對延遲做了優化，宣稱可以一次性分析1500頁文檔或超過30000行的代碼庫，爲開發人員提供了一個低成本的選擇。

緊接而來的是一個重磅Project Astra項目，面向未來的生成式AI交互體驗！

演示的視頻，顯示的是手機通過攝像頭對于周圍空間環境的理解，並且能夠實時的進行語音交互。打開手機攝像頭，詢問拍到的物體，可以准確識別並給出語音回答，甚至還能記起拍攝過程某個物體的位置，而這種功能可以從手機流轉到眼鏡上繼續使用。

在文生圖功能上推出了 Imagen 3，相比上代可以更加准確的識別文字信息，創作的圖片也會更符合文本描述。

除了圖片、文本生成式創作以外，谷歌發布了視頻生成模型Veo，對標OpenAI的Sora，可以通過文本、圖像來生成視頻，生成的視頻分辨率可以達到1080P，並且視頻時長可以超過1分鍾。

在辦公場景中，谷歌 Gmail也會加入Gemini的大模型能力，不僅可以去總結郵件的內容，甚至可以根據需求去比較郵件內容（比如同樣裝修報價郵件，可以自動比價），並且根據上下文語境智能提供回複內容。

在開發者大會上，谷歌也是明確安卓15將會加入谷歌Gemini大模型，提供更多的AI功能，比如已經在三星AI手機上采用的即圈即搜功能，除了可以搜索物體以外，還加入了截圖功能，圈選題目給出解題思路和答案，幫助學生解題。

另外在查看PDF等文件時，可以總結PDF的文件內容，並且以詢問的方式獲得PDF裏面你想要了解的內容。如果識別的頁面是視頻，也可以對視頻的內容、字幕進行分析，更快速獲得視頻裏面的內容。

而且谷歌還爲手機加入了AI詐騙電話檢測功能，如果在通話過程中識別到疑似詐騙的行爲，就會彈出提示窗來警告用戶。

相比目前國內手機的生成式AI功能，谷歌所帶來的即圈即搜的解題、視頻的內容AI分析、AI詐騙電話檢測等功能，進一步豐富了手機AI功能體驗，大會上谷歌也宣布明天會上線Android 15 Beta 2，期待Android 15正式版上線時所帶來的更多AI驚喜。

娛樂新聞吧