機器人即將迎來“ChatGPT時刻”的三個原因

自機器人誕生以來，該領域的從業者一直希望制造出可以完成各種家務的機器人。但長期以來，這只是一個難以實現的夢想。

雖然機器人學家已經能夠讓機器人在實驗室裏做一些令人印象深刻的事情，比如跑酷，但這些任務通常需要在嚴格控制的環境中進行細致的規劃。

這使得機器人很難在家裏可靠地工作，尤其是有兒童和寵物的家庭。此外，每間房子的構造都不一樣，還會有各種混亂的狀況出現。

機器人領域有一個著名的觀察結果，稱爲莫拉維克悖論：人類覺得困難的東西對機器而言是容易的，而對人類來說容易的東西機器人卻很難完成。

現在有了人工智能，這種情況正在改變。機器人開始能夠完成折疊衣物和烹饪等任務，而不久前，這些任務還被視爲是幾乎不可能完成的任務。

在最新一期《麻省理工科技評論》雜志的封面故事中，我研究了機器人領域是如何迎來它的轉折點的。

機器人研究領域出現了非常令人興奮的（技術）融合，這可能（只是可能）會讓機器人走出實驗室，進入我們的家。

以下是機器人即將迎來“ChatGPT 時刻”的三個原因。

廉價的硬件使研究更容易完成

機器人很貴。高度複雜的機器人起步就要數十萬美元，這使得大多數研究人員沒能力購買它們。例如，最早一批家用機器人 PR2，重達 200 公斤，售價 40 萬美元。

但新的、更便宜的機器人讓更多的研究人員能夠做一些很酷的事情。初創公司 Hello robot 開發並推出了一種名爲 Stretch 的新機器人，價格約爲 18000 美元，重約 22.6 公斤。

它有一個小的移動底座，一個挂著攝像頭的杆子，一個可調節的手臂，末端有一個吸盤，可以用控制器控制。

與此同時，美國斯坦福大學的一個團隊構建了一個名爲 Mobile ALOHA（“低成本開源硬件遠程操作系統”的縮寫）的系統，該系統僅依靠 20 個人類演示和其他任務的數據就學會了烹饪蝦。

他們使用現成的組件拼湊出了價格更低的機器人，價格爲數萬美元，而不是數十萬。

人工智能正在幫助我們構建“機器人大腦”

這些新機器人的軟件有別于過去的機器人。由于人工智能的蓬勃發展，現在的研究重點正從讓昂貴的機器人變得更靈活，轉變爲以神經網絡的形式構建“通用機器人大腦”。

機器人學家已經開始使用深度學習和神經網絡來創建系統，在環境中不斷練習和學習，並相應地調整它們的行爲，而不是傳統的規劃和訓練。

2023 年夏天，谷歌推出了一款名爲 RT-2 的視覺語言動作模型。該模型通過網絡文本和圖像以及自己的互動來獲得對世界的總體理解。它將這些數據轉化爲機器人動作。

豐田研究所（Toyota Research Institute）、哥倫比亞大學和麻省理工學院的研究人員已經能夠借助一種名爲模仿學習的人工智能學習技術和生成式人工智能，快速教機器人完成許多新任務。

他們相信自己已經找到了一種方法，將推動生成式人工智能技術從文本、圖像和視頻領域擴展到機器人運動領域。

許多人都在嘗試生成式人工智能。Covariant 是一家從 OpenAI 現已關閉的機器人研究部門剝離出來的機器人初創公司，它建立了一個名爲 RFM-1 的多模態模型。

它可以接受文本、圖像、視頻、機器人指令或測量（數據）形式的提示。生成式人工智能使機器人既能理解指令，又能生成與這些任務相關的圖像或視頻。

更多的數據，更多的技能

GPT-4 等大型人工智能模型的強大能力源于從互聯網上收集的大量數據。但這並不適用于機器人，因爲機器人需要專門爲機器人收集的數據。

它們需要如何打開洗衣機和冰箱的演示數據，還有如何拿起盤子，如何折疊衣物等等。目前這些數據非常稀缺，人類需要很長時間才能收集到。

谷歌 DeepMind 發起了一項名爲“開放 X 化身協作”的新舉措，旨在改變這一現狀。

2023 年，該公司與 34 個研究實驗室，約 150 名研究人員合作，收集了 22 種不同機器人的數據，其中也包括 Hello robot 的 Stretch 機器人。

由此得到的數據集于 2023 年 10 月發布，裏面的機器人展示了 527 種技能，如拿起東西、推動和移動。

（來源：TOYOTA RESEARCH INSTITUTE）

早期迹象表明，更多的數據正在催生更智能的機器人。研究人員爲機器人構建了兩個版本的模型，稱爲 RT-X，可以在各個實驗室的計算機上本地運行，也可以通過網絡訪問。

更大的、可通過網絡訪問的模型是用互聯網數據預訓練的，以從大型語言和圖像模型中發展“視覺常識”，或對世界的基本理解。

當研究人員在許多不同的機器人上運行 RT-X 模型時，他們發現這些機器人學習技能的成功率比每個實驗室正在開發的系統高出 50%。

支持：Ren

運營/排版：何晨龍

娛樂新聞吧