請數據到人類(lèi)世界“做客”?機器人大腦將數字內容帶入現實(shí)!
發(fā)布時(shí)間:2024-03-18
瀏覽次數:1614

版權歸原作者所有,如有侵權,請聯(lián)系我們

ChatGPT、Midjourney 和 Sora 等人工智能(AI)工具將人類(lèi)天馬行空的想法轉化為了海量的數字內容。

然而,由于訓練數據等限制,這些模型仍難以掌握現實(shí)世界的真正物理規律,也難以達到機器人在現實(shí)世界中有效自主交互所需的準確性、精確性和可靠性。

今天,強化學(xué)習大牛 Pieter Abbeel 團隊研發(fā)的“機器人大腦”,則將數字數據中的內容成功帶入了現實(shí)世界——

由 Abbeel 和他的學(xué)生創(chuàng )建的強化學(xué)習機器人平臺公司 Covariant,基于自己的真實(shí)、復雜機器人數據集與海量的互聯(lián)網(wǎng)數據,推出了一個(gè)機器人基礎模型(RFM-1)。

據介紹,在識別了圖像、感官數據和文本的模式后,該技術(shù)讓機器人有能力處理物理世界中的突發(fā)狀況。即使機器人從未見(jiàn)過(guò)香蕉,它也知道如何拿起香蕉。

它還能用簡(jiǎn)單的英語(yǔ)做出反應,就像聊天機器人一樣。如果你告訴它“拿起香蕉”,它就知道是什么意思。如果你告訴它“拿起一個(gè)黃色的水果”,它也能理解。

它甚至還能生成視頻,預測當它試圖拿起香蕉時(shí)可能會(huì )發(fā)生什么。這些視頻在倉庫中沒(méi)有實(shí)際用途,但它們顯示了機器人對周?chē)挛锏睦斫狻?/p>

此外,該模型不僅可以通過(guò)一般的互聯(lián)網(wǎng)數據進(jìn)行訓練,還可以通過(guò)豐富的物理現實(shí)世界交互數據進(jìn)行訓練。

對此,Covariant 的首席執行官 Peter Chen 表示:“數字數據中的內容可以轉移到現實(shí)世界中?!?/p>

模擬現實(shí)世界的“機器人大腦”

OpenAI、Midjourney 等公司開(kāi)發(fā)了聊天機器人、圖像生成器和其他在數字世界中運行的人工智能工具。
在這項工作中,Pieter Abbeel(總裁和首席科學(xué)家)與兩位華人科學(xué)家——Rocky Duan(CTO)、Peter Chen(CEO),利用 ChatGPT 等聊天機器人背后的技術(shù)打造了可以在物理世界中導航的人工智能系統——RFM-1。

圖|三位 Covariant 創(chuàng )始人。Rocky Duan、Pieter Abbeel 和 Peter Chen(從左到右)。

據官方博客介紹,RFM-1 可以幫助分類(lèi)機器人與物理世界交互,通過(guò)視頻或文本輸入(用戶(hù)可以像聊天機器人一樣與它們對話(huà)),機器人可以“學(xué)習”如何在工廠(chǎng)中行動(dòng),而無(wú)需一長(cháng)串指令。

RFM-1 是一個(gè)多模態(tài)任意序列(multimodal any-to-any sequence)模型,擁有 80 億參數,可對文本、圖像、視頻、機器人動(dòng)作和一系列數字傳感器讀數進(jìn)行訓練。

RFM-1 將所有 token 化(tokenizing)到一個(gè)共同空間,并執行自回歸下一個(gè) token 預測,從而利用其廣泛的輸入和輸出模態(tài)實(shí)現多樣化應用。

例如,它可以為場(chǎng)景分析任務(wù)(如分割和識別)執行圖像到圖像學(xué)習;可以將文本指令與圖像觀(guān)察相結合,生成所需的抓取動(dòng)作或運動(dòng)序列;也可以將場(chǎng)景圖像與目標抓取圖像配對,以視頻形式預測結果,或模擬過(guò)程中可能出現的數字傳感器讀數。

值得關(guān)注的是,RFM-1 在物理和語(yǔ)言理解方面具有強大的功能。?學(xué)習世界模型是物理學(xué)模擬的未來(lái)。

RFM-1 對物理的理解來(lái)自于對視頻生成的學(xué)習:通過(guò)輸入初始圖像和機器人動(dòng)作的 token,它可以作為物理世界模型來(lái)預測未來(lái)的視頻 token。

動(dòng)作條件視頻預測任務(wù)允許 RFM-1 學(xué)習低層次的世界模型,模擬世界每幾分之一秒的變化情況。有時(shí),預測機器人動(dòng)作的高級結果更為有效。當然,由于使用了結構化多模態(tài)數據集等,RFM-1 也能提供高級世界模型。

圖|RFM-1 生成的圖像顯示,如果從起始手提箱(左圖)中挑選了特定物品(中圖),它可以預測手提箱會(huì )是什么樣子(右圖)。

以上案例表明,RFM-1 能夠理解機器人的規定動(dòng)作,并能推理出這些動(dòng)作是否會(huì )成功,以及垃圾箱的內容將如何變化,而這完全是通過(guò)對下一個(gè) token 的預測來(lái)實(shí)現的。 同時(shí),從這些世界建模任務(wù)中產(chǎn)生的物理理解力還能直接增強 RFM-1 的其他能力,如將圖像映射到機器人行動(dòng)的能力。 另外一點(diǎn),有了 RFM-1,人們可以通過(guò)語(yǔ)言與機器人協(xié)作。 據介紹,RFM-1 能夠將文本 token 作為輸入進(jìn)行處理,并將文本 token 作為輸出進(jìn)行預測,這使得任何人都可以在數分鐘內(而不是數周或數月內)快速編程新的機器人行為,降低了機器人新行為編程的門(mén)檻。 例如,RFM-1 允許機器人操作員和工程師使用英語(yǔ)指導機器人執行特定的分揀操作。

此外,RFM-1 不僅可以通過(guò)理解自然語(yǔ)言指令讓機器人更容易完成任務(wù),還能讓機器人向人類(lèi)尋求幫助。 例如,如果機器人在拾取某個(gè)物品時(shí)遇到困難,它可以將這一情況告知機器人操作員或工程師。此外,它還能提出為何在挑選物品時(shí)遇到困難。然后,操作員可以向機器人提供新的行動(dòng)策略(如通過(guò)移動(dòng)或撞擊物體來(lái)擾動(dòng)物體),從而找到更好的抓取點(diǎn)。在這之后,機器人就可以將這種新策略應用到未來(lái)的行動(dòng)中。

開(kāi)啟機器人基礎模型新紀元

盡管 RFM-1 在物理和語(yǔ)言理解方面具有強大的功能。然而,RFM-1 本身還具有一些局限性。

首先,盡管在真實(shí)生產(chǎn)數據上的離線(xiàn)測試結果很有希望,但 RFM-1 還沒(méi)有部署給真實(shí)客戶(hù)。Covariant 表示,他們知道如何為現有客戶(hù)帶來(lái)價(jià)值的第一手經(jīng)驗,預計將在未來(lái)數月內向他們推出 RFM-1。通過(guò)將 RFM-1 部署到生產(chǎn)中,他們希望收集到的數據能幫助發(fā)現 RFM-1 當前的故障模式,并加速 RFM-1 的學(xué)習。

另外,受限于模型的上下文長(cháng)度,RFM-1 作為一個(gè)世界模型的運行分辨率(約 512x512 像素)和幀速率(約 5 fps)都相對較低。雖然 RFM-1 已經(jīng)可以開(kāi)始捕捉大型物體的變形,但還不能很好地模擬小型物體/快速運動(dòng)。他們還觀(guān)察到,世界模型的預測質(zhì)量與可用數據量之間存在密切聯(lián)系。未來(lái),他們希望通過(guò)即將投入生產(chǎn)的機器人,將數據收集速度至少提高 10 倍。

最后,雖然 RFM-1 可以開(kāi)始理解基本的語(yǔ)言命令,從而對其行為進(jìn)行局部調整,但整體協(xié)調邏輯在很大程度上仍然是用 Python 和 C++ 等傳統編程語(yǔ)言編寫(xiě)的。隨著(zhù)通過(guò)擴展數據來(lái)擴大機器人控制的粒度和任務(wù)的多樣性,他們對未來(lái)人們可以使用語(yǔ)言來(lái)編寫(xiě)整個(gè)機器人程序感到興奮,這將進(jìn)一步降低部署新機器人站的門(mén)檻。

紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)名譽(yù)教授 Gary Marcus 認為,這種技術(shù)在倉庫和其他可以接受錯誤的情況下可能很有用。但“在制造工廠(chǎng)和其他潛在危險的環(huán)境中部署這種技術(shù)會(huì )更加困難,風(fēng)險也更大”。

盡管如此,Abbeel 團隊依然認為,RFM-1 是機器人基礎模型新紀元的開(kāi)端——

通過(guò)賦予機器人類(lèi)似人類(lèi)的快速推理能力,RFM-1 向提供所需的自主性邁出了一大步,以解決愿意從事高度重復性和危險任務(wù)的工人日益短缺的問(wèn)題,最終在未來(lái)幾十年內提高生產(chǎn)力和經(jīng)濟增長(cháng)。

“如果它能預測視頻中的下一幀畫(huà)面,就能確定正確的后續策略,” Abbeel 說(shuō)。

參考鏈接:

https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/https://www.nytimes.com/2024/03/11/technology/ai-robots-technology.html

歡迎掃碼關(guān)注深i科普!

我們將定期推出

公益、免費、優(yōu)惠的科普活動(dòng)和科普好物!


聽(tīng)說(shuō),打賞我的人最后都找到了真愛(ài)。
做科普,我們是認真的!
掃描關(guān)注深i科普公眾號
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認識科普小朋友
  • 成為科學(xué)小記者
色依依国内精品中文字幕|国产精品嫩草影院免费观看|亚洲ⅤA制服丝袜一区二区|久久精品无码一级毛片温泉|无码专区亚洲综合另类