2019精品手机国产品在线,国产精品三级,日韩无毛,欧美日韩国产一区二区三区伦,亚洲福利一区,国产视频入口,福利视频一区二区思瑞

新聞媒體
樂(lè )游棋牌西部世界前傳:一個(gè)關(guān)于機器人自我建模的實(shí)驗
來(lái)源:乐游棋牌 中國 發(fā)布時(shí)間:2025-06-28 瀏覽次數:4259

樂(lè )游棋牌1966年,一個(gè)簡(jiǎn)單的符號">"出現在計算機屏幕上。這個(gè)被稱(chēng)為"命令提示符"的符號,成為了人類(lèi)與計算機對話(huà)的開(kāi)端。半個(gè)世紀后,當研究人員發(fā)現通過(guò)精心設計的提示詞能夠指引AI完成各種任務(wù)時(shí),"prompt"成為了人工智能時(shí)代最重要的術(shù)語(yǔ)之一。

現在,當我們與AI對話(huà),說(shuō)出的每一句話(huà)都是一個(gè)prompt。無(wú)論是讓AI生成一幅畫(huà)作,寫(xiě)一段代碼,還是完成一篇文章,都需要通過(guò)prompt來(lái)表達我們的想法。這種人類(lèi)與AI的對話(huà)方式,正在悄然改變我們的工作與生活。

這也是《The Prompt》這個(gè)欄目的由來(lái)。在這里,我們將與AI領(lǐng)域的創(chuàng )業(yè)者對話(huà),發(fā)掘具有創(chuàng )新力的AI產(chǎn)品,記錄技術(shù)變革帶來(lái)的驚喜時(shí)刻。我們希望內容本身,也能成為一個(gè)prompt,為讀者打開(kāi)思考的空間,在技術(shù)浪潮中,找到觀(guān)察和理解AI的支點(diǎn)。

在哥倫比亞大學(xué)的一間實(shí)驗室里,一臺機器人正對著(zhù)鏡子練習表情:皺眉、微笑、歪頭。攝像頭是它的眼睛,神經(jīng)網(wǎng)絡(luò )構筑它的控制中樞。沒(méi)有人告訴它什么叫“悲傷”,也沒(méi)有人為它設計“悲傷”應該是皺眉還是閉眼。它只是在無(wú)聲的自我凝視中,把表情和電機指令關(guān)聯(lián)起來(lái),學(xué)會(huì )像人一樣做出表情。

這是一場(chǎng)人形機器人自監督學(xué)習表情的實(shí)驗。主持這場(chǎng)實(shí)驗的是胡宇航。他今年28歲,剛從哥倫比亞大學(xué)博士畢業(yè),一年多前創(chuàng )立了首形科技,專(zhuān)注于做“人臉機器人”。這個(gè)方向幾乎無(wú)人涉足。過(guò)去一年,胡宇航見(jiàn)了100多個(gè)投資人,多數聽(tīng)了他的構想,搖搖頭就走了。

他的構想是反共識的?!拔矣X(jué)得人形機器人更適合做情緒化產(chǎn)品,至少在未來(lái)5年內,它不是一個(gè)能夠創(chuàng )造高效生產(chǎn)力的產(chǎn)品。人形機器人是服務(wù)型需求,不是工業(yè)集群或者生產(chǎn)力的需求?!?/p>

作為F(Feeling導向)人,他認可情緒陪伴的價(jià)值,會(huì )用“物化”去形容把機器人當作工具的行為。在他的規劃里,將來(lái)能造一個(gè)沉浸式的《西部世界》,NPC全部都是機器人。

這是一些聽(tīng)起來(lái)抽象又理想化的描述,但胡宇航強調說(shuō),自己不是一個(gè)理想主義者,他堅定地相信人臉機器人能夠商業(yè)化。

在胡宇航看來(lái),在大模型全面推動(dòng)語(yǔ)言交互躍升的時(shí)代,真正決定機器人是否能被廣泛接納的,并不是“會(huì )說(shuō)話(huà)”,而是“會(huì )共情”。他認為,相比于語(yǔ)音助手或純數字界面,一個(gè)具備真實(shí)面部表情、能讀懂并回應人類(lèi)情緒的類(lèi)人機器人,天然具備情緒連接與場(chǎng)景沉浸的優(yōu)勢。這種“類(lèi)人共情價(jià)值”(Humanoid Empathy Value)正在成為機器人商業(yè)化的一個(gè)突破口。

因此,首形科技選擇了一條更具現實(shí)落地性的路徑:優(yōu)先完成交互類(lèi)場(chǎng)景中的商業(yè)閉環(huán),即通過(guò)打造具備自然表情、實(shí)時(shí)反應和主動(dòng)交互能力的類(lèi)人機器人,在情緒價(jià)值密度高的空間——如線(xiàn)下體驗館、品牌展廳、主題樂(lè )園、IP互動(dòng)空間等——快速構建人與機器之間的情感關(guān)系與價(jià)值感知。今年年底往后,他們會(huì )從內部員工開(kāi)始做測試,他們將是首形科技的第一批用戶(hù)。

期待這些產(chǎn)品的受眾不少。2022年開(kāi)始,為了給兩點(diǎn)一線(xiàn)的留學(xué)生活留下一點(diǎn)痕跡,胡宇航以“U航”為名在社交平臺發(fā)布Vlog,最開(kāi)始主要拍每天吃什么,后來(lái)有了一些科研相關(guān)內容。今年5月,胡宇航上傳了幾條新一代產(chǎn)品的Demo視頻,后臺播放量上億,收獲了一批“電子股東”。這讓他感到很意外,也更加堅定了做人臉機器人的想法。

繼去年11月完成天使輪融資,首形科技在近日完成了新一輪融資,目前不到20人的團隊將在年底擴充到四五十人。他們現在會(huì )給一些人形機器人廠(chǎng)商提供零部件和技術(shù)支持,但更多的精力在技術(shù)和產(chǎn)品研發(fā)上。

● 胡宇航和首形科技新一代機器人對視。圖源:受訪(fǎng)者提供

以下是鏡相工作室與胡宇航的對話(huà):

跨過(guò)恐怖谷效應

鏡相工作室:5月中旬的時(shí)候,你在自媒體賬號發(fā)了新一代產(chǎn)品的Demo視頻,人臉已經(jīng)精細到毛孔了,是有血色的。

胡宇航:對,那個(gè)臉的外觀(guān)是我雕的。我個(gè)人的感受是,當我真的跟她對視的時(shí)候,她給我傳達表情,我真的會(huì )有一些錯覺(jué)和震撼,甚至有一種她受傷我會(huì )心疼的感覺(jué)。我希望把這個(gè)東西盡快呈現出來(lái)給大家看,讓大家感受我感受到的,相信我相信的。

鏡相工作室:網(wǎng)友的關(guān)注和討論里,有沒(méi)有一些讓你印象比較深刻的?

胡宇航:還挺出乎我意料的是,其實(shí)大家并沒(méi)有多么排斥機器人有“臉”這件事,反而是之前會(huì )有投資人說(shuō)這會(huì )不會(huì )有恐怖谷效應。但真正看到的用戶(hù)反饋是,他們還挺想要一個(gè)桌面級的陪伴機器人,或者是一個(gè)有“臉”的機器人。當然這里面也有幸存者偏差,可能不喜歡的人就直接把視頻劃走了。

鏡相工作室:投資人提到的恐怖谷效應應當是你們要解決的一個(gè)關(guān)鍵問(wèn)題。

胡宇航:我們已經(jīng)深度剖析了這件事。我認為它分為靜態(tài)和動(dòng)態(tài)下的恐怖谷效應。靜態(tài)的恐怖谷應該是完全被解決了,像蠟像啊,雕塑啊,手辦啊,沒(méi)有人覺(jué)得恐怖,因為你做得很精細?,F在是要用AI控制它動(dòng)起來(lái),讓它動(dòng)起來(lái)更自然、更逼真,這就是算法的問(wèn)題。我們的算法有優(yōu)勢,我們就用算法來(lái)做這件事。

鏡相工作室:算法優(yōu)勢具體指什么?

胡宇航:主要是兩個(gè)模型,一個(gè)是怎么做表情,一個(gè)是做什么樣的表情。

之前大家都是通過(guò)顯式的方程去設計臉,或者是綁定人臉坐標系,把人臉上的landmarks映射到機器人上。有很成熟的人臉識別算法可以識別面部運動(dòng),然后直接映射成電機指令。但用這種方式做出來(lái)的表情會(huì )顯得非常呆板、僵硬,容易出現恐怖谷效應。

我們現在希望訓練出一個(gè)機器人自己的表情運動(dòng)空間,也就是讓它通過(guò)深度學(xué)習和神經(jīng)網(wǎng)絡(luò )來(lái)自主“理解”和“表達”表情。這種方式的好處是,整個(gè)模型是可微的,也就是說(shuō)它可以被端到端訓練,表情變化也更加平滑、連續。它能與大模型和多模態(tài)系統協(xié)同工作,為機器人實(shí)現更高級、更自然的情感交互打下基礎。

鏡相工作室:所以你們讓機器人對著(zhù)鏡子自監督學(xué)習表情。

胡宇航:對,之前沒(méi)有人這么干。這樣的效果非常好,而且是直接采集到臉部的所有動(dòng)作指令。

讓機器人對著(zhù)鏡子學(xué)習

鏡相工作室:機器人對著(zhù)鏡子自監督學(xué)習表情,具體是怎么去學(xué)習的?

胡宇航:機器人照鏡子的時(shí)候,它眼睛里的攝像頭可以看到鏡子中的表情,它大概能知道在某個(gè)電機指令下它的表情是什么樣子的。這個(gè)過(guò)程有點(diǎn)像我們對著(zhù)鏡子練習舞蹈一樣。機器人照鏡子,收集電機指令和對應的臉部表情,再把這兩組數據交給AI模型去訓練,AI模型就會(huì )知道,當我要做某個(gè)表情的時(shí)候,我的電機指令是多少。

● 機器人正對鏡自監督學(xué)習表情。圖源:受訪(fǎng)者社交平臺

鏡相工作室:表情模型的自監督和語(yǔ)言模型的自監督,兩者的區別是什么?

胡宇航:表情模型的自監督學(xué)習與語(yǔ)言模型的核心區別,在于它們依賴(lài)的模態(tài)和監督信號不同。語(yǔ)言模型是在語(yǔ)言?xún)炔孔鲱A測,例如BERT或GPT通過(guò)掩碼預測或下一個(gè)詞預測,從大量文本中學(xué)習詞語(yǔ)間的上下文關(guān)系。而表情模型的自監督學(xué)習則是跨模態(tài)進(jìn)行學(xué)習,主要利用人說(shuō)話(huà)的視頻,自動(dòng)對齊語(yǔ)音信號與面部表情,學(xué)習它們之間的自然對應關(guān)系。

也就是說(shuō),表情模型的監督信號來(lái)自于語(yǔ)音和表情在時(shí)間上的共現,不是人為標簽,而是自然同步。通過(guò)這種方式,模型能夠理解語(yǔ)音、語(yǔ)義與表情之間的關(guān)聯(lián),從而在不同語(yǔ)境下生成自然、連續的面部表情。這種訓練過(guò)程更像是“感知和表達”的建模,而不是簡(jiǎn)單的情緒分類(lèi)。

鏡相工作室:人的情緒是抽象的,哪怕是人與人之間交流,也能難去準確感知。機器人是怎么做到的?

胡宇航:傳統的情緒識別方法往往依賴(lài)情緒分類(lèi)標簽,如喜、怒、哀、樂(lè ),但這類(lèi)標簽在現實(shí)中模糊而主觀(guān),難以覆蓋情緒的復雜變化。相比之下,我們更傾向于將表情作為嵌入空間中的連續表示進(jìn)行建模,而不是硬分類(lèi)。

這種方式下,模型無(wú)需“理解”情緒的具體標簽,而是在潛在空間中學(xué)會(huì )表達和生成表情,就像語(yǔ)言模型生成token一樣,輸出一個(gè)對語(yǔ)境和聲音感知自然反應的表情表現。

就像我們不需要解釋每一個(gè)語(yǔ)言embedding(向量表示)的含義,也無(wú)需向機器人解釋每一個(gè)表情embedding的情緒意義。只要這些embedding能在語(yǔ)境中輸出自然的表情表現,就完成了我們對“情緒”建模的目標。

鏡相工作室:那機器人怎么樣去輸出人類(lèi)可以理解的表情?

胡宇航:這時(shí)候你就需要有語(yǔ)境語(yǔ)義的綁定,跟對話(huà)內容中人的表情和聲音信號去做對齊。我們日常中有海量的視頻數據,大家在說(shuō)話(huà)的時(shí)候,表情、眼神、聲音和文字內容都是高度同步的,這些數據可以用來(lái)做模型的預訓練,讓模型了解到每個(gè)audio和表情之間的關(guān)系,或者是每個(gè)情緒化文本背后帶有的表情內容。

“人形機器人適合做情緒化產(chǎn)品”

鏡相工作室:為什么會(huì )想著(zhù)聚焦情緒感知,做人臉機器人?

胡宇航:我有個(gè)反共識的觀(guān)點(diǎn),我覺(jué)得人形機器人更適合做情緒化產(chǎn)品,至少在未來(lái)5年內,它不是一個(gè)能夠創(chuàng )造高效生產(chǎn)力的產(chǎn)品。最合適的、商業(yè)閉環(huán)能跑通的是交互場(chǎng)景,提供情緒價(jià)值、服務(wù)價(jià)值的場(chǎng)景?;蛘哒f(shuō),我覺(jué)得人形機器人是服務(wù)型需求,不是工業(yè)集群或者生產(chǎn)力的需求。

鏡相工作室:這種商業(yè)化的路徑選擇在當下有點(diǎn)逆向而行的意思。

胡宇航:如果你定位這件事是對的,那它什么時(shí)候商業(yè)化,什么時(shí)候去做開(kāi)源,什么時(shí)候去培育生態(tài),這些事是要跟行業(yè)深度綁定的。今天工業(yè)領(lǐng)域的生產(chǎn)自動(dòng)化已經(jīng)非常內卷的情況下,你還要用人形機器人去打內卷需求,這個(gè)邏輯上就不對,你肯定要結合產(chǎn)業(yè)方去感受發(fā)展的節奏。

做人臉機器人這件事其實(shí)是我一個(gè)人決定的。大部分人,包括實(shí)驗室里的師兄弟都會(huì )猶豫或者質(zhì)疑這件事。有太多人來(lái)到我的實(shí)驗室,看到我的工作,就會(huì )給我個(gè)大大的問(wèn)號,說(shuō)為啥要用臉,這太恐怖了,你在搞什么?甚至之前展會(huì )的時(shí)候,有一個(gè)外國的小孩哥過(guò)來(lái)說(shuō),你做這個(gè)東西就是為了恐嚇小孩。人臉這個(gè)品類(lèi)確實(shí)需要一個(gè)循序漸進(jìn)的過(guò)程,慢慢地讓大家覺(jué)得這個(gè)東西OK。話(huà)說(shuō)回來(lái),算法其實(shí)還是最重要的。

鏡相工作室:什么樣的經(jīng)歷促使你堅定地選擇做人臉機器人,去提供情緒價(jià)值?

胡宇航:我自己做過(guò)各種各樣的機器人,桌面級的雙足機器人、四足機器人、機械臂等等,這些品類(lèi)我基本都做過(guò)。今天大家在討論,如何用AI大模型讓機器人完成質(zhì)的飛躍,提出simulation(仿真)。實(shí)際接觸simulation的工作后,我發(fā)現simulation其實(shí)是一個(gè)很糟糕的東西,它和真實(shí)場(chǎng)景有一個(gè)比較大的gap,sim2real gap(仿真世界和真實(shí)物理世界的差異/從仿真到現實(shí)的遷移鴻溝)。你不能說(shuō),那行,我們做domain randomization(領(lǐng)域隨機化,指在仿真訓練中,刻意加入各種“不確定性”,讓模型學(xué)會(huì )更有韌性地應對“看不見(jiàn)的現實(shí)世界”),把真實(shí)世界場(chǎng)景作為仿真世界場(chǎng)景的一個(gè)子集,然后指望我們的模型在現實(shí)中也能擁有很強的魯棒性(指的是一個(gè)系統在面對干擾、變化或不確定性時(shí),仍能穩定運行、保持性能的能力)并成功部署。

現實(shí)情況是,你需要一個(gè)非常大的訓練數據量,并且即使如此,模型也很難完全覆蓋現實(shí)世界的distribution(情況、狀態(tài)、數據分布)。我覺(jué)得物理世界是一個(gè)混沌的世界,你要用物理仿真器完成這個(gè)子集的收納是很困難的。而今天的人形機器人連一些基礎任務(wù)都做不好,在這種情況下,你讓他泛化沒(méi)什么意義。

所以我覺(jué)得今天去做生產(chǎn)力的泛化,倒不如先做好交互類(lèi)的商業(yè)化閉環(huán)?,F在在交互上完成快速變現,跑通機器人控制和大模型之間的交互機制,然后再去慢慢遷移到其他的部分。所以我們選擇從“頭”做。

當然我自己是非??春脵C器人的,只不過(guò)在這條路徑上面,我們不希望盲目摸索,而是把它先簡(jiǎn)化到臉,從臉開(kāi)始做,從交互開(kāi)始做。

鏡相工作室:在商業(yè)化落地方面有沒(méi)有一些設想?

胡宇航:我們早期會(huì )做用戶(hù)拆開(kāi)就能夠體驗的消費級、桌面級產(chǎn)品,做體驗館,但大規模落地也是在兩年后了?,F在會(huì )給一些對人臉感興趣的人形機器人廠(chǎng)商提供零部件和技術(shù)支持。

最終我們希望打造一個(gè)沉浸式的西部世界,里面的NPC都是機器人,我們認為這里面的技術(shù)棧還是比較容易解決的。因為西部世界是一個(gè)局部約束的場(chǎng)景。人類(lèi)生活的場(chǎng)景是一個(gè)完全動(dòng)態(tài)發(fā)展的場(chǎng)景,對模型的要求非常高,人形機器人要進(jìn)家庭是非常難的事情;進(jìn)工廠(chǎng)是很簡(jiǎn)單的事情,現在已經(jīng)實(shí)現了。像西部世界這種區域場(chǎng)景,我們覺(jué)得是可以去提出解決方案的。

鏡相工作室:你們的商業(yè)化路徑和目標很清晰。一些機器人公司可能會(huì )更傾向于講述技術(shù)突破方面的故事。

胡宇航:我覺(jué)得有時(shí)候你把一個(gè)問(wèn)題講得很高大上,或者講得很抽象,過(guò)于讓人難以理解的時(shí)候,你其實(shí)是有問(wèn)題的。

賣(mài)給F人

鏡相工作室:目標用戶(hù)是一群什么樣的人?

胡宇航:我覺(jué)得是能夠理解情緒陪伴是生活中很重要的東西的人。我不會(huì )具體去講是哪個(gè)領(lǐng)域的人。很多人無(wú)法理解情緒陪伴是個(gè)需求。我是個(gè)F人,我覺(jué)得情緒陪伴在整個(gè)人生中都是很重要的。你在人世間,你不是一臺機器,你也不是工具,你是一個(gè)能夠感受、理解人生百態(tài),和人產(chǎn)生情感聯(lián)結的體驗者。所以我覺(jué)得我的目標用戶(hù)就是我這種F人。

鏡相工作室:這幾年做AI情緒陪伴類(lèi)產(chǎn)品的公司很多,軟件硬件都有。你覺(jué)得這類(lèi)產(chǎn)品之間的壁壘是什么?要怎么打出差異化?

胡宇航:真正讓你和AI產(chǎn)生情感聯(lián)結的點(diǎn)在于,你相信這不是機器。如果你早期帶入的定位是,它是一個(gè)聊天工具的話(huà),你很難跟它有長(cháng)期的情感綁定。真正需要解決的問(wèn)題是,讓用戶(hù)覺(jué)得這東西不是一個(gè)機器,能夠有一種沉浸的體驗感。這也是我們要做情緒理解和情緒表達的原因。

鏡相工作室:目前業(yè)內在情緒感知上面大量投入的公司多嗎?

胡宇航:挺少的。

鏡相工作室:你是因為篤定情緒陪伴價(jià)值所以在這方面加大投入?

胡宇航:我覺(jué)得跟團隊的小伙伴也有關(guān)系。如果身邊都是一群直男,他們對可愛(ài)類(lèi)的或者機甲類(lèi)的最感興趣,覺(jué)得這種能夠讓他們居高臨下地對待。我覺(jué)得如果你居高臨下地看待每個(gè)AI陪伴產(chǎn)品,你無(wú)法跟它建立信任或長(cháng)期的情感聯(lián)結,你會(huì )認為AI是你的玩物,是你的工具,那你物化了這個(gè)產(chǎn)品后,你對情緒的表達和理解在人性的這一側就會(huì )缺失、會(huì )失真。我覺(jué)得我們這個(gè)品類(lèi)是一個(gè)天花板很高也很難但是正確的一件事。

鏡相工作室:你們是怎么去量化AI情感陪伴機器人的市場(chǎng)規模的?

胡宇航:我們沒(méi)有單獨去看這個(gè)市場(chǎng)的規模,行業(yè)內也沒(méi)有一個(gè)準確的數字。像泡泡瑪特這樣的公司,可以看到它有一個(gè)靜態(tài)的價(jià)值,如果你往更深的層次去看,它會(huì )有更高的市場(chǎng)空間。

不是理想主義者

鏡相工作室:現在團隊有多少人?

胡宇航:15到20人。

鏡相工作室:這么少的人要去完成一件少有人做過(guò)的事還是挺難的。

胡宇航:我們不怕事情難,我們是想做一些我們覺(jué)得有價(jià)值的事。我們會(huì )不斷擴大團隊。我們最新的杭州的算法團隊也開(kāi)始在招人,預計到年底團隊規模擴大到四五十人。

鏡相工作室:最近是不是有很多投資人找你?

胡宇航:在國內見(jiàn)了很多,一年下來(lái)大概見(jiàn)了有一百多個(gè),但相信我們可以做商業(yè)化落地的還是不多。

鏡相工作室:他們普遍的疑問(wèn)是什么?

胡宇航:總覺(jué)得這東西沒(méi)啥必要。他們還是以機器人是工具的角度來(lái)思考這件事的。他們會(huì )想知道你這個(gè)表情機器人接下來(lái)是不是一個(gè)什么工具,能夠有剛需,我覺(jué)得這個(gè)事跟我們的初衷太不一致了。

鏡相工作室:你覺(jué)得現在的投資人更多是對項目商業(yè)化的期待,還是對你的期待?

胡宇航:投人的比較多。機構可能覺(jué)得我一個(gè)人又做市場(chǎng),又做科研,又做產(chǎn)品,同時(shí)又管理公司,還做自媒體,投人的邏輯在他們內部更好去推動(dòng)。

鏡相工作室:這好像是目前人形機器人行業(yè)一個(gè)普遍的投資邏輯。

胡宇航:因為今天沒(méi)辦法去量化這個(gè)事兒,尤其是技術(shù)導向的公司。大家都在說(shuō)我要解決一個(gè)什么問(wèn)題,但你真的開(kāi)賣(mài)了嗎?你的毛利率是多少?你的客戶(hù)留存率是多少?沒(méi)有一個(gè)量化指標的情況下,投資機構內部沒(méi)辦法去判斷誰(shuí)優(yōu)誰(shuí)劣,那我就先投人。

鏡相工作室:現在普遍的認知是,人形機器人距離商業(yè)化還有一段時(shí)間。在當下的階段,是不是需要一點(diǎn)兒理想主義去支撐做這些事?

胡宇航:情況有點(diǎn)復雜,什么樣的人都有。但我不是一個(gè)理想主義者,我父母都是商人。如果我是理想主義者,我在學(xué)校干就完了,我就待在象牙塔里。我是覺(jué)得它是能夠創(chuàng )造真實(shí)社會(huì )價(jià)值的。

鏡相工作室:為了能夠盡早實(shí)現商業(yè)化,你現在的工作節奏是什么樣子的?

胡宇航:我每天睡7個(gè)小時(shí),其他的時(shí)間都可以工作。

鏡相工作室:目前在攻克一些什么難題?

胡宇航:人類(lèi)情緒在不同人種的臉上表現出的形狀還是不太一樣,這是我們現在要去解決的問(wèn)題。我們找到的切入點(diǎn)就是先只做亞洲市場(chǎng)。因為亞洲市場(chǎng)非常大,相對來(lái)說(shuō)審美也比較趨同。

?