3月29日,2025中關村論壇年會——第十四屆吳文俊人工智能科學技術獎頒獎典禮將科技進步獎特等獎授予京東科技信息技術有限公司、中國科學技術大學等共同完成的“多模態交互式數字人關鍵技術及產業應用”項目。中國工程院院士、清華大學信息學院院長戴瓊海在頒獎典禮上評價,獲獎團隊通過產學研合作推動數字人技術應用,為數字經濟的發展樹立了標桿。
“能打動評委的,或許不是形容數字人逼真度的一系列量化指標,而是真真切切呈現在他們面前的、讓人一時真假難辨的數字人本身。”特等獎團隊負責人、京東探索研究院院長何曉冬告訴科技日報記者,特等獎不是每年都有,要在一等獎的基礎上再評審,只有得到絕大多數評委的認可才會被授予。
3年前,普通人要擁有一個和自己長得像、說話像的數字人幾乎是不可能的,寥寥幾位名主持人的數字分身表現也有些僵硬。如今,只需一張照片或很短的視頻,人人都能借助京東言犀擁有“以假亂真”的數字分身。
換個角度攀登“珠峰”
在虛擬世界“克隆”一個自己,這曾經被認為是行業的一座“珠峰”。2020年,英偉達創始人黃仁勛帶著自己的數字分身召開發布會,不到一分鐘的“再現”背后,是幾百個攝像頭采集數據、最新的顯卡處理數據以及各類計算資源的支撐。
“那時不到一分鐘的數字分身‘仿真’可能需花費百萬美元。”何曉冬解釋,為了復刻得像,那時的技術邏輯是構建物理模型,把真實的三維世界的每個表面分割成大量很小的三角形,通過物理模型進行模擬,然后渲染面部表情,這樣需要極大量的計算,且難以滿足實時輸出的要求。
現實世界的逼真再現要處理的數據量太大了,這似乎是一個邁不過去的“大山”。
研究團隊沒有選擇“死磕”,而是逆向思維研究起信息的接收方——視網膜。
“人體的視網膜是二維的,我們之所以能感知這個世界,是因為二維的信息在大腦中重構出了三維。”何曉冬說,與其先復現一個刻板的三維世界,被視網膜“降維”再由大腦重構,不如直接把“降維”后的影像給視網膜。這樣既解決了重構的數據量,又沒有影響大腦的感知。
“換個角度解決問題”讓團隊找到了顛覆性創新的“更優解”。團隊進一步打磨端到端(無需高顆粒度拆解)的再現技術,提升了二維的精度,做到讓大腦“滿意”。
在動作的再現上,團隊利用“常識”進一步壓縮計算量。“過去每個動作都要采集,然后再重現,事實上,人類動作大多是常規的,很少有人像蜘蛛俠一樣行動。”何曉冬說,通過預建模將“先驗知識”告知給AI,AI在進行動作創造時就會有“依據”,共同的動作有選擇,個別的動作再采集,降低了處理量,也讓動作更符合常理。
給多模態數據任命“領隊”
“我們瞄準的不是做一個‘展示品’,而是要落地直播應用。”何曉冬說,直播要和觀眾互動幾個小時,就要解決人工智能幻覺,聲音、手勢、表情等協調的問題,而人對人是最敏感的,哪怕眼珠轉動與聲音、儀態出現一點偏差也會被視為異常。
文生視頻大模型Sora的產品是無聲的,但想應用于直播就必須配上聲音。一旦需要配音,虛擬人的聲調、特有口音、是否與動作匹配等細節都可能露餡,這些使得多模態數據的聯動成為必須解決的問題。
如何才能讓數字人知道說話的時候什么時候該亢奮,什么時候該溫柔呢?
“團隊經過討論決定用語音來驅動‘統領’表情、微動作等其他模態的信息。”何曉冬說,通過生成一個基礎數字人,用視覺特征對其進行訓練,讓它學會什么時候該輕聲細語、什么時候該聲音激昂,聲音跟它要播報的文字內容相匹配,然后再驅動多模態的協同配合,最終生成一個合乎常理的形象。
由于需要長時間播報,團隊還對人工智能的幻覺問題進行了專門攻關,將人工智能的幻覺率降低到可接受范圍內,讓它在相當長的時間里保持逼真的擬人度和情緒。
在計算量降低、降本增效的基礎上,京東言犀數字人實現了大規模商業化,已經服務9000多戶商家、累計創造140億元的經濟價值,未來將在文旅、教育、政務等其他場景落地應用。
“我們還將推出來‘千人千面’的數字人。”何曉冬說,現在大家一場直播中看的內容是一樣的,未來每個人根據喜好可以定制不同的數字人服務,在文旅表演等方面都能落地。
3月29日,2025中關村論壇年會——第十四屆吳文俊人工智能科學技術獎頒獎典禮將科技進步獎特等獎授予京東科技信息技術有限公司、中國科學技術大學等共同完成的“多模態交互式數字人關鍵技術及產業應用”項目。中國工程院院士、清華大學信息學院院長戴瓊海在頒獎典禮上評價,獲獎團隊通過產學研合作推動數字人技術應用,為數字經濟的發展樹立了標桿。
“能打動評委的,或許不是形容數字人逼真度的一系列量化指標,而是真真切切呈現在他們面前的、讓人一時真假難辨的數字人本身。”特等獎團隊負責人、京東探索研究院院長何曉冬告訴科技日報記者,特等獎不是每年都有,要在一等獎的基礎上再評審,只有得到絕大多數評委的認可才會被授予。
3年前,普通人要擁有一個和自己長得像、說話像的數字人幾乎是不可能的,寥寥幾位名主持人的數字分身表現也有些僵硬。如今,只需一張照片或很短的視頻,人人都能借助京東言犀擁有“以假亂真”的數字分身。
換個角度攀登“珠峰”
在虛擬世界“克隆”一個自己,這曾經被認為是行業的一座“珠峰”。2020年,英偉達創始人黃仁勛帶著自己的數字分身召開發布會,不到一分鐘的“再現”背后,是幾百個攝像頭采集數據、最新的顯卡處理數據以及各類計算資源的支撐。
“那時不到一分鐘的數字分身‘仿真’可能需花費百萬美元。”何曉冬解釋,為了復刻得像,那時的技術邏輯是構建物理模型,把真實的三維世界的每個表面分割成大量很小的三角形,通過物理模型進行模擬,然后渲染面部表情,這樣需要極大量的計算,且難以滿足實時輸出的要求。
現實世界的逼真再現要處理的數據量太大了,這似乎是一個邁不過去的“大山”。
研究團隊沒有選擇“死磕”,而是逆向思維研究起信息的接收方——視網膜。
“人體的視網膜是二維的,我們之所以能感知這個世界,是因為二維的信息在大腦中重構出了三維。”何曉冬說,與其先復現一個刻板的三維世界,被視網膜“降維”再由大腦重構,不如直接把“降維”后的影像給視網膜。這樣既解決了重構的數據量,又沒有影響大腦的感知。
“換個角度解決問題”讓團隊找到了顛覆性創新的“更優解”。團隊進一步打磨端到端(無需高顆粒度拆解)的再現技術,提升了二維的精度,做到讓大腦“滿意”。
在動作的再現上,團隊利用“常識”進一步壓縮計算量。“過去每個動作都要采集,然后再重現,事實上,人類動作大多是常規的,很少有人像蜘蛛俠一樣行動。”何曉冬說,通過預建模將“先驗知識”告知給AI,AI在進行動作創造時就會有“依據”,共同的動作有選擇,個別的動作再采集,降低了處理量,也讓動作更符合常理。
給多模態數據任命“領隊”
“我們瞄準的不是做一個‘展示品’,而是要落地直播應用。”何曉冬說,直播要和觀眾互動幾個小時,就要解決人工智能幻覺,聲音、手勢、表情等協調的問題,而人對人是最敏感的,哪怕眼珠轉動與聲音、儀態出現一點偏差也會被視為異常。
文生視頻大模型Sora的產品是無聲的,但想應用于直播就必須配上聲音。一旦需要配音,虛擬人的聲調、特有口音、是否與動作匹配等細節都可能露餡,這些使得多模態數據的聯動成為必須解決的問題。
如何才能讓數字人知道說話的時候什么時候該亢奮,什么時候該溫柔呢?
“團隊經過討論決定用語音來驅動‘統領’表情、微動作等其他模態的信息。”何曉冬說,通過生成一個基礎數字人,用視覺特征對其進行訓練,讓它學會什么時候該輕聲細語、什么時候該聲音激昂,聲音跟它要播報的文字內容相匹配,然后再驅動多模態的協同配合,最終生成一個合乎常理的形象。
由于需要長時間播報,團隊還對人工智能的幻覺問題進行了專門攻關,將人工智能的幻覺率降低到可接受范圍內,讓它在相當長的時間里保持逼真的擬人度和情緒。
在計算量降低、降本增效的基礎上,京東言犀數字人實現了大規模商業化,已經服務9000多戶商家、累計創造140億元的經濟價值,未來將在文旅、教育、政務等其他場景落地應用。
“我們還將推出來‘千人千面’的數字人。”何曉冬說,現在大家一場直播中看的內容是一樣的,未來每個人根據喜好可以定制不同的數字人服務,在文旅表演等方面都能落地。
本文鏈接:http://www.wbe-yiqi.com/news-2-1532-0.html“換個角度”往往是顛覆性創新的起點
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇:感受生命科學“最”新成果的震撼
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕