用人工智能生成視頻,是許多人樂(lè)于嘗試的應(yīng)用。但AI的技術(shù)缺陷也引來(lái)很多吐槽:“上一段視頻中生成的是張三,下一段視頻就變成了另一張臉。無(wú)論怎么調(diào)整,都無(wú)法讓兩段視頻的主角變成同一人。”人物角色一致性的難題,讓AI難以制作出同一人物角色、不同故事情節(jié)的短片,大大限制了AI生成視頻的應(yīng)用場(chǎng)景。
2025年1月,稀宇科技(MiniMax)發(fā)布的最新視頻模型化解了這一難題。用戶只需提供1張人物的正面照片,不論生成多少段風(fēng)格迥異的視頻,主角都是這個(gè)人。這讓網(wǎng)友驚呼,一張照片就能做電影,這不是夢(mèng)!
在創(chuàng)業(yè)過(guò)程中,MiniMax始終堅(jiān)持技術(shù)驅(qū)動(dòng)。動(dòng)態(tài)視頻中如何保持人物面部多角度的真實(shí)度和穩(wěn)定性,如何保持人物角色高度一致……開(kāi)發(fā)團(tuán)隊(duì)進(jìn)行了大量技術(shù)探索,比選不同的技術(shù)路徑,最后開(kāi)發(fā)出S2V模型——只需傳統(tǒng)方案1%的輸入量和計(jì)算成本,“上傳1張圖片”的效果就足夠好。在3年多時(shí)間里,一次次迭代升級(jí),文生視頻、圖生視頻、主體參考等功能持續(xù)優(yōu)化。這些創(chuàng)新,讓海螺AI視頻在激烈競(jìng)爭(zhēng)中殺出重圍,用戶分布在全球超200個(gè)國(guó)家和地區(qū)。
在文生語(yǔ)音等功能上,MiniMax也走出了差異化路線。網(wǎng)友發(fā)現(xiàn),MiniMax的語(yǔ)音功能竟然帶有情緒調(diào)節(jié)和效果器功能,AI生成的語(yǔ)音可以帶上開(kāi)心、難過(guò)、生氣等情緒,這一創(chuàng)新讓有聲書和廣播劇的生產(chǎn)力大幅提升。“通用人工智能不是簡(jiǎn)單的互聯(lián)網(wǎng)流量變化,而是計(jì)算范式的顛覆式創(chuàng)新,將會(huì)引領(lǐng)生產(chǎn)力、社會(huì)分工以及產(chǎn)業(yè)結(jié)構(gòu)的深刻變革。”MiniMax創(chuàng)始人閆俊杰說(shuō)。
算力、算法和數(shù)據(jù)是人工智能發(fā)展的“鐵三角”。MiniMax創(chuàng)立之初,算力和數(shù)據(jù)十分有限,唯一選擇就是在算法上求突破。從2023年夏天開(kāi)始,公司將80%的算力與研發(fā)資源投入底層架構(gòu)研發(fā),這在外人看來(lái)就像一場(chǎng)豪賭。“我們?cè)诠こ躺嫌龅降暮芏鄦?wèn)題,源于一片漆黑的未知。”公司技術(shù)團(tuán)隊(duì)在沒(méi)有成熟經(jīng)驗(yàn)可供借鑒的情況下,一次次試錯(cuò),持續(xù)進(jìn)行摸索。一年后,公司成功推出基于MoE架構(gòu)的模型。今年1月,大規(guī)模實(shí)現(xiàn)線性注意力機(jī)制的MiniMax-01模型誕生,并逐漸為行業(yè)廣泛認(rèn)可。
“底層模型能力是決定大模型應(yīng)用成功與否的首要因素。”MiniMax副總裁劉華告訴記者,雖然照著現(xiàn)成的圖紙蓋樓相對(duì)容易,但圖紙的不足也會(huì)限制樓房的高度。我們選擇用自己的圖紙構(gòu)筑大廈,一開(kāi)始或許慢一些,但希望能更好應(yīng)對(duì)未來(lái)的挑戰(zhàn)。底層架構(gòu)如同AI“新基建”,MiniMax-01模型突破了長(zhǎng)文本處理瓶頸,可高效處理最長(zhǎng)400萬(wàn)token(詞元)的上下文。在工業(yè)領(lǐng)域,該模型可以快速解析百萬(wàn)字設(shè)備日志,輔助故障診斷;在醫(yī)療場(chǎng)景,它可連續(xù)跟蹤患者數(shù)年病歷,生成個(gè)性化治療方案。最近兩年,大模型技術(shù)快速迭代,國(guó)際國(guó)內(nèi)AI行業(yè)都在白熱化競(jìng)爭(zhēng)。底層模型一次重大迭代對(duì)產(chǎn)品帶來(lái)的優(yōu)化效果,會(huì)遠(yuǎn)超在工程實(shí)現(xiàn)層面對(duì)產(chǎn)品進(jìn)行“雕花”。這也是MiniMax始終緊盯模型本身,加速迭代升級(jí)的重要原因。
作為上海人工智能高地孵化的代表性企業(yè),MiniMax的成長(zhǎng)離不開(kāi)這座城市獨(dú)特的文化和基因。上海匯聚了全球頂尖的AI人才,大量富有熱情的年輕人才,為產(chǎn)業(yè)快速發(fā)展提供了支撐。在MiniMax上海總部大樓,研發(fā)人員持續(xù)增多。不久前,上海推出人工智能“模塑申城”實(shí)施方案,在算力、場(chǎng)景、數(shù)據(jù)、人才方面推出一批有力舉措。上海還積極推動(dòng)大模型企業(yè)與場(chǎng)景企業(yè)對(duì)接。以MiniMax為例,他們與小紅書合作打造生成式智能搜索,與閱文集團(tuán)合作將數(shù)千本小說(shuō)變成超自然、高保真的有聲書等,通過(guò)相互賦能實(shí)現(xiàn)更快發(fā)展。閆俊杰相信,“真正有價(jià)值的事,不是當(dāng)前做得怎么樣,而是技術(shù)進(jìn)化的速度。”
用人工智能生成視頻,是許多人樂(lè)于嘗試的應(yīng)用。但AI的技術(shù)缺陷也引來(lái)很多吐槽:“上一段視頻中生成的是張三,下一段視頻就變成了另一張臉。無(wú)論怎么調(diào)整,都無(wú)法讓兩段視頻的主角變成同一人。”人物角色一致性的難題,讓AI難以制作出同一人物角色、不同故事情節(jié)的短片,大大限制了AI生成視頻的應(yīng)用場(chǎng)景。
2025年1月,稀宇科技(MiniMax)發(fā)布的最新視頻模型化解了這一難題。用戶只需提供1張人物的正面照片,不論生成多少段風(fēng)格迥異的視頻,主角都是這個(gè)人。這讓網(wǎng)友驚呼,一張照片就能做電影,這不是夢(mèng)!
在創(chuàng)業(yè)過(guò)程中,MiniMax始終堅(jiān)持技術(shù)驅(qū)動(dòng)。動(dòng)態(tài)視頻中如何保持人物面部多角度的真實(shí)度和穩(wěn)定性,如何保持人物角色高度一致……開(kāi)發(fā)團(tuán)隊(duì)進(jìn)行了大量技術(shù)探索,比選不同的技術(shù)路徑,最后開(kāi)發(fā)出S2V模型——只需傳統(tǒng)方案1%的輸入量和計(jì)算成本,“上傳1張圖片”的效果就足夠好。在3年多時(shí)間里,一次次迭代升級(jí),文生視頻、圖生視頻、主體參考等功能持續(xù)優(yōu)化。這些創(chuàng)新,讓海螺AI視頻在激烈競(jìng)爭(zhēng)中殺出重圍,用戶分布在全球超200個(gè)國(guó)家和地區(qū)。
在文生語(yǔ)音等功能上,MiniMax也走出了差異化路線。網(wǎng)友發(fā)現(xiàn),MiniMax的語(yǔ)音功能竟然帶有情緒調(diào)節(jié)和效果器功能,AI生成的語(yǔ)音可以帶上開(kāi)心、難過(guò)、生氣等情緒,這一創(chuàng)新讓有聲書和廣播劇的生產(chǎn)力大幅提升。“通用人工智能不是簡(jiǎn)單的互聯(lián)網(wǎng)流量變化,而是計(jì)算范式的顛覆式創(chuàng)新,將會(huì)引領(lǐng)生產(chǎn)力、社會(huì)分工以及產(chǎn)業(yè)結(jié)構(gòu)的深刻變革。”MiniMax創(chuàng)始人閆俊杰說(shuō)。
算力、算法和數(shù)據(jù)是人工智能發(fā)展的“鐵三角”。MiniMax創(chuàng)立之初,算力和數(shù)據(jù)十分有限,唯一選擇就是在算法上求突破。從2023年夏天開(kāi)始,公司將80%的算力與研發(fā)資源投入底層架構(gòu)研發(fā),這在外人看來(lái)就像一場(chǎng)豪賭。“我們?cè)诠こ躺嫌龅降暮芏鄦?wèn)題,源于一片漆黑的未知。”公司技術(shù)團(tuán)隊(duì)在沒(méi)有成熟經(jīng)驗(yàn)可供借鑒的情況下,一次次試錯(cuò),持續(xù)進(jìn)行摸索。一年后,公司成功推出基于MoE架構(gòu)的模型。今年1月,大規(guī)模實(shí)現(xiàn)線性注意力機(jī)制的MiniMax-01模型誕生,并逐漸為行業(yè)廣泛認(rèn)可。
“底層模型能力是決定大模型應(yīng)用成功與否的首要因素。”MiniMax副總裁劉華告訴記者,雖然照著現(xiàn)成的圖紙蓋樓相對(duì)容易,但圖紙的不足也會(huì)限制樓房的高度。我們選擇用自己的圖紙構(gòu)筑大廈,一開(kāi)始或許慢一些,但希望能更好應(yīng)對(duì)未來(lái)的挑戰(zhàn)。底層架構(gòu)如同AI“新基建”,MiniMax-01模型突破了長(zhǎng)文本處理瓶頸,可高效處理最長(zhǎng)400萬(wàn)token(詞元)的上下文。在工業(yè)領(lǐng)域,該模型可以快速解析百萬(wàn)字設(shè)備日志,輔助故障診斷;在醫(yī)療場(chǎng)景,它可連續(xù)跟蹤患者數(shù)年病歷,生成個(gè)性化治療方案。最近兩年,大模型技術(shù)快速迭代,國(guó)際國(guó)內(nèi)AI行業(yè)都在白熱化競(jìng)爭(zhēng)。底層模型一次重大迭代對(duì)產(chǎn)品帶來(lái)的優(yōu)化效果,會(huì)遠(yuǎn)超在工程實(shí)現(xiàn)層面對(duì)產(chǎn)品進(jìn)行“雕花”。這也是MiniMax始終緊盯模型本身,加速迭代升級(jí)的重要原因。
作為上海人工智能高地孵化的代表性企業(yè),MiniMax的成長(zhǎng)離不開(kāi)這座城市獨(dú)特的文化和基因。上海匯聚了全球頂尖的AI人才,大量富有熱情的年輕人才,為產(chǎn)業(yè)快速發(fā)展提供了支撐。在MiniMax上海總部大樓,研發(fā)人員持續(xù)增多。不久前,上海推出人工智能“模塑申城”實(shí)施方案,在算力、場(chǎng)景、數(shù)據(jù)、人才方面推出一批有力舉措。上海還積極推動(dòng)大模型企業(yè)與場(chǎng)景企業(yè)對(duì)接。以MiniMax為例,他們與小紅書合作打造生成式智能搜索,與閱文集團(tuán)合作將數(shù)千本小說(shuō)變成超自然、高保真的有聲書等,通過(guò)相互賦能實(shí)現(xiàn)更快發(fā)展。閆俊杰相信,“真正有價(jià)值的事,不是當(dāng)前做得怎么樣,而是技術(shù)進(jìn)化的速度。”
本文鏈接:http://www.wbe-yiqi.com/news-2-707-0.htmlMiniMax緊盯底層模型加速迭代
聲明:本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
下一篇:我國(guó)首套航空大地電磁探測(cè)系統(tǒng)完成5000米高寒高海拔地質(zhì)勘查任務(wù)
點(diǎn)擊右上角微信好友
朋友圈
點(diǎn)擊瀏覽器下方“”分享微信好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕
點(diǎn)擊右上角QQ
點(diǎn)擊瀏覽器下方“”分享QQ好友Safari瀏覽器請(qǐng)點(diǎn)擊“
”按鈕