6月11日-15日,2025國際計算機視覺與模式識別會議(Conference on Computer Vision and Pattern Recognition 2025,簡稱CVPR2025)在美國田納西州召開。值得買科技與中國人民大學高瓴人工智能學院在多模態領域的最新聯合研究成果《圖像轉有聲視頻》(《Animate and Sound an Image》)成功入選CVPR2025會議。
此次成果首次提出了一種從靜態圖像直接生成同步音視頻內容的生成框架——JointDiT(Joint Diffusion Transformer),實現了從圖像到“動態視頻+聲音”的高質量聯合生成。據悉,此次研究成果是繼去年雙方發布《TiVA:Time-aligned Video-to-Audio Generation》《BSharedRAG:Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain》《MuKA:Multimodal Knowledge Augmented Visual Information-Seeking》后的又一創新探索,不僅展現了值得買科技在AIGC方面的技術創新突破,更為AI多模態的高質量發展提供了新的思路與啟發。
CVPR 是由IEEE(電氣電子工程師學會 the Institute of Electrical and Electronics Engineers)與CVF(計算機視覺基金會 Computer Vision Foundation)聯合主辦的計算機視覺和模式識別領域的頂級年度會議,每年吸引來自學術界、工業界和**部門的數千名與會者,展示、學習和交流視覺技術的最新創新成果。CVPR2025涵蓋了從基礎計算機視覺理論到自動駕駛、醫學成像和生成式人工智能等領域前沿應用的方方面面,被錄用的論文代表了該領域最具影響力且經過嚴格同行評審的研究成果,以此引領技術潮流。
值得買科技與中國人民大學人大高瓴人工智能學院聯合開展的AIGC研究自2023年6月發起,結合值得買科技的集群算力、消費數據和應用場景能力,以及人大高瓴的科研和人才能力,在AI內容創作、多模態生成等方面共同開展AI前沿研究,加速技術探索和應用。
人大高瓴人工智能學院王希華表示,長期以來,生成式模型的研究主要在單一模態的內容合成上,也取得了顯著進展,探索了各種模型架構、生成范式以及擴展性特性等,以提升視頻或音頻的質量,如生成高保真的視頻畫面或自然的音頻片段。但模型在生成自然融合的有聲視頻時卻存在明顯不足,視頻和音頻分離的生成過程,往往導致畫面和聲音語義不匹配或者時間上不同步,目前將兩個模態聯合生成自然有聲視頻的研究,缺乏對統一建模機制的探索。
基于此,此次的聯合創新成果《圖像轉有聲視頻》(《Animate and Sound an Image》)首次提出并系統定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務:讓靜態圖像“動”起來的同時,生成與之語義匹配、時間同步的音頻內容。同時,這一成果還提出了一種新穎的內容生成框架JointDiT(Joint Diffusion Transformer),并具體闡述了如何利用兩個強大的單模態預訓練擴散模型(一個視頻生成器,一個音頻生成器),構建統一的聯合生成框架,并實現多模態協同生成。
JointDiT不僅采用了“重組+協同”的創新思路,構建高效的圖像轉聲音視頻模型,實現了真正協同的多模態生成,創新性地實現了從一張圖片直接生成同步音視頻內容;還設計了感知式聯合注意力機制(Perceiver Joint Attention),使用模態特定的Query-Key-Value映射,實現對視頻幀與音頻序列之間的細粒度互動建模,有效提升同步與語義一致性;同時提出聯合無分類器引導(JointCFG)及其增強版JointCFG*,在保留圖像條件引導對齊的同時,強化了模型對跨模態之間交互的關注,進而提升了音視頻之間的語義一致性與時間同步性,該策略不僅優化了生成質量,還顯著增強了視頻的動態表現力。
研究團隊在三個標準數據集(AVSync15、Landscape和GreatestHits)上進行了大量測試,從視頻質量、音頻質量、同步性和語義一致性四個維度全面評估。
結果顯示,JointDiT在視頻質量與音頻自然度方面均實現顯著提升,FVD、FAD等核心指標全面優于基于pipeline組合的多階段方法。音視頻同步性表現優異,在自動評價指標上與當前最強的音頻驅動視頻生成模型持平。語義匹配也更為精準,視頻畫面與聲音的“含義”更加契合。在用戶主觀打分測試中,JointDiT在“視頻質量”“音頻質量”“語義一致性”“同步性”與“整體效果”五項評分中均排名第一,領先第二名近20%。
人大高瓴人工智能學院長聘副教授宋睿華表示:“接下來,研究團隊計劃將JointDiT擴展至圖像、文本、音頻、視頻四模態的聯合建模,為構建更通用、更智能的多模態生成系統奠定基礎?!?/p>
作為一家AI與內容驅動的數字消費服務集團,值得買科技在發展的不同階段,都注重用先進技術來驅動業務發展,因此在AI浪潮來臨之時就搶先布局,早在2023年就將AIGC列為集團重點戰略項目,在2024年發布全面AI戰略,并開啟了一場全面的AI探索與革新。其中,與學術界合作共同進行AI前沿探索,也是值得買科技全面AI戰略中的重要一環。據悉,值得買科技與人大高瓴團隊正在制定開源計劃,讓更多開發者可以更便利地應用這一成果。
當前,值得買科技已形成了從技術底層、產品形態到生態共建的全面AI布局:不僅構建了以AIUC引擎為代表的底層AI技術能力;還推出了面向用戶、品牌、創作者及大模型的AI產品和解決方案,值得一提的是,面向用戶的“什么值得買”平臺借助AI能力在今年5月全面升級為“什么值得買”GEN2,“小值”也全面升級為AI購物管家“張大媽”。同時,從2024年開始,值得買科技還將自身沉淀的AI能力開放給合作伙伴,共建高質量AI生態,今年更是通過打造值得買科技“海納”MCP Server,為AI生態中的各類應用提供消費領域的能力增強服務,以期成為智能體時代消費領域的基礎設施,促進行業生態繁榮。
未來,值得買科技將堅持全面AI戰略,并將AI應用研究作為戰略重點,進一步將前沿AI技術轉化為實際生產力,推動“AI+消費”的更多可能性;同時攜手更廣泛、更多領域的合作伙伴,共同探索AI在學術、技術、商業上的創新和應用,共同推動AI生態創新協同發展,為創造人人因消費而幸福的美好世界做出貢獻。