久久香蕉超碰97国产精品,国产精品9999久久久久仙踪林,亚洲国产高清在线观看视频,强行开发她的尿孔H

當前位置: 網站首頁 新聞資訊 值得買科技與人大高瓴聯合研究成果入選計算機視覺頂級會議CVPR2025

值得買科技與人大高瓴聯合研究成果入選計算機視覺頂級會議CVPR2025

來源:互聯網 發布時間:2025-06-13 11:09:32

6月11日-15日,2025國際計算機視覺與模式識別會議(Conference on Computer Vision and Pattern Recognition 2025,簡稱CVPR2025)在美國田納西州召開。值得買科技與中國人民大學高瓴人工智能學院在多模態領域的最新聯合研究成果《圖像轉有聲視頻》(《Animate and Sound an Image》)成功入選CVPR2025會議。

此次成果首次提出了一種從靜態圖像直接生成同步音視頻內容的生成框架——JointDiT(Joint Diffusion Transformer),實現了從圖像到“動態視頻+聲音”的高質量聯合生成。據悉,此次研究成果是繼去年雙方發布《TiVA:Time-aligned Video-to-Audio Generation》《BSharedRAG:Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain》《MuKA:Multimodal Knowledge Augmented Visual Information-Seeking》后的又一創新探索,不僅展現了值得買科技在AIGC方面的技術創新突破,更為AI多模態的高質量發展提供了新的思路與啟發。

值得買科技與人大高瓴聯合研究成果入選計算機視覺頂級會議CVPR2025

CVPR 是由IEEE(電氣電子工程師學會 the Institute of Electrical and Electronics Engineers)與CVF(計算機視覺基金會 Computer Vision Foundation)聯合主辦的計算機視覺和模式識別領域的頂級年度會議,每年吸引來自學術界、工業界和**部門的數千名與會者,展示、學習和交流視覺技術的最新創新成果。CVPR2025涵蓋了從基礎計算機視覺理論到自動駕駛、醫學成像和生成式人工智能等領域前沿應用的方方面面,被錄用的論文代表了該領域最具影響力且經過嚴格同行評審的研究成果,以此引領技術潮流。

值得買科技與中國人民大學人大高瓴人工智能學院聯合開展的AIGC研究自2023年6月發起,結合值得買科技的集群算力、消費數據和應用場景能力,以及人大高瓴的科研和人才能力,在AI內容創作、多模態生成等方面共同開展AI前沿研究,加速技術探索和應用。

人大高瓴人工智能學院王希華表示,長期以來,生成式模型的研究主要在單一模態的內容合成上,也取得了顯著進展,探索了各種模型架構、生成范式以及擴展性特性等,以提升視頻或音頻的質量,如生成高保真的視頻畫面或自然的音頻片段。但模型在生成自然融合的有聲視頻時卻存在明顯不足,視頻和音頻分離的生成過程,往往導致畫面和聲音語義不匹配或者時間上不同步,目前將兩個模態聯合生成自然有聲視頻的研究,缺乏對統一建模機制的探索。

基于此,此次的聯合創新成果《圖像轉有聲視頻》(《Animate and Sound an Image》)首次提出并系統定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務:讓靜態圖像“動”起來的同時,生成與之語義匹配、時間同步的音頻內容。同時,這一成果還提出了一種新穎的內容生成框架JointDiT(Joint Diffusion Transformer),并具體闡述了如何利用兩個強大的單模態預訓練擴散模型(一個視頻生成器,一個音頻生成器),構建統一的聯合生成框架,并實現多模態協同生成。

值得買科技與人大高瓴聯合研究成果入選計算機視覺頂級會議CVPR2025

JointDiT不僅采用了“重組+協同”的創新思路,構建高效的圖像轉聲音視頻模型,實現了真正協同的多模態生成,創新性地實現了從一張圖片直接生成同步音視頻內容;還設計了感知式聯合注意力機制(Perceiver Joint Attention),使用模態特定的Query-Key-Value映射,實現對視頻幀與音頻序列之間的細粒度互動建模,有效提升同步與語義一致性;同時提出聯合無分類器引導(JointCFG)及其增強版JointCFG*,在保留圖像條件引導對齊的同時,強化了模型對跨模態之間交互的關注,進而提升了音視頻之間的語義一致性與時間同步性,該策略不僅優化了生成質量,還顯著增強了視頻的動態表現力。

研究團隊在三個標準數據集(AVSync15、Landscape和GreatestHits)上進行了大量測試,從視頻質量、音頻質量、同步性和語義一致性四個維度全面評估。

值得買科技與人大高瓴聯合研究成果入選計算機視覺頂級會議CVPR2025

結果顯示,JointDiT在視頻質量與音頻自然度方面均實現顯著提升,FVD、FAD等核心指標全面優于基于pipeline組合的多階段方法。音視頻同步性表現優異,在自動評價指標上與當前最強的音頻驅動視頻生成模型持平。語義匹配也更為精準,視頻畫面與聲音的“含義”更加契合。在用戶主觀打分測試中,JointDiT在“視頻質量”“音頻質量”“語義一致性”“同步性”與“整體效果”五項評分中均排名第一,領先第二名近20%。

值得買科技與人大高瓴聯合研究成果入選計算機視覺頂級會議CVPR2025

人大高瓴人工智能學院長聘副教授宋睿華表示:“接下來,研究團隊計劃將JointDiT擴展至圖像、文本、音頻、視頻四模態的聯合建模,為構建更通用、更智能的多模態生成系統奠定基礎?!?/p>

作為一家AI與內容驅動的數字消費服務集團,值得買科技在發展的不同階段,都注重用先進技術來驅動業務發展,因此在AI浪潮來臨之時就搶先布局,早在2023年就將AIGC列為集團重點戰略項目,在2024年發布全面AI戰略,并開啟了一場全面的AI探索與革新。其中,與學術界合作共同進行AI前沿探索,也是值得買科技全面AI戰略中的重要一環。據悉,值得買科技與人大高瓴團隊正在制定開源計劃,讓更多開發者可以更便利地應用這一成果。

當前,值得買科技已形成了從技術底層、產品形態到生態共建的全面AI布局:不僅構建了以AIUC引擎為代表的底層AI技術能力;還推出了面向用戶、品牌、創作者及大模型的AI產品和解決方案,值得一提的是,面向用戶的“什么值得買”平臺借助AI能力在今年5月全面升級為“什么值得買”GEN2,“小值”也全面升級為AI購物管家“張大媽”。同時,從2024年開始,值得買科技還將自身沉淀的AI能力開放給合作伙伴,共建高質量AI生態,今年更是通過打造值得買科技“海納”MCP Server,為AI生態中的各類應用提供消費領域的能力增強服務,以期成為智能體時代消費領域的基礎設施,促進行業生態繁榮。

未來,值得買科技將堅持全面AI戰略,并將AI應用研究作為戰略重點,進一步將前沿AI技術轉化為實際生產力,推動“AI+消費”的更多可能性;同時攜手更廣泛、更多領域的合作伙伴,共同探索AI在學術、技術、商業上的創新和應用,共同推動AI生態創新協同發展,為創造人人因消費而幸福的美好世界做出貢獻。

相關攻略
  • 掌機市場升溫:Steam Deck引領,Switch 2接棒,索尼Portal受關注 近年來,掌機市場逐漸升溫,早已不再是單一品牌主導的格局。隨著Steam Deck的推出,各類手持游戲設備層出不窮,行業競爭日趨激烈。Valve推出的Steam Deck堪稱近年最具代表性的PC掌機之一

    新聞資訊 06-18

  • 《Swords & Slippers新實機演示發布》 獨立游戲團隊Mass Creation近日再次公開了旗下作品Swords & Slippers的一段全新實機演示,展示了女主角與敵人激烈交戰的場面,整體節奏緊湊、氛圍十足,值得關注。玩家可以通過官方訂

    新聞資訊 06-18

  • 《劍星PC版即將上線,首發布賽車服Mod引熱議》 SHIFT UP開發的熱門動作游戲劍星即將于6月12日登陸PC平臺,隨著發售日逐漸臨近,玩家社區的熱情也持續升溫。據一位名為@AyakaMods的推主透露,該用戶通過提取PC版的游戲資源,成功制作并發

    新聞資訊 06-18

主站蜘蛛池模板: 龙川县| 阿拉尔市| 达拉特旗| 班玛县| 武定县| 清苑县| 张家界市| 吴忠市| 兴安盟| 淮滨县| 铜陵市| 天长市| 辽源市| 衡水市| 黄平县| 四平市| 乌拉特后旗| 巴林右旗| 台东市| 勐海县| 漾濞| 翁牛特旗| 邵阳县| 基隆市| 绩溪县| 潍坊市| 米易县| 阆中市| 工布江达县| 林甸县| 百色市| 蓬溪县| 漳州市| 长丰县| 元阳县| 惠州市| 依兰县| 汉中市| 临颍县| 西吉县| 玉环县|