本報訊 (記者桂小筍)6月11日至6月15日,2025國際計算機視覺與模式識別會議(CVPR2025)召開。北京值得買科技股份有限公司(以下簡稱“值得買”)與中國人民大學(xué)高瓴人工智能學(xué)院在多模態(tài)領(lǐng)域的最新聯(lián)合研究成果《圖像轉(zhuǎn)有聲視頻》(《Animate and Sound an Image》)成功入選。
該成果首次提出了一種從靜態(tài)圖像直接生成同步音視頻內(nèi)容的生成框架JointDiT(Joint Diffusion Transformer),實現(xiàn)了從圖像到“動態(tài)視頻+聲音”的高質(zhì)量聯(lián)合生成。這不僅展現(xiàn)了雙方在AIGC領(lǐng)域的技術(shù)創(chuàng)新突破,也為AI多模態(tài)的高質(zhì)量發(fā)展提供了新的思路與啟發(fā)。
據(jù)介紹,《圖像轉(zhuǎn)有聲視頻》首次提出并系統(tǒng)定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務(wù):讓靜態(tài)圖像“動”起來的同時,生成與之語義匹配、時間同步的音頻內(nèi)容。同時還提出了一種新穎的內(nèi)容生成框架JointDiT(Joint Diffusion Transformer),并具體闡述了如何利用兩個強大的單模態(tài)預(yù)訓(xùn)練擴散模型(一個視頻生成器,一個音頻生成器),構(gòu)建統(tǒng)一的聯(lián)合生成框架,實現(xiàn)多模態(tài)協(xié)同生成。
人大高瓴人工智能學(xué)院長聘副教授宋睿華表示:“接下來,研究團隊計劃將JointDiT擴展至圖像、文本、音頻、視頻四模態(tài)的聯(lián)合建模,為構(gòu)建更通用、更智能的多模態(tài)生成系統(tǒng)奠定基礎(chǔ)。”
(編輯 何成浩 郭之宸)
衛(wèi)星通信管理制度及政策法規(guī)進一步完善……[詳情]
| 11:12 | 搶抓新能源產(chǎn)業(yè)發(fā)展機遇 尚太科技... |
| 11:12 | 擬10億元加碼主業(yè) 博俊科技升級汽... |
| 11:07 | 蘇州天脈導(dǎo)熱散熱產(chǎn)品智能制造基地... |
| 11:00 | 僑銀股份受邀參與國內(nèi)首個智慧城市... |
| 10:18 | 第八屆進博會閉幕!意向成交額增4.... |
| 10:18 | 借力資本市場“工具箱” 進一步激... |
| 23:59 | 金屬空氣電池賽道熱度攀升 |
| 23:59 | 凌志軟件擬收購凱美瑞德100%股權(quán) |
| 23:59 | 遼港股份:做精港口主業(yè) 推動創(chuàng)新... |
| 23:59 | A股公司積極布局源網(wǎng)荷儲一體化項... |
| 23:59 | 深入洞察家庭資產(chǎn)配置需求 太平人... |
| 23:59 | 方直科技擬以1.16億元收購執(zhí)象科技 |
版權(quán)所有《證券日報》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號京ICP備19002521號
證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細閱讀法律申明,風(fēng)險自負。
證券日報社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注