本報(bào)記者 梁傲男
8月25日,杭州群核信息技術(shù)有限公司(以下簡稱“群核科技”)在首屆技術(shù)開放日(Tech Day)上發(fā)布其空間大模型最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,并在現(xiàn)場分享了新模型后續(xù)的開源節(jié)奏。
群核科技/供圖
作為業(yè)界首個(gè)專注于3D室內(nèi)場景認(rèn)知與生成的大模型體系,群核空間大模型在真實(shí)感全息漫游、結(jié)構(gòu)化可交互以及復(fù)雜室內(nèi)場景處理方面展現(xiàn)出顯著優(yōu)勢。
在開源模型之外,群核科技還首次分享了其AI團(tuán)隊(duì)基于SpatialGen探索的AI視頻生成解決方案,旨在通過新范式解決時(shí)空一致性難題。
SpatialLM1.5:一句話生成結(jié)構(gòu)化3D場景
本次發(fā)布的SpatialLM1.5是一款基于大語言模型訓(xùn)練的空間語言模型,支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進(jìn)行可交互場景的端到端生成。相比于傳統(tǒng)大語言模型對物理世界幾何與空間關(guān)系的理解局限,SpatialLM1.5不僅能理解文本指令,還能輸出包含空間結(jié)構(gòu)、物體關(guān)系、物理參數(shù)的“空間語言”。
更關(guān)鍵的是,SpatialLM 1.5生成的場景富含物理正確的結(jié)構(gòu)化信息,且能快速批量輸出大量符合要求的多樣化場景,可用于機(jī)器人路徑規(guī)劃、避障訓(xùn)練、任務(wù)執(zhí)行等場景,這將有效解決當(dāng)前機(jī)器人訓(xùn)練“缺數(shù)據(jù)”的難題。
現(xiàn)場,群核科技首席科學(xué)家周子寒演示了機(jī)器人養(yǎng)老場景的應(yīng)用,當(dāng)輸入“去客廳餐桌拿藥”這一指令后,該模型不僅理解了相關(guān)的物體對象,還調(diào)用工具自動(dòng)規(guī)劃出最優(yōu)行動(dòng)路徑,展示了機(jī)器人在復(fù)雜環(huán)境中執(zhí)行任務(wù)的潛力。
SpatialGen:破解AI視頻“時(shí)空一致性”難題
作為一款基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型,SpatialGen可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時(shí)空一致性的多視角圖像,并支持進(jìn)一步生成3D高斯場景并渲染漫游視頻。
SpatialGen依托群核科技海量室內(nèi)3D場景數(shù)據(jù)與多視角擴(kuò)散模型技術(shù),其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準(zhǔn)確的空間屬性和物理關(guān)系。此外,基于SpatialGen生成的3D高斯場景和真實(shí)感全息漫游視頻,用戶可以如同在真實(shí)空間中一樣,自由穿梭于生成的場景內(nèi),獲得沉浸式的體驗(yàn)。
“目前,AIGC文生視頻與圖生視頻工具已經(jīng)初步推動(dòng)了全民視頻創(chuàng)作的潮流,但由于時(shí)空一致性問題的制約,其離真正的商業(yè)化應(yīng)用仍有一定距離。我們正在研發(fā)一款基于3D技術(shù)的AI視頻生成產(chǎn)品,并計(jì)劃在今年內(nèi)正式發(fā)布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構(gòu)建3D渲染與視頻增強(qiáng)一體化的生成管線,有望顯著彌補(bǔ)當(dāng)前AIGC視頻生成中時(shí)空一致性不足的問題。”群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚杀硎尽?/p>
持續(xù)開源共建技術(shù)生態(tài)
“擁抱開源能夠發(fā)揮更大價(jià)值。我們一直堅(jiān)信,只要你的技術(shù)有價(jià)值,同時(shí)賽道蓬勃發(fā)展,在里面一定能夠分到一杯羹。”群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌表示。
活動(dòng)現(xiàn)場,黃曉煌分享了群核科技在空間智能布局上的最新思考?;诳峒覙愤@一全球最大的空間設(shè)計(jì)平臺(tái),群核科技構(gòu)建了“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”的空間智能飛輪,讓工具沉淀數(shù)據(jù),用數(shù)據(jù)加速模型訓(xùn)練,用模型提升工具體驗(yàn),再在工具的廣泛應(yīng)用中沉淀更為豐富的場景數(shù)據(jù)。資料顯示,截至6月30日,群核科技擁有包含超過4.41億個(gè)3D模型及超過5億個(gè)結(jié)構(gòu)化3D空間場景。
“群核科技從2018年就啟動(dòng)了開源戰(zhàn)略,逐步開放我們在數(shù)據(jù)和算法上的能力。相比大語言模型,當(dāng)前空間大模型還處于初級階段。我們希望通過開源推動(dòng)全球空間智能技術(shù)快速前進(jìn),成為全球空間智能服務(wù)提供商,推動(dòng)屬于空間大模型的‘DeepSeek時(shí)刻’盡快來臨。”
據(jù)悉,本次技術(shù)開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區(qū)等平臺(tái)面向全球開發(fā)者開源。
(編輯 郭之宸)
衛(wèi)星通信萬億賽道起飛,手機(jī)直連時(shí)代開啟
衛(wèi)星通信管理制度及政策法規(guī)進(jìn)一步完善……[詳情]
版權(quán)所有《證券日報(bào)》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號(hào)京ICP備19002521號(hào)
證券日報(bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。
證券日報(bào)社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注