本報(bào)訊 (記者李喬宇)近期,商湯集團(tuán)股份有限公司(以下簡稱“商湯”)正式發(fā)布并開源了與南洋理工大學(xué)S-Lab合作研發(fā)的全新多模態(tài)模型架構(gòu)——NEO,為日日新SenseNova多模態(tài)模型奠定了新一代架構(gòu)的基石。
作為行業(yè)首個(gè)可用的、實(shí)現(xiàn)深層次融合的原生多模態(tài)架構(gòu)(NativeVLM),NEO從底層原理出發(fā),打破了傳統(tǒng)“模塊化”范式的桎梏,以“專為多模態(tài)而生”的創(chuàng)新設(shè)計(jì),通過核心架構(gòu)層面的多模態(tài)深層融合,實(shí)現(xiàn)了性能、效率和通用性的整體突破,重新定義了多模態(tài)模型的效能邊界,標(biāo)志著人工智能多模態(tài)技術(shù)正式邁入“原生架構(gòu)”的新時(shí)代。
當(dāng)前,業(yè)內(nèi)主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴(kuò)展方式,雖然實(shí)現(xiàn)了圖像輸入的兼容,但本質(zhì)上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設(shè)計(jì)不僅學(xué)習(xí)效率低下,更限制了模型在復(fù)雜多模態(tài)場景下(比如涉及圖像細(xì)節(jié)捕捉或復(fù)雜空間結(jié)構(gòu)理解)的處理能力。
商湯NEO架構(gòu)正是為了解決這一痛點(diǎn)而生。早在2024年下半年,商湯便在國內(nèi)率先突破多模態(tài)原生融合訓(xùn)練技術(shù),以單一模型在SuperCLUE語言評(píng)測和OpenCompass多模態(tài)評(píng)測中奪冠,并基于這一核心技術(shù)打造了日日新SenseNova 6.0,實(shí)現(xiàn)多模態(tài)推理能力領(lǐng)先。之后,公司在2025年7月份發(fā)布日日新SenseNova 6.5,通過實(shí)現(xiàn)編碼器層面的早期融合,把多模態(tài)模型性價(jià)比提升3倍,并在國內(nèi)率先推出商用級(jí)別的圖文交錯(cuò)推理。商湯此次更進(jìn)一步,徹底摒棄了傳統(tǒng)的模塊化結(jié)構(gòu),從底層原理出發(fā),推出了從零設(shè)計(jì)的NEO原生架構(gòu)。
目前,商湯已正式開源基于NEO架構(gòu)的2B與9B兩種規(guī)格模型,以推動(dòng)開源社區(qū)在原生多模態(tài)架構(gòu)上的創(chuàng)新與應(yīng)用。商湯表示,致力于通過開源協(xié)作與場景落地雙輪驅(qū)動(dòng),將NEO打造為可擴(kuò)展、可復(fù)用的下一代AI基礎(chǔ)設(shè)施,推動(dòng)原生多模態(tài)技術(shù)從實(shí)驗(yàn)室走向廣泛的產(chǎn)業(yè)化應(yīng)用,加速構(gòu)建下一代產(chǎn)業(yè)級(jí)原生多模態(tài)技術(shù)標(biāo)準(zhǔn)。
(編輯 張偉)
衛(wèi)星通信萬億賽道起飛,手機(jī)直連時(shí)代開啟
衛(wèi)星通信管理制度及政策法規(guī)進(jìn)一步完善……[詳情]
版權(quán)所有《證券日?qǐng)?bào)》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號(hào)京ICP備19002521號(hào)
證券日?qǐng)?bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請(qǐng)仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。
證券日?qǐng)?bào)社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注