本報(bào)訊 (記者梁傲男)12月8日,北京智譜華章科技股份有限公司(以下簡(jiǎn)稱“智譜”)正式上線并開(kāi)源GLM-4.6V系列多模態(tài)大模型,包括面向云端與高性能集群場(chǎng)景的基礎(chǔ)版GLM-4.6V(106B-A12B)和面向本地部署與低延遲應(yīng)用的輕量版GLM-4.6V-Flash(9B)。
據(jù)介紹,GLM-4.6V將訓(xùn)練時(shí)上下文窗口提升到128k tokens,在視覺(jué)理解精度上達(dá)到同參數(shù)規(guī)模SOTA,首次在模型架構(gòu)中將Function Call(工具調(diào)用)能力原生融入視覺(jué)模型,打通從“視覺(jué)感知”到“可執(zhí)行行動(dòng)”的鏈路,為真實(shí)業(yè)務(wù)場(chǎng)景中的多模態(tài)Agent(智能體)提供統(tǒng)一的技術(shù)底座。
該系列模型較GLM-4.5V降價(jià)50%,API(應(yīng)用程序編程接口)調(diào)用價(jià)格為輸入1元/百萬(wàn)tokens,輸出3元/百萬(wàn)tokens,其中GLM-4.6V-Flash免費(fèi)供用戶使用。GLM-4.6V融入GLM Coding Plan,針對(duì)用戶8類場(chǎng)景定向開(kāi)發(fā)了專用MCP(大模型上下文協(xié)議)工具。
傳統(tǒng)工具調(diào)用大多基于純文本,在面對(duì)圖像、視頻、復(fù)雜文檔等多模態(tài)內(nèi)容時(shí),需要多次中間轉(zhuǎn)換,帶來(lái)信息損失和工程復(fù)雜度。
據(jù)了解,GLM-4.6V從設(shè)計(jì)之初就圍繞“圖像即參數(shù),結(jié)果即上下文”,構(gòu)建了原生多模態(tài)工具調(diào)用能力:圖像、截圖、文檔頁(yè)面等可以直接作為工具參數(shù),無(wú)需先轉(zhuǎn)為文字描述再解析,減少鏈路損耗。對(duì)于工具返回的統(tǒng)計(jì)圖表、渲染后網(wǎng)頁(yè)截圖、檢索到的商品圖片等結(jié)果,模型能夠再次進(jìn)行視覺(jué)理解,將其納入后續(xù)推理鏈路。
模型原生支持基于視覺(jué)輸入的工具調(diào)用,完整打通從感知到理解到執(zhí)行的閉環(huán)。這使得GLM-4.6V能夠應(yīng)對(duì)圖文混排輸出、商品識(shí)別與好價(jià)推薦以及輔助型Agent場(chǎng)景等更復(fù)雜的視覺(jué)任務(wù)。
智譜方面表示:“智譜多模態(tài)開(kāi)源周開(kāi)啟,我們將持續(xù)開(kāi)源更多前沿模型。擁抱多模態(tài)交互新范式,從GLM-4.6V開(kāi)始。”
(編輯 張昕)
衛(wèi)星通信萬(wàn)億賽道起飛,手機(jī)直連時(shí)代開(kāi)啟
衛(wèi)星通信管理制度及政策法規(guī)進(jìn)一步完善……[詳情]
版權(quán)所有《證券日?qǐng)?bào)》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營(yíng)許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號(hào)京ICP備19002521號(hào)
證券日?qǐng)?bào)網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請(qǐng)仔細(xì)閱讀法律申明,風(fēng)險(xiǎn)自負(fù)。
證券日?qǐng)?bào)社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注