- 通往AGI之路:階躍星辰的萬億參數(shù)與多模態(tài)融合策略
- 2024年07月05日來源:南方企業(yè)新聞網(wǎng)
提要:在金融財(cái)經(jīng)領(lǐng)域,階躍星辰聯(lián)合國泰君安和界面財(cái)聯(lián)社推出了業(yè)內(nèi)首家千億級(jí)參數(shù)多模態(tài)證券垂直類大模型——君弘靈犀大模型。這是業(yè)內(nèi)首個(gè)將大模型能力全面融入客戶智能化服務(wù)體系中的案例,在智能投顧問答、投研內(nèi)容生產(chǎn)和交互模式上為客戶帶來了新的體驗(yàn)。
隨著大模型智能水平的飛速提升,科技界對于AGI(通用人工智能)即將在幾年內(nèi)實(shí)現(xiàn)的預(yù)測聲浪日益高漲。然而,在通向AGI的道路上,有哪些因素是必不可少的呢?這一問題已成為產(chǎn)業(yè)內(nèi)備受關(guān)注的焦點(diǎn)。
根據(jù)智東西7月4日的報(bào)道,在世界人工智能大會(huì)(WAIC)2024上,大模型領(lǐng)域的獨(dú)角獸企業(yè)——階躍星辰,正式發(fā)布了其Step系列模型的“全家桶”版本。這其中包括了萬億參數(shù)語言大模型Step-2、千億參數(shù)多模態(tài)大模型Step-1.5V以及圖像生成大模型Step-1X。這三款模型分別對應(yīng)了Scaling Law(規(guī)模定律)、多模態(tài)理解和多模態(tài)生成,同時(shí)也體現(xiàn)了階躍星辰對于實(shí)現(xiàn)AGI目標(biāo)的判斷,即萬億參數(shù)和多模態(tài)融合是關(guān)鍵。

從首次亮相到正式發(fā)布,Step系列模型在參數(shù)規(guī)模和多模態(tài)能力上取得了顯著進(jìn)展。具體而言,Step-2在數(shù)理邏輯、編程、世界知識(shí)和指令遵循等方面已達(dá)到與GPT-4相當(dāng)?shù)乃?Step-1.5V則從圖像理解升級(jí)到了視頻理解;而Step-1X則全面支持600M、2B和8B三種參數(shù)量,在多模態(tài)理解和生成的統(tǒng)一技術(shù)路線上實(shí)現(xiàn)了重要突破。
在階躍星辰創(chuàng)始人姜大昕看來,要攀登AGI這座高峰,“萬億參數(shù)”和“多模態(tài)融合”是不可或缺的。他指出,在AI的發(fā)展階段中,早期的語言、視覺、聲音等不同模態(tài)是獨(dú)立發(fā)展的,每個(gè)模型主要學(xué)習(xí)如何更好地表達(dá)各自模態(tài)的特點(diǎn)。如今,不同模態(tài)開始走向融合,但仍面臨理解能力和生成能力難以同時(shí)實(shí)現(xiàn)的痛點(diǎn)。最終,生成和理解需要統(tǒng)一在一個(gè)模型中,并與具身智能相結(jié)合,使模型成為機(jī)器人或其他硬件設(shè)備的“大腦”,引領(lǐng)其探索并與世界交互,從而實(shí)現(xiàn)AGI。
因此,多模態(tài)理解和生成的統(tǒng)一是通往AGI的必由之路。另一方面,根據(jù)Scaling Law,模型的參數(shù)量決定了其能力上限,因此全面進(jìn)入萬億參數(shù)級(jí)別,甚至達(dá)到十萬億、百萬億參數(shù)量,是通往AGI的另一個(gè)核心要素。
行業(yè)內(nèi)第一梯隊(duì)的大模型公司是如何做的呢?以O(shè)penAI為例,其最新發(fā)布的GPT-4o模型全面加強(qiáng)了語音和視頻交互能力,而“大力出奇跡”的暴力美學(xué)也是其屢試不爽的模型訓(xùn)練方式。這恰好印證了Scaling Law和多模態(tài)融合這兩個(gè)關(guān)鍵點(diǎn),與階躍星辰所選擇的路徑不謀而合。
在今年3月首次推出Step系列通用大模型并發(fā)布預(yù)覽版后,經(jīng)過100天的打磨,階躍星辰在WAIC上正式發(fā)布了Step系列模型的“全家桶”版本。其中,Step-2在數(shù)理邏輯、編程、世界知識(shí)和指令遵循等方面已達(dá)到與GPT-4相當(dāng)?shù)乃健?/p>
在算法架構(gòu)方面,目前MoE模型的訓(xùn)練方式主要分為兩種:基于已有模型向上復(fù)用訓(xùn)練或從頭開始訓(xùn)練。第一種方式對算力需求較低,訓(xùn)練效率更高,但容易出現(xiàn)同質(zhì)化嚴(yán)重等問題。相比之下,從頭訓(xùn)練雖然更具挑戰(zhàn)性,但能獲得更高的模型上限。在設(shè)計(jì)MoE架構(gòu)時(shí),階躍星辰選擇了自主研發(fā)的道路。通過部分專家共享參數(shù)、異構(gòu)化專家設(shè)計(jì)等架構(gòu)設(shè)計(jì),Step-2中的每個(gè)“專家模型”都得到了充分訓(xùn)練,不僅總參數(shù)量達(dá)到了萬億級(jí)別,而且每次訓(xùn)練或推理所激活的參數(shù)量也超過了市面上的大部分Dense模型。
有了萬億參數(shù)的模型作為“老師”,Step-1.5V的推理能力大幅提升,可以根據(jù)圖像內(nèi)容進(jìn)行各種高級(jí)推理任務(wù),如解答數(shù)學(xué)題、編寫代碼、創(chuàng)作詩歌等。同時(shí),基于創(chuàng)新的圖文混排訓(xùn)練方法,Step-1.5V的感知能力增強(qiáng),能夠理解復(fù)雜的圖表、流程圖,并準(zhǔn)確感知物理空間中復(fù)雜的幾何位置。另一個(gè)重要的升級(jí)點(diǎn)是視頻理解能力,Step-1.5V不僅能準(zhǔn)確識(shí)別視頻中的物體、人物和環(huán)境,還能理解視頻的整體氛圍和人物情緒。

首次亮相的圖像生成大模型Step-1X采用了全鏈路自研的DiT模型架構(gòu),支持600M、2B、8B三種不同的參數(shù)量,以滿足不同場景的需求。其中,600M適合對速度敏感的輕量級(jí)場景;2B是適用于日常使用的主力模型,效果和速度達(dá)到平衡;而8B則追求更高、更極致的生成效果。Step-1X具備優(yōu)秀的語義對齊能力和指令遵循能力,并針對中國元素進(jìn)行了深度優(yōu)化,支持中國元素和文化內(nèi)容,同時(shí)更符合國人的審美風(fēng)格。
基于這一系列模型的能力,在彩色動(dòng)畫長片《大鬧天宮》發(fā)行60周年之際,階躍星辰與上海美術(shù)電影制片廠合作推出了一款H5 AI互動(dòng)體驗(yàn)。根據(jù)用戶上傳的個(gè)人照片,大模型會(huì)識(shí)別人物特征,并結(jié)合《大鬧天宮》的畫風(fēng)和角色進(jìn)行風(fēng)格遷移,生成新的肖像。在交互過程中,用戶可以與大模型生成的劇情進(jìn)行交談,系統(tǒng)將根據(jù)用戶的選擇和回答分析其MBTI人格,并在天庭為其安排一項(xiàng)適合其人格的差事。

值得一提的是,階躍星辰的Step系列通用大模型憑借技術(shù)創(chuàng)新和廣泛的應(yīng)用落地,入選了WAIC 2024 SAIL(Super AI Leader)之星,這意味著階躍星辰在技術(shù)和應(yīng)用方面獲得了業(yè)界的高度認(rèn)可。
自成立以來,階躍星辰就在算力、數(shù)據(jù)、算法和系統(tǒng)四大要素上綜合布局,堅(jiān)定地投入到Scaling Law中。姜大昕認(rèn)為,模型和產(chǎn)品的關(guān)系就像是靈魂和皮囊,“好看的皮囊千篇一律,有趣的靈魂萬里挑一。”階躍星辰希望通過“有趣的靈魂”來展示其產(chǎn)品的不同之處。
因此,從成立的第一天起,階躍星辰就開始同時(shí)開發(fā)模型和應(yīng)用產(chǎn)品。應(yīng)用作為牽引和數(shù)據(jù)補(bǔ)充,模型與應(yīng)用深度綁定,通過雙輪驅(qū)動(dòng)將兩者都做到極致。在應(yīng)用落地的過程中,僅僅依靠一家公司自身存在局限性,需要不同公司之間的生態(tài)合作才能促進(jìn)技術(shù)的創(chuàng)新和發(fā)展,加速技術(shù)的落地應(yīng)用,推動(dòng)整個(gè)行業(yè)的持續(xù)進(jìn)步。
通過自有產(chǎn)品和生態(tài)合作產(chǎn)品的結(jié)合,階躍星辰積極探索了大模型的落地應(yīng)用。在自有產(chǎn)品方面,階躍星辰已發(fā)布了效率工具“躍問”和AI開放世界平臺(tái)“冒泡鴨”兩款自研產(chǎn)品,并已全面開放使用。其中,“躍問”作為一款個(gè)人效率助手,能夠基于聯(lián)網(wǎng)搜索、代碼分析增強(qiáng)(POT)等能力,為用戶提供信息查詢、語言學(xué)習(xí)、創(chuàng)意寫作、圖文解讀等多樣化服務(wù),幫助用戶在工作、學(xué)習(xí)、生活等場景下解決問題。
在生態(tài)合作產(chǎn)品方面,階躍星辰在內(nèi)容創(chuàng)作、金融財(cái)經(jīng)、消費(fèi)娛樂等領(lǐng)域與合作伙伴達(dá)成了深度合作,共同發(fā)掘面向C端用戶的創(chuàng)新應(yīng)用。例如,在WAIC亮相的《大鬧天宮》就是階躍星辰與上海電影共同推出的一款A(yù)I互動(dòng)體驗(yàn)產(chǎn)品,將先進(jìn)的AI大模型技術(shù)與《大鬧天宮》的情境深度融合,用當(dāng)代全新的視角領(lǐng)略中國傳統(tǒng)文化的魅力,回顧經(jīng)典動(dòng)畫作品的藝術(shù)成就,同時(shí)也為創(chuàng)作者打開了更多想象空間。
在金融財(cái)經(jīng)領(lǐng)域,階躍星辰聯(lián)合國泰君安和界面財(cái)聯(lián)社推出了業(yè)內(nèi)首家千億級(jí)參數(shù)多模態(tài)證券垂直類大模型——君弘靈犀大模型。這是業(yè)內(nèi)首個(gè)將大模型能力全面融入客戶智能化服務(wù)體系中的案例,在智能投顧問答、投研內(nèi)容生產(chǎn)和交互模式上為客戶帶來了新的體驗(yàn)。
從模型到應(yīng)用,對AGI的追求始終貫穿著階躍星辰的戰(zhàn)略布局。通過構(gòu)建開放、合作的生態(tài)系統(tǒng),階躍星辰正在推動(dòng)AI技術(shù)的廣泛應(yīng)用和行業(yè)的共同發(fā)展。
在大模型領(lǐng)域“百花齊放”的背景下,越來越多的大廠高管投身于生成式AI創(chuàng)業(yè),成為該賽道的主力軍。據(jù)智東西統(tǒng)計(jì),2023年至今,至少有25位大廠高管已投身生成式AI創(chuàng)業(yè)。這些創(chuàng)業(yè)公司所選擇的細(xì)分賽道各不相同,涵蓋了通用大模型、垂直大模型、生成式AI應(yīng)用、AI基礎(chǔ)設(shè)施、AI數(shù)據(jù)服務(wù)和AI咨詢等全產(chǎn)業(yè)鏈環(huán)節(jié)。
其中,階躍星辰作為一家模型與產(chǎn)品雙管齊下的創(chuàng)業(yè)公司,始終用行動(dòng)踐行著對AGI的終極追求。Step系列通用大模型和多樣化的自有、合作產(chǎn)品是階躍星辰在通往AGI之路上交出的最新答卷,“萬億+多?!币矊⒊蔀榇竽P推髽I(yè)格局的分水嶺。