- 通往AGI之路:階躍星辰的萬億參數(shù)與多模態(tài)融合策略
- 2024年07月05日來源:南方企業(yè)新聞網(wǎng)
提要:在金融財經(jīng)領域,階躍星辰聯(lián)合國泰君安和界面財聯(lián)社推出了業(yè)內首家千億級參數(shù)多模態(tài)證券垂直類大模型——君弘靈犀大模型。這是業(yè)內首個將大模型能力全面融入客戶智能化服務體系中的案例,在智能投顧問答、投研內容生產(chǎn)和交互模式上為客戶帶來了新的體驗。
隨著大模型智能水平的飛速提升,科技界對于AGI(通用人工智能)即將在幾年內實現(xiàn)的預測聲浪日益高漲。然而,在通向AGI的道路上,有哪些因素是必不可少的呢?這一問題已成為產(chǎn)業(yè)內備受關注的焦點。
根據(jù)智東西7月4日的報道,在世界人工智能大會(WAIC)2024上,大模型領域的獨角獸企業(yè)——階躍星辰,正式發(fā)布了其Step系列模型的“全家桶”版本。這其中包括了萬億參數(shù)語言大模型Step-2、千億參數(shù)多模態(tài)大模型Step-1.5V以及圖像生成大模型Step-1X。這三款模型分別對應了Scaling Law(規(guī)模定律)、多模態(tài)理解和多模態(tài)生成,同時也體現(xiàn)了階躍星辰對于實現(xiàn)AGI目標的判斷,即萬億參數(shù)和多模態(tài)融合是關鍵。

從首次亮相到正式發(fā)布,Step系列模型在參數(shù)規(guī)模和多模態(tài)能力上取得了顯著進展。具體而言,Step-2在數(shù)理邏輯、編程、世界知識和指令遵循等方面已達到與GPT-4相當?shù)乃?Step-1.5V則從圖像理解升級到了視頻理解;而Step-1X則全面支持600M、2B和8B三種參數(shù)量,在多模態(tài)理解和生成的統(tǒng)一技術路線上實現(xiàn)了重要突破。
在階躍星辰創(chuàng)始人姜大昕看來,要攀登AGI這座高峰,“萬億參數(shù)”和“多模態(tài)融合”是不可或缺的。他指出,在AI的發(fā)展階段中,早期的語言、視覺、聲音等不同模態(tài)是獨立發(fā)展的,每個模型主要學習如何更好地表達各自模態(tài)的特點。如今,不同模態(tài)開始走向融合,但仍面臨理解能力和生成能力難以同時實現(xiàn)的痛點。最終,生成和理解需要統(tǒng)一在一個模型中,并與具身智能相結合,使模型成為機器人或其他硬件設備的“大腦”,引領其探索并與世界交互,從而實現(xiàn)AGI。
因此,多模態(tài)理解和生成的統(tǒng)一是通往AGI的必由之路。另一方面,根據(jù)Scaling Law,模型的參數(shù)量決定了其能力上限,因此全面進入萬億參數(shù)級別,甚至達到十萬億、百萬億參數(shù)量,是通往AGI的另一個核心要素。
行業(yè)內第一梯隊的大模型公司是如何做的呢?以OpenAI為例,其最新發(fā)布的GPT-4o模型全面加強了語音和視頻交互能力,而“大力出奇跡”的暴力美學也是其屢試不爽的模型訓練方式。這恰好印證了Scaling Law和多模態(tài)融合這兩個關鍵點,與階躍星辰所選擇的路徑不謀而合。
在今年3月首次推出Step系列通用大模型并發(fā)布預覽版后,經(jīng)過100天的打磨,階躍星辰在WAIC上正式發(fā)布了Step系列模型的“全家桶”版本。其中,Step-2在數(shù)理邏輯、編程、世界知識和指令遵循等方面已達到與GPT-4相當?shù)乃健?/p>
在算法架構方面,目前MoE模型的訓練方式主要分為兩種:基于已有模型向上復用訓練或從頭開始訓練。第一種方式對算力需求較低,訓練效率更高,但容易出現(xiàn)同質化嚴重等問題。相比之下,從頭訓練雖然更具挑戰(zhàn)性,但能獲得更高的模型上限。在設計MoE架構時,階躍星辰選擇了自主研發(fā)的道路。通過部分專家共享參數(shù)、異構化專家設計等架構設計,Step-2中的每個“專家模型”都得到了充分訓練,不僅總參數(shù)量達到了萬億級別,而且每次訓練或推理所激活的參數(shù)量也超過了市面上的大部分Dense模型。
有了萬億參數(shù)的模型作為“老師”,Step-1.5V的推理能力大幅提升,可以根據(jù)圖像內容進行各種高級推理任務,如解答數(shù)學題、編寫代碼、創(chuàng)作詩歌等。同時,基于創(chuàng)新的圖文混排訓練方法,Step-1.5V的感知能力增強,能夠理解復雜的圖表、流程圖,并準確感知物理空間中復雜的幾何位置。另一個重要的升級點是視頻理解能力,Step-1.5V不僅能準確識別視頻中的物體、人物和環(huán)境,還能理解視頻的整體氛圍和人物情緒。

首次亮相的圖像生成大模型Step-1X采用了全鏈路自研的DiT模型架構,支持600M、2B、8B三種不同的參數(shù)量,以滿足不同場景的需求。其中,600M適合對速度敏感的輕量級場景;2B是適用于日常使用的主力模型,效果和速度達到平衡;而8B則追求更高、更極致的生成效果。Step-1X具備優(yōu)秀的語義對齊能力和指令遵循能力,并針對中國元素進行了深度優(yōu)化,支持中國元素和文化內容,同時更符合國人的審美風格。
基于這一系列模型的能力,在彩色動畫長片《大鬧天宮》發(fā)行60周年之際,階躍星辰與上海美術電影制片廠合作推出了一款H5 AI互動體驗。根據(jù)用戶上傳的個人照片,大模型會識別人物特征,并結合《大鬧天宮》的畫風和角色進行風格遷移,生成新的肖像。在交互過程中,用戶可以與大模型生成的劇情進行交談,系統(tǒng)將根據(jù)用戶的選擇和回答分析其MBTI人格,并在天庭為其安排一項適合其人格的差事。

值得一提的是,階躍星辰的Step系列通用大模型憑借技術創(chuàng)新和廣泛的應用落地,入選了WAIC 2024 SAIL(Super AI Leader)之星,這意味著階躍星辰在技術和應用方面獲得了業(yè)界的高度認可。
自成立以來,階躍星辰就在算力、數(shù)據(jù)、算法和系統(tǒng)四大要素上綜合布局,堅定地投入到Scaling Law中。姜大昕認為,模型和產(chǎn)品的關系就像是靈魂和皮囊,“好看的皮囊千篇一律,有趣的靈魂萬里挑一。”階躍星辰希望通過“有趣的靈魂”來展示其產(chǎn)品的不同之處。
因此,從成立的第一天起,階躍星辰就開始同時開發(fā)模型和應用產(chǎn)品。應用作為牽引和數(shù)據(jù)補充,模型與應用深度綁定,通過雙輪驅動將兩者都做到極致。在應用落地的過程中,僅僅依靠一家公司自身存在局限性,需要不同公司之間的生態(tài)合作才能促進技術的創(chuàng)新和發(fā)展,加速技術的落地應用,推動整個行業(yè)的持續(xù)進步。
通過自有產(chǎn)品和生態(tài)合作產(chǎn)品的結合,階躍星辰積極探索了大模型的落地應用。在自有產(chǎn)品方面,階躍星辰已發(fā)布了效率工具“躍問”和AI開放世界平臺“冒泡鴨”兩款自研產(chǎn)品,并已全面開放使用。其中,“躍問”作為一款個人效率助手,能夠基于聯(lián)網(wǎng)搜索、代碼分析增強(POT)等能力,為用戶提供信息查詢、語言學習、創(chuàng)意寫作、圖文解讀等多樣化服務,幫助用戶在工作、學習、生活等場景下解決問題。
在生態(tài)合作產(chǎn)品方面,階躍星辰在內容創(chuàng)作、金融財經(jīng)、消費娛樂等領域與合作伙伴達成了深度合作,共同發(fā)掘面向C端用戶的創(chuàng)新應用。例如,在WAIC亮相的《大鬧天宮》就是階躍星辰與上海電影共同推出的一款AI互動體驗產(chǎn)品,將先進的AI大模型技術與《大鬧天宮》的情境深度融合,用當代全新的視角領略中國傳統(tǒng)文化的魅力,回顧經(jīng)典動畫作品的藝術成就,同時也為創(chuàng)作者打開了更多想象空間。
在金融財經(jīng)領域,階躍星辰聯(lián)合國泰君安和界面財聯(lián)社推出了業(yè)內首家千億級參數(shù)多模態(tài)證券垂直類大模型——君弘靈犀大模型。這是業(yè)內首個將大模型能力全面融入客戶智能化服務體系中的案例,在智能投顧問答、投研內容生產(chǎn)和交互模式上為客戶帶來了新的體驗。
從模型到應用,對AGI的追求始終貫穿著階躍星辰的戰(zhàn)略布局。通過構建開放、合作的生態(tài)系統(tǒng),階躍星辰正在推動AI技術的廣泛應用和行業(yè)的共同發(fā)展。
在大模型領域“百花齊放”的背景下,越來越多的大廠高管投身于生成式AI創(chuàng)業(yè),成為該賽道的主力軍。據(jù)智東西統(tǒng)計,2023年至今,至少有25位大廠高管已投身生成式AI創(chuàng)業(yè)。這些創(chuàng)業(yè)公司所選擇的細分賽道各不相同,涵蓋了通用大模型、垂直大模型、生成式AI應用、AI基礎設施、AI數(shù)據(jù)服務和AI咨詢等全產(chǎn)業(yè)鏈環(huán)節(jié)。
其中,階躍星辰作為一家模型與產(chǎn)品雙管齊下的創(chuàng)業(yè)公司,始終用行動踐行著對AGI的終極追求。Step系列通用大模型和多樣化的自有、合作產(chǎn)品是階躍星辰在通往AGI之路上交出的最新答卷,“萬億+多模”也將成為大模型企業(yè)格局的分水嶺。