- 100天后,階躍星辰交出第二份答卷:加速奔向AGI
- 2024年07月06日來(lái)源:南方企業(yè)新聞網(wǎng)
提要:在生態(tài)合作方面,階躍星辰已經(jīng)在金融、網(wǎng)絡(luò)文學(xué)、知識(shí)服務(wù)、游戲、數(shù)字人、影視等領(lǐng)域與合作伙伴達(dá)成了深度合作,共同探索面向C端用戶(hù)的創(chuàng)新應(yīng)用。例如,這次現(xiàn)場(chǎng)展示的“大鬧天宮”AI互動(dòng)體驗(yàn)就是階躍星辰與上影在影視領(lǐng)域達(dá)成的生態(tài)合作伙伴關(guān)系的結(jié)果。全程由AI多模態(tài)大模型生成的內(nèi)容生動(dòng)展示了多模態(tài)大模型的基礎(chǔ)能力。
階躍星辰,作為國(guó)內(nèi)通用大模型公司,在2024年3月的全球開(kāi)發(fā)者先鋒大會(huì)上,成功發(fā)布了Step系列通用大模型,包括Step-1千億參數(shù)語(yǔ)言大模型、Step-1V千億參數(shù)多模態(tài)大模型以及Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型預(yù)覽版。這一舉措不僅讓階躍星辰正式進(jìn)入大眾視野,還使其成功躋身國(guó)內(nèi)六大大模型獨(dú)角獸行列。

因此,當(dāng)?shù)弥A躍星辰也將出席WAIC時(shí),充滿(mǎn)了期待和好奇,希望能夠探究一下階躍星辰對(duì)當(dāng)前關(guān)于AGI的各種共識(shí)和非共識(shí)問(wèn)題的看法。然而,出乎意料的是,階躍星辰在WAIC上交出了第二份答卷——發(fā)布了Step-2萬(wàn)億MoE語(yǔ)言大模型正式版、Step-1.5V多模態(tài)大模型和Step-1X圖像生成大模型。
此次產(chǎn)品升級(jí)距離上次發(fā)布僅過(guò)去了100天,這表明階躍星辰在通往AGI的漫長(zhǎng)旅途中,已經(jīng)從“走路入場(chǎng)”轉(zhuǎn)變?yōu)椤芭懿角斑M(jìn)”。
3個(gè)多月前,當(dāng)階躍星辰宣布Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型預(yù)覽版時(shí),引起了廣泛的關(guān)注和好奇。而在WAIC大會(huì)上,Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型正式版終于亮相。它采用當(dāng)前熱門(mén)的MoE(Mixture of Experts)架構(gòu),又稱(chēng)“混合專(zhuān)家”,是一種模塊化的稀疏激活方法,可以在增大參數(shù)規(guī)模的同時(shí),降低計(jì)算成本,實(shí)現(xiàn)高效訓(xùn)練。
在通往AGI的道路上,業(yè)界大多數(shù)人堅(jiān)信Scaling Law定律——模型越大,性能越強(qiáng)。階躍星辰也是其中之一。然而,現(xiàn)實(shí)問(wèn)題是模型的升級(jí)迭代離不開(kāi)算力的支撐,而算力的不足和匱乏顯然是當(dāng)前業(yè)界為數(shù)不多的共識(shí)之一。
因此,在意識(shí)到MoE可以解決這一難題時(shí),一些大模型從業(yè)者相繼推出了基于MoE架構(gòu)的大模型,如國(guó)外的Mistral AI、xAI以及國(guó)內(nèi)的MiniMax、元象科技、DeepSeek AI等。而階躍星辰則是其中少有的、早早將MoE架構(gòu)用在萬(wàn)億參數(shù)規(guī)模大模型的玩家。
姜大昕告訴AI科技評(píng)論,階躍星辰在完成Step系列千億模型的訓(xùn)練后,就開(kāi)始了萬(wàn)億模型的訓(xùn)練。他認(rèn)為,如果要將模型參數(shù)擴(kuò)大到萬(wàn)億級(jí)別,MoE幾乎是一個(gè)必選項(xiàng)。因?yàn)樵谛阅堋?shù)量、訓(xùn)練成本和推理成本等維度權(quán)衡下,MoE是最佳選擇。
在設(shè)計(jì)Step-2 MoE架構(gòu)的過(guò)程中,階躍星辰還進(jìn)行了算法架構(gòu)的創(chuàng)新。具體來(lái)說(shuō),當(dāng)前MoE模型的訓(xùn)練方式主要有兩種:一種是通過(guò)upcycle(向上復(fù)用)基于已有模型開(kāi)始訓(xùn)練;另一種是從頭開(kāi)始訓(xùn)練。第一種方式的算力需求較低,訓(xùn)練效率較高,但容易出現(xiàn)專(zhuān)家同質(zhì)化嚴(yán)重等問(wèn)題;而第二種方式雖然訓(xùn)練難度較高,但能夠獲得更高的模型上限。

階躍星辰選擇的是完全自主研發(fā)從頭開(kāi)始訓(xùn)練的方式,通過(guò)部分專(zhuān)家共享參數(shù)、異構(gòu)化專(zhuān)家設(shè)計(jì)等創(chuàng)新的MoE架構(gòu)設(shè)計(jì),使得Step-2中的每個(gè)“專(zhuān)家模型”都得到了充分的訓(xùn)練。結(jié)果是不僅總參數(shù)量達(dá)到了萬(wàn)億級(jí)別,每次訓(xùn)練或推理所激活的參數(shù)量也超過(guò)了當(dāng)前市面上的大部分Dense模型。
此外,在Step-2的訓(xùn)練過(guò)程中,階躍星辰系統(tǒng)團(tuán)隊(duì)還突破了6D并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù),使得整體的訓(xùn)練過(guò)程更加高效。
據(jù)階躍星辰透露,目前Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型在數(shù)理邏輯、編程、中文知識(shí)、英文知識(shí)和指令跟隨等方面已經(jīng)全面逼近GPT-4。
階躍星辰在3月份推出的Step系列模型是經(jīng)過(guò)將近一年的醞釀和準(zhǔn)備的成果。而現(xiàn)在距離上一次發(fā)布僅過(guò)去了100天,就實(shí)現(xiàn)了對(duì)Step系列模型矩陣的全新升級(jí)。這表明階躍星辰在通往AGI的漫長(zhǎng)旅途中,已經(jīng)從“走路入場(chǎng)”轉(zhuǎn)變?yōu)椤芭懿角斑M(jìn)”。
盡管業(yè)界對(duì)AGI的定義和路徑進(jìn)行了一次次的探討和爭(zhēng)論,但不可否認(rèn)的是,至今尚未形成一個(gè)明確而具體的共識(shí)。每個(gè)路線(xiàn)上的攀登者都認(rèn)為自己將會(huì)是最終達(dá)到AGI終點(diǎn)的選手,姜大昕也是如此。
從成立之初,階躍星辰就明確了自身通往AGI的路線(xiàn)圖:?jiǎn)文B(tài)—多模態(tài)—多模態(tài)理解和生成的統(tǒng)一—世界模型—AGI。換句話(huà)說(shuō),就是以實(shí)現(xiàn)AGI為目標(biāo),專(zhuān)注研發(fā)多模態(tài)基礎(chǔ)大模型,基于自研基礎(chǔ)大模型打造新一代“AI+”應(yīng)用。
在這個(gè)過(guò)程中,姜大昕認(rèn)為攀登AGI巔峰需要“萬(wàn)億參數(shù)”和“多模融合”兩個(gè)關(guān)鍵要素。一方面,多模態(tài)理解和生成的統(tǒng)一是通向AGI的必經(jīng)之路;另一方面,模型參數(shù)量決定了模型的能力上限,因此全面進(jìn)入萬(wàn)億參數(shù)級(jí)別是通向AGI的核心之一。這也是為什么階躍星辰在完成Step系列千億模型的訓(xùn)練后,就馬不停蹄地開(kāi)始訓(xùn)練萬(wàn)億模型的原因。
據(jù)了解,此次階躍星辰的Step系列通用大模型獲得了WAIC 2024 SAIL之星稱(chēng)號(hào)。SAIL獎(jiǎng)(Super AI Leader)是WAIC的最高獎(jiǎng)項(xiàng),旨在從全球范圍內(nèi)發(fā)掘在人工智能領(lǐng)域中具有高度認(rèn)可和美譽(yù)、并具有提升人類(lèi)福祉意義的項(xiàng)目。
除了在模型上取得突破外,階躍星辰在應(yīng)用上也沒(méi)有松懈。從成立之初,階躍星辰的策略就是技術(shù)和產(chǎn)品“兩手抓”。因?yàn)榻箨繄?jiān)信模型需要應(yīng)用作為牽引和數(shù)據(jù)的補(bǔ)充,具體到某個(gè)應(yīng)用時(shí)一定要通過(guò)模型與它深度綁定,這樣應(yīng)用才能做到極致。

基于Step系列大模型,階躍星辰通過(guò)自研產(chǎn)品和生態(tài)合作產(chǎn)品逐漸形成了豐富的產(chǎn)業(yè)應(yīng)用生態(tài)圈,并在重點(diǎn)行業(yè)領(lǐng)先落地。例如,“躍問(wèn)”和“冒泡鴨”就是階躍星辰自研產(chǎn)品的代表,“躍問(wèn)”是一款A(yù)I聊天類(lèi)應(yīng)用,定位為個(gè)人效率助手;而“冒泡鴨”則是一款由劇情和角色構(gòu)成的AI開(kāi)放世界,可以為用戶(hù)提供娛樂(lè)和社交服務(wù)。據(jù)了解,目前這兩款產(chǎn)品都已經(jīng)全面開(kāi)放使用。
在生態(tài)合作方面,階躍星辰已經(jīng)在金融、網(wǎng)絡(luò)文學(xué)、知識(shí)服務(wù)、游戲、數(shù)字人、影視等領(lǐng)域與合作伙伴達(dá)成了深度合作,共同探索面向C端用戶(hù)的創(chuàng)新應(yīng)用。例如,這次現(xiàn)場(chǎng)展示的“大鬧天宮”AI互動(dòng)體驗(yàn)就是階躍星辰與上影在影視領(lǐng)域達(dá)成的生態(tài)合作伙伴關(guān)系的結(jié)果。全程由AI多模態(tài)大模型生成的內(nèi)容生動(dòng)展示了多模態(tài)大模型的基礎(chǔ)能力。
接下來(lái),階躍星辰還將繼續(xù)積極探索并持續(xù)擴(kuò)大生態(tài)圈,結(jié)交更多的生態(tài)伙伴。
今年3月份,階躍星辰作為一顆新星正式亮相時(shí),憑借其在大模型領(lǐng)域的技術(shù)實(shí)力改變了當(dāng)時(shí)的“五虎”格局,成功上位成為“六大獨(dú)角獸”之一。如今,階躍星辰的萬(wàn)億參數(shù)大模型正式亮相并不斷獲得行業(yè)和資本市場(chǎng)的認(rèn)可。或許在不久的將來(lái),國(guó)內(nèi)大模型的格局和位置又將迎來(lái)新的變化。