正在加載數(shù)據(jù)...
        1. 高端制造|生態(tài)環(huán)保|汽車|房地產(chǎn)|家居建材|家電|服裝|時尚前沿|健康|醫(yī)藥|教育培訓(xùn)|能源化工|文旅

          航旅交運|食品飲品|科技|互聯(lián)網(wǎng)|手機通信|電子|商業(yè)|金融保險|證券|安防|人工智能|鄉(xiāng)村振興|綜合

        2. 當(dāng)前位置:南方企業(yè)新聞網(wǎng)>要聞> 商訊>正文內(nèi)容
          • 學(xué)而思領(lǐng)跑數(shù)學(xué)大模型競賽,九章大模型榮登榜首
          • 2024年03月11日來源:中國網(wǎng)

          提要:隨著大模型技術(shù)在數(shù)學(xué)應(yīng)用領(lǐng)域的不斷深入,其應(yīng)用場景已經(jīng)拓展至數(shù)學(xué)問題解決、數(shù)據(jù)分析、學(xué)術(shù)研究及學(xué)習(xí)輔導(dǎo)等多個層面。目前,無論是通用型還是垂直領(lǐng)域的大模型,均展現(xiàn)出一定的數(shù)學(xué)能力,但對其能力的精準評估卻仍很缺乏。

          隨著大模型技術(shù)在數(shù)學(xué)應(yīng)用領(lǐng)域的不斷深入,其應(yīng)用場景已經(jīng)拓展至數(shù)學(xué)問題解決、數(shù)據(jù)分析、學(xué)術(shù)研究及學(xué)習(xí)輔導(dǎo)等多個層面。目前,無論是通用型還是垂直領(lǐng)域的大模型,均展現(xiàn)出一定的數(shù)學(xué)能力,但對其能力的精準評估卻仍很缺乏。近期,MathEval以數(shù)學(xué)能力為核心,對30個國內(nèi)外大模型進行了全面測評。其中,學(xué)而思九章、百度文心一言 4.0、訊飛星火 V3.5 三大模型脫穎而出,榮登前三甲。特別值得一提的是,學(xué)而思旗下的九章大模型在整體表現(xiàn)及中文、英文、各學(xué)段子榜單中均表現(xiàn)卓越,領(lǐng)先優(yōu)勢明顯。

          在當(dāng)前的大模型能力評估中,盡管有針對通用能力、推理能力及自然科學(xué)能力的評估,但數(shù)學(xué)能力評估卻存在明顯的空白。為填補這一空白,MathEval應(yīng)運而生,旨在提供一個全面、權(quán)威的數(shù)學(xué)能力評估體系,確保大模型的數(shù)學(xué)能力得到準確評估,為其在數(shù)學(xué)領(lǐng)域的更廣泛應(yīng)用奠定堅實基礎(chǔ)。

          MathEval由智慧教育國家新一代人工智能開放創(chuàng)新平臺攜手暨南大學(xué)、北京師范大學(xué)、華東師范大學(xué)、西安交通大學(xué)、香港城市大學(xué)等高校共同打造。該平臺專注于大模型數(shù)學(xué)能力的全面測評,從算術(shù)到小初高競賽,再到部分高等數(shù)學(xué)分支等領(lǐng)域,均進行了深入評估。截至目前,MathEval已納入19個廣泛應(yīng)用的數(shù)學(xué)能力測評數(shù)據(jù)集,這些數(shù)據(jù)集來源廣泛,涵蓋了不同年級、題型、文本形式和難度的數(shù)學(xué)問題,為提供全面、準確的數(shù)學(xué)能力測評結(jié)果提供了有力支撐。

          值得一提的是,在最新一輪的測評中,MathEval向30個大模型發(fā)起了挑戰(zhàn)。在測評過程中,MathEval團隊巧妙地運用了GPT4大模型,有效降低了傳統(tǒng)評測方法可能帶來的誤差。最終結(jié)果顯示,學(xué)而思九章大模型在整體榜單及各個子榜單中均名列第一。

          據(jù)了解,九章大模型是學(xué)而思自主研發(fā)的專業(yè)大模型,旨在為全球數(shù)學(xué)愛好者和科研機構(gòu)提供優(yōu)質(zhì)的解題和講題算法。學(xué)而思在相關(guān)研發(fā)上的投入已累計超過10億元。作為少數(shù)專注于解題和講題算法的大模型之一,九章大模型所取得的優(yōu)異成績可謂實至名歸。

          這一成果的取得,不僅彰顯了學(xué)而思在人工智能領(lǐng)域的技術(shù)實力,也進一步推動了數(shù)學(xué)應(yīng)用領(lǐng)域的發(fā)展。隨著學(xué)而思九章大模型等優(yōu)秀大模型的不斷涌現(xiàn)和應(yīng)用,相信未來大模型的數(shù)學(xué)應(yīng)用領(lǐng)域?qū)⒂瓉砀訌V闊的前景和更多的創(chuàng)新突破。



          責(zé)任編輯:蔡媛媛
          相關(guān)新聞更多
            沒有關(guān)鍵字相關(guān)信息!
          文章排行榜
          官方微博