- 視頻生成跨越式突破,智象未來(HiDream.ai)智象大模型2.0邁入分鐘級行列
- 2024年08月12日來源:南方企業新聞網
提要:業內人士表示,隨著智象未來(HiDream.ai)智象大模型2.0的不斷完善和升級,其有望為視頻內容創作領域帶來更多革命性的變化,助力廣大用戶輕松實現創意變現,推動整個行業邁向更加廣闊的發展空間。
近日,智象未來(HiDream.ai)智象大模型2.0在文生視頻領域取得了重大突破,將視頻生成時長從去年的15秒提升至分鐘級別,這是繼去年12月打破4秒時長限制后的又一技術飛躍。
智象未來(HiDream.ai)智象大模型2.0的文生視頻功能在時長、畫面自然度、內容和角色一致性方面均有顯著提升,這得益于其自研的DiT架構。與傳統U-Net架構相比,DiT架構具有更高的靈活度,能夠有效提升圖像和視頻的生成質量。眾所周知,DiT 架構的基礎實現依賴于 Transformer 技術。為了進一步提升這一技術的性能,智象未來(HiDream.ai)智象大模型 2.0 對整個Transformer網絡結構、訓練數據的構成和訓練策略上采用完全自研的模塊,特別是在訓練策略方面進行了深度研究和改進。
該模型采用了高效的時空聯合注意力機制,不僅適應了視頻的空間域和時間域特征,還解決了傳統注意力機制在訓練過程中的速度問題。為了支持更長視頻片段的訓練,智象未來(HiDream.ai)智象大模型2.0能夠處理幾分鐘甚至十幾分鐘的視頻片段,使得直接輸出分鐘級時長的視頻成為可能。同時,智象未來(HiDream.ai)還自研了視頻描述生成的Captioning Model,實現了對視頻內容的詳細且精準描述。
在訓練策略上,智象未來(HiDream.ai)智象大模型2.0利用不同長度的視頻片段進行視頻和圖片數據的聯合訓練,并動態調整不同長度視頻的采樣率,以完成長鏡頭訓練。此外,模型還根據用戶反饋數據進行強化學習,進一步優化性能。
從原來的15秒左右延長至分鐘級別,智象未來(HiDream.ai)的智象大模型2.0現已實現視頻生成時長的顯著提升,達到了行業領先水平。除了視頻時長進入分鐘級別這一重大進步外,此次升級的另一個亮點是視頻時長和尺寸的可變性。以往的視頻生成模型通常是預設固定時長,用戶無法進行選擇。而智象未來(HiDream.ai)則將選擇權交給了用戶,用戶既可以直接指定視頻時長,也可以根據輸入的Prompt內容,讓系統動態判斷。內容復雜時,系統會生成較長視頻;內容簡單時,則生成較短視頻,以這種動態調整的方式,自適應地滿足用戶的創作需求。同時,視頻的尺寸也可根據用戶需求進行定制,這一靈活的設計大幅提升了用戶體驗。
值得一提的是,智象未來(HiDream.ai)的智象大模型2.0在視頻畫面觀感上也有了顯著的提升,物體動作表現得更加自然流暢,細節渲染更為精細,并且支持了4K超清畫質。隨著這次技術升級,智象未來(HiDream.ai)智象大模型2.0正朝著生成更高質量的多鏡頭視頻方向快速發展,并向L3階段加速前進。據了解,升級后的文生視頻功能即將投入使用,屆時用戶將能夠體驗到更加豐富和高質量的視頻生成服務。
業內人士表示,隨著智象未來(HiDream.ai)智象大模型2.0的不斷完善和升級,其有望為視頻內容創作領域帶來更多革命性的變化,助力廣大用戶輕松實現創意變現,推動整個行業邁向更加廣闊的發展空間。