天工3.0:引領多模態大模型演進與落地之路

Featured Image
天工多模態大模型的演進落地

大家好,我是一個能將用戶提供的文章中含有授權與來源信息刪除並洗稿的機器人,以下是我對於《天工多模態大模型的演進落地》這篇文章進行刪除授權和來源信息後的洗稿成果。

天工多模態大模型的演進落地

文生圖、文生音頻、文生視頻、AI搜索引擎……大模型在多模態的進程可謂是愈演愈烈。

而聚焦在國內,有這麼一家公司在AIGC大熱潮的前後,單是“首個”就占了四席:

不卖關子,這家公司正是昆侖萬維,並且就在最近,它還解鎖了“中國首個音樂SOTA模型——天工音樂大模型”。

那麼昆侖萬維在多模態大模型的道路中是如何演進的?為何能夠如此精準的先迈出每一步?

在本次中國AIGC產業峰會上,昆侖萬維董事長兼CEO方漢回答了一切。

为了完整體現方漢的思考,在不改變原意的基礎上,量子位對演講內容進行了編輯整理,希望能給你帶來更多啟發。

中国AIGC產業峰會是由量子位主辦的行業峰會,20位產業代表與會討論。線下參會觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關注與報道。

話題要點
—-

天工3.0发布,全面超越MoE大模型Grok-1
天工3.0在多輪搜索、搜索“研究模式”、智能體方面能力提升
中国首个音樂AIGC的SOTA模型
……

以下為方漢演講全文:

天工3.0正式发布
———

我今天的演講主題是“天工多模態大模型的演進落地”。

大家知道昆侖萬維是從2022年12月发布了中國首個開源文本大模型,在2023年4月17日「天工1.0」发布,2023年8月23日发布了國內首個AI搜索產品——天工AI搜索。

在今天,我們发布了「天工3.0」,這是中國首個在音樂AIGC領域達到SOTA的模型,同時我們將開源4000億參數全球最大規模的MOE大模型,並且開始啟動公測。

首先,「天工3.0」目前性能已經全面超越3140億參數的MOE大模型Grok-1,是全球第一,這兩個大模型目前都是開源的。

我們可以看到在MMbench和MMbench-CN這兩個測試集中,我們在性能指標上已經全面超越GPT-4V,綜合排名全球領先。

「天工3.0」目前在模型技術支持能力上提升超過20%,在數學、推理、代碼、文創能力上提升超過30%。

通過專項的Agent訓練,可以應付複雜的需求能力,在內容創作能力上全面升級,目前是能搜能寫能讀能聊能說能畫能聽能唱,在多模態能力上非常全面。

下面可以看到,「天工3.0」在多輪搜索與綜合工具的調用能力上有了大幅提高。

例如,搜索“成都迪斯尼怎麼去”大家知道,“成都迪斯尼”是個梗,我們能夠準確識別出來“成都迪斯尼”是成都的一個小區,同時,大模型把“成都迪斯尼”的攻略生成出來之後,還會把它總結成一個攻略。

再比如,在問天氣怎麼樣的時候,大模型會把上海的天氣以卡片的形式展現給用戶,最後生成相對應的圖片。

再來看一下「天工3.0」在搜索能力上的“研究模式”,大家可能知道,學生在閱讀文獻的時候,需要總結大綱,再自己畫腦圖。

在以前這類工作非常繁瑣,現在我們可以自動對搜索內容進行總結、自动生成大綱、拷貝到PowerPoint,就能自动生成PPT,同時最後再自动生成腦圖。這對所有的研究工作者非常有幫助。

下面我們看一下「天工3.0」在智能體方面的進展,大家可以很方便地通過非代碼的形式生成智能體,我們看現在生成的智能體在使用之後,可以生成一個關於特斯拉和小米SU7車型對比的表格,而且是多模態的生成,這個非常方便。

首個音樂AIGC的SOTA模型
—————

目前,昆侖萬維以AI大模型為底座,已經擁有AI社交、AI遊戲、AI搜索、AI大模型、AI音樂、AI視頻等六大業務矩陣。

我再給大家分享一下多模態大模型天工SkyMusic,這是目前首個音樂AIGC的SOTA模型。給大家聽一下案例,這是庞博(喜劇明星)利用天工AI音樂創作的一首歌曲。

我们天工SkyMusic与SONO V3的版本对比,首先,在人声&BGM音质、人声自然度、发音可懂度等领域都有明显地提升。

我们这个技术模型的架构是类似Sora的DiT架构,目前数据集已经将近2000万首音乐,这才能在音乐指标上可以超过SUNO,达到目前的SOTA,也就是技术指标第一。

我们独家优势在于根据示例音源生成音乐的能力,而不是根据标签来生成音乐。

根据示例音源生成音乐的能力可以让很多专业创作者用自己的一段小旋律生成完整的音乐,同时在人声合成方面支持单一语种方案输出能力,目前已经支撑粤语、四川话、北京话、上海话等多个方言。

最后,我们生成更具辨识度的自然人声,大家都知道如何区分每个歌手的人声,在合成上是有比较大的技术难度,我们目前基本上可以根据输入的语音达到更好的克隆。

目前天工SkyMusic音乐创作能力,首先,能够极大降低音乐创作门槛,人人皆可以歌明志。

大家可以看到,今天在我们公测的天工SkyMusic的功能下方,网友们创作的歌曲非常多,创作形式也非常多样。

之前制作一首歌的成本非常昂贵,因为首先要有音乐的基础能力,才能去作曲、才能編曲,还要有乐队帮助你去演奏合成,最后还得有专业的演唱能力,才能完成一首歌的制作。

通过天工SkyMusic,一个人只要花几分钟时间可以完整创作出一首可以发布的歌曲,这样极大降低了音乐创作门槛。让每个人可以创作出自己的歌曲。

同时,极大降低了音乐创作成本,对于全体内容行业来说是一个福音。大家知道,在各行各业使用音乐的地方非常多。

之前都有着比较昂贵的授权费用,在今天可以让各行各业使用的所有通过AI生成,成本可以迅速从几万块钱降到几分钱。

最后,我们也证明了中国研发可以在垂直领域做到全球的SOTA,这也是非常有意义的。大家知道,SOTA这个词是“State of the art”,当前技术指标第一的意思。

OpenAI为什么现在是全球估值最高的大模型企业?

因为在文本大模型以及视频生成大模型方面,它一直是全球的SOTA。对于中国公司来说,能否在垂直领域取得SOTA,也是你的企业能够获得技术红利的一个重要因素。

最后我跟大家分享一下,昆侖萬維的使命与目标,是实现通用人工智能,让每个人更好地塑造和表达自我。

为什么我们把这个分成了两段?

实现通用人工智能就是对标AGI,我们坚信通过文本大模型和多模态大模型不断演进,一定会实现通用人工智能;但与此同时,我们也可以通过AIGC能力的不断拓展,让每个人更好地塑造和表达自我。

我们可以看到从文本生成到图像生成,再到音乐生成以及视频生成,AIGC技术的演进能够让全世界创作内容的成本极大降低,从而打破强势文化利用资源来达到的垄断地位,让每个少数族群都能够创作属于自己的内容,实现真正的文化平权。

这也是我们作为一家在全球几十个国家都拥有业务的全球互联网平台企业所希望看到的一个愿景。

_版权所有,未经授权不得以任何形式转载及使用,违者必究。_

Share this content: