AI數據成本飆升:大公司獨享先進技術?

Featured Image
數據是當今先進 AI 系統的核心,但成本越來越高,使得只有最富有的科技公司才能負擔得起。去年,OpenAI 的研究員詹姆斯·貝特克(James Betker)在他的個人網站上發表了一篇關於生成式 AI 模型性質及其訓練數據集的文章。在這篇文章中,貝特克聲稱訓練數據 – 而不是模型的設計、架構或任何其他特徵 – 是越來越複雜、能力更強大的 AI 系統的關鍵。貝特克寫道:“在相同的數據集上進行足夠長時間的訓練,幾乎每個模型都會收斂到同一個點。”貝特克是對的嗎?訓練數據是模型能夠回答問題、繪製人手或生成逼真城市景觀的最重要的決定因素嗎?這是有可能的。

生成式 AI 系統基本上是概率模型 – 一大堆統計數據。它們根據大量的示例猜測哪些數據在哪裡放置起來“最合理”(例如,在句子“I go to the market”中,“go”在“to the market”之前)。因此,如果一個模型有更多的示例可供參考,那麼在這些示例上訓練的模型性能就會更好。AI2 的高級應用研究科學家凱爾·洛(Kyle Lo)告訴 TechCrunch:“在你建立一個穩定的訓練體系之後,似乎表現提升來自於數據。”他舉了今年早些時候發布的生成文本模型 Meta’s Llama 3 的例子,該模型在設計上與 AI2 自家的 OLMo 模型非常相似,但在訓練數據方面卻比後者更為優秀。洛認為這解釋了 Llama 3 在許多熱門 AI 基準測試中的卓越表現。(我想指出的是,如今 AI 行業中廣泛使用的基準測試並不一定是評估模型的最佳標準,但除了像我們這樣的定性測試之外,它們是我們唯一可以依據的一些指標。)

這並不意味著在指數級更大的數據集上訓練就一定能得到指數級更好的模型。洛指出,模型遵循“垃圾進,垃圾出”的原則,因此數據的整理和質量比數量更重要。“一個精心設計數據的小型模型有可能超越一個大型模型,”他補充道。“例如,大型模型 Falcon 180B 在 LMSYS 基準測試中排名第63位,而小得多的模型 Llama 2 13B 排名第56位。”去年十月,OpenAI 的研究員加布里埃爾·戈(Gabriel Goh)在接受 TechCrunch 的採訪時表示,更高質量的標註對於改進 DALL-E OpenAI 的文本到圖像模型的圖像質量起到了巨大的貢獻,超越了其前身 DALL-E。“我認為這是改進的主要原因,”他說。“與 DALL-E 2 相比,文本註釋要好得多 – 它們根本無法相提並論。”許多 AI 模型,包括 DALL-E 3 和 DALL-E 2,都是通過讓人類標註員對數據進行標註,以使模型能夠學會將這些標註與數據的其他觀察特徵相關聯。例如,將大量帶有每個品種標註的貓圖片餵給模型,模型最終將“學會”將“短尾巴”和“短毛”等術語與其獨特的視覺特徵相關聯。

洛等專家擔心,對大型、高質量的訓練數據集的日益重視將使 AI 的發展集中在只有億萬美元預算的少數玩家手中,只有他們才能負擔得起這些數據集。合成或基礎架構方面的重大創新可能會顛覆現狀,但這兩者似乎在近期內都不會實現。“總體而言,管理對於 AI 發展有潛在用途的內容的實體被激勵著將其材料封鎖起來,”洛說。“而且,正如先前提到的,數據的質量很大程度上比數量更重要。”

Share this content: