AI模型偏見揭秘:不同文化如何影響機器學習

Featured Image
不是所有生成式 AI 模型在處理極具爭議性的議題時都是一視同仁的。在最近的2024年ACM公平性、責任和透明度(FAccT)會議上,卡內基梅隆大學、阿姆斯特丹大學和人工智能初創公司Hugging Face的研究人員進行了一項研究,測試了幾個開放的文本分析模型,包括Meta的Llama,看看它們如何回答與LGBTQ+權益、社會福利、代孕等問題有關的問題。他們發現這些模型的回答往往不一致,這反映了訓練模型所使用的數據中嵌入的偏見。研究的共同作者、首席倫理學家Giada Pistilli告訴TechCrunch說:“在我們的實驗中,我們發現不同地區的模型在處理敏感話題時存在顯著差異。”文本分析模型,就像所有生成式AI模型一樣,都是統計概率機器。根據大量的示例,它們猜測哪些數據在哪裡放置最有“意義”(例如,在句子“I go to the market”中,“go”在“the market”之前)。如果示例存在偏見,模型也會存在偏見,這種偏見會在模型的回答中表現出來。在他們的研究中,研究人員使用包含移民、LGBTQ+權益和殘疾權益等主題的問題和陳述的數據集,測試了五種模型,分別是Mistral的Mistral Cohere’s Command-R、阿里巴巴的Qwen、谷歌和Meta的Llama 3。為了探索語言偏見,他們將陳述和問題以多種語言(包括英語、法語、土耳其語和德語)提供給模型。根據研究人員的說法,與LGBTQ+權益有關的問題觸發了最多的“拒絕”情況,即模型不回答問題。但是,涉及移民、社會福利和殘疾權益的問題和陳述也產生了很多拒絕情況。某些模型比其他模型更經常拒絕回答“敏感”問題。例如,與Mistral相比,Qwen的拒絕次數超過了四倍,Pistilli認為這體現了阿里巴巴和Mistral在開發模型時的兩極分化。她說:“這些拒絕受到模型的隱含價值觀和開發組織的明確價值觀和決策的影響,例如避免對敏感問題發表評論的微調選擇。”“我們的研究顯示,模型的回應所傳達的價值觀存在顯著差異,這取決於文化和語言。”可能是因為阿里巴巴總部位於北京,這些決策受到政治壓力的影響。去年九月的一篇BBC報導發現,中國搜索巨頭百度開發的AI聊天機器人Ernie對於視為太具爭議性而不願回答的問題進行了回避,特別是涉及西藏壓迫、中國國家主席習近平和天安門廣場事件的問題。在中國,國家網絡信息辦公室作為國家的互聯網監管機構,必須批准生成式AI服務,而該機構的一項標準是這些服務“反映核心社會主義價值觀”。但模型對某些問題的回答也可能指向世界觀的根本差異,包括參與標記模型訓練數據的人的世界觀。對於AI模型的訓練數據來說,註釋或標籤是至關重要的,它們使模型能夠將特定概念與特定數據相關聯(例如,反對LGBTQ+言論是不好的)。這些註釋通常來自註釋者,通常是承包商。註釋者和我們所有人一樣都有偏見,這些偏見可能會體現在他們的註釋中,從而影響到訓練在這些註釋上的模型。

Share this content: