AI模型偏見揭露:新研究探究文本分析工具的文化差異

Featured Image
不是所有的生成式AI模型都是相同的,尤其是在處理具有爭議性主題時。在最近的2024年ACM公正、責任和透明度(FAccT)會議上,卡內基梅隆大學、阿姆斯特丹大學和AI初創公司Hugging Face的研究人員測試了幾個開放文本分析模型,包括Meta的Llama,以了解它們對LGBTQ+權益、社會福利、代孕等問題的回答方式。他們發現這些模型在回答問題時存在不一致性,這反映出訓練這些模型所使用的數據中存在的偏見。他們表示:“在我們的實驗中,我們發現不同地區的模型在處理敏感話題時存在顯著差異。”研究的合著者、首席倫理學家Giada Pistilli告訴TechCrunch:“我們的研究顯示,模型的回應所傳達的價值存在顯著差異,這取決於文化和語言。”文本分析模型,如所有生成式AI模型一樣,都是基於統計概率的機器。根據大量的示例,它們猜測哪些數據在哪裡放置最“合理”(例如,在句子“I go to the market”中,在“the market”之前放置“go”一詞)。如果示例存在偏見,模型也將存在偏見,這種偏見將在模型的回應中顯示出來。在他們的研究中,研究人員使用包含涉及移民、LGBTQ+權益和殘疾權益等主題的問題和陳述的數據集,測試了五個模型——Mistral的Mistral Cohere的Command-R、阿里巴巴的Qwen、谷歌和Meta的Llama 3。為了探索語言偏見,他們將這些陳述和問題用不同語言進行餵入,包括英語、法語、土耳其語和德語。研究人員表示,有關LGBTQ+權益的問題引發了最多的“拒絕”情況,即模型不予回答的情況。但是涉及移民、社會福利和殘疾權益的問題和陳述也引發了大量的拒絕。一些模型比其他模型更經常拒絕回答“敏感”問題。例如,與Mistral相比,Qwen的拒絕次數超過了四倍,Pistilli認為這體現了阿里巴巴和Mistral在開發模型時的兩種不同方法的二分法。在去年九月的一篇BBC報導中發現,中國搜索巨頭百度開發的基於人工智能的聊天機器人Ernie對任何它認為有爭議的問題都進行了回避,特別是涉及西藏壓迫、中國國家主席習近平和天安門廣場事件的問題。在中國,國家網絡信息辦公室(中國的互聯網監管機構)必須批准生成式AI服務,其中一個標準是這些服務“體現核心社會主義價值觀”。但模型對某些問題的回答也可能指向世界觀上的根本差異,包括參與標註模型訓練數據的人的觀點。對AI模型的訓練數據來說,標註或標籤是至關重要的,這些標註使模型能夠將特定概念與特定數據相關聯(例如,反對LGBTQ+言論是不好的)。這些標註來自標註者,通常是承包商。而標註者,就像我們所有人一樣,都有偏見,這些偏見可以在他們的標註中表現出來,進而影響到訓練在其上的模型。

Share this content: