機器偏見揭秘:AI模型如何處理爭議話題?

Featured Image
不是所有的生成式 AI 模型都是平等的,特別是在處理具有極端立場的議題時。在最近在2024年ACM公平、責任和透明度(FAccT)會議上發表的一項研究中,卡內基梅隆大學、阿姆斯特丹大學和AI初創公司Hugging Face的研究人員測試了幾個開放式文本分析模型,包括Meta的Llama,以查看它們對LGBTQ+權利、社會福利、代孕等問題的回答方式。研究人員發現,這些模型在回答問題時往往不一致,這反映出訓練模型使用的數據中存在的偏見。研究的共同作者、首席倫理學家Giada Pistilli告訴TechCrunch說:“在我們的實驗中,我們發現不同地區的模型在處理敏感議題時存在顯著差異。我們的研究顯示,模型的回應傳達的價值在文化和語言上存在顯著差異。”文本分析模型,像所有的生成式AI模型一樣,是統計概率機器。基於大量的例子,它們猜測哪些數據在哪裡放置得最有“意義”(例如,在句子“I go to the market”中,“go”在“the market”之前)。如果這些例子存在偏見,模型也會存在偏見,而這種偏見會在模型的回應中顯示出來。在他們的研究中,研究人員使用包含涉及移民、LGBTQ+權利和殘疾權利等主題的問題和陳述的數據集,測試了五個模型- Mistral的Mistral Cohere的Command-R,阿里巴巴的Qwen,谷歌和Meta的Llama 3。為了探索語言偏見,他們用多種語言,包括英語、法語、土耳其語和德語,將陳述和問題餵給模型。研究人員表示,關於LGBTQ+權利的問題引發了最多的“拒絕”情況-也就是模型未回答的情況。但是關於移民、社會福利和殘疾權利的問題和陳述也產生了大量的拒絕情況。一些模型在一般情況下比其他模型更經常拒絕回答“敏感”問題。例如,Qwen的拒絕次數比Mistral多了四倍以上,Pistilli認為這代表了阿里巴巴和Mistral在開發模型方面的兩極分化。在北京的阿里巴巴的情況下,這些決策可能受到政治壓力的影響。去年9月的一篇BBC報導發現,由中國搜索巨頭百度開發的AI聊天機器人Ernie對任何它認為太有爭議性的問題都予以閃避,特別是觸及西藏壓迫、中國主席習近平和天安門廣場屠殺的問題。在中國,國家互聯網信息辦公室是該國的網絡監管機構,必須批准生成式AI服務,其中一個標準是這些服務“反映核心社會主義價值觀”。但模型對某些問題的回答也可能指向世界觀的根本差異,包括參與模型訓練數據標註的人的世界觀。對於AI模型的訓練數據來說,標註或標籤是至關重要的,它使模型能夠將特定概念與特定數據關聯起來(例如,反對LGBTQ+言論是不好的)。這些標註來自標註者,通常是承包商。而標註者-就像我們大家一樣-都有偏見,這些偏見可能會在他們的標註中表現出來,從而影響到模型的訓練。

Share this content: