?

基于對抗網絡的文本情緒分析性別偏見消減方法

2024-01-24 08:52烏達巴拉張貫虹
電腦知識與技術 2023年34期

烏達巴拉 張貫虹

摘要:近年來,性別偏見引起自然語言處理領域研究者們的關注。已有研究工作證實,性別偏見不僅影響模型性能,且其傳播將進一步對下游產品產生一定的危害。文章探究性別偏見對文本情緒分析的影響,提出基于對抗網絡模型的性別偏見消減方法。實驗結果表明,在文本數據集上,文章提出的對抗性訓練方法相比其他減偏方法,使TPR-GAP下降約0.02~0.03,而性能只降低了0.8個點。

關鍵詞:性別偏見;文本情緒分析;對抗網絡

中圖分類號:TP391? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2023)34-0029-03

開放科學(資源服務)標識碼(OSID)

0 引言

近年來,性別偏見(Gender Bias) 在NLP領域受到了關注,它不僅影響NLP模型的性能,其傳播在很大程度上會對下游產品產生一些危險的刻板印象。

性別偏見沒有統一的定義,也沒有用于衡量它的統一標準。但研究者們普遍認為,性別偏見是對一種性別的偏好或偏見[1],它存在于NLP 模型或系統的多個方面,比如訓練數據、預訓練模型和訓練算法等。以下通過例子來說明不同任務中存在的性別偏見。

例句1. 機器翻譯系統[2]。英語: The doctor asked the nurse to help her in the procedure. 西班牙語: El doctor le pidio a la enfermera que le ayudara con el procedimiento.

在英語源句中,護士的性別是未知的,但與her的共指表明“醫生”是女性。西班牙語的目標句使用形態特征來表示性別:el doctor表示男性,而la enfermera表示女性。

例句2.詞嵌入[3]。有偏見的詞嵌入模型自動生成諸如“男人:女人”,“計算機程序員:家庭主婦”之類的類推。

例句3. 共指解析[4]。一個男人和他的兒子發生了一場可怕的車禍。父親死了,男孩受了重傷。醫院里,外科醫生看著病人驚呼,我不能給這個男孩做手術,他是我兒子!

許多第一次聽到上述描述的人很難將母親和外科醫生的角色分配給同一個實體。

例句 4. 侮辱性語言檢測[5]?!澳闶且粋€好女人”(You are a good woman) 被認為存在“性別歧視”,其原因可能是由于“女人”(woman) 這個詞語。

例句5. 情感傾向性分析[6]。超過75%的系統傾向于標記涉及某一種性別/種族的句子(相比其他性別/種族的句子)較高的傾向性強度值。

本文針對情感分析中存在的性別偏見問題,提出一種基于對抗網絡的性別偏見消減方法。通過將情緒分析和性別預測模型以對抗的方式聯合訓練,增強模型泛化能力,同時抵御敏感屬性(性別)對情緒分析任務的影響。

1 相關工作

目前,國內外研究者們提出了不同方法來解決性別偏見問題。例如:構建性別平衡語料的方法[7]、詞嵌入去偏的方法[8]以及調整訓練算法來消減偏見的方法[9]。上述研究均取得了不同程度的研究結果。但是,構建語料的方法并不完全適用于文本情緒分析,因為在情緒表達的語句中很少會直接顯示性別信息。例如,“I never knew a detention was so hard to get.”(我從來不知道拘留是如此之難)。詞嵌入去偏的方法存在刪除過多有利于下游應用信息的問題。調整訓練算法需要設計合理的模型和訓練策略來平衡盲化的敏感信息(如性別)和保留的目標任務所需信息。

2 模型概述

本文借鑒對抗訓練[10]的思想,對情緒識別和性別預測模型進行聯合訓練,通過調整對抗性損失函數達到消減性別偏見的目的。對抗性訓練方法涉及同時訓練兩個網絡模型:生成器G和判別器D。生成器G試圖生成欺騙D的噪聲數據,而判別器D對從G生成的真實數據和假數據進行分類。在結合G和D兩個模型的學習過程中,G和D以交互方式相互促進,以實現各自的目標。

本文沒有設計專門的生成器,而是采用一種基于中介的方式,將情緒識別網絡的前 k 層結果視為生成器的一部分內容,它將情感特征 Xi映射到一系列表示 Ri。然后,Ri被輸入到解碼器網絡以輸出情感分值,同時它也將成為另一個解碼器網絡(性別預測模型)輸入的一部分。因此,情緒識別模型和性別檢測模型之間的關系可表示為:

[Pr(y,g|x)=p(y|x,g)?p(g|x+noise)y',g'p(y'|x,g)?p(g'|x+noise)] (1)

其中,x是句子集:x = x1, ..., xN, y = y1, ..., yN表示x的所有可能的情緒類別集合,g = g1, ..., gN, 其中,[gi∈[0,1]]表示xi的性別信息,即該條句子是由女性產生還是由男性產生。noise 表示情緒識別網絡的前 k 層結果作為干擾性別預測模型的干擾數據。

模型的流程示意圖如圖1所示。情緒識別模型和性別檢測模型通過對抗訓練實現,情緒識別模型的結果干擾性別預測模型的結果的同時保證其準確率。

2.1 基礎模型

本文以CNN模型為基礎框架,網絡的前k層作為編碼器,生成一組 N個表示Rn(Y, X), n = 1, ..., N。然后,Ri作為特征值被輸入到解碼器以輸出情緒后驗P(yi| xi)?;A模型記為E,其損失表示為LE。

2.2 對抗模型

本文針對性別預測設計了對抗模型,可以通過神經網絡實現。本文設計3種不同的對抗模型:

1) 線性模型(Linear)。使用兩個線性層來生成一個對抗模型。

2) LSTM 模型(LSTM)。包含 1 個嵌入層、1 個 LSTM層和兩個線性層。LSTM 模型旨在通過單層雙向 LSTM 將由 c1,...,cN 組成的中間卷積表示C 映射到一系列隱藏狀態 h1,...,hN。H = BiLSTM(X + C) = [h1,..., hN],[H∈Rd×N],其中d是隱藏層的大小,N是給定句子的長度。

3) 基于注意力的 LSTM 模型(Attention-LSTM)。該對抗模型將注意力機制集成到 LSTM 模型中。在 LSTM 生成矩陣H后,應用均值池化將結果[h]與最后一個時刻產生的隱藏狀態hN連接起來。注意力層旨在從H中學習歸一化權重向量[α=α1, ...,αN]和加權隱藏表示[δ]。即[M=tanh(h⊕hN)], [α=softmax(wTM)], [δ=HαT],其中[⊕]表示連接運算符。

對抗模型記為A,其損失表示為LA。

2.3 對抗訓練

基礎模型E中產生的Ri作為一種噪聲也同時傳輸到A中。在訓練過程中,當A 處于最優狀態時,其參數將會被凍結,同時其輸入將產生被繼續修改,從而達到降低A準確率的目的。但同時保證E 將找到最佳的特征,使其準確率較高。即整個系統的最終目的是讓E準確地預測標簽yi,同時通過Ri的干擾,使A預測gi的結果很差。

E的目的是最小化與預測訓練數據(Xtest, Ytest)上的情緒類別相關的交叉熵損失LE。

[LE(X;θe)=-i=1KlogP(yi|X;θe)]? ?(2)

A的目的是最小化與預測訓練數據(Xtest, Gtest)上的性別相關的交叉熵損失LA。

[LA(X;θa)=-GlogP(gi|X;θa)]? ? ?(3)

上述模型的最終參數值作為對抗網絡的起點。在對抗訓練中,前k個CNN層的輸出C被選為特征向量,并與詞嵌入連接作為A的輸入。此時,對抗損失形式為:

[LA(X+C;θa)=-GlogP(gi|X+C;θa)] (4)

通過優化E對y的預測來聯合訓練E和A,同時隨著A在預測g時受到懲罰。換言之,情緒分類器試圖最小化其對特定任務預測的損失,而性別預測模型試圖增加其損失。因此,對抗網絡的損失函數L是 LE和 LA的加權組合。本文采用的組合形式為:

[L=λLE+(1-λ)LA]? ? ? ? ?(5)

2.4 評估指標

本文采用兩個指標來評估性別偏見消減結果:準確率ACC和真陽性率差異TPR-GAP?;谖墨I[11]對于性別偏見的影響分析,本文定義了TPR-GAP,計算公式見公式(6)。其中TPR是與“賠率相等”相關的“真陽性率”(True Positive Rate, TPR)。TPR-GAP 表示女性和男性的TPR值差異的絕對值。具體而言,通過計算每個類別的真陽性率 (TPR) 的差異,并進一步通過平均這些數量來量化這個標準。

TPR-GAP = |TPRf - TPRm| (6)

對于情緒識別任務,需要通過計算準確率ACC來驗證學習的目標模型是否能得到令人滿意的性能:準確率越高表明性能越好。對于性別偏見的影響,如果TPR-GAP越低表明性別偏見消減結果越好。

3 實驗結果及討論

3.1 實驗數據及設置

實驗數據:本文在ISEAR,CrowdFlower和Volkova數據集上進行相應實驗。ISEAR包含7 659條語句,其中來自女性的語句4 201條;男性語句3 458條,標注了七種情緒:喜悅、恐懼、憤怒、悲傷、厭惡、羞恥和內疚。CrowdFlower是利用眾包技術生成的面向推文的情感數據集,由40 000條推文構成,情緒類別包括:空虛、悲傷、熱情、擔憂、愛、樂趣、恨、快樂、釋然、厭倦、驚訝和憤怒等。性別信息利用Facebook個人資料和社會保障局 (SSA) 提供的姓名數據集進行。Volkova的推文數據包括739 440條推文,其中417 634條句子來自女性,320 846條句子來自男性,但沒有情感信息的標注。針對Volkova的推文數據,本文利用WAL(Wordnet Affective Lexicon)情感詞匯庫以及情感表情庫(Full Emoji Database,FED)對Volkova的推文句子進行情緒標注。標注信息除了WAL中顯示的六種情緒(憤怒、厭惡、恐懼、喜悅、悲傷、驚訝)之外還增加了愛和信任兩個情緒標簽。

實驗設置:本文將數據集以80∶10∶10的比例分別拆分為訓練集、驗證集和測試集,同時保證測試集包含相同數量的兩種性別(男性和女性)的句子。

對所有參數設置了相同的歸一化參數[λ=10-4],每批數據量的大?。╞atch size)設置為64,AdaGrad 的學習率設置為[α=0.1],詞向量大小為300。

3.2 對比實驗

為了驗證本文提出的基于對抗訓練的性別偏見消減方法對文本情緒分析任務影響的有效性,本文將其與一些主流的性別偏見消減方法進行比較。對比方法包括:

1) 無消減策略(無):以在原始數據上訓練的基本情緒檢測模型為主模型,使用預訓練的詞嵌入GloVe,沒有采取任何去偏或減偏策略。

2) 詞嵌入去偏策略(GN-GloVe):本組實驗使用文獻[9]等構建去偏的詞嵌入GN-GloVe替換預訓練的 GloVe,以驗證去偏詞嵌入在文本情緒分析任務中的有效性。

3) 基于數據增強的消減方法(Data-Aug):在本組實驗中,首先使用[5]描述的性別對雙向字典交換所有性別詞。然后,使用增強數據集和預訓練的GloVe嵌入來訓練模型。

4) 對抗網絡架構(LSTM-MLP):構建了一個類似于文獻[12]的對抗網絡。該網絡架構由1個用于表示的 LSTM 網絡和用于分類和對抗的多層感知器組成。在本組實驗中,構建了3層感知器。

對比實驗結果如表1所示。

4 結論

針對性別偏見問題,本文提出基于對抗訓練的方法,評估指標為準確率和真陽性率差異。實驗結果表明,本文提出方法可以有效地克服文本情緒分析中存在的性別偏見。為了保證內存需求的可控性,本文限制了對抗訓練階段的迭代。在未來的工作中,將計劃用一種訓練標準來探索解決這個問題。同時,進一步研究更多敏感屬性的影響。

參考文獻:

[1] SUN T,GAUT A,TANG S,et al.Mitigating gender bias in natural language processing:literature review[EB/OL].[2022-10-20].2019:arXiv:1906.08976.https://arxiv.org/abs/1906.08976.pdf.

[2] SAVOLDI B,GAIDO M,BENTIVOGLI L,et al.Gender bias in machine translation[EB/OL].[2022-10-20].2021:arXiv:2104. 06001.https://arxiv.org/abs/2104.06001.pdf.

[3] BOLUKBASI T,CHANG K W,ZOU J,et al.Man is to computer programmer as woman is to homemaker?debiasing word embeddings[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems.December 5 - 10,2016,Barcelona,Spain.ACM,2016:4356-4364.

[4] RUDINGER R,NARADOWSKY J,LEONARD B,et al.Gender bias in coreference resolution[EB/OL].[2022-10-20].2018:arXiv:1804.09301.https://arxiv.org/abs/1804.09301.pdf.

[5] PARK J H,SHIN J,FUNG P.Reducing gender bias in abusive language detection[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels,Belgium.Stroudsburg,PA,USA:Association for Computational Linguistics,2018.

[6] KIRITCHENKO S,MOHAMMAD S M.Examining gender and race bias in two hundred sentiment analysis systems[EB/OL].[2022-10-20].2018:arXiv:1805.04508.https://arxiv.org/abs/1805.04508.pdf.

[7] LU K J,MARDZIEL P,WU F J,et al.Gender bias in neural natural language processing[EB/OL].[2022-10-20].2018:arXiv:1807.11714.https://arxiv.org/abs/1807.11714.pdf.

[8] BARTL M,NISSIM M,GATT A.Unmasking contextual stereotypes:measuring and mitigating BERT’s gender bias[EB/OL].[2022-10-20].2020:arXiv:2010.14534.https://arxiv.org/abs/2010.14534.pdf.

[9] ZHAO J Y,ZHOU Y C,LI Z Y,et al.Learning gender-neutral word embeddings[EB/OL].[2022-10-20].2018:arXiv:1809. 01496.https://arxiv.org/abs/1809.01496.pdf.

[10] GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et al.Generative adversarial networks[EB/OL].[2022-10-20].2014:arXiv:1406.2661.https://arxiv.org/abs/1406.2661.pdf.

[11] ROMANOV A, DE-ARTEAGA M, WALLACH H,et al. What’s in a name? reducing bias in bios without access to protected attributes. In NAACL-HLT,2019:4187-4195.

[12] ELAZAR Y,GOLDBERG Y.Adversarial removal of demographic attributes from text data[EB/OL].[2022-10-20].2018:arXiv:1808.06640.https://arxiv.org/abs/1808.06640.pdf.

【通聯編輯:唐一東】

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合