?

算法不正義與大數據倫理

2020-11-17 03:53林曦郭蘇建
社會觀察 2020年9期
關鍵詞:邊緣化群體算法

文/林曦 郭蘇建

在過去數十年間,大數據對我們身處的社會進程和發展產生了很大的影響,在全世界范圍內,我們都可以觀察到一個“大數據化”的現象。對于大數據而言,其數據的采集、分析和應用,都是借由各種算法來進行。一般而言,算法的定義即旨在解決某個問題的方式或進程,它在大數據運行的過程中起到了不可替代的作用。比如,搜索引擎運用特定的算法,對海量的數據進行采集、過濾、分類和索引;數據分析技術則依賴算法,對采集到的數據進行清洗、結構化和運算處理;最終,當數據分析結果需要呈現的時候,算法又對這些結果進行可視化的處理或者顯示優先順序的排列。離開了算法,大數據就無法以一種被人類思維“可理解”的方式呈現出來。

以各種算法為基礎的大數據而言,在其數據的收集、處理和應用中,有可能會出現相應的不正義倫理議題。所謂的“算法的不正義”,指的是在大數據的知識建構過程中,社會不同個體或團體,在大數據資源的占有、使用和分配上出現的不平等,從而導致在數據資源的“代表性”、“用戶畫像”、決策支持、行動干預等不同維度上出現的不正義之情形。這其中,一個主要的原因在于,我們所收集到的數據,很多時候都是不完美的,這些數據有可能是之前決策者基于人為偏好而得到的。因此,此類數據,本身就包含了偏見、不平等、排斥。而且,因為設備和資源使用的分布不均衡,這也會導致,我們在采集數據的過程中,那些占有更多數據資源的使用者的偏好,會更有可能進入數據。如此一來,我們所得到的數據,就會和在社會上廣泛存在的偏好、偏見,重疊在一起。在數據挖掘的過程中,有可能會出現的情況是,它和此前業已存在的排斥、不平等現象,呈現出驚人的相似性或者一致性,都是以同樣的規律來呈現。因此,如果我們對數據進行分析,本身是不加反思、不加批判地接受,那么,這就讓我們更加無視那些在過去的歷史發展中被邊緣化、處于弱勢地位或者岌岌可危的群體所遭受的不公,這就相當于拒斥了這些群體完全融入到我們的公共生活之中。程序員或者編程人員在開發軟件、設計算法的時候,可能并沒有想到這些問題,而這些偏見都是人們在使用算法的過程中才出現的。因此,它是一個非意圖的后果。

數據采集

數據收集主要是涉及到兩個方面的問題——“采集”和“捕獲”。首先,大數據集合需要確認被收集或者采集的對象,即所謂的“數據源頭”。

(一)源頭:“大數據鴻溝”

以人類行為為源頭的大數據采集,有可能會因為不同的人群在使用數字設備和技術上存在千差萬別,而導致收集到的數據復制、映射出現實社會中的不平等。所謂的“大數據鴻溝”,即不同群體或實體(比如公司、企業、高校)在創建、購買、存儲、使用大型數據集層面上存在的能力和知識等方面的差距?!按髷祿櫆稀斌w現在以下兩個群體之間不對稱的關系之上:一方是那些有能力收集、儲存、挖掘海量數據的主體;另一方是那些被收集數據的對象?!按髷祿櫆稀睍刂缦聨讉€維度展開:經濟資源、技術設施、分析能力、行動能力、組織化程度(被對象化的個體和手握各種資源的公司或者機構)。那些“數字素養”更高的群體,一般都是更加年輕、教育水平更高的中產階級,一個人的“信息或者數據慣習”,其實是和其階層、社會地位存在高度關聯。很多時候,人們會說,信息技術促進了民主參與,不過,對這些信息技術成果的享有和分配,卻仍然是不平等的,媒體平臺其實還是復制了那些處于更高階層和社會地位的人的觀點。而且,這些擁有數字優勢的群體,本身在現實生活中也處在優勢的權力地位上,更加有可能對其他在數字上處于弱勢地位的群體施加影響。

“大數字鴻溝”會涉及到一個數據源頭的用戶代表性問題,所收集到的大數據,在多大程度上能夠代表現實人口中的多樣性和族群比例。不同的社會群體,在數據中所獲得的能見度和曝光度,是不是能夠和現實中的實際情況相匹配?有研究表明,城市中那些被邊緣化的群體,他們在數據權利上長期以來遭受一些不公正的待遇。一個最突出的問題,就是在現實中他們被邊緣化,然后到了虛擬世界,在數字呈現中,他們同樣是被邊緣化的,這兩個邊緣化之間是相互映射的關系。因此,盡管基于大數據的“數字孿生”技術被寄予了打造智慧城市的厚望,但是,虛擬世界中的技術或者數據本身亦可能復制、模擬、映射現實世界中的各種不平等和不公平。從數據上來講,這些群體不可見或者能見度很低,不僅僅是因為這些群體所處的區域,并未在數字地圖上標注出來;同時,在以數據為基礎的資產、服務之中,這些群體是集體失聲的。

(二)數據捕獲:“平臺單一性”

在確定了源頭或者采集對象之后,大數據的采集就進入“數據捕獲”的環節,即采用自動化的方式去收集、抓取和獲取信息。這其中存在一個“平臺單一性”的問題,即如果大數據研究針對的只是某個軟件應用、網站或者服務,那么,在這個研究里面所呈現出來的人員數據(行為、看法),就是某個時刻正在使用該應用、網站或者服務的那些人。取樣的樣本對象,就是該應用、網站或者服務的使用者。如果某個用戶并沒有使用該應用、網站或者服務,那么,該用戶就被排除在取樣的樣本對象范圍之外,該用戶的特征、行為、看法,也就無法進入研究者的視野。如果我們取樣的樣本量很大,成千上萬乃至上百萬,因為體量巨大,我們會傾向于認為,對這些樣本進行考察的研究,就具備了一定的可普遍化特性,在這些人身上所得出的研究發現,可以推廣到社會上更加廣泛的人群。但是,現實中的情況并非如此。光是數字,并不代表著可推廣性。

數據處理

在上述環節被收集到的海量數據,經過一系列的技術手段和程序的處理,會變成有意義的信息。在這個環節,那些有技術手段、經濟資源、分析能力的一方,總是能夠從數據中獲取更多的收益,這被稱為是“數據分析鴻溝”,包括“用戶畫像”和“算法分析”兩個核心環節。

(一)用戶畫像:數據處理中對不平等的復制

公司在挖掘數據的時候,使用大數據的方式,有可能會進行一些社會分類,即所謂的“用戶畫像”。企業在進行數據挖掘的時候,其實是把不同的人群進行分類,給他們分別賦予不同的值,用以表明其風險程度、商業價值,并且會按照已有的分類和不平等的體系來對用戶進行分組。這可能在一定程度上削弱個體在數據層面上的自主性,而且,建立數據庫,其實相當于創建了另一個搜索索引,把用戶進行分類管理。這就導致了用戶的身份不再是由用戶自行來進行定義。同時,用戶也失去了去定義和闡釋身份范疇意義的自主權。在這個過程中,這些公司、機構、企業所用到的算法、數據庫,完全不對公眾開放,由此我們也無法檢視其正當性和合理性。這就勢必造成整個數據化過程變得缺乏“透明度”。被客體化的數據對象,完全意識不到從自己身上收集到的數據,是拿去進行何種用途,是如何分類,是如何對他們進行“畫像”的,這些數據又是怎么進行分析,然后在此基礎上公司又采取了何種行為和措施。盡管這種“不透明”有些時候是公司的有意為之(比如涉及商業機密),但是,有些時候,其來源是結構性的,嵌入在大數據運行的基礎設施之中。

(二)算法分析:被隱藏的歷史偏見

從上一節的分析可以看出,將用戶進行分門別類,由此為基礎而得出的所謂“原始數據”,其實并不“原始”,它們總是嵌入在各種社會-技術的語境之中,這些數據本身也會攜帶著生產這些數據的那些結構之中存在的各種等級、不平等、偏見和歧視。有時候,這些偏見和歧視是通過一些“未意圖的后果”而體現出來。我們首先可以來看目標變量的創建過程和分類標簽是如何被定義的。在分類上,總有一些信息是受到重視的,而另外一些信息則是被忽略或者不受待見的。因此,對目標變量和分類標簽的定義,會直接決定數據挖掘的結果以何種面貌呈現出來。如果以這樣的數據為基礎來進行分析,那么,分析結果也會將上述的不平等、偏見和歧視,都原封不動地保留下來。更加令人擔心的是,這種分析結果做出來之后,往往宣稱自己是“客觀、中立、公正、不偏不倚”的,這樣一種被數據構建出來的新現實,實質上是掩蓋了數據生產和分析背后所隱藏的不平等、偏見和歧視。這種現象被稱為“數據原教旨主義”,即認為海量數據集和預測分析技術反映的都是客觀事實。

大數據的一個工作過程,就是導入大量的數據來訓練程序。工程師會開發各種機器學習的算法,這些算法在發展過程中需要用海量的數據來訓練自己的模型,從中學習,以便按照某種特定的方式來處理數據??梢韵胂蟮玫?,如果模型所使用的數據本身就是帶有各種偏見、偏好和歧視,那么,機器學習算法輸出的結果,也會相應地攜帶這些數據之中所包含的“偏見基因”。數據本身無法獨立于生產該數據的社會系統而存在,我們社會中各種不平等,也會進入到數據結果之中去。其次,分析特性的選擇過程,算法在對大數據進行分析的時候,需要對一些邊緣化的組別里面所包含的數據差異進行考量,如果沒有這些考量,那就會導致這些組別被排除在結果之外,從而造成系統性的偏差和偏見。有些時候,人們在處理大數據的過程中,還會使用到代理變量,這些代理變量要么無法準確地代表目標變量,要么無法考慮到目標變量背后所包含的歷史遺留下來的偏見問題。這種情況尤其在大數據分析中可以看到,因為大數據分析是全樣本分析,而非代表性樣本分析,因此,這些全樣本里面所包含的偏見,及其背后所承載的歷史遺留問題,有可能都會在大數據分析的結果中得以體現。

數據應用

經過一系列技術手段和程序進行處理的數據,最終將以一種被清洗過、結構化甚至可視化的分析結果呈現出來。這些數據結果,會直接被用于各種用途,包括商業決策、公共決策、行動干預等。這里我們將從“決策支持”和“行動干預”兩個方面來考察,在數據應用的過程中,會出現何種的算法不正義之情形。

(一)決策支持

在大數據的應用過程中,經常會發生的一個情況是,那些在金錢、各種形式的資本上具有優勢地位的群體,會“俘獲”或者“壟斷”或者“主導”決策過程,事實上造成了對其他階層尤其是被邊緣化群體的排斥。這個過程凸顯的一個問題,即參與決策過程不光需要時間和精力,更重要的是還需要掌握那一套話語體系;而這些能力都是需要學習和培養的。對于被邊緣化群體而言,他們可能迫于生計,無暇他顧。如果在制度設計上不能為這些群體設置特別的通道,那么,很有可能這些群體就會在決策過程中被無視和排斥,即便他們擁有參與、列席的機會。

當大數據在政府的公共決策中得到應用時,其基礎是數據在里面發揮的功能,即數據具備的某種特定效用或者價值。這里面每一步都包含了和數據有關的權利,而且,這些不同的步驟、部分,都與下列的因素相互關聯、互相型塑,即社會結構中的主要組成部分:正式與非正式的制度,社會和技術資源,社會關系,知識資源(知識和話語)。

(二)行動干預

除了用于支持公共決策,分析處理的數據結果還可以用于干預社會行動本身,比如對自殺行為的干預和預防。有學者針對全球不同地區使用谷歌進行自殺或者自殺預防的搜索情況進行了研究,發現谷歌的搜索引擎結果會隨著地區而呈現出一些差異。谷歌的算法是把英語設置成和“自殺預防結果”相關的優先語言或者默認語言。這一發現在同一個國家或地區的對照實驗中得到證實。在那些官方語言不止一種的國家(比如新加坡和印度),研究者發現,只有使用英語搜索和自殺相關的信息,無論是具有潛在危害性還是求助信息,才會觸發“自殺預防結果”的顯示。這事實上造成了全球不同區域、不同語言,在搜索引擎結果上的不平等,這會導致全球在健康信息上面的“大數據鴻溝”。

從算法偏見和數字不平等的批判研究來看,公司不見得是有意要編寫一些帶有歧視或者偏見的算法。只不過,問題的關鍵在于,在實施這些算法之后,一旦出現了歧視或者偏見的結果,公司卻常常不去投入時間、人力、財力和資源來解決這些問題。如果運用算法本身比沒有算法的時候已經產生一些看得見、摸得著的成果和效益,那么,公司就沒有動力去進行進一步的完善。

結語

為了應對上述的“算法不正義”的問題,不同的國家和地區可以開展一些“促進平等的數據倡議”,這些倡議旨在為那些以前“無數據歷史”的人群創造條件,讓他們可以進入大數據的視野,在城市數據中獲得代表性,并且可以獲取和使用這些數據。這樣的一些倡議包括:在社區里面布置無線網絡接入點,讓原本被邊緣化的人群獲得自己的數據、信息權,進而創建數據集、數據庫,進行“社區畫像”,讓這些被邊緣化的社區,同樣能夠進入決策者的視野。

有些國家和地區,還出現了一個自下而上的“量化自我”運動,參與者旨在主張自己對數據的所有權,通過這種方式,來“軟性地對抗”公司、企業和政府部門對大數據的壟斷。這場運動里面的參與者,旨在奪回自己對數據的所有權,并在數據收集和分析的過程中發揮積極主動的作用,這樣參與者就不再是被動地讓各種建制從自己身上收集、分析和應用數據。反過來,他們可以主動參與針對自己的數據收集、分析和行為,主動地去構建和數據有關的意義和行為。也有學者討論我們如何構建數據體系,可以促進社區參與和公民賦權。隨著民眾的“數字素養”的提高,我們也可以通過數據收集方式的創新,來賦權民眾,這一過程被稱為“數據制造”。這個過程與傳統數據收集方式相比,差異點主要在于:個體不再只是被動、等待被收集數據的對象,而是在適當資源的支持下,成為積極主動的數據生產者和消費者,在大數據中發揮更多的主觀能動性。

并且,我們需要對全球南部地區、發展中國家和地區對大數據的應用有更多了解。在歐美國家被批判對待的數據收集和分析方式,在發展中國家有可能是作為賦權、發展目標的形式而存在。因此,會有不少的發展中國家,視大數據為發展目標和推動本國、本地區發展的有力助手。這些認識和應用上的差異,也需要進行一個對比和分析,以防止學者不自主地攜帶著“殖民主義”或者“后殖民主義”的眼光,把全部北部和南部地區一視同仁,無差別地進行對待和處理。如果不能從地方語境中來對大數據所可能產生的問題進行一個更為在地化的理解,那么,有可能復制這些議題從歐美傳輸到發展中國家時產生的殖民主義困境。

猜你喜歡
邊緣化群體算法
體操教學“邊緣化”問題及對策研究*
江蘇海外新華商群體探秘
達到群體免疫,沒那么容易
“小團體主義”帽子不要隨便扣
Travellng thg World Full—time for Rree
中間群體
“邊緣化”初中的去邊緣化
學習算法的“三種境界”
算法框圖的補全
算法初步知識盤點
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合