?

人工智能生成內容技術在內容安全治理領域的風險和對策

2023-11-14 02:38喬喆
電信科學 2023年10期
關鍵詞:人工智能文本圖像

喬喆

工程與應用

人工智能生成內容技術在內容安全治理領域的風險和對策

喬喆

(中國移動通信集團有限公司信息安全管理與運行中心,北京 100053)

近年來,人工智能生成內容(artificial intelligence generated content,AIGC)技術取得了顛覆性成果,成為AI領域研究和應用的新趨勢,推動著人工智能進入新時代。首先,分析了AIGC技術的發展現狀,重點介紹了生成對抗網絡、擴散模型等生成模型和多模態技術,并對現有的文本、語音、圖像和視頻生成的技術能力進行調查闡述;然后,對AIGC技術在內容安全治理領域帶來的風險進行重點分析,包括虛假信息、內容侵權、網絡與軟件供應鏈安全、數據泄露等方面;最后,針對上述安全風險,分別從技術、應用和監管層面,提出應對策略。

人工智能生成內容;生成模型;多模態技術;內容安全治理

0 引言

隨著人工智能(artificial intelligence,AI)的快速發展和普及,AIGC已經成為當今社會中一個備受矚目的領域。AIGC[1]是指利用深度學習等人工智能技術生成的內容,包括但不限于文本、音頻、圖片和視頻。嚴格意義上說,1957年萊杰倫·希勒和倫納德·艾薩克森完成的人類歷史上第一支由計算機創作的音樂作品——《伊利亞克組曲》,就可被看作AIGC的開端,至今已有66年。

在人工智能發展初期,受限于數據、算力、算法等各方面因素,AIGC技術大多基于預先定義的規則或模板[2],與真正的智能創作相去甚遠。近年來,一方面,大數據技術不斷成熟,基礎算力大幅提升,基于生成對抗網絡和擴散模型等生成式人工智能的AIGC技術快速迭代[3],徹底打破了模版化、公式化生成方法的局限,可靈活生成豐富的多模態內容。例如,對于文本生成而言,早期大多采用基于模版的方法,如早期的對話系統[4]基于符號規則和模版填充相關信息,而如今的大型語言模型[5]能夠進行可控文本生成,內容長度不斷突破。另一方面,隨著數實融合的不斷深入,人類對數字內容的質量和豐富度需求空前高漲,大量AI生成作品的出現降低了高質量數字內容生產的專業門檻[6]。直到2022年,才算是AIGC的爆發之年,從AI繪畫到ChatGPT,人們看到了AIGC無限的創造潛力和未來應用的可能性。

然而,AIGC技術的廣泛應用帶來了一系列內容安全治理方面的挑戰。在這個數字信息爆炸的時代,信息的真實性、準確性和合規性成為亟待解決的問題[7]。濫用AIGC技術產生的大量虛假信息、不良信息、違法信息可能會給人們帶來嚴重的負面影響,甚至威脅人們的生命財產安全。例如,AIGC技術可能被用于制造虛假信息進行敲詐勒索、生成惡意代碼進行網絡攻擊等,破壞網絡生態和社會安全。AIGC技術的普及使內容安全治理面臨著前所未有的風險。同時,與風險并存的是AIGC技術所帶來的巨大機遇。例如,利用AIGC技術,可以自動化地統計分析數字內容,從而提高內容審核的效率和準確性,降低人力成本,為內容平臺提供更好的服務。

因此,本文將對AIGC技術在內容安全治理領域面臨的風險和機遇進行深入探討。首先,概述AIGC技術的發展現狀,以及其在文本、語音、圖像和視頻等內容創作上的技術能力和應用案例;接著,探討AIGC技術在內容安全治理領域所面臨的主要風險,包括虛假信息、網絡安全和隱私保護等方面;最后,針對這些風險挑戰,分別從技術、應用和法律層面總結分析了在當前AIGC技術發展和應用背景下的工作建議與應對策略。本文為相關領域的學術研究和實踐工作提供了有益的參考,致力于推動AIGC技術的健康發展和內容安全治理的不斷進步。

1 AIGC技術發展現狀

1.1 AIGC技術爆發標志著人工智能研究熱點從分析式向生成式轉變

分析式人工智能需要搜集大量標注數據形成訓練集,并學習訓練數據中數據與數據標記之間的最佳映射規則,進而完成各類機器學習任務。生成式人工智能通常采用無監督方式學習海量未標注數據的模式與統計特征,采用少量人工標注數據訓練或無須訓練就可以完成各類機器學習任務。生成式人工智能可以充分利用海量的未標注數據進行學習,相比分析式人工智能具有更強的泛化能力[8]。判別式模型和生成式模型的區別如圖1所示,對比機器學習中的判別式模型和生成式模型,判別式模型估計條件概率分布,根據(|)求得標記,強調直接從數據中學習決策函數;而生成式模型估計聯合概率分布(,),強調學習數據生成的規律,從而更好地對數據進行表征建模。

圖1 判別式模型和生成式模型的區別

1.2 生成式人工智能相比分析式人工智能存在三大優勢

一是分析式人工智能任務大部分可以直接用生成式人工智能模型來解決,但反之不成立。例如,文本分類是一個典型的分析式人工智能任務,可以引導生成式人工智能模型生成類別標簽來實現文本分類。但普通的文本分類模型最終輸出的概率分布是針對人類預先定義的類別標簽,而不是針對詞表的,無法直接生成文本內容。

二是生成式人工智能泛化能力遠超分析式人工智能。在生成式人工智能模型構建中,隨著模型參數和訓練數據不斷增加,模型性能穩步提升。目前在自然語言領域,生成式人工智能模型已經全面超越分析式人工智能模型,并不斷逼近人類水平甚至超越人類水平。例如,GPT-4在各類考試中[9],排名超過大多數人類。

三是生成式人工智能可以完成邏輯場景的自動轉換,而分析式人工智能針對不同的應用場景則需要重新設計并訓練模型。生成式人工智能一旦訓練完成,通??梢蕴幚聿煌蝿眨ㄈ缥谋痉诸?、摘要、生成等),在推理階段能夠自動轉換邏輯場景。即使有(已知邏輯下的)新的學習任務時,也無須訓練人員干預,僅需提供給生成式模型少量樣例進行學習(in context learning)[10],模型就能夠完成相應任務,模型本身不必重新訓練。生成式人工智能是當前人類邁向通用人工智能最可能的途徑。而分析式人工智能一旦訓練完成,則只能夠處理與訓練數據同分布的任務。分析式人工智能只能局限于專有人工智能,在特定領域中可以較好地發揮作用,但通用性受限。

1.3 生成對抗網絡、擴散模型、ChatGPT、跨模態對齊等技術催生AIGC大爆發

(1)生成對抗網絡(generative adversarial network,GAN)、擴散模型(diffusion model)使AI生成的內容更加精細逼真。生成對抗網絡[11]大幅提升AI生成內容的逼真程度。其由一個生成器和一個判別器組成,模型使用合作的零和博弈框架來學習。生成器的訓練目標是使生成內容真假難辨,判別器的訓練目標是精準辨別內容真假。生成器將內容輸出給判別器進行判別,判別器將判別結果反饋給生成器進行改進。得益于雙方博弈的學習策略,生成對抗網絡生成內容的真實性和清晰度得到極大提升。該技術成功應用于圖像、視頻、語音和三維物體等多種內容的生成。如英偉達發布的StyleGAN-XL模型[12]生成的高分辨率圖片,人眼難以分辨真假;又如DeepMind發布的DVD-GAN模型[13]用來生成連續視頻,在草地、廣場等明確場景下表現突出。

擴散模型[14]使多媒體內容產業爆發式發展。近年來,擴散模型在圖片生成任務中超越了GAN,并且在諸多應用領域都表現出色。擴散模型原理受熱力學概念啟發,即通過不斷給原始內容增加噪聲將內容最終轉化為純噪聲,再通過學習如何逆轉這種噪聲疊加過程從純噪聲恢復原始內容。這一過程與人類進行創作的過程非常近似,人類在創作初期的思路可能是零散而混亂的,接近噪聲。在創作過程中人類的思路逐漸清晰,最終經過不斷地修改和完善(去噪聲)形成最終的作品。相比生成對抗網絡,擴散模型無須引入判別器,架構更加簡單,訓練更加穩定,在各方面任務中都超過了生成對抗網絡。例如,著名的DALL-E、Stable Diffusion、Midjourney等都是基于擴散模型的產品。2022年,一位游戲設計師使用Midjourney生成的《太空歌劇院》畫作獲得美國科羅拉多州博覽會一項美術競賽一等獎,這標志著AI創作畫作首次擊敗人類藝術家。

(2)ChatGPT叩響了通用人工智能的大門。通用人工智能[15]是指一種能夠像人類一樣在各種領域中執行任務的智能系統。ChatGPT的誕生讓人們看到了通用人工智能的曙光。2022年12月,OpenAI推出的ChatGPT不僅具有出色的人類意圖理解能力和多輪對話能力,還能夠幫助人類完成種不可思議的任務,并且通曉100多種語言。近期,OpenAI進一步推出了GPT-4,其在多種人類考試中排名超過大部分人類,可以結合圖片和文本綜合理解人類意圖,并給出正確反饋。同時,OpenAI發布了ChatGPT的插件系統,可實現與Web搜索、科學計算等上千個插件應用對接。OpenAI將ChatGPT定義為一種新型智能計算機架構,它不但可以和人溝通,還可以和任何插件應用溝通,并可以自主協同調用多個應用完成人類的復雜任務需求。顯然,ChatGPT可以與其他多媒體生成產品進行協同,幫助人類更高效地完成各類多媒體內容生成工作。

(3)跨模態對齊技術使能自然語言驅動多媒體生成。沒有見過“老虎”的人讀再多的書也不知道“老虎”長什么樣子,同理,僅學習大量人類的語言限制了AI理解現實世界的能力??缒B數據對齊技術極大地提高了AI對現實世界的認知能力??缒B算法ViLBERT[16]采用Bert提取文本特征,基于預訓練的目標檢測網絡生成圖像預選框及其視覺特征,依靠Co-TRM完成文本和視覺特征的融合。2021年,OpenAI發布的CLIP[17]采用Transformer提取文本和圖片特征,能夠有效地將文字和圖片中的物體、語義、風格等信息進行對齊。此外,多模態模型UNIMO[18]和FLAVA[19]將圖文特征提取統一起來,即訓練一個統一的大模型,使得該模型既能很好地適配單模態數據(文本或圖像),又能很好地適配多模態數據。在中文方面,文心ERNIE-ViLG[20]是目前全球規模最大的中文跨模態生成模型之一,該模型通過自回歸算法將圖像生成和文本生成統一建模,增強模型的跨模態語義對齊能力,顯著提升圖文生成效果。

2021年3月OpenAI發布AI繪畫產品DALL·E,只需要輸入一句文字,DALL·E就能理解并自動生成一幅意思相符的圖像,背后的關鍵技術即 CLIP。類似產品還有Stable Diffusion、Midjourney和Gen-2等。斬獲7項奧斯卡大獎的科幻電影《瞬息全宇宙》中的部分視覺效果,使用的是Runway公司的視頻生成產品,利用自然語言進行視覺場景構建,以大幅提升視覺特效的制作效率。

2 AIGC技術能力分析

2.1 AI生成文本:全方位逼近人類水平

? 日常對話問答能力:善解人意,可促膝長談。ChatGPT和文心一言都通過學習和理解人類的語言進行對話,不僅能夠根據聊天的上下文進行互動,真正像人類一樣聊天交流,而且能夠主動承認錯誤和無法回答的問題,大幅提升了對用戶意圖的理解能力。

? 閱讀理解和文本編輯寫作能力:考試成績超越部分普通人類。OpenAI發布的GPT-4具備強大的推理能力,不僅能夠理解圖表進行數字計算,而且在各大考試(GRE、SAT等)中,幾乎取得了滿分成績[9]。

? 語言翻譯能力:支持世界百種語言互譯。在文本翻譯方面,GPT-3當時已被證明可以與最先進的機器翻譯系統媲美。2022年9月21日,OpenAI發布Whisper自動語音識別(automatic speech recognition,ASR)系統,經過68萬小時的多語言和多任務監督數據訓練,支持多種語言的轉錄,以及將這些語言翻譯成英語。

? 圖片描述能力:可看懂梗圖笑點。VisualGPT[21]是一個由OpenAI開發的圖像描述模型,能夠利用預訓練語言模型GPT中的知識,其可以在多種領域應用,包括對少見的物體進行描述。大型多模態模型GPT-4能接受圖像和文本輸入,再輸出正確的文本回復,不僅能夠生成圖像的描述,還能理解圖像的含義進行問答。

? 代碼理解和生成能力:精通多種編程語言開發與漏洞修復。OpenAI的大型語言模型訓練數據包括GitHub上的開源代碼庫,使得AIGC不僅能夠理解人類的自然語言,還能讀懂計算機語言。利用AIGC技術可以給代碼生成對應的功能注釋,甚至可以生成特定用途的代碼、實現代碼語言之間的相互轉換和漏洞修復等。例如,GitHub Copilot是一個 GitHub和OpenAI合作產生的AI代碼生成工具,可根據命名或者正在編輯的代碼上下文為開發者提供代碼建議。

2.2 AI生成語音:語音表達連貫自然,聲音模仿惟妙惟肖

? 文本生成語音的能力:語音表達連貫自然,字正腔圓。利用AIGC技術對給定文本生成語音,已經廣泛應用于客服及硬件機器人、有聲讀物制作、語音播報等任務。例如,喜馬拉雅運用文本—語音轉換(text to speech,TTS)技術重現單田芳聲音版本的《毛氏三兄弟》和歷史類作品。

? 語音復制能力:聲音模仿惟妙惟肖,真假難辨。AIGC的語音復制技術可以利用目標人的一小段語音,生成目標人在任意文本上的語音,如AI擬聲工具ElevenLabs提供的嗓音復刻。

2.3 AI圖像生成:水平超越大部分人類畫師

? 圖像局部生成和更改能力:圖片實現移花接木、偷天換日。利用AIGC技術可以進行圖片去水印和換臉等局部內容修改。AI去水印的工具,如水印云,能夠支持一鍵去除圖片中的文字、標識、人物、瑕疵等內容,消除圖片中多余元素。在AI換臉方面,基于Deepfake[22]已經衍生出很多換臉應用,如Faceswap、FakeApp、DeepFaceLab等。

? 草圖生成高清圖像:“神筆馬良”成為現實。利用AIGC技術以圖生圖,主要指基于草圖生成完整圖像,如基于草圖生成人臉的Deep Face Drawing等。

? 文本生成圖像能力:心想“圖”成,畫出各種奇思妙想。OpenAI發布的DALL·E 2[23]能夠根據文本描述創建圖像,還可以基于文本引導進行圖像編輯。從Midjourney的V1到V5版本,文本生成圖像的質量提升明顯,已經可以生成電影大片級圖像。

? 精細化控制圖像生成能力:實現圖像精準PS。有時人們希望對生成圖片的輪廓、深度、邊緣、物體姿態等內容進行精細化控制,而這些信息很難精確地使用自然語言描述。ControlNet[24]開創性地實現精準控圖,其可以自動從參考圖像中提取上述精控信息,并在這些信息的指導下進行圖片的創作。其可以很好地應用于建筑設計、室內裝飾風格設計等場景。

2.4 AI生成視頻:輕而易舉地合成虛擬視頻和特效視頻

? 視頻屬性編輯能力:黑白影片智能上色,模糊視頻變高清視頻。利用AIGC技術,可以進行視頻畫質修復、局部畫面修飾、生成視頻特效和自動美顏等。例如,Runway公司發布的人工智能視頻編輯模型Gen-1[25],可對視頻素材進行轉換,并使用文字指令加以剪輯,如更換影片中車輛的顏色。

? 視頻自動剪輯能力:智能識別精彩片段創作電影預告片。典型案例包括Adobe與斯坦福大學共同研發的AI視頻剪輯系統、IBM Watson自動剪輯電影預告片以及Flow Machine。

? 文本生成視頻能力:創意文案速成特效大片。文本生成視頻,即根據給定文本生成符合描述的短視頻。例如,Meta公司推出的一款人工智能系統模型Make-A-Video[26],可以根據給定的文字提示生成異想天開、獨一無二的視頻。Runway推出的Gen-2 AI模型,可直接輸入文字生成短視頻。

3 AIGC技術內容安全風險警示

3.1 濫用AIGC技術生成虛假信息危害社會安定團結

? 偽造虛假身份實施電信詐騙。利用AIGC技術,可以提取音頻樣本的聲紋特征進行語音復制,輕松模仿一個人的聲音,從而實施詐騙。同時,可以生成各類話術劇本,還能創建一個擁有圖片、語音和視頻信息的“虛擬角色”實施電信詐騙。例如,根據《華爾街日報》報道[27],2019年3月,犯罪分子通過商業化的人工智能語音生成軟件,成功模仿并冒充一家德國公司的CEO,欺騙其多位同事和合作伙伴,一天內多次詐騙并轉移資金,使得該公司損失220 000歐元(約折合173萬元)。

? 制造虛假證據用于勒索。勒索者通過AI換臉軟件將受害人人臉移植到裸模身上或正在從事不法活動的人身上,用于向受害人本人或家屬進行敲詐勒索。

? 制造虛假新聞操控輿論走向。利用AIGC技術,可以短時間內制造大批謠言,特別是生成關于政治人物的虛假圖片、視頻、音頻,生成帶偏見的評論等信息進行輿論走向的操控。

? 生成虛假日志欺騙日志審計。攻擊者利用AIGC技術根據該系統已有的日志內容生成逼真的虛假操作行為日志,并替換已有的操作日志,從而更好地隱匿攻擊行為,同時使日志審計功能失效。

? 使用ChatGPT生成詐騙內容。目前可以讓ChatGPT以舉例的方式生成詐騙內容,并讓其進一步對內容進行改寫和拓展。

AIGC本身并不具有主動意識和動機,只是一個根據數據和模型生成內容的工具,其生成虛假信息的主要原因有以下幾點:一是訓練數據偏差,AIGC的訓練數據本身存在偏見、錯誤或虛假信息,在生成內容時可能會重復這些偏見和錯誤;二是統計模式自身局限,AIGC模型是基于統計學習的,通過學習大量數據中的模式和規律生成內容,但有時候這些模式可能并不代表真實的事實,而是簡單地反映數據中的頻率和共現關系;三是缺乏判斷力,AI缺乏人類的判斷力和理解能力,不能像人類一樣辨別真實信息和虛假信息,只是簡單地根據概率生成內容;四是對抗性樣本,對抗性樣本是一種特別設計的輸入,可以欺騙AIGC模型,導致輸出錯誤或虛假結果;五是數據覆蓋范圍有限,訓練數據通常只涵蓋特定領域或特定類型的內容,這導致模型在其他領域或內容上可能表現不佳,并容易輸出虛假信息。

3.2 AIGC生成侵權內容導致法律糾紛

人工智能撰寫的文章等AIGC作品存在著作權歸屬不清的現實困境[28],其主要根源在于訓練數據可能包含版權保護的內容。這一問題不僅可能導致使用AIGC技術創作的作品無法獲得著作權保護,阻礙人工智能技術發揮其創作價值,還有可能因人工智能的海量摹寫行為稀釋既有作品權利人的獨創性,威脅他人的合法權益。2023年3月16日,美國版權局發布新規,人工智能自動生成的作品不受版權法保護,堅持只有人類創作的內容才能得到版權保護。

3.3 AIGC生成問題代碼威脅網絡與軟件供應鏈安全

AIGC的訓練數據可以包括各類開源代碼庫,一方面可能包含惡意軟件的代碼,導致能夠生成網絡攻擊進而攻擊相關代碼程序;另一方面開源倉庫代碼質量良莠不齊,導致生成代碼可能存在缺陷。

? 協助非專業人員實施網絡攻擊。利用ChatGPT等大型語言模型可以快速編寫惡意軟件,如生成釣魚郵件協助網絡攻擊;生成加密工具遠程鎖定他人計算機,由此進行勒索;生成攻擊腳本,對網絡用戶進行用戶標志模塊(subscriber identify module,SIM)交換攻擊(身份盜竊攻擊)等。歐洲刑警組織曾警告,ChatGPT可能被濫用于網絡釣魚、虛假信息和網絡犯罪。

? 生成缺陷代碼難以追查。軟件工程師在項目開發過程中,可能會利用ChatGPT快速生成特定功能代碼。然而,根據OpenAI的評估,Codex只有37%的概率給出正確代碼。除了存在無法運行的bug,基于AI編寫的代碼還可能會引入漏洞。Pearce等[29]通過研究89個場景中生成的代碼,發現GitHub Copilot給出的結果中40%存在漏洞。

3.4 AIGC生成偏見內容導致個人、企業名譽受損

模型開發者很容易將自身偏好、偏見、價值觀帶入模型中。企業或個人在使用AIGC技術能力對外提供服務時若出現偏見內容,將會導致名譽受損。例如,Replika最初的產品定位為“關心人類的AI朋友”,可提供陪聊服務,但之后多次爆出性騷擾用戶事件。此外,當將AIGC技術應用于教育行業時,若對內容審查不嚴,偏見內容會嚴重影響學生的價值觀。

3.5 利用AIGC欺騙智能識別系統

合成偽造生物識別信息。AIGC技術能夠讀取并模仿生成生物識別信息,偽造身份以欺騙身份驗證,大幅增大了智能識別系統的入侵風險。例如,益博睿的一份報告就概述了企業面臨的合成身份欺詐威脅,即網絡犯罪分子使用深度偽造的面孔欺騙生物識別驗證,這已經被確定為增長最快的金融犯罪類型。這將不可避免地給依賴面部識別軟件作為其身份和訪問管理策略一部分的企業帶來重大挑戰。

3.6 使用AIGC服務導致核心數據泄露

根據OpenAI官網公布的隱私政策,其并未提及類似歐盟《通用數據保護條例》(General Data Protection Regulation,GDPR)等數據保護法規,在“使用數據”條款里,OpenAI承認會收集用戶使用服務時輸入的數據,但未對數據的用途做進一步說明。企業員工在使用ChatGPT服務完成工作任務時很容易將企業核心數據資料發送給ChatGPT,從而導致企業核心數據泄露,造成無法挽回的損失。例如,微軟和亞馬遜已禁止員工向ChatGPT分享敏感數據,以防后者的輸出包含或出現類似公司機密信息。此外,意大利數據保護局表示,ChatGPT涉嫌違法收集個人數據且沒有建立年齡驗證機制,即日起暫時禁止使用,成為首個禁用ChatGPT的國家。

3.7 AIGC訓練不當容易導致隱私數據泄露

一方面,如果在訓練AIGC模型的過程中使用了未脫敏的數據,使用AIGC服務的惡意用戶可以采用特定的交互模式獲取這些隱私信息,從而導致個人隱私數據泄露。例如,Facebook曾因未經個人同意使用公開圖片集進行算法訓練,違反了《生物識別信息隱私法》(Biometric Information Privacy Act,BIPA),最終賠償6.5億美元,微軟、亞馬遜、谷歌同樣曾因此陷入BIPA訴訟中。

另一方面,AIGC模型在垂直行業的落地應用離不開行業數據精調訓練。這涉及基礎大模型服務提供商與垂直行業企業的聯合。但行業數據對于企業具有較高的商業價值,一旦對外泄露會導致嚴重經濟損失。這嚴重阻礙了AIGC技術賦能垂直行業。

4 應對策略

4.1 技術層面:加強AIGC相關技術研究

(1)利用數字水印技術實現AIGC合成內容追蹤溯源

針對人工智能撰寫的文章、生成的圖片等AIGC作品存在著作權歸屬不清和知識產權剽竊等一系列風險,可以跟進研究合成內容的標記算法——數字水印技術。數字水印技術[30]是一項保護版權的信息隱藏技術,可以有效避免數字產品在傳播過程中遭到篡改與非法利用。文本、圖像、音頻、視頻等均可作為數字水印的載體。在自然語言方面,已經有研究人員提出一種為大規模語言模型添加水印的方法[31],該方法在不影響大模型生成文本質量的基礎上實現了水印的添加。驗證者可使用算法對文本中的數字水印進行驗證,從而快速識別機器生成的文本內容。對于圖像數據[32],可以從訓練數據和模型層面將水印信息嵌入圖像中,使人眼難以辨別載體圖像與含水印圖像之間的差異,在不影響圖像視覺效果的情況下,實現水印信息的可靠傳輸,并在傳輸過程中遭遇失真或一定程度的攻擊后仍能完整地提取出水印,可被有效地應用于泄密追蹤、版權認證、防偽溯源等。

(2)使用AIGC技術進行詐騙內容識別和解釋

對于利用AIGC技術生成的詐騙信息,同樣可以使用AIGC技術進行詐騙內容的識別和解釋。例如,可以利用ChatGPT進行詐騙短信的判定,以及對判定結果進行解釋分析。盡管ChatGPT等AIGC相關模型擁有各種強大的能力,但受限于參數量大、訓練周期長和未開源等因素,無法完成本地化部署使用。針對此問題,可以利用AIGC模型產生高質量數據,在輕量級開源模型上做微調。例如,模型Baize[33]通過利用ChatGPT與自身進行對話,自動生成一個高質量的多輪聊天語料庫,并在一個開源的大型語言模型LLaMA上進行參數微調,在多輪對話上表現出良好的性能,最大限度地減少潛在的風險。

(3)AI模型加固,防止AIGC合成生物信息攻擊

為了避免AIGC生成的虛假數據攻擊AI生物識別系統,導致系統的誤判、失效和癱瘓,需要采用深度學習的模型加固等技術提高系統識別準確率和對抗攻擊的能力。例如,可以研究使用特征凝結、空間平滑、高斯數據增強和對抗訓練等方法增強AI模型識別對抗樣本的能力,以防御AIGC生成的對抗樣本對AI模型的攻擊。

(4)利用AI技術鑒別虛假合成內容

一方面,由于Deepfake等合成圖像和語音技術的日益普及和濫用,需要研究人員構建強大的偽造內容檢測解決方案。對于圖像數據,進行像素級紋理識別,分析圖像中的噪聲信息和不正常的輪廓和邊緣,判斷圖像是否屬于合成偽造;對于音頻數據,進行時域、頻域、倒頻域和其他域的信號分析,利用深度學習技術進行聲紋特征提取和對比。近期,哈爾濱工業大學和南洋理工大學提出全球首個多模態Deepfake檢測定位模型[34],不僅能夠判斷輸入圖像?文本對的真假,也嘗試定位篡改內容(如圖像篡改區域和文本篡改單詞),讓AIGC偽造無處可藏。

另一方面,AIGC的廣泛應用可能會產生大量假新聞和謠言,這對AI檢測技術帶來了巨大的挑戰。當前,利用AI鑒別假新聞和謠言已經有了一定的研究基礎。例如,麻省理工學院的計算機科學與人工智能實驗室(Computer Science and Artificial Intelligence Laboratory,CSAIL)提出一種可以鑒別信息來源準確性和個人政治偏見的AI系統;復旦大學團隊提出了LOREN[35],一種全新的可解釋事實檢驗范式。在多模態方面,SAFE[36]利用多模態之間的對比分析,依據新聞的文本信息和視覺信息的匹配度識別虛假新聞。此外,大量研究工作[37]結合知識圖譜等外部知識來輔助識別虛假信息。外部知識含有豐富的語義信息和客觀事實,可以幫助模型更好地理解和對比分析新聞內容,從而識別出虛假新聞中的造假之處。

(5)違規內容檢測,防止傳播AIGC生成的違規信息

一是文本合規檢測[38],利用大型語言模型判斷文本內容是否包含違規信息;二是圖片/視頻合規檢測,通過視覺模型提取圖片特征,判斷圖片包含的信息是否合規;三是音頻合規檢測,利用深度學習算法分析音頻中是否包含敏感詞匯、受版權保護的內容,以及是否違反國家相關規定。

(6)隱私計算避免AIGC訓練數據的隱私泄露

針對多方數據合作訓練AIGC模型時,可能存在的數據泄露風險,可以進一步加強研究聯邦機器學習。通過設計高性能的隱私計算方法,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和AIGC模型訓練。

(7)AI反偏見技術,助力AIGC公平性研究

為了避免AIGC在實際應用場景中產生偏見信息,未來需要進一步加強AI模型反偏見技術研究。人工智能的“黑箱”特性使得性別或種族等偏見與更多更復雜的參數相勾連,因此很難通過直接刪除或屏蔽模型參數來完成偏見的剔除。算法偏見的根源來自數據,不公正的數據集是偏見的土壤。因此,構建更加公正的數據集無疑是算法偏見根本性的解決方法之一。此外,針對訓練好的模型,利用技術手段偵測偏見、解除偏見,也是AI反偏見研究的重點內容。例如,哥倫比亞大學的研究者開發了一款名為DeepXplore的軟件,它可以通過“哄騙”系統犯錯,暴露算法神經網絡中的缺陷;谷歌推出工具What-If,其是TensorBoard中用于檢測偏見的工具;IBM也將其偏見檢測工具AI Fairness 360工具包開源,其中包括超過30個公平性指標和9個偏差緩解算法。從目前的成果來看,大多技術突破還僅處于初級階段,即檢測偏見,消除偏見方面的研究仍亟須進一步努力。

4.2 應用層面:構建中間層,完善AIGC應用部署策略

在部署AIGC相關應用時,通過在應用和模型之間構建雙向中間層,完善部署策略,可以有效緩解AIGC技術帶來的不良影響,如圖2所示。一是過濾層,利用審核分類器在監控和執行管道中過濾掉AIGC模型輸出的有害內容。例如,當AIGC模型輸出涉恐等敏感數據時,過濾層對內容進行判定,若觸發了過濾策略,則不向應用層輸出模型原始的輸出內容,而采用相關提示進行代替。二是防護層,對操作者輸入模型的內容做審核,防止“越獄”。例如,當應用層傳來的用戶輸入包含惡意內容時,觸發防護層的檢測,若判定結果是惡意的,則此輸入被攔截,不會送入模型進行推理,并向應用層反饋判定信息。

圖2 AIGC部署策略:過濾層和防護層

4.3 監管層面:不斷健全法律法規,為AIGC技術健康發展保駕護航

AIGC技術的健康發展,離不開國家層面及時有效地出臺相應的法律法規。自2019年11月起,我國先后出臺《網絡音視頻信息服務管理規定》《網絡信息內容生態治理規定》《互聯網信息服務算法推薦管理規定》等文件,對生成合成類內容提出不同程度的監管要求。2022年12月11日,國家互聯網信息辦公室、工業和信息化部、公安部聯合發布《互聯網信息服務深度合成管理規定》強調不得利用深度合成服務從事法律、行政法規禁止的活動,要求深度合成服務提供者落實信息安全主體責任。此外,國家互聯網信息辦公室網站2023年4月11日消息,為促進生成式人工智能技術健康發展和規范應用,根據《中華人民共和國網絡安全法》等法律法規,國家互聯網信息辦公室起草了《生成式人工智能服務管理辦法(征求意見稿)》,并向社會公開征求意見。

5 結束語

本文介紹了AIGC技術的發展現狀,分析了生成式人工智能相比分析式人工智能所具有的優勢。針對不同的生成數據格式,分別總結了AIGC豐富的技術能力,并提供相應技術案例。但是,任何技術都是一把雙刃劍,本文詳細列舉了AIGC技術的飛速發展,以及給內容安全治理帶來的諸多風險挑戰。最后,為了實現AIGC技術健康可持續地發展,分別從技術、應用和法律層面,總結分析了未來的工作建議與應對策略。

[1] 李白楊, 白云, 詹希旎, 等. 人工智能生成內容(AIGC)的技術特征與形態演進[J]. 圖書情報知識, 2023(1): 66-74.

LI B Y, BAI Y, ZHAN X N, et al. The technical features and aromorphosis of artificial intelligence generated content (AIGC)[J]. Documentation, Information & Knowledge, 2023(1): 66-74.

[2] CAO Y, LI S, LIU Y, et al. A comprehensive survey of AI-generated content (AIGC): a history of generative AI from GAN to ChatGPT[J]. arXiv preprint, 2023, arXiv: 2303.04226.

[3] WU J, GAN W, CHEN Z, et al. AI-generated content (AIGC): a survey[J]. arXiv preprint, 2023, arXiv: 2304.06632.

[4] ADAMOPOULOU E, MOUSSIADES L. An overview of Chatbot technology[C]//IFIP International Conference on Artificial Intelligence Applications and Innovations. Cham: Springer, 2020: 373-383.

[5] TOUSEEF I, QURESHI S. The survey: text generation models in deep learning[J]. Journal of King Saud University - Computer and Information Sciences, 2022, 34(6): 2515-2528.

[6] 詹希旎, 李白楊, 孫建軍. 數智融合環境下AIGC的場景化應用與發展機遇[J]. 圖書情報知識, 2023(1): 75-85, 55.

ZHAN X N, LI B Y, SUN J J. Application scenarios and development opportunities of AIGC in the digital intelligence integration environment[J]. Documentation, Information & Knowledge, 2023(1): 75-85, 55.

[7] ZHOU X Y, ZAFARANI R. A survey of fake news[J]. ACM Computing Surveys, 2021, 53(5): 1-40.

[8] 喻國明, 蘇健威. 生成式人工智能浪潮下的傳播革命與媒介生態[J]. 新疆師范大學學報(哲學社會科學版), 2023, 44(5): 65-73.

YU G M, SU J W. Communication revolution and media ecology under the wave of generative artificial intelligence[J]. Journal of Xinjiang Normal University (Edition of Philosophy and Social Sciences), 2023, 44(5): 65-73.

[9] KATZ D M, BOMMARITO M J, GAO S, et al. GPT-4 passes the bar exam[J]. SSRN Electronic Journal, 2023.

[10] DONG Q, LI L, DAI D, et al. A survey on in-context learning[J]. arXiv preprint, 2022, arXiv: 2301.00234.

[11] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.

[12] KARRAS T, LAINE S, AITTALA M, et al. Analyzing and improving the image quality of StyleGAN[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2020: 8107-8116.

[13] CLARK A, DONAHUE J, SIMONYAN K. Adversarial video generation on complex datasets[J]. arXiv preprint, 2019, arXiv: 1907.06571.

[14] CROITORU F A, HONDRU V, IONESCU R T, et al. Diffusion models in vision: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(9): 10850-10869.

[15] 馬化騰. 從專用人工智能邁向通用人工智能[J]. 中國科技產業, 2019(9): 9.

MA H T. From special artificial intelligence to general artificial intelligence[J]. Science & Technology Industry of China, 2019(9): 9.

[16] LU J, BATRA D, PARIKH D, et al. ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and- language tasks[J]. arXiv preprint, 2019, arXiv: 1908.02265.

[17] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[J]. arXiv preprint, 2021, arXiv: 2103.00020.

[18] LI W, GAO C, NIU G C, et al. UNIMO-2: end-to-end unified vision-language grounded learning[C]//Proceedings of Findings of the Association for Computational Linguistics: ACL 2022. Stroudsburg: Association for Computational Linguistics, 2022: 3187-3201.

[19] SINGH A, HU R H, GOSWAMI V, et al. FLAVA: a foundational language and vision alignment model[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2022: 15617-15629.

[20] FENG Z D, ZHANG Z Y, YU X T, et al. ERNIE-ViLG 2.0: improving text-to-image diffusion model with knowledge-enhanced mixture-of-denoising-experts[C]//Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2023: 10135-10145.

[21] CHEN J, GUO H, YI K, et al. VisualGPT: data-efficient adaptation of pretrained language models for image captioning[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2022: 18009-18019.

[22] ZHANG T. Deepfake generation and detection, a survey[J]. Multimedia Tools and Applications, 2022, 81(5): 6259-6276.

[23] RAMESH A, DHARIWAL P, NICHOL A, et al. Hierarchical text-conditional image generation with CLIP latents[J]. arXiv preprint, 2022, arXiv: 2204.06125.

[24] ZHANG L, RAO A, AGRAWALA M. Adding conditional control to text-to-image diffusion models[J]. arXiv preprint, 2023, arXiv: 2302.05543.

[25] ESSER P, CHIU J, ATIGHEHCHIAN P, et al. Structure and content-guided video synthesis with diffusion models[J]. arXiv preprint, 2023, arXiv: 2302.03011.

[26] SINGER U, POLYAK A, HAYES T, et al. Make-a-video: text-to-video generation without text-video data[J]. arXiv preprint, 2022, arXiv: 2209.14792.

[27] STUPP C. Fraudsters used AI to mimic CEO’s voice in unusual cybercrime case[J]. The Wall Street Journal, 2019, 30(8).

[28] 孫山. 人工智能生成內容著作權法保護的困境與出路[J]. 知識產權, 2018, 28(11): 60-65.

SUN S. Predicament and outlet of copyright law protection of artificial intelligence-generated content[J]. Intellectual Property, 2018, 28(11): 60-65.

[29] PEARCE H, AHMAD B, TAN B, et al. Asleep at the keyboard? assessing the security of GitHub copilot’s code contributions[C]//Proceedings of 2022 IEEE Symposium on Security and Privacy (SP). Piscataway: IEEE Press, 2022: 754-768.

[30] 向德生, 楊格蘭, 熊岳山. 數字水印技術研究[J]. 計算機工程與設計, 2005, 26(2): 326-328, 334. XIANG D S, YANG G L, XIONG Y S. Survey of digital watermarking[J]. Computer Engineering and Design, 2005, 26(2): 326-328, 334.

[31] KIRCHENBAUER J, GEIPING J, WEN Y, et al. A watermark for large language models[J]. arXiv preprint, 2023, arXiv: 2301.10226.

[32] 吳德陽, 張金羽, 容武艷, 等. 數字圖像水印技術綜述[J]. 高技術通訊, 2021, 31(2): 148-162.

WU D Y, ZHANG J Y, RONG W Y, et al. Survey of digital image watermarking technology[J]. Chinese High Technology Letters, 2021, 31(2): 148-162.

[33] XU C, GUO D, DUAN N, et al. Baize: an open-source chat model with parameter-efficient tuning on self-chat data[J]. arXiv preprint, 2023, arXiv: 2304.01196.

[34] SHAO R, WU T, LIU Z. Detecting and grounding multi-modal media manipulation[J]. arXiv preprint, 2023, arXiv: 2304.02556.

[35] CHEN J J, BAO Q B, SUN C Z, et al. LOREN: logic-regularized reasoning for interpretable fact verification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(10): 10482-10491.

[36] ZHOU X Y, WU J D, ZAFARANI R. SAFE: similarity-aware multi-modal fake news detection[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. Cham: Springer, 2020: 354-367.

[37] MRIDHA M F, KEYA A J, HAMID M A, et al. A comprehensive review on fake news detection with deep learning[J]. IEEE Access, 2021(9): 156151-156170.

[38] 蔡鑫. 基于Bert模型的互聯網不良信息檢測[J]. 電信科學, 2020, 36(11): 121-126.

CAI X. Internet bad information detection based on Bert model[J]. Telecommunications Science, 2020, 36(11): 121-126.

Risks and countermeasures of artificial intelligence generated content technology in content security governance

QIAO Zhe

Information Security Management and Operation Center, China Mobile Communications Group Co., Ltd., Beijing 100053, China

Recently, artificial intelligence generated content (AIGC) technology has achieved various disruptive results and has become a new trend in AI research and application, driving AI into a new era. Firstly, the development status of AIGC technology was analyzed, focusing on generative models such as generative adversarial networks and diffusion models, as well as multimodal technologies, and surveying and elaborating on the existing technological capabilities for text, speech, image and video generation. Then, the risks brought by AIGC technology in the field of content security governance were focused and analyzed, including fake information, content infringement, network and software supply chain security, data leakage and other aspects. Finally, in view of the above security risks, counter strategies were proposed from the technical, application and regulatory levels, respectively.

AIGC, generative model, multimodal technology, content security governance

TP399

A

10.11959/j.issn.1000?0801.2023190

2023?05?24;

2023?10?11

喬喆(1981? ),男,中國移動通信集團有限公司信息安全管理與運行中心策略運營處處長、經濟師,主要研究方向為網絡信息安全。

猜你喜歡
人工智能文本圖像
改進的LapSRN遙感圖像超分辨重建
有趣的圖像詩
在808DA上文本顯示的改善
2019:人工智能
基于doc2vec和TF-IDF的相似文本識別
人工智能與就業
數讀人工智能
下一幕,人工智能!
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合