?

基于聯邦學習的在線短視頻內容分發策略

2021-07-02 08:54董文濤
計算機應用 2021年6期
關鍵詞:用戶群提供商服務器

董文濤,李 卓*,陳 昕

(1.網絡文化與數字傳播北京市重點實驗室(北京信息科技大學),北京 100101;2.北京信息科技大學計算機學院,北京 100101)

(?通信作者電子郵箱lizhuo@bistu.edu.cn)

0 引言

根據Cisco 年度互聯網報告[1]預測,到2023 年,5G[2]速度將達到現有平均移動連接速度的13 倍,加之多媒體技術的高速發展,短視頻應用(如:抖音、快手、火山短視頻等)已成為當今互聯網上的主流應用和占用網絡帶寬最多的應用[3]。據抖音官方發布的《2019抖音數據報告》[4]顯示,截至2020年1月5日,抖音的日活躍用戶已經超過了4 億,因此通過可移動設備觀看視頻產生的網絡流量將成為互聯網流量的主要來源。隨著網絡基礎設施的不斷升級,一些具有緩存功能的網絡架構[5]被提出。通過將未來流行度較高的視頻內容緩存在移動邊緣計算(Mobile Edge Computing,MEC)服務器的緩存中,可以有效地減少視頻內容訪問時延和從原始內容服務器檢索視頻的次數[6]。目前主要有兩種內容分發策略[7]:基于拉(Pull)的分發策略和基于推(Push)的分發策略。其中基于拉的分發策略是一種基于用戶需求的、被動的內容分發策略[8]?;谕频姆职l策略是在用戶對視頻內容發起請求之前,視頻內容提供商把用戶群即將請求或者最希望觀看的一部分視頻內容提前緩存在MEC 服務器的緩存中[9]。然而,隨著智能終端的快速普及和短視頻業務的飛速發展,在像抖音、快手等基于主動推薦方式的短視頻應用中,基于拉的分發策略很難滿足不同用戶對短視頻內容的個性化需求。在現有的基于推的緩存策略研究中,如何精準地預測出用戶群即將請求或者最希望觀看到的一部分短視頻內容也是一大難點,有待進一步研究。如何將用戶群感興趣的短視頻內容提前分發到MEC 服務器中,將會影響到用戶群對該類短視頻軟件的使用體驗。

本文主要研究了在邊緣計算的環境下如何設計有效的分發策略將用戶群感興趣的短視頻內容提前從源服務器分發到MEC 服務器中。首先,利用聯邦學習的訓練方式得到一個興趣預測模型,提出用戶群興趣向量預測算法,進而由該算法得到用戶群的興趣向量表示;然后,以用戶群的興趣向量作為輸入,提出基于聯邦學習的組合置信上界(Federated Learning Combinatorial Upper Confidence Bound,FLCUCB)算法,進而使視頻內容提供商獲取的長期利潤最大化。實驗結果表明,本文所提策略獲得的平均利潤相對穩定且明顯優于單純基于組合置信上界(Combinatorial Upper Confidence Bound,CUCB)算法的短視頻分發策略。在視頻內容提供商獲得的總利潤方面,本文所提策略與置信上界(Upper Confidence Bound,UCB)策略和隨機策略相比,分別提高了12%和30%。

1 相關工作

隨著邊緣計算的逐漸成熟,文獻[10-11]考慮了MEC 服務器的計算能力,因此可以在MEC 服務器上處理視頻或者執行其他相關計算。近年來深度學習在圖像識別、語音識別、自然語言處理等領域取得了巨大的成就,它能夠達到較高的預測精度,點亮了連續數據處理,如文本和語音處理的發展道路[12]。文獻[13-17]研究了如何基于深度學習進行視頻內容的流行度預測。Li等[14]以中國領先的在線視頻服務提供商優酷的數據為基礎,對如何了解網絡視頻的人氣特征、預測單個視頻的未來人氣等問題進行了解決。Liu 等[15]基于軟件定義網絡(Software-Defined Networking,SDN),提出基于深度學習的內容流行度預測(Deep-Learning-based Content Popularity Prediction,DLCPP)來實現流行度預測。大量的實驗結果表明,DLCPP 具有更高的預測精度。但是以上研究都沒有將其應用到短視頻內容的預緩存中。由于在移動端缺乏計算資源和訓練數據,文獻[18]設計了一個基于學習的系統結構,將訓練數據集中到云端后,利用云端的計算資源進行深度學習模型的訓練,在MEC 服務器上基于該模型預測的視頻內容流行度得分進行視頻內容的預緩存。但將本地數據上傳到云端,會帶來隱私數據泄露的風險,加之需要上傳的數據量巨大,還會造成大量的通信開銷。

文獻[19]利用聯邦學習,在一個分散的大數據集上通過分布式的方式進行模型訓練,基于TensorFlow 在移動設備領域構建了一個可擴展的聯邦學習生產系統。文獻[20]考慮了從一個分布在多個邊緣節點的數據中學習模型參數的問題,提出一種在給定資源預算下,通過控制本地更新和全局參數聚合的最優折中來最小化損失函數的控制算法。聯邦學習可以有效地減少模型訓練過程中的開銷和避免隱私數據泄露的風險,但目前很少有研究將聯邦學習應用到短視頻內容的分發策略中。文獻[21]充分利用MEC 服務器的緩存和計算能力,考慮了視頻內容多比特率的特性,將問題建模為0-1 優化問題,設計了視頻緩存和處理模型,為視頻內容提供商提供最大利潤。由于社交網絡發展迅速,導致新的訪問熱點頻現,基于主動推薦方式的短視頻應用中的視頻內容生命周期越來越短,文獻[21]中設計的視頻緩存和處理模型并不適用于該應用場景。

2 系統模型

本章中將介紹如何將更符合用戶群興趣的一部分短視頻內容提前分發到MEC 服務器上。如圖1 所示,在本文介紹的系統中,假設有三個角色,分別是視頻內容提供商、MEC 服務器和代表用戶群的多個移動設備。移動設備通過無線網絡連接到MEC 服務器,MEC 服務器將其緩存中的視頻內容主動推送到移動設備。假設視頻內容提供商主要從廣告費用中獲取利潤,如果視頻內容提供商將廣告植入到某些將被點贊、收藏或轉發更多次的視頻內容中,它將會獲得更高的利潤。也就是說,視頻內容提供商希望他預緩存在MEC 服務器中的視頻內容將會獲得更多的點贊次數、收藏次數或者轉發次數。因此視頻內容提供商需要決定將哪些短視頻內容提前緩存在MEC服務器上來使他獲得的利潤最大化。

圖1 視頻緩存和獲利示意圖Fig.1 Schematic diagram of video caching and profit gain

2.1 預緩存視頻內容的動機

預緩存視頻內容到MEC 服務器后,當用戶訪問這些內容時,這些內容將會被在離用戶較近的MEC 服務器中獲得,減少骨干網絡中的網絡流量,有效降低源服務器的負載,極大降低用戶的訪問時延,改善用戶的體驗質量。在本文中,假設用戶訪問的短視頻內容全部由其所在區域的MEC 服務器主動推送,所以不考慮用戶的時延問題。但視頻內容提供商獲取的利潤和其推送的內容被點贊、收藏或者轉發的次數成正相關關系,因此需要在學習用戶群興趣方向的基礎上,制定合理的分發決策,使視頻內容提供商獲取盡可能多的利潤。

2.2 系統模型設備和視頻內容

本文假設該系統中有Z個可移動設備,即Z個用戶,J種類型的視頻內容。定義Zagg={1,2,…,z,…,Z}表示Z個可移動設備的集合,Jagg={1,2,…,j,…,J}代表有J種類型的視頻類型集合,Kagg={1,2,…,k,…,K}表示所有的視頻內容集合。實際運用中,MEC 服務器的緩存大小是有限的,定義其容量為C,每個短視頻內容的大小為κ。以下所有操作都在離散化的時間t=1,2,…,T內完成。

2.3 視頻緩存和約束

對于某一個屬于類型j的短視頻內容k,本文用緩存決策變量∈{0,1}表示它在時間t是否被緩存在MEC服務器上。如果=1表示緩存該類型為j的短視頻內容k到MEC服務器,=0表示該短視頻內容不會被緩存在MEC服務器上,即:

因為在每一個MEC 服務器中其緩存大小有限的,所以MEC服務器上緩存的視頻總容量不能超過C,即:

2.4 視頻提供商盈利模型

本文的優化目標是使視頻內容提供商獲得的利益最大化。對于視頻內容提供商來說,本文假設它的盈利主要來自廣告費用。它所擁有的用戶越多,獲得的利潤相對也就越多。定義每一個用戶對視頻內容提供商帶來的基礎利潤為ψ。當用戶對所看到的視頻進行點贊、收藏、轉發操作時,視頻內容提供商就能獲得更多的廣告費用。為表述方便,本文將點贊、收藏、轉發等操作統一稱作被用戶認可,并且同一個視頻內容k只能被一個用戶認可一次。定義為在時間t類型為j的視頻內容k的被認可度:

3 問題定義

本文將分發策略定義為視頻內容提供商獲取利潤最大化問題,即在每一個MEC 服務器覆蓋的范圍內視頻內容提供商都能獲得最大利潤。假設每一個用戶所觀看的視頻內容都由它所在區域的MEC 服務器主動推送,該優化問題可以定義如下:

上面的目標函數用于最大化視頻內容提供商獲取的利潤。第一個限制條件表示在MEC 服務器上緩存的視頻總大小不能超過MEC 服務器的最大容量;第二個限制條件表示在時間t時類型為j的視頻內容k是否緩存在MEC服務器上。

定理1本文求解的視頻內容提供商利益最大化問題是NP-難問題。

證明 本文求解的視頻內容提供商利益最大化問題是要將用戶群感興趣的多種類型的短視頻分發到MEC 服務器上。如果每種類型的短視頻內容所占存儲空間一定,而且其被分發到MEC 服務器后視頻內容提供商所獲得的利潤總是一定的,此時該優化問題就是傳統的0-1 背包問題。因此本文要求解的優化問題至少與0-1背包問題一樣難。已知0-1背包問題已經被證明為NP-難問題,因此本文求解的問題是NP-難問題。

解決以上優化問題還存在如下挑戰:1)在日常的實際應用中,用戶對某些類型的短視頻興趣度并非是一成不變的,存在著常見的興趣飄移現象,即用戶對某一類型的短視頻的感興趣程度會隨著場景的改變或時間的推移發生變化。2)由于視頻內容提供商服務的用戶具有移動性的特點,MEC 服務器所覆蓋范圍內的用戶數量是變化的,這會導致每種類型的短視頻內容在不同時間段內被瀏覽的次數是變化的。因此,不能提前準確獲知某一類型的短視頻內容被某一MEC 服務器覆蓋下所有用戶的認可度。為解決這一問題,視頻內容提供商需要不斷了解用戶的興趣趨向以及不斷學習用戶對每一類型短視頻的認可程度,從而得到一個最優的短視頻內容分發策略,使自己獲取盡可能多的利潤。

4 內容分發策略

在本文中,基于聯邦學習分析用戶的相冊數據,得到用戶群的興趣向量后再基于組合多臂老虎機(Combinatorial Multi-Armed Bandit,CMAB)理論解決第3章所提出的問題。

4.1 基于聯邦學習構建用戶群興趣預測模型

4.1.1 模型選擇

本節的目標是在移動端獲得一個基于相冊中圖像數據的預測模型,利用該模型預測移動設備使用者的興趣向量,深度學習可以有效解決這一問題??紤]到移動設備的計算資源有限,而MobileNet 模型[22]由于引入了深度可分離卷積技術,其在盡可能保證訓練效果的基礎上極大減小了模型參數的規模,因此選擇適合移動設備端使用的MobileNet 模型作為本文的預測模型,圖2展示了MobileNet的模型結構。

圖2 MobileNet模型結構Fig.2 MobileNet model structure

4.1.2 使用聯邦學習訓練模型

雖然適合移動設備端使用的MobileNet 模型參數量被極大減少,但是訓練此模型還是需要一定的計算資源,由于移動設備之間性能不一,對某些移動設備來說單獨訓練好此模型需要較長的時間。另外如果每個移動設備都單獨訓練一個完整的模型,這將會造成大量的資源浪費。

如果在MEC 服務器處訓練此模型:一方面,參與訓練的用戶需要將本地的個人數據上傳到MEC 服務器,這將會造成個人隱私數據的泄漏以及有可能違反相關法規。另一方面,將移動設備端大量的本地數據上傳到MEC 服務器,這將會消耗大量的網絡帶寬,給無線網絡帶來沉重負擔。

聯邦學習作為一個機器學習框架,具有以下優點:1)各移動設備端的本地數據不需要集中上傳到服務器,避免了泄漏隱私和違反相關法律的風險。2)聯邦學習的建模效果和將所有移動設備端的本地數據集中在一起建模的效果大致相同。3)大量移動設備相互協作,聯合訓練一個共有的模型,避免了計算資源的浪費。因此,如算法1 所示,本文使用聯邦學習的方式訓練所需的深度學習模型。步驟1)~7)是MEC服務器和所有移動設備的初始化階段;步驟9)~11)中MEC服務器隨機選擇一部分移動設備加入聯邦學習的訓練中,被選中的移動設備從MEC 服務器中下載MobileNet 模型的參數;步驟12)~19)中移動設備利用本地數據進行模型更新,被更新后的模型參數再被發送到MEC服務器執行模型聚合操作。

算法1 基于聯邦學習的興趣預測模型訓練算法。

輸入 每輪聚合前移動設備端的訓練次數γ0;

輸出 MobileNet的模型參數θt+1。

4.2 基于預測模型構建用戶群的興趣向量

在4.1 節的基于聯邦學習的興趣預測模型訓練算法中,參與聯邦學習的移動設備都會在本地得到一個訓練好的MobileNet 模型,本文將利用該模型對移動設備相冊中新加入的無標簽數據進行預測,得到單個用戶z對各類型短視頻內容的興趣向量Vz=進而得到該用戶群對各類型短視頻內容的興趣向量表示V=[v1,v2,…,vJ],通過用戶群的興趣向量來指導內容分發系統的內容分發策略。算法2 給出了用戶群興趣向量預測算法,首先每個移動設備端根據算法1 得到的興趣預測模型預測出單個移動設備的興趣向量,然后移動設備將自己的興趣向量上傳至MEC 服務器,最后在MEC服務器端計算出該用戶群的興趣向量。

算法2 用戶群興趣向量預測算法。

輸入 移動設備端?z個無標簽圖像數據,可用設備的個數z′;

輸出 用戶群對各類視頻內容的興趣度向量V=[v1,v2,…,vJ]。

4.3 基于組合置信上界算法的短視頻分發策略

與多臂老虎機(Multi-Armed Bandit,MAB)理論不同,在CMAB 理論中,賭徒進入賭場后,面對一排老虎機,他一次拉動的不是一個臂,而是多個臂組成的集合,將該集合稱作超臂。在MAB 問題中,稱其中的每個臂為基準臂。當賭徒拉動一個超臂以后,超臂所包含的每個基準臂會給賭徒一個反饋,而這個超臂整體也給賭徒帶來某種復合的反饋。拉動超臂之前,賭徒不知道他將獲得怎樣的反饋。

在短視頻分發問題中,視頻內容提供商分發一部分短視頻內容到MEC服務器之前,由于不知道MEC服務器所覆蓋用戶群對這一部分短視頻的認可情況,所以不能提前獲知這部分短視頻所能帶來的利潤。為了更精確地了解用戶群的興趣方向,使緩存在MEC 服務器中的短視頻更容易被該用戶群認可,從而使視頻內容提供商獲得更高的利潤,結合該用戶群的興趣向量,基于UCB 的動作選擇方式[23],設計了短視頻分發的FLCUCB算法,給出了接近最優的短視頻緩存策略。

本文的目標是從所有的K短視頻中選擇最有可能被該用戶群認可的總大小為C的短視頻內容緩存在MEC 服務器上,從而使視頻內容提供商盡可能獲取更多的利潤。用代表在時間t時類型為j的短視頻內容緩存到MEC 服務器的總次數。本文提出的短視頻緩存策略包括初始化階段、探索階段和利用階段。在初始化階段,緩存策略確保每種類型的短視頻內容至少有一個被緩存在MEC 服務器上。視頻內容提供商根據該MEC 服務器的獲利反饋進行以下的利用和探索階段。緩存策略將會計算在以往的時間t中每種類型的短視頻在該MEC 服務器所覆蓋用戶群中的平均獲利。為了能在所有的K個短視頻中選擇總大小為C的一部分短視頻使視頻內容提供商獲取盡可能多的利潤,定義了短視頻分發價值公式:

其中,μ是一個大于0 的數,它控制試探緩存新的類型的短視頻的程度。表示在以往的時間1到t-1中,類型為j的短視頻內容在該用戶群中獲得的平均利潤,定義為:

其中,k′表示類型為j的短視頻的個數。由式(6)可知,如果某種類型j∈Jagg的短視頻內容被緩存在MEC 服務器上的次數相對較小或者該類型的短視頻內容在以往的時間1到t-1中獲取的平均利潤越大、用戶群對該類型的短視頻內容的興趣度越高,某個屬于類型j的短視頻內容k的緩存價值就相對較大,該短視頻就會被緩存在MEC 服務器。由此可見,該分發策略在傾向分發已知的能使視頻內容提供商獲取更多利潤的某些類型短視頻的同時,還會探索緩存其他類型的短視頻內容。因此,該策略能在MEC 服務器緩存總大小為C的最可能被用戶群認可的短視頻,從而獲得更高的認可度使最大化。FLCUCB 算法如算法3 所示,步驟2)~11)是初始化階段,根據用戶群的興趣向量將每種類型的短視頻內容按照不同的比例分發到MEC 服務器中,然后計算每種類型的短視頻所獲得的平均利潤。步驟13)~17)計算每種類型短視頻的緩存價值。步驟18)~29)將各類短視頻按照緩存價值由高到低的順序緩存在MEC 服務器上,緩存價值越高的類別被緩存的比例αj*也就越大。

算法3 FLCUCB算法。

輸入 待緩存的短視頻集合F=?,V=[v1,v2,…,vJ],Kagg={1,2,…,k,…,K},由大到小排列的短視頻緩存比例為[α1,…,,…,αJ];

輸出 待緩存的短視頻集合F。

5 實驗與結果分析

在仿真實驗中,基于Python 設計并實現了短視頻分發模擬器??紤]系統中包括視頻內容提供商、MEC 服務器和代表用戶群的多個移動設備,MEC 服務器將它緩存中的短視頻內容主動推送給它所覆蓋的所有移動設備的場景。被推送到移動設備上的短視頻內容獲得的被認可度越高,視頻內容提供商就能獲得越高的利潤。假設有分別屬于20 個不同的類別5 000 個短視頻內容,所有短視頻內容的大小固定為κ=100 MB,MEC 服務器的存儲空間C=40 GB,1個MEC 服務器向它所覆蓋的1 000 臺移動設備推送短視頻。本文從視頻內容提供商獲得的總利潤和每個迭代時間段t獲得的平均利潤兩個方面進行分析,并將本文所提策略(FLCUCB)與最優算法、隨機算法和UCB算法進行比較。

圖3 給出了在用戶群興趣趨向不變的情況下四種分發策略在視頻內容提供商獲得的總利潤方面的比較。從圖3 中可以看出:1)在最優策略中,因為假設已經知道每種類型的短視頻將會獲得的被認可度,所以該策略能使視頻內容提供商獲得最高的利潤。2)在隨機的緩存策略中,該策略隨機地選擇短視頻內容并將其緩存到MEC服務器中,直到達到MEC服務器緩存的容量上限。因為該策略沒有考慮用戶群的興趣趨向和對每種類型的短視頻區別緩存,所以在隨機分發策略下,視頻內容提供商獲得的總利潤最少。3)在傳統的UCB 算法中,因為緩存階段只選擇一定比例的分發價值最高的一類短視頻緩存到MEC 服務器中,然后隨機地緩存其他類型的短視頻內容,直到達到MEC 服務器緩存的容量上限。所以通過傳統的UCB算法緩存短視頻內容使視頻內容提供商獲得的總利潤要比隨機策略高,但比FLCUCB 算法獲得的總利潤少。4)FLCUCB算法根據每種被緩存在MEC服務器中的視頻獲得的平均利潤和該類型的短視頻被緩存的次數,在同一時間段內將多種類型的短視頻內容按照不同比例緩存在MEC 服務器中,所以該策略優于傳統的UCB策略和隨機的緩存策略。

圖3 不同分發策略獲得的總利潤Fig.3 Total profit brought by different distribution strategies

圖4 給出了在用戶群興趣趨向不斷變化的情況下,本文中所提短視頻分發策略和CUCB 策略在視頻內容提供商獲得的平均利潤方面的比較。

圖4 有無聯邦學習的平均利潤比較Fig.4 Comparison of average profit with and without federated learning

從圖4 中可以看出,加入聯邦學習后,在大多數情況下視頻內容提供商獲得的平均利潤要高于不加聯邦學習的情況,這是因為加入聯邦學習后,系統在執行CUCB 算法之前,可以通過由聯邦學習訓練得到的模型預測出該用戶群的興趣度向量,CUCB 算法結合預測到的用戶群的興趣度向量將短視頻內容緩存到MEC 服務器上。通過對移動設備上相冊內容的分析,使緩存在MEC 服務器上的短視頻內容更加符合用戶群的近期興趣趨向,從而使視頻內容提供商獲得更高的平均利潤。

6 結語

本文對基于邊緣計算的短視頻內容分發問題進行了研究,基于聯邦學習和組合多臂老虎機理論設計了短視頻分發策略,該策略可以根據不同用戶群對不同類型短視頻興趣的不同,進行差異化的短視頻內容分發,使緩存在MEC 服務器中的視頻內容更容易被該區域中的用戶認可,從而使視頻內容提供商獲取的利潤最大化。仿真結果表明,本文所提策略獲得的平均利潤相對穩定且明顯優于不加聯邦學習的短視頻分發策略;該策略使視頻內容提供商在獲取的總利潤方面明顯優于現有策略,能較好地適應基于主動推薦方式的短視頻應用場景。

本文策略有效地卸載了回程鏈路的流量,然而在實際應用中,無線端仍然存在大量的流量冗余,其給蜂窩網絡帶來了沉重的負擔。下一步研究工作的重點是,在短視頻應用場景下,設計有效的策略,以卸載無線端的冗余流量。

猜你喜歡
用戶群提供商服務器
基于協同過濾和Embedding的冷啟動推薦算法研究
從資源出發的面向用戶群的高校圖書館資源推薦模型分析
2018年Q1公共云提供商 基礎設施支出持續增長
2018年全球服務器市場將保持溫和增長
論網絡服務提供商的責任承擔問題
公共圖書館的用戶群和服務人員的分析
用獨立服務器的站長注意了
定位中高端 惠普8路服務器重裝上陣
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合