2020年大火的聯邦學習是什么?對短信行業有什么影響? |
今天來學習下最近比較博眼球的聯邦學習。應該有很多人聽過但是始終都沒懂啥是聯邦學習。很多同學應該也從網上搜集一些相關資料來學習,大概知道聯邦學習的作用主要是用來解決數據孤島,那他又是如何來解決數據孤島問題的?本系列專欄將從多維度介紹聯邦學習,包括背景、概念、技術原理等。
聯邦學習的概念
聯邦機器學習(Federated machine learning/Federated Learning),又名聯邦學習,聯合學習,聯盟學習。聯邦機器學習是一個機器學習框架,能有效幫助多個機構在滿足用戶隱私保護、數據安全和政府法規的要求下,進行數據使用和機器學習建模。聯邦學習作為分布式的機器學習范式,可以有效解決數據孤島問題,讓參與方在不共享數據的基礎上聯合建模,能從技術上打破數據孤島,實現AI協作。谷歌在2016年提出了針對手機終端的聯邦學習,微眾銀行AI團隊則從金融行業實踐出發,關注跨機構跨組織的大數據合作場景,首次提出“聯邦遷移學習”的解決方案,將遷移學習和聯邦學習結合起來。據楊強教授在“聯邦學習研討會”上介紹,聯邦遷移學習讓聯邦學習更加通用化,可以在不同數據結構、不同機構間發揮作用,沒有領域和算法限制,同時具有模型質量無損、保護隱私、確保數據安全的優勢。
聯邦學習定義了機器學習框架,在此框架下通過設計虛擬模型解決不同數據擁有方在不交換數據的情況下進行協作的問題。虛擬模型是各方將數據聚合在一起的最優模型,各自區域依據模型為本地目標服務。聯邦學習要求此建模結果應當無限接近傳統模式,即將多個數據擁有方的數據匯聚到一處進行建模的結果。在聯邦機制下,各參與者的身份和地位相同,可建立共享數據策略。由于數據不發生轉移,因此不會泄露用戶隱私或影響數據規范。為了保護數據隱私、滿足合法合規的要求。 聯邦學習有三大構成要素:數據源、聯邦學習系統、用戶。三者間關系如圖所示,在聯邦學習系統下,各個數據源方進行數據預處理,共同建立及其學習模型,并將輸出結果反饋給用戶。
聯邦學習的分類
根據參與各方數據源分布的情況不同,聯邦學習可以被分為三類:橫向聯邦學習、縱向聯邦學習、聯邦遷移學習。
橫向聯邦學習 在兩個數據集的用戶特征重疊較多而用戶重疊較少的情況下,我們把數據集按照橫向(即用戶維度)切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數據進行訓練。這種方法叫做橫向聯邦學習。
比如業務相同但是分布在不同地區的兩家企業,它們的用戶群體分別來自各自所在的地區,相互的交集很小。但是,它們的業務很相似,因此,記錄的用戶特征是相同的。此時,就可以使用橫向聯邦學習來構建聯合模型。
橫向聯邦學習中多方聯合訓練的方式與分布式機器學習(Distributed Machine Learning)有部分相似的地方。分布式機器學習涵蓋了多個方面,包括把機器學習中的訓練數據分布式存儲、計算任務分布式運行、模型結果分布式發布等,參數服務器是分布式機器學習中一個典型的例子。參數服務器作為加速機器學習模型訓練過程的一種工具,它將數據存儲在分布式的工作節點上,通過一個中心式的調度節點調配數據分布和分配計算資源,以便更高效的獲得最終的訓練模型。而對于聯邦學習而言,首先在于橫向聯邦學習中的工作節點代表的是模型訓練的數據擁有方,其對本地的數據具有完全的自治權限,可以自主決定何時加入聯邦學習進行建模,相對地在參數服務器中,中心節點始終占據著主導地位,因此聯邦學習面對的是一個更復雜的學習環境;其次,聯邦學習則強調模型訓練過程中對數據擁有方的數據隱私保護,是一種應對數據隱私保護的有效措施,能夠更好地應對未來愈加嚴格的數據隱私和數據安全監管環境。
縱向聯邦學習 在兩個數據集的用戶重疊較多而用戶特征重疊較少的情況下,我們把數據集按照縱向(即特征維度)切分,并取出雙方用戶相同而用戶特征不完全相同的那部分數據進行訓練。這種方法叫做縱向聯邦學習。
比如有兩個不同機構,一家是某地的銀行,另一家是同一個地方的電商。它們的用戶群體很有可能包含該地的大部分居民,因此用戶的交集較大。但是,由于銀行記錄的都是用戶的收支行為與信用評級,而電商則保有用戶的瀏覽與購買歷史,因此它們的用戶特征交集較小。縱向聯邦學習就是將這些不同特征在加密的狀態下加以聚合,以增強模型能力的聯邦學習。目前機器學習模型如邏輯回歸、決策樹等均是建立在縱向聯邦學習系統框架之下的。
聯邦遷移學習 在兩個數據集的用戶與用戶特征重疊都較少的情況下,我們不對數據進行切分,而可以利用遷移學習來克服數據或標簽不足的情況。這種方法叫做聯邦遷移學習。
比如有兩個不同機構,一家是位于中國的銀行,另一家是位于美國的電商。由于受到地域限制,這兩家機構的用戶群體交集很小。同時,由于機構類型的不同,二者的數據特征也只有小部分重合。在這種情況下,要想進行有效的聯邦學習,就必須引入遷移學習,來解決單邊數據規模小和標簽樣本少的問題,從而提升模型的效果。
|
【返回首頁】 |
上一篇:是朝陽還是夕陽?短信營銷的未來該朝什么方向發展? 下一篇:創瑞抓住營銷細節,完勝短信營銷 |
更多詳情請搜索: |
創瑞通訊平臺(老):用戶登錄