数据可用不可见,百度新版本联邦学习PaddleFL来了
伴隨著智能化時代的邁進,AI無處不在,萬事皆可智能化,很多企業走到了時代的風口,也不斷有著更多的企業想躋身隊伍,跨上AI大時代的戰車。大家都深知人工智能的三大基石是:算法、算力與數據。傳統企業有著豐富的數據基礎,卻缺乏技術能力;新型企業的技術能力緊跟時代步伐卻苦于數據貧瘠。算力可以花錢買到,算法可以通過培養招聘技術人才來補齊,但是數據匱乏卻使人在人工智能賽道上舉步維艱。
在國內外監管環境日漸完善的今天,大家都在加強數據保護意識,很多有巨大價值的數據即使在公司內部都無法流通,從而形成數據孤島。我國在今年9月推行的《中華人民共和國數據安全法》、將在11月1日起施行《中華人民共和國個人信息保護法》,都進一步要求數據在安全合規的前提下進行流動,這也讓聯邦學習再次掀起一波浪潮。
百度點石提供數據安全融合與應用服務、大數據核心技術能力,基于聯邦學習、多方安全計算、可信執行環境等主流隱私計算技術,安全高效實現數據賦能,助力客戶提升數據價值。
其中,基于百度飛槳開發的開源聯邦學習框架PaddleFL,讓企業之間的合作能夠在數據層面安全開展。開發人員很容易在大規模分布式集群中部署PaddleFL聯邦學習系統。PaddleFL提供多種聯邦學習策略(橫向聯邦學習、縱向聯邦學習)及其在計算機視覺、自然語言處理、推薦算法等領域的應用。
最近,PaddleFL新版本PaddleFL v1.1.2版本正式發布,在前期三方安全計算協議之上,新增了面向兩方場景的安全計算協議以及安全聯邦學習實現。新增特性描述如下:
1. 兩方安全計算協議PrivC實現
PrivC協議實現總體參考了ABY協議,支持兩方peer-to-peer計算模型以及外包計算模型,提供了半誠實模型下的計算安全性。在ABY協議混合電路計算的思想上,PrivC進行了一系列實現優化,如以tensor為單位聚合通信提升吞吐量,使用FreeXOR、HalfGate等方法降低加密電路運算開銷,使用全同態加密計算乘法三元組等,并對非線性機器學習算子進行了近似實現,有效地提升了兩方安全學習的性能。
2. 基于PrivC的兩方安全聯邦學習
PaddleFL在PrivC協議的基礎上,為只有兩個參與方情況下的聯邦學習場景提供了針對性的解決方案。PaddleFL目前提供了純兩方的矩陣乘法、fc、relu、sigmoid、softmax等機器學習常用算子及其梯度計算實現,支持兩方場景下的線性回歸、對率回歸、多層感知機等模型的訓練與預測,具有優良的性能。
圖 1 PaddleFL with PrivC運行示意圖
PaddleFL在兩方條件下的訓練性能如下:
2.1 場景一 線性回歸:
數據集與訓練參數:
UCI波士頓房價,epoch = 20,batch_size = 10,lr = 0.1;
數據量:506行,80%用于訓練,20%用于測試
2.2 場景二 邏輯回歸:
數據集與訓練參數:
MNIST數據集(label修改為二分類,“1”為1,其余為0),epoch = 1,batch_size = 128,lr = 0.01;
數據量:50 000條訓練樣本,10 000條測試樣本
3. 在線數據切片與分發
在1.1.2版本中,新增了對數據在線切片(secret-share)與分發的支持。在以前版本中,各實體間只能通過離線方式對數據進行切片,然后單獨傳輸到計算方上。而在PaddleFLv1.1.2中,各實體間可以通過在線方式對明文數據進行切片與分發,免去了中間數據存儲的步驟。
4. 增加對gRPC通信模式的支持
在1.1.2版本中,新增了對gRPC協議的支持,用戶可以根據需要指定采用Gloo通信模式或是gRPC通信模式。利用gRPC通信協議,可以有效應對網絡不穩定造成的閃斷等情況,并對未來實現網絡隔離條件下的端口收斂與單向通信提供了條件。
百度點石聯邦學習平臺兼容PaddleFL,為跨機構數據流通提供“可用不可見,相逢不相識”的極致安全體驗。以此解決金融、政府、醫療、互聯網等客戶在聯合風控、聯合營銷、聯合分析等場景的數據安全和隱私保護需求,實現數據價值極大釋放。
點擊進入獲得更多技術信息~~
總結
以上是生活随笔為你收集整理的数据可用不可见,百度新版本联邦学习PaddleFL来了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文读懂“新一代人工智能地图” ,让AI
- 下一篇: 聚焦可信AI与产业应用,百度联合发起千言