Report/Docs/2025-01-10/联邦学习综述.md

![image-20241214142844733](联邦学习综述.assets/image-20241214142844733.png)

- 原理：federated learning是一种**训练数据去中心化**（数据不共享）的机器学习解决方案，最早于2016年由谷歌公司提出，目的在于通过**对保存在大量终端的分布式数据**开展训练**学习一个高质量中心化的机器学习模型**，**解决数据孤岛的问题**。
  - 数据孤岛是指在一个组织或多个组织内部，由于数据在不同部门、系统或业务单元之间相互隔离，无法自由流通、共享和整合而形成的一种数据分散状态。这些孤立的数据集合就像一个个被分隔开的 “岛屿”，难以与外界的数据进行有效的交互和协同
- 工作流程
  1. 在符合条件的用户集合中挑选出部分用户，分别从服务器端下载当前的模型；
  2. 被选择的用户用各自的数据训练模型；
  3. 各个用户将训练好的模型传输给服务器；
  4. 服务器将接收到的各个用户的模型聚合成一个最终的模型。
- **2个参与角色：用户（client）- 服务器（server）**
  - 用户的特点：
    - **数据存在用户端，不同用户之间以及用户与服务器之间的数据不共享（最大的特点）**
    - 数量大
    - 用户网络状态允许不稳定，可以随时被选择加入或退出训练
    - 用户数据的不平衡性，有些用户训练数据量大，有些用户训练数据少
    - 典型的用户：比如手机终端
  - 服务器的特点：
    - 通过迭代方式不断聚合来自不同用户训练好的模型，训练出一个最终的模型。
- 安全性
  - 各个用户将训练好的模型加密后传输给服务器，服务器仅仅可以将接收到的来自多个用户聚合后才能成功解密，而无法对单个模型解密。
  - 用户端的加密算法通过添加零和掩码来加扰训练好的模型结果，服务器端聚合各个模型后噪声互相抵消，从而无法反推出各个用户模型的训练数据达到安全性保护的效果。
- 优点
  - 保护用户的隐私，服务器不获取用户的数据
  - 分布式的数据架构，减轻数据集中存储的压力
- 缺点
  - 需要用户对齐或特征对齐才能共同训练模型
  - 模型传输（信息传递）存在一定的局限
  - 用户获取的间歇性
  - 数据获取的间歇性
  - 大规模的分布式网络结构带来压力
- 当前开源框架
  - 谷歌的TensorFlow Federated (TFF)框架
  - 微众银行的federated learning开源框架FATE
- 分类
  1. 横向联邦学习：适用于**不同样本具有相似特征**的情况
     - 例如，多家银行在不同地区开展业务，它们拥有的数据都是客户的基本信息以及信贷相关数据（相似特征），但是每家银行的客户群体不同（不同样本），这就构成了数据样本上的差异
     - 应用场景
       1. 在用户输入法数据上训练的**下一词预测模型**
  2. 纵向联邦学习：适用于**同一样本具有不同特征**的情况
     - 以电商平台和银行合作为例，电商平台拥有用户的购物行为数据（如购买的商品类别、消费金额、浏览历史等），银行则拥有用户的金融信息（如存款金额、信用卡额度、还款记录等），它们针对的是同一批用户，但数据特征不同。
     - 应用场景
       1. **客户信用评级**
  3. 联邦迁移学习：适用于**不同样本具有不同特征**的情况
     - 例如，一个医疗研究机构有大量的某种疾病患者的基因数据和临床诊断数据，另一家医疗机构有另一种相关疾病患者的数据，这两组数据不仅样本不同，特征也有差异，但两种疾病可能在病理机制等方面存在关联
     - 解决标签样本少和数据集不足的问题 
     - 应用场景
       1. **跨部门跨国的数据交流**
- 存在的威胁和挑战
  - 通信效率
    - 解决思路
      1. 算法优化
      2. 模型压缩
      3. 分散训练

  - 隐私安全：分为全局隐私和本地隐私
    - 全局隐私：假定中心服务器是安全可信任的，即每轮通信的模型更新中心服务器可见
    - 本地隐私：假定中心服务器同样可能存在恶意行为，因此本地模型更新在上传到中心服务器之前需要进行加密处理
    - 隐私保护技术
      1. 差分隐私
      2. 安全多方计算
      3. 同态加密

    - 解决思路
      1. 应对全局隐私问题，避免恶意客户端获取服务端隐私
      2. 应对本地隐私问题，避免恶意服务端获取客户端隐私
      3. 模型更新异常检测

  - 缺乏信任和激励
    - 解决思路
      1. 结合区块链技术为联邦学习提供信任与激励机制

- 研究热点
  1. 系统异构
    - 在联邦学习环境中，由于参与训练的客户端之间硬件配置、网络带宽、电池容量等不同，各终端设备的计算能力、通信速度和存储能力各不相同

  2. 统计异构
    - 不同的终端设备通常使用各式各样的方式生成、存储和传输数据，因此各设备之间数据的特征和体量可能有很大的不同，导致数据呈 Non-IID 分布和非平衡分布

  3. 无线通信
    - 由于无线信道的带宽容量有限，因此在发送信息之前，需要对模型更新进行量化压缩，在这种模式下，一个重要的考虑因素是存在量化误差时模型更新的鲁棒性。
    - 除了通信带宽外，无线通信中复杂的噪声和干扰也是加剧信道瓶颈的因素

- 应用前景
  1. 边缘计算和物联网
  2. 智慧医疗
  3. 金融风控
  4. 智慧城市
  5. 涉密数据的安全共享

- 参考文献
  - 周传鑫,孙奕,汪德刚,等.联邦学习研究综述[J].网络与信息安全学报,2021,7(05):77-92.
-												[文档补充] 新增组会文档

											
										
										
											2024-12-20 11:40:48 +08:00
+								![image-20241214142844733](联邦学习综述.assets/image-20241214142844733.png)
 								- 原理：federated learning是一种**训练数据去中心化**（数据不共享）的机器学习解决方案，最早于2016年由谷歌公司提出，目的在于通过**对保存在大量终端的分布式数据**开展训练**学习一个高质量中心化的机器学习模型**，**解决数据孤岛的问题**。
 								  - 数据孤岛是指在一个组织或多个组织内部，由于数据在不同部门、系统或业务单元之间相互隔离，无法自由流通、共享和整合而形成的一种数据分散状态。这些孤立的数据集合就像一个个被分隔开的 “岛屿”，难以与外界的数据进行有效的交互和协同
 								- 工作流程
 . 在符合条件的用户集合中挑选出部分用户，分别从服务器端下载当前的模型；
 . 被选择的用户用各自的数据训练模型；
 . 各个用户将训练好的模型传输给服务器；
 . 服务器将接收到的各个用户的模型聚合成一个最终的模型。
 								- **2个参与角色：用户（client）- 服务器（server）**
 								  - 用户的特点：
 								    - **数据存在用户端，不同用户之间以及用户与服务器之间的数据不共享（最大的特点）**
 								    - 数量大
 								    - 用户网络状态允许不稳定，可以随时被选择加入或退出训练
 								    - 用户数据的不平衡性，有些用户训练数据量大，有些用户训练数据少
 								    - 典型的用户：比如手机终端
 								  - 服务器的特点：
 								    - 通过迭代方式不断聚合来自不同用户训练好的模型，训练出一个最终的模型。
 								- 安全性
 								  - 各个用户将训练好的模型加密后传输给服务器，服务器仅仅可以将接收到的来自多个用户聚合后才能成功解密，而无法对单个模型解密。
 								  - 用户端的加密算法通过添加零和掩码来加扰训练好的模型结果，服务器端聚合各个模型后噪声互相抵消，从而无法反推出各个用户模型的训练数据达到安全性保护的效果。
 								- 优点
 								  - 保护用户的隐私，服务器不获取用户的数据
 								  - 分布式的数据架构，减轻数据集中存储的压力
 								- 缺点
 								  - 需要用户对齐或特征对齐才能共同训练模型
 								  - 模型传输（信息传递）存在一定的局限
 								  - 用户获取的间歇性
 								  - 数据获取的间歇性
 								  - 大规模的分布式网络结构带来压力
 								- 当前开源框架
 								  - 谷歌的TensorFlow Federated (TFF)框架
 								  - 微众银行的federated learning开源框架FATE
 								- 分类
 . 横向联邦学习：适用于**不同样本具有相似特征**的情况
 								     - 例如，多家银行在不同地区开展业务，它们拥有的数据都是客户的基本信息以及信贷相关数据（相似特征），但是每家银行的客户群体不同（不同样本），这就构成了数据样本上的差异
 								     - 应用场景
 . 在用户输入法数据上训练的**下一词预测模型**
 . 纵向联邦学习：适用于**同一样本具有不同特征**的情况
 								     - 以电商平台和银行合作为例，电商平台拥有用户的购物行为数据（如购买的商品类别、消费金额、浏览历史等），银行则拥有用户的金融信息（如存款金额、信用卡额度、还款记录等），它们针对的是同一批用户，但数据特征不同。
 								     - 应用场景
 . **客户信用评级**
 . 联邦迁移学习：适用于**不同样本具有不同特征**的情况
 								     - 例如，一个医疗研究机构有大量的某种疾病患者的基因数据和临床诊断数据，另一家医疗机构有另一种相关疾病患者的数据，这两组数据不仅样本不同，特征也有差异，但两种疾病可能在病理机制等方面存在关联
 								     - 解决标签样本少和数据集不足的问题
 								     - 应用场景
 . **跨部门跨国的数据交流**
 								- 存在的威胁和挑战
 								  - 通信效率
 								    - 解决思路
 . 算法优化
 . 模型压缩
 . 分散训练
 								  - 隐私安全：分为全局隐私和本地隐私
 								    - 全局隐私：假定中心服务器是安全可信任的，即每轮通信的模型更新中心服务器可见
 								    - 本地隐私：假定中心服务器同样可能存在恶意行为，因此本地模型更新在上传到中心服务器之前需要进行加密处理
 								    - 隐私保护技术
 . 差分隐私
 . 安全多方计算
 . 同态加密
 								    - 解决思路
 . 应对全局隐私问题，避免恶意客户端获取服务端隐私
 . 应对本地隐私问题，避免恶意服务端获取客户端隐私
 . 模型更新异常检测
 								  - 缺乏信任和激励
 								    - 解决思路
 . 结合区块链技术为联邦学习提供信任与激励机制
 								- 研究热点
 . 系统异构
 								    - 在联邦学习环境中，由于参与训练的客户端之间硬件配置、网络带宽、电池容量等不同，各终端设备的计算能力、通信速度和存储能力各不相同
 . 统计异构
 								    - 不同的终端设备通常使用各式各样的方式生成、存储和传输数据，因此各设备之间数据的特征和体量可能有很大的不同，导致数据呈 Non-IID 分布和非平衡分布
 . 无线通信
 								    - 由于无线信道的带宽容量有限，因此在发送信息之前，需要对模型更新进行量化压缩，在这种模式下，一个重要的考虑因素是存在量化误差时模型更新的鲁棒性。
 								    - 除了通信带宽外，无线通信中复杂的噪声和干扰也是加剧信道瓶颈的因素
 								- 应用前景
 . 边缘计算和物联网
 . 智慧医疗
 . 金融风控
 . 智慧城市
 . 涉密数据的安全共享
 								- 参考文献
 								  - 周传鑫,孙奕,汪德刚,等.联邦学习研究综述[J].网络与信息安全学报,2021,7(05):77-92.