联邦学习超参数C、E、B怎么调？我用PyTorch在MNIST上做了组对比实验

张开发

• 2026/6/8 7:23:12 • 15 分钟阅读

分享文章

联邦学习超参数C、E、B调优实战基于PyTorch的MNIST对比实验分析联邦学习作为一种分布式机器学习范式其核心挑战在于如何平衡模型性能与通信效率。本文将通过PyTorch框架在MNIST数据集上的系统实验深入解析客户端采样率(C)、本地训练轮数(E)和批次大小(B)三个关键超参数的影响机制并提供可复现的调参方法论。1. 实验环境与基准模型构建1.1 实验环境配置我们使用PyTorch 1.12和CUDA 11.6环境硬件配置为NVIDIA RTX 3090显卡。数据划分采用IID独立同分布方式将MNIST训练集的60,000张图片均匀分配到100个客户端# 数据划分示例 def create_iid_clients(num_clients100): client_data [[] for _ in range(num_clients)] for digit in range(10): digit_samples [img for img in train_data if img[1] digit] samples_per_client len(digit_samples) // num_clients for i in range(num_clients): start_idx i * samples_per_client client_data[i].extend(digit_samples[start_idx:start_idxsamples_per_client]) return client_data1.2 基准CNN模型设计采用经典的双层卷积结构包含以下组件卷积层132个5x5卷积核最大池化层12x2窗口卷积层264个5x5卷积核最大池化层22x2窗口全连接层输出维度10对应10个数字类别class FedCNN(nn.Module): def __init__(self): super(FedCNN, self).__init__() self.conv1 nn.Conv2d(1, 32, 5) self.pool nn.MaxPool2d(2, 2) self.conv2 nn.Conv2d(32, 64, 5) self.fc nn.Linear(64*4*4, 10) def forward(self, x): x self.pool(F.relu(self.conv1(x))) x self.pool(F.relu(self.conv2(x))) x x.view(-1, 64*4*4) x self.fc(x) return x2. 超参数影响机制解析2.1 客户端采样率(C)的作用C值决定每轮参与训练的客户端比例实验对比了0.1到1.0的不同设置C值收敛速度最终准确率通信成本0.1慢92.3%低0.3中等94.7%中1.0快95.1%高实际应用建议在通信受限场景推荐C0.3这是准确率与效率的最佳平衡点2.2 本地训练轮数(E)的权衡E值控制客户端本地更新强度实验结果展示# 不同E值的准确率曲线对比 plt.plot(e1_curve, labelE1) plt.plot(e5_curve, labelE5) plt.plot(e10_curve, labelE10) plt.xlabel(Communication Rounds) plt.ylabel(Test Accuracy)关键发现E1时模型波动大但收敛快E5达到最佳稳定状态E10会出现客户端漂移问题2.3 批次大小(B)的影响B值决定本地更新的梯度方向稳定性小批量(B10)更新噪声大需要更多轮次收敛大批量(B600)相当于本地全数据训练稳定性高但计算开销大适中批量(B50-100)在效率和稳定性间取得平衡3. 组合调优实验设计3.1 控制变量实验方案我们设计了三组对照实验固定两个参数调整第三个C对比组固定E5, B50测试C[0.1, 0.3, 0.5, 1.0]E对比组固定C0.3, B50测试E[1, 3, 5, 10]B对比组固定C0.3, E5测试B[10, 50, 100, 600]3.2 结果可视化分析使用Seaborn绘制参数组合的热力图import seaborn as sns param_grid pd.DataFrame({ C: [0.1,0.3,0.5,1.0,0.3,0.3,0.3,0.3,0.3,0.3], E: [5,5,5,5,1,3,5,10,5,5], B: [50,50,50,50,50,50,50,50,10,100], Accuracy: [92.3,94.7,95.0,95.1,90.2,93.5,94.7,94.1,91.8,94.3] }) sns.heatmap(param_grid.pivot_table(indexC, columnsE, valuesAccuracy))4. 实战调参建议4.1 通信受限场景配置当网络带宽有限时推荐C0.2-0.3E3-5B客户端本地数据量的10-20%# 通信优化配置示例 fedavg FederatedLearning( clients100, sample_rate0.3, local_epochs3, batch_size32 )4.2 数据异构场景调整对于Non-IID数据分布增大E值补偿数据偏差降低C值增加客户端多样性添加客户端正则化项4.3 超参数搜索策略建议采用贝叶斯优化进行自动化搜索from skopt import BayesSearchCV param_space { C: (0.1, 1.0), E: (1, 10), B: (10, full) } optimizer BayesSearchCV( estimatorFedModel(), search_spacesparam_space, n_iter30, cv3 )实验过程中发现当B设置为客户端全部数据时相当于本地完整训练需要相应降低E值以避免过拟合。最佳参数组合往往出现在C∈[0.2,0.5]、E∈[3,5]、B∈[32,128]的范围内。