模型训练指标怎么看

张开发
2026/6/8 20:09:43 15 分钟阅读
模型训练指标怎么看
一、 Train 标签页训练阶段指标这部分反映了模型在训练集上的实时表现。train / loss训练损失含义模型预测值与真实标签之间的差距。分析曲线在 Step 16 之前较高且有波动随后大幅度下降并趋于平缓接近 0。这说明模型已经很好地拟合了训练数据。train / lr学习率含义优化算法更新权重时的步长。分析可以看到明显的Warmup预热过程。学习率在前 40 步左右线性上升达到峰值后按照余弦退火或其他策略缓慢下降。这有助于训练初期的稳定性。train / grad_norm梯度范数含义网络权重的梯度大小反映了模型更新的“幅度”。分析初期波动较大Step 31 左右有一个明显的尖峰随后变得非常平滑且数值较低。这通常意味着训练进入了稳定阶段没有出现梯度爆炸的情况。train / epoch轮次进度含义训练数据被完整遍历的次数。分析随 Step 线性增长。在 Step 211 左右训练大约进行了 3.2 个 Epoch。二、 Eval 标签页评估阶段指标这部分是模型在验证集或测试集上的表现用于衡量泛化能力。eval / loss验证损失含义模型在未见过的数据上的错误率。分析曲线从 0.5 左右稳步下降到 0.3 以下且趋势与 Train Loss 保持一致。这是一个非常好的信号说明模型没有产生严重的过拟合。eval / accuracy准确率含义分类正确的样本占总样本的比例。分析准确率从约 0.9 提升到了 0.95 以上说明模型在业务任务上的效果非常出色。eval / runtime评估耗时含义完成一次验证集评估所花费的总秒数。分析大约在 40 秒左右。eval / samples_per_sec steps_per_sec吞吐量含义每秒能处理的样本数和 Step 数。分析这两个指标用来监控推理效率。这里非常平稳每秒处理约 3 个样本说明计算环境如显存、IO没有出现瓶颈。1. Loss 到底是怎么计算出来的无论是train / loss还是eval / loss它们的数学本质是一样的区别在于数据来源和模型状态。Train Loss训练损失数据来源来自训练集Training Set。计算时机在每一个Step即一个 Batch/批次数据更新参数后立即计算。计算逻辑将一个 Batch 的数据输入模型得到预测值。计算预测值与真实标签的差值Loss。关键点这个 Loss 会用于反向传播Backpropagation来更新模型的权重参数。你在图表中看到的曲线通常是每个 Step 的 Loss 或者一个滑动平均值。Eval Loss验证损失数据来源来自验证集Validation Set模型在训练过程中从未“见过”的数据。计算时机通常在每个Epoch结束时或者每隔固定的 Step如你图中大约每 70 个 Step 执行一次计算一次。计算逻辑将模型切换到评估模式Evaluation Mode关闭 Dropout 等随机行为。将验证集的数据分批输入模型。计算 Loss但不进行反向传播也不更新参数。最终将验证集所有批次的 Loss 取平均值作为这一阶段的eval / loss。2. 模型训练 6 轮每一轮都是完整训练一遍吗是的。在机器学习的术语中这被称为一个Epoch轮次。1个 Epoch 模型“看过”并学习了训练集中所有的样本各一次。为了更清晰地理解我们可以看这个层级结构Sample样本单条数据。Batch批次由于显存限制我们不能一次性把几万条数据塞进 GPU所以分成小块比如一次 8 条。Step / Iteration步数/迭代每处理一个 Batch 并更新一次参数就叫 1 个 Step。Epoch轮次当所有的 Batch 都被处理完即完成了 1 个 Epoch。为什么通常要训练多个 Epoch如果只练 1 轮模型可能只是“走马观花”没能从复杂的数据分布中提取出深层规律。通过多轮训练模型可以反复强化在不同的随机打乱顺序下多次接触样本细化权重参数。寻找全局最优梯度下降是一个循序渐进的过程需要多次迭代才能走到 Loss 曲线的谷底。各个参数的具体含义 一、 模型结构与认知改造参数这一组参数决定了我们要对模型的“大脑”和“眼睛”动多大的手术。finetuning_type (微调类型)含义决定更新模型多少参数的方法。通常分为full全量微调和lora低秩微调。作用全量微调会改写大模型所有的几十亿参数极其消耗算力且在您只有 1200 条数据时会引发“灾难性遗忘”高中生学了看缺陷却忘了怎么说话。使用lora相当于在高中生的大脑旁边外挂了一个“专业笔记本”只在这个笔记本上记录缺陷知识既省算力又保住了原有的常识底座。freeze_vit (冻结视觉编码器)含义ViTVision Transformer是多模态大模型的“眼睛”负责提取图像特征。true表示锁定眼睛原有的看图方式false表示解冻让眼睛重新学习。作用预训练模型的眼睛是看猫狗、风景长大的。风机内窥镜里的“油污、点蚀”对它来说如同外星文字。解冻设为 false能强迫它的眼睛去适应工业级的光影和微观纹理。lora_rank / lora_alpha / lora_target (LoRA 核心三剑客)*含义lora_rank(秩)外挂“笔记本”的厚度容量。lora_alpha外挂知识对原本大脑输出结果的“话语权权重”。lora_target要把这些笔记本插在大脑的哪些神经元区域通常选all全方位覆盖注意力机制。作用lora_rank越大模型能记住的专业细节就越多但也更容易死记硬背。对于分类任务设定为32已经提供了足够的表达空间。 二、 学习节奏与步伐参数这一组参数决定了模型学习新知识的速度、看题的习惯以及复习的遍数。batch_size (批次大小)含义模型每看几张图片才进行一次反思和参数更新计算一次梯度下降。作用如果您设为 1模型看一张图就改一次规则方向极其跳跃容易被特例带偏设为 1200极值模型看完所有图才总结一次极其平稳但容易卡死在局部最优解。设为 16 是一个黄金平衡它既能让模型看到一小批图的共性又能保持一定的随机震荡来跳出思维局限。learning_rate (学习率)*含义每次参数更新时模型迈出的“步子大小”。作用把寻找最优模型比作“下山寻找最低谷”。步子太大如1e-2模型会直接跨过谷底在两边的半山腰反复横跳不收敛Loss 爆炸步子太小如1e-8下山太慢走到天黑也走不到谷底。在解冻 ViT 时底座很脆弱2e-5是一个安全且能稳步下山的步伐。n_epochs (训练轮数)含义把这 1224 张训练集图片从头到尾完整看几遍。作用看 1 遍可能没学会看 5 遍刚好掌握规律如果看 50 遍模型就会把哪张图右上角有个黑点这种毫无意义的噪点背景死记硬背下来。这就是过拟合。️ 三、 防守策略与平滑调度参数这一组参数是防止模型“走火入魔”过拟合、确保它能平稳降落的核心法宝。weight_decay (权重衰减 / L2 正则化)含义在模型计算的 Loss 中强行加入一个针对模型复杂度的惩罚项原理类似于 $L_{new} L_{original} \lambda \sum w^2$。作用这是防过拟合的最强护盾。模型本质上是个极其聪明的作弊者为了降低 Loss它倾向于搞出极其复杂的公式来完美匹配训练集。设置weight_decay 0.05就是拿鞭子抽它不许用太复杂的规则逼迫它去寻找最本质、最简单的分类特征比如真正去认“点蚀”的形状而不是记背景颜色。lr_scheduler_type (学习率调度策略)*含义在整个训练周期内如何动态调整步伐大小。通常选cosine余弦退火。作用初期下山时步子大一点没关系但快到谷底时如果还保持大步子就会走过头。cosine会让模型在最后阶段像飞机降落一样丝滑地把学习率降到接近于 0在谷底进行微米级的特征打磨。warmup_ratio (预热比例)含义在训练最开始的一小段时间比如前 10% 的步数让学习率从 0 慢慢爬升到设定的最大值2e-5。作用相当于运动员比赛前的热身拉伸。刚切换到风机内窥镜任务时梯度的冲击力极大如果没有预热直接用最大步伐强大的冲击力会瞬间摧毁预训练模型原本极其珍贵的视觉特征识别能力。⏱️ 四、 考试与存档参数max_length (最大上下文长度)含义模型在一次处理中能够容纳的图像 Token 和文字 Token 的总和上限。作用超过这个长度的文字会被直接截断砍掉。对于输出极短的分类任务2048已经完全可以装下高清图片的编码和一句简单的分类结果设得太大会白白浪费显存。eval_steps (验证步数)含义模型在训练集上每更新多少次参数Steps就停下来拿没见过的“验证集”进行一次期中考试。作用为您绘制出 Loss 曲线的“体检仪”。如果设得太长您可能发现不了模型在中间某个阶段已经开始过拟合了。save_strategy save_total_limit (保存策略)含义何时把模型的大脑切片Checkpoint保存到硬盘上以及最多保存几个。作用这就是您的“后悔药”和“时光机”。设为按epoch保存且保留所有轮次意味着无论模型后期怎么走火入魔您都能从硬盘里把它在第 3 轮验证集准确率最高、Loss 最低时的巅峰状态提取出来直接部署。

更多文章