auto_training.yaml 2.0 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849
  1. # 自动增量训练配置
  2. auto_training:
  3. # 总开关
  4. enabled: false # 暂时关闭自动增训
  5. # 数据管理
  6. data:
  7. keep_normal_days: 7 # 正常音频保留天数
  8. keep_anomaly_days: -1 # 异常音频保留天数(-1=永久)
  9. cleanup_time: "00:00" # 每日清理时间(0点)
  10. # 增量训练配置
  11. incremental:
  12. enabled: true
  13. schedule_time: "02:00" # 每日训练时间
  14. # 数据采样
  15. use_days_ago: 1 # 使用N天前的数据(1=昨天)
  16. sample_hours: 1 # 随机采样时长(小时),0=使用全部
  17. min_samples: 50 # 最少样本数,不足则跳过
  18. # 训练参数(低配服务器优化)
  19. epochs: 30 # 训练轮数(配合早停,实际通常更少)
  20. learning_rate: 0.0001 # 学习率
  21. batch_size: 32 # 批大小(降低显存占用)
  22. early_stop_patience: 5 # 早停耐心值:连续N轮loss无改善则停止
  23. training_device: cpu # 训练设备选择:auto(自动检测GPU显存)/cpu/cuda
  24. # 低配服务器推荐 cpu,模型小(~192KB) CPU训练30epoch耗时可接受
  25. min_gpu_mem_mb: 512 # auto模式下,GPU空闲显存低于此值(MB)时回退CPU
  26. # 模型管理
  27. model:
  28. backup_before_train: true # 训练前备份
  29. keep_backups: 7 # 保留备份数量
  30. auto_deploy: true # 自动部署新模型
  31. update_thresholds: true # 训练后更新阈值npy
  32. rollback_on_degradation: true # 训练后损失异常时自动回滚到备份
  33. rollback_factor: 2.0 # 新模型损失 > 旧阈值 * 此因子 则判定为退化
  34. # 验证配置
  35. validation:
  36. enabled: true
  37. # 冷启动配置(新水厂无模型时)
  38. cold_start:
  39. enabled: true
  40. wait_hours: 2 # 等待收集数据时长
  41. min_samples: 100 # 最少样本数