| 1234567891011121314151617181920212223242526 |
- # ============================================================
- # DQN 超参数配置
- # ============================================================
- # 神经网络参数
- learning_rate: 0.0001 # 学习率 1e-4
- # 经验回放参数
- buffer_size: 100000 # 经验回放缓冲区大小
- learning_starts: 10000 # 开始训练前收集的步数
- batch_size: 32 # 训练批次大小
- # 强化学习参数
- gamma: 0.95 # 折扣因子
- train_freq: 4 # 训练频率(步数)
- # 目标网络参数
- target_update_interval: 1 # 目标网络更新间隔
- tau: 0.005 # 软更新系数
- # 探索策略参数
- exploration_initial_eps: 1.0 # 初始探索率
- exploration_fraction: 0.3 # 探索率衰减比例
- exploration_final_eps: 0.02 # 最终探索率
- # 日志参数
- remark: "uf_dqn_real_reset" # 实验备注
|