# ============================================================ # DQN 超参数配置 # ============================================================ # 神经网络参数 learning_rate: 0.0001 # 学习率 1e-4 # 经验回放参数 buffer_size: 100000 # 经验回放缓冲区大小 learning_starts: 10000 # 开始训练前收集的步数 batch_size: 32 # 训练批次大小 # 强化学习参数 gamma: 0.95 # 折扣因子 train_freq: 4 # 训练频率(步数) # 目标网络参数 target_update_interval: 1 # 目标网络更新间隔 tau: 0.005 # 软更新系数 # 探索策略参数 exploration_initial_eps: 1.0 # 初始探索率 exploration_fraction: 0.3 # 探索率衰减比例 exploration_final_eps: 0.02 # 最终探索率 # 日志参数 remark: "uf_dqn_real_reset" # 实验备注