# ============================================================
# DQN 超参数配置
# ============================================================
# 神经网络参数
learning_rate: 0.0001           # 学习率 1e-4

# 经验回放参数
buffer_size: 100000              # 经验回放缓冲区大小
learning_starts: 10000           # 开始训练前收集的步数
batch_size: 32                   # 训练批次大小

# 强化学习参数
gamma: 0.95                      # 折扣因子
train_freq: 4                    # 训练频率（步数）

# 目标网络参数
target_update_interval: 1        # 目标网络更新间隔
tau: 0.005                       # 软更新系数

# 探索策略参数
exploration_initial_eps: 1.0     # 初始探索率
exploration_fraction: 0.3        # 探索率衰减比例
exploration_final_eps: 0.02      # 最终探索率

# 日志参数
remark: "uf_dqn_real_reset"      # 实验备注