UF_RL项目架构说明.md 1.4 KB

UF-RL 项目架构说明

项目整体结构

  • uf-rl/
  • ├── uf_data_process/ # 数据预处理
  • ├── data_to_rl/ # 强化学习数据处理
  • ├── env/ # 环境定义
  • ├── longting/ # 龙亭配置
  • ├── longting/ # 锡山配置
  • ├── rl_model/ # 强化学习模型核心
  • │ ├── DQN/ # DQN算法实现
  • │ │ ├── dqn_model # dqn模型定义
  • │ │ ├── uf_train # 训练执行
  • │ │ └── uf_decide # 调用执行
  • │ │ │ └── test_online_datasets # 在线调用测试数据集

核心设计说明

rl_model 是整个项目的强化学习核心目录,存放各类强化学习算法的 agent 实现。

算法隔离设计

当前使用 DQN 算法,因此将训练和决策代码统一放在 DQN/ 目录下:

  • dqn_model - DQN 网络结构定义
  • uf_train - DQN 训练流程实现
  • uf_decide - DQN 在线决策调用

扩展性考虑

后续论文需要对比 PPO、SAC、A2C 等其他强化学习算法,目录结构设计考虑扩展性:

各算法的 uf_train.pyuf_decide.py 保持相同的对外接口,不同算法的训练和决策逻辑差异较大,分开存放便于维护