UF-RL 项目架构说明
项目整体结构
- uf-rl/
- ├── uf_data_process/ # 数据预处理
- ├── data_to_rl/ # 强化学习数据处理
- ├── env/ # 环境定义
- ├── longting/ # 龙亭配置
- ├── longting/ # 锡山配置
- ├── rl_model/ # 强化学习模型核心
- │ ├── DQN/ # DQN算法实现
- │ │ ├── dqn_model # dqn模型定义
- │ │ ├── uf_train # 训练执行
- │ │ └── uf_decide # 调用执行
- │ │ │ └── test_online_datasets # 在线调用测试数据集
核心设计说明
rl_model 是整个项目的强化学习核心目录,存放各类强化学习算法的 agent 实现。
算法隔离设计
当前使用 DQN 算法,因此将训练和决策代码统一放在 DQN/ 目录下:
dqn_model - DQN 网络结构定义
uf_train - DQN 训练流程实现
uf_decide - DQN 在线决策调用
扩展性考虑
后续论文需要对比 PPO、SAC、A2C 等其他强化学习算法,目录结构设计考虑扩展性:
各算法的 uf_train.py 和 uf_decide.py 保持相同的对外接口,不同算法的训练和决策逻辑差异较大,分开存放便于维护