UF-RL 项目架构说明

项目整体结构

uf-rl/
├── uf_data_process/ # 数据预处理
├── data_to_rl/ # 强化学习数据处理
├── env/ # 环境定义
├── longting/ # 龙亭配置
├── longting/ # 锡山配置
├── rl_model/ # 强化学习模型核心
│ ├── DQN/ # DQN算法实现
│ │ ├── dqn_model # dqn模型定义
│ │ ├── uf_train # 训练执行
│ │ └── uf_decide # 调用执行
│ │ │ └── test_online_datasets # 在线调用测试数据集

核心设计说明

rl_model 是整个项目的强化学习核心目录，存放各类强化学习算法的 agent 实现。

算法隔离设计

当前使用 DQN 算法，因此将训练和决策代码统一放在 DQN/ 目录下：

dqn_model - DQN 网络结构定义
uf_train - DQN 训练流程实现
uf_decide - DQN 在线决策调用

扩展性考虑

后续论文需要对比 PPO、SAC、A2C 等其他强化学习算法，目录结构设计考虑扩展性：

各算法的 uf_train.py 和 uf_decide.py 保持相同的对外接口，不同算法的训练和决策逻辑差异较大，分开存放便于维护