# UF-RL 项目架构说明 ## 项目整体结构 * uf-rl/ * ├── uf_data_process/ # 数据预处理 * ├── data_to_rl/ # 强化学习数据处理 * ├── env/ # 环境定义 * ├── longting/ # 龙亭配置 * ├── longting/ # 锡山配置 * ├── rl_model/ # 强化学习模型核心 * │ ├── DQN/ # DQN算法实现 * │ │ ├── dqn_model # dqn模型定义 * │ │ ├── uf_train # 训练执行 * │ │ └── uf_decide # 调用执行 * │ │ │ └── test_online_datasets # 在线调用测试数据集 ## 核心设计说明 `rl_model` 是整个项目的强化学习核心目录,存放各类强化学习算法的 agent 实现。 ### 算法隔离设计 当前使用 **DQN 算法**,因此将训练和决策代码统一放在 `DQN/` 目录下: - `dqn_model` - DQN 网络结构定义 - `uf_train` - DQN 训练流程实现 - `uf_decide` - DQN 在线决策调用 ### 扩展性考虑 后续论文需要对比 **PPO、SAC、A2C** 等其他强化学习算法,目录结构设计考虑扩展性: 各算法的 `uf_train.py` 和 `uf_decide.py` 保持相同的对外接口,不同算法的训练和决策逻辑差异较大,分开存放便于维护