瀏覽代碼

更新模型训练/调用架构说明md

junc_WHU 1 月之前
父節點
當前提交
ca60aef51f

+ 32 - 0
models/uf-rl/UF_RL项目架构说明.md

@@ -0,0 +1,32 @@
+# UF-RL 项目架构说明
+
+## 项目整体结构
+* uf-rl/
+* ├── uf_data_process/             # 数据预处理
+* ├── data_to_rl/                  # 强化学习数据处理
+* ├── env/                         # 环境定义
+* ├── longting/                    # 龙亭配置
+* ├── longting/                    # 锡山配置
+* ├── rl_model/                    # 强化学习模型核心
+* │   ├── DQN/                     # DQN算法实现
+* │   │   ├── dqn_model         # dqn模型定义
+* │   │   ├── uf_train          # 训练执行
+* │   │   └── uf_decide         # 调用执行
+* │   │   │   └── test_online_datasets    # 在线调用测试数据集
+
+
+## 核心设计说明
+
+`rl_model` 是整个项目的强化学习核心目录,存放各类强化学习算法的 agent 实现。
+
+### 算法隔离设计
+当前使用 **DQN 算法**,因此将训练和决策代码统一放在 `DQN/` 目录下:
+
+- `dqn_model` - DQN 网络结构定义
+- `uf_train`   - DQN 训练流程实现  
+- `uf_decide`  - DQN 在线决策调用
+
+### 扩展性考虑
+后续论文需要对比 **PPO、SAC、A2C** 等其他强化学习算法,目录结构设计考虑扩展性: 
+
+各算法的 `uf_train.py` 和 `uf_decide.py` 保持相同的对外接口,不同算法的训练和决策逻辑差异较大,分开存放便于维护

+ 0 - 0
models/uf-rl/rl_model/DQN/test_online_datasets/UF1_init_cycle.csv → models/uf-rl/rl_model/DQN/uf_decide/test_online_datasets/UF1_init_cycle.csv


+ 0 - 0
models/uf-rl/rl_model/DQN/test_online_datasets/UF1_prev_cycle.csv → models/uf-rl/rl_model/DQN/uf_decide/test_online_datasets/UF1_prev_cycle.csv