пре 3 недеља · 0986ef7bfa
--- a/README.md
+++ b/README.md
@@ -8,13 +8,16 @@
 
															 ### 第 1 步：配置水厂信息（只需做一次）
														
 
															-```bash
														
 
															-# 方式一：从已有 YAML 导入（推荐首次部署）
														
 
															-python tool/migrate_yaml_to_db.py --yaml 你的配置.yaml --force
														
 
															+系统采用 **双模配置设计**：
														
 
															+- **测试/单机模式（优先读 YAML）**：只要 `config/rtsp_config.yaml` 文件存在，系统**强制读取它**。修改该文件并执行 `./start.sh restart` 即可在一张表、所有相关进程（推理、上传、同步）中全局生效。
														
 
															+- **生产/多机模式（回退读 DB）**：如果重命名或移走 `rtsp_config.yaml`，系统会自动尝试读取 `config/pickup_config.db`，此时支持通过 `:8080/api/config` 接口进行在线热更新配置。
														
 
															-# 方式二：通过 API 配置（系统运行后）
														
 
															-# 见下方「配置管理 API」章节
														
 
															+**如果你想使用 DB 模式**，需要先将 YAML 导入到 DB：
														
 
															+```bash
														
 
															+# 执行迁移脚本（默认每次都会先清空 DB 里的旧配置，保证状态最新）
														
 
															+python tool/migrate_yaml_to_db.py --yaml config/rtsp_config.yaml
														
 
															 ```
														
 
															+导入完毕后，记得把 YAML 删掉或者改名。
														
 
															 导入后可检查 DB 信息：
														
 
															 ```bash
														
@@ -61,12 +64,14 @@ python auto_training/standalone_train.py --data-dir /你的音频数据目录
 
															 ```bash
														
 
															 ./start.sh              # 前台运行（调试用）
														
 
															-./start.sh -d           # 后台运行（生产用）
														
 
															-./start.sh stop         # 停止
														
 
															+./start.sh -d           # 后台运行（主推理、自动模型训练等全部托管）
														
 
															+./start.sh stop         # 一键停止（含所有辅助进程）
														
 
															 ./start.sh restart      # 重启
														
 
															-./start.sh status       # 查看状态
														
 
															+./start.sh status       # 查看所有关联进程状态
														
 
															 ```
														
 
															+> **注**：`./start.sh` 会自动检测配置中是否启用了边云协同（`cloud_sync` / `model_sync`），如果是，则会自动拉起数据上传 (`run_upload_worker.py`) 和模型同步 (`run_model_sync.py`) 等辅助进程，不需要手动分开管理。
														
 
															+
														
 
															 ---
														
 
															 ## 模型更新（后期维护）
														
@@ -101,6 +106,93 @@ python auto_training/standalone_train.py --data-dir /你的音频数据目录
 
															 ---
														
 
															+## 边云协同架构 (Edge-Cloud)
														
 
															+
														
 
															+为支持多水厂、大规模设备的高效集约化管理，系统内置了完善的“边云协同”机制。云端服务位于 `cloud_server/`（基于 FastAPI）。在边缘端（一体机）开启协同后，将形成如下三进程架构（统一被 `./start.sh` 所管理）：
														
 
															+
														
 
															+1. **主监控进程 (`run_with_auto_training.py` + `run_pickup_monitor.py`)**
														
 
															+   负责 RTSP 拉流、异常检测及本地冷启动训练。检测到异常时，将相关上下文生成任务写入本地队列。
														
 
															+2. **异步上传 Worker (`run_upload_worker.py`)**
														
 
															+   开关：`cloud_sync.enabled = true`
														
 
															+   通过监控本地队列（`data/upload_queue/`），将正常的音频抽样和异常事件音频进行高压转码（转为 FLAC 格式，体积小50%）并异步推送到云端服务，彻底解耦网络延迟对主推理环的阻塞。
														
 
															+3. **模型同步客户端 (`run_model_sync.py`)**
														
 
															+   开关：`model_sync.enabled = true`
														
 
															+   定时长轮询云端的 `manifest.json`，发现新版本后自动下载压缩包、比对 SHA256，然后安全原子替换到边缘机，并通知主监控进程进行亚秒级的模型热重载。
														
 
															+
														
 
															+---
														
 
															+
														
 
															+## 技术架构
														
 
															+
														
 
															+### 音频处理流水线
														
 
															+
														
 
															+```
														
 
															+RTSP 拾音器 ──FFmpeg──> 8秒WAV切片 ──librosa──> Mel频谱图 ──AutoEncoder──> 重建误差 ──汇总──> 1分钟上报
														
 
															+                         │                    [1,1,64,504]     推理            │
														
 
															+                         │                                                     │
														
 
															+                    data/audio/{设备}/current/                    每分钟取平均 abnormal_score
														
 
															+```
														
 
															+
														
 
															+- **8 秒**：模型推理的最小单元。FFmpeg 按 8 秒切片产出 WAV，每个文件对应一个 Mel 频谱图输入
														
 
															+- **1 分钟**：业务上报周期。汇总该分钟内所有 8 秒片段的平均重建误差作为 `abnormal_score`
														
 
															+- **滑动窗口投票**：5 次中 >= 3 次异常才判定为异常，避免单次毛刺误报
														
 
															+
														
 
															+### 模型架构
														
 
															+
														
 
															+4 层卷积自编码器（ConvAutoencoder），参数量 ~49K，权重文件 ~192KB：
														
 
															+
														
 
															+| 组件 | 结构 | 维度变化 |
														
 
															+|------|------|---------|
														
 
															+| 编码器 | 4×Conv2d(stride=2)+BN+ReLU | [B,1,64,504] → [B,64,4,32] |
														
 
															+| 解码器 | 4×ConvTranspose2d(stride=2)+BN+ReLU | [B,64,4,32] → [B,1,64,504] |
														
 
															+
														
 
															+异常检测原理：正常音频重建误差低，异常音频重建误差高于阈值（3σ 法则）。
														
 
															+
														
 
															+### NPU 推理
														
 
															+
														
 
															+系统支持在 BM1684X NPU 上执行推理（通过 sophon.sail.Engine），模型转换流程：
														
 
															+
														
 
															+```
														
 
															+ae_model.pth ──torch.onnx.export──> ae_model.onnx ──TPU-MLIR──> ae_model.bmodel
														
 
															+```
														
 
															+
														
 
															+```bash
														
 
															+# 导出 ONNX + 生成 BModel（需 TPU-MLIR 环境）
														
 
															+python tool/convert_to_bmodel.py --all --with-bmodel --quantize fp16
														
 
															+```
														
 
															+
														
 
															+当 `models/{设备}/ae_model.bmodel` 存在且 `sophon.sail` 可用时，推理引擎自动切换到 NPU。
														
 
															+
														
 
															+### 模型训练方案
														
 
															+
														
 
															+系统支持三种训练模式，按项目阶段选择：
														
 
															+
														
 
															+| 模式 | 命令 | 适用场景 |
														
 
															+|------|------|---------|
														
 
															+| **本地离线训练**（推荐） | `python auto_training/standalone_train.py --data-dir /数据目录` | 初期部署，水厂少，快速落地 |
														
 
															+| **NPU 端自训练** | `python run_with_auto_training.py`（定时 02:00 触发） | 边缘盒子 CPU 资源充足时 |
														
 
															+| **云端训练+下发** | 需额外开发数据上传和模型下发模块 | 规模化阶段（>3 个水厂） |
														
 
															+
														
 
															+**训练参数**（`config/auto_training.yaml`）：
														
 
															+
														
 
															+| 参数 | 默认值 | 说明 |
														
 
															+|------|--------|------|
														
 
															+| epochs | 30 | 训练轮数（配合早停，实际通常更少） |
														
 
															+| learning_rate | 0.0001 | 学习率 |
														
 
															+| batch_size | 32 | 批大小 |
														
 
															+| early_stop_patience | 5 | 连续 N 轮无改善则早停 |
														
 
															+| training_device | auto | auto/cpu/cuda，auto 自动检测 GPU 显存 |
														
 
															+| min_samples | 50 | 最少样本数，不足则跳过训练 |
														
 
															+
														
 
															+**安全机制**：
														
 
															+- 训练前自动备份模型（保留 7 份）
														
 
															+- 新旧模型误差对比，退化超 2 倍自动回滚
														
 
															+- 音频质量预筛（IQR 离群值过滤）
														
 
															+- 验证集早停防过拟合
														
 
															+
														
 
															+> 详细方案对比见 `docs/NPU自编码器模型训练方案.docx`
														
 
															+
														
 
															+---
														
 
															+
														
 
															 ## 多水厂部署
														
 
															 每个水厂独立部署一个实例，各自拥有独立的 `pickup_config.db`。
														
@@ -126,7 +218,7 @@ deploy_pickup/
 
															 │   └── auto_training.yaml     #   训练参数
														
 
															 │
														
 
															 ├── predictor/                 # 推理
														
 
															-│   ├── model_def.py           #   ConvAutoencoder（base_ch=16）
														
 
															+│   ├── model_def.py           #   ConvAutoencoder（base_ch=8, ~49K参数）
														
 
															 │   ├── multi_model_predictor.py   #   多设备模型管理 + 热加载
														
 
															 │   ├── config.py / datasets.py / utils.py
														
 
															 │
														
@@ -146,15 +238,3 @@ deploy_pickup/
 
															 ├── tool/migrate_yaml_to_db.py # YAML → DB 迁移
														
 
															 └── data/                      # 运行时音频
														
 
															 ```
														
 
															-# 启用 NPU 推理步骤
														
 
															-# 未来在 BM1684X 服务器上启用时：
														
 
															-# 1. 导出 ONNX
														
 
															-# python tool/convert_to_bmodel.py --all
														
 
															-# 2. 安装 TPU-MLIR 后生成 BModel
														
 
															-# python tool/convert_to_bmodel.py --all --with-bmodel --quantize fp16
														
 
															-# 3. 取消 multi_model_predictor.py 中的注释
														
 
															-#    - import BM1684XEngine, is_bm1684x_available
														
 
															-#    - self.bm_engine = self._load_bmodel()
														
 
															-#    - _load_bmodel() 方法
														
 
															-# 4. 修改 _compute_reconstruction_error() 中
														
 
															-#    判断 device_predictor.bm_engine 是否存在，优先调用 NPU 推理