泵异响项目

wmy 0986ef7bfa docs: 更新 README，增加双模配置说明与边云协同介绍		3 недель назад
.vscode	1ba497e368 feat: 训练显存策略优化 - GPU/NPU/CPU 自动选择，OOM 回退，验证集早停，音频质量预筛，阈值漂移监控	1 месяц назад
auto_training	33c6123101 更新	1 месяц назад
config	33c6123101 更新	1 месяц назад
core	33c6123101 更新	1 месяц назад
data	24de9b11cf init: 初始化项目提交	1 месяц назад
models	33c6123101 更新	1 месяц назад
predictor	33c6123101 更新	1 месяц назад
tool	33c6123101 更新	1 месяц назад
.gitignore	24de9b11cf init: 初始化项目提交	1 месяц назад
README.md	0986ef7bfa docs: 更新 README，增加双模配置说明与边云协同介绍	3 недель назад
requirements.txt	33c6123101 更新	1 месяц назад
run_pickup_monitor.py	24de9b11cf init: 初始化项目提交	1 месяц назад
run_with_auto_training.py	33c6123101 更新	1 месяц назад
start.sh	33c6123101 更新	1 месяц назад
泵异响模型瞬时故障逻辑优化.docx	1ba497e368 feat: 训练显存策略优化 - GPU/NPU/CPU 自动选择，OOM 回退，验证集早停，音频质量预筛，阈值漂移监控	1 месяц назад
瞬时异响方案.md	1ba497e368 feat: 训练显存策略优化 - GPU/NPU/CPU 自动选择，OOM 回退，验证集早停，音频质量预筛，阈值漂移监控	1 месяц назад

拾音器异响检测系统

水泵/设备异响实时检测系统。通过 RTSP 拾音器采集音频，基于 AutoEncoder 模型进行异常检测。

只需 3 步

第 1 步：配置水厂信息（只需做一次）

系统采用 双模配置设计：

测试/单机模式（优先读 YAML）：只要 config/rtsp_config.yaml 文件存在，系统强制读取它。修改该文件并执行 ./start.sh restart 即可在一张表、所有相关进程（推理、上传、同步）中全局生效。
生产/多机模式（回退读 DB）：如果重命名或移走 rtsp_config.yaml，系统会自动尝试读取 config/pickup_config.db，此时支持通过 :8080/api/config 接口进行在线热更新配置。

如果你想使用 DB 模式，需要先将 YAML 导入到 DB：

# 执行迁移脚本（默认每次都会先清空 DB 里的旧配置，保证状态最新）
python tool/migrate_yaml_to_db.py --yaml config/rtsp_config.yaml

导入完毕后，记得把 YAML 删掉或者改名。

导入后可检查 DB 信息：

python -c "
import sys; sys.path.insert(0,'.')
from config.config_manager import ConfigManager
mgr = ConfigManager()
cfg = mgr.get_full_config()
for p in cfg['plants']:
    print(f\"水厂: {p['name']} (project_id={p['project_id']}, enabled={p['enabled']})\")
    for s in p.get('rtsp_streams', []):
        print(f\"  设备: {s['device_code']} | {s['name']} | model={s.get('model_subdir','')} | url={s['url'][:50]}...\")
mgr.close()
"

第 2 步：训练模型

python auto_training/standalone_train.py --data-dir /你的音频数据目录

就这一条命令。 训练结果自动保存到 models/{设备编码}/ 目录。

数据目录要求：

你的音频数据目录/
├── LT-2/          ← 子文件夹名 = 设备编码（与 DB 中 device_code 一致）
│   ├── xxx.wav
│   └── 2025-01-01/
│       └── yyy.wav
└── LT-5/
    └── ...

可选参数：

--devices LT-2 LT-5    # 只训练指定设备
--epochs 100            # 训练轮数
--lr 0.00005            # 学习率

第 3 步：启动运行

./start.sh              # 前台运行（调试用）
./start.sh -d           # 后台运行（主推理、自动模型训练等全部托管）
./start.sh stop         # 一键停止（含所有辅助进程）
./start.sh restart      # 重启
./start.sh status       # 查看所有关联进程状态

注：./start.sh 会自动检测配置中是否启用了边云协同（cloud_sync / model_sync），如果是，则会自动拉起数据上传 (run_upload_worker.py) 和模型同步 (run_model_sync.py) 等辅助进程，不需要手动分开管理。

模型更新（后期维护）

方式	操作
自动热加载	替换 `models/{设备编码}/` 下的文件，60 秒内自动生效
API 上传	`curl -X POST http://IP:8080/api/model/upload/LT-2 -F "model_file=@ae_model.pth"`
API 触发重载	`curl -X POST http://IP:8080/api/model/reload/LT-2`
查看状态	`curl http://IP:8080/api/model/status`

配置管理 API

系统启动后在 :8080 自动提供，支持 Web 端实时修改配置。

接口	方法	说明
`/api/config`	GET	获取全量配置
`/api/config/plants`	GET/POST	水厂列表 / 创建
`/api/config/plants/{id}`	GET/PUT/DELETE	单个水厂 CRUD
`/api/config/streams`	GET/POST	RTSP 流列表 / 创建
`/api/config/streams/{id}`	PUT/DELETE	单个流更新 / 删除
`/api/config/{section}`	GET/PUT	系统配置读写（audio/prediction/push 等）
`/api/model/status`	GET	模型加载状态
`/api/model/reload/{code}`	POST	重载指定设备模型
`/api/model/reload-all`	POST	重载所有模型
`/api/model/upload/{code}`	POST	上传模型文件并自动重载

可热更新（30 秒自动生效）：推送开关、告警阈值、投票参数、人体检测开关等。

需重启生效：新增/删除 RTSP 流、修改采样率。

边云协同架构 (Edge-Cloud)

为支持多水厂、大规模设备的高效集约化管理，系统内置了完善的“边云协同”机制。云端服务位于 cloud_server/（基于 FastAPI）。在边缘端（一体机）开启协同后，将形成如下三进程架构（统一被 ./start.sh 所管理）：

主监控进程 (run_with_auto_training.py + run_pickup_monitor.py) 负责 RTSP 拉流、异常检测及本地冷启动训练。检测到异常时，将相关上下文生成任务写入本地队列。
异步上传 Worker (run_upload_worker.py) 开关：cloud_sync.enabled = true 通过监控本地队列（data/upload_queue/），将正常的音频抽样和异常事件音频进行高压转码（转为 FLAC 格式，体积小50%）并异步推送到云端服务，彻底解耦网络延迟对主推理环的阻塞。
模型同步客户端 (run_model_sync.py) 开关：model_sync.enabled = true 定时长轮询云端的 manifest.json，发现新版本后自动下载压缩包、比对 SHA256，然后安全原子替换到边缘机，并通知主监控进程进行亚秒级的模型热重载。

技术架构

音频处理流水线

RTSP 拾音器 ──FFmpeg──> 8秒WAV切片 ──librosa──> Mel频谱图 ──AutoEncoder──> 重建误差 ──汇总──> 1分钟上报
                         │                    [1,1,64,504]     推理            │
                         │                                                     │
                    data/audio/{设备}/current/                    每分钟取平均 abnormal_score

8 秒：模型推理的最小单元。FFmpeg 按 8 秒切片产出 WAV，每个文件对应一个 Mel 频谱图输入
1 分钟：业务上报周期。汇总该分钟内所有 8 秒片段的平均重建误差作为 abnormal_score
滑动窗口投票：5 次中 >= 3 次异常才判定为异常，避免单次毛刺误报

模型架构

4 层卷积自编码器（ConvAutoencoder），参数量 ~49K，权重文件 ~192KB：

组件	结构	维度变化
编码器	4×Conv2d(stride=2)+BN+ReLU	[B,1,64,504] → [B,64,4,32]
解码器	4×ConvTranspose2d(stride=2)+BN+ReLU	[B,64,4,32] → [B,1,64,504]

异常检测原理：正常音频重建误差低，异常音频重建误差高于阈值（3σ 法则）。

NPU 推理

系统支持在 BM1684X NPU 上执行推理（通过 sophon.sail.Engine），模型转换流程：

ae_model.pth ──torch.onnx.export──> ae_model.onnx ──TPU-MLIR──> ae_model.bmodel

# 导出 ONNX + 生成 BModel（需 TPU-MLIR 环境）
python tool/convert_to_bmodel.py --all --with-bmodel --quantize fp16

当 models/{设备}/ae_model.bmodel 存在且 sophon.sail 可用时，推理引擎自动切换到 NPU。

模型训练方案

系统支持三种训练模式，按项目阶段选择：

模式	命令	适用场景
本地离线训练（推荐）	`python auto_training/standalone_train.py --data-dir /数据目录`	初期部署，水厂少，快速落地
NPU 端自训练	`python run_with_auto_training.py`（定时 02:00 触发）	边缘盒子 CPU 资源充足时
云端训练+下发	需额外开发数据上传和模型下发模块	规模化阶段（>3 个水厂）

训练参数（config/auto_training.yaml）：

参数	默认值	说明
epochs	30	训练轮数（配合早停，实际通常更少）
learning_rate	0.0001	学习率
batch_size	32	批大小
early_stop_patience	5	连续 N 轮无改善则早停
training_device	auto	auto/cpu/cuda，auto 自动检测 GPU 显存
min_samples	50	最少样本数，不足则跳过训练

安全机制：

训练前自动备份模型（保留 7 份）
新旧模型误差对比，退化超 2 倍自动回滚
音频质量预筛（IQR 离群值过滤）
验证集早停防过拟合

详细方案对比见 docs/NPU自编码器模型训练方案.docx

多水厂部署

每个水厂独立部署一个实例，各自拥有独立的 pickup_config.db。

服务器A: deploy_pickup/ + pickup_config.db(锡山) + models/(锡山设备模型)
服务器B: deploy_pickup/ + pickup_config.db(龙亭) + models/(龙亭设备模型)

项目结构

deploy_pickup/
├── run_pickup_monitor.py      # 主入口（采集 + 检测 + 推送）
├── start.sh                   # 启动/停止/重启脚本
├── requirements.txt
│
├── config/                    # 配置
│   ├── pickup_config.db       #   运行时配置数据库
│   ├── config_manager.py      #   配置读写
│   ├── config_api.py          #   REST API（:8080）
│   ├── db_models.py           #   表定义
│   └── auto_training.yaml     #   训练参数
│
├── predictor/                 # 推理
│   ├── model_def.py           #   ConvAutoencoder（base_ch=8, ~49K参数）
│   ├── multi_model_predictor.py   #   多设备模型管理 + 热加载
│   ├── config.py / datasets.py / utils.py
│
├── core/                      # 运行时辅助
│   ├── alert_aggregator.py    #   跨设备告警聚合
│   ├── anomaly_classifier.py  #   异常类型分类
│   ├── pump_state_monitor.py  #   泵状态 PLC 查询
│   ├── energy_baseline.py     #   泵启停判断
│   └── human_detection_reader.py  #   人体检测抑制
│
├── auto_training/             # 训练（可独立运行）
│   ├── standalone_train.py    #   ← 训练入口（就用这个）
│   ├── incremental_trainer.py #   训练器核心
│   └── data_cleanup.py        #   过期音频/日志清理（可选，手动运行）
│
├── models/{设备编码}/          # 模型（训练自动产出）
├── tool/migrate_yaml_to_db.py # YAML → DB 迁移
└── data/                      # 运行时音频

README.md