- 第零步,设置config.py文件参数:
- 需要修改水厂id,指定数据库表名称和后缀(day/hour/minutes),修改时间范围等关键参数,看TODO
- 第一步,获取水厂所有的字段:
- 运行get_all_items.py,生成all_items.csv,记录了数据库中字段名称和编码,同时生成了名称编码转换词典,all_items_name_code_transfer.json
- 第二步,统计数据库数据情况:
- 运行get_items_distribution_from_database.py,生成统计数据statistics.csv,记录了每个字段的数据点数,可以根据这份统计文件修改config的MIN_RECORDS参数
- 第三步,为所有字段计算皮尔逊结果:
- 运行pearsonr.py,开始计算全字段皮尔逊系数,计算过程中已经考虑了显著性p值,仅保留显著性结果,pearsonr_mat.pkl为皮尔逊矩阵,ws_data_dc_item_history_data_hour.pkl为历史数据
- 第四步,热力图可视化
- 运行show.py
- 第五步,挑选相关的变量进行回归分析
|