пре 3 месеци · 6b12b590ad
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,9 @@
 
															+.idea/
														
 
															+__pycache__/
														
 
															+*.pyc
														
 
															+*.xlsx
														
 
															+*.txt
														
 
															+*.pkl
														
 
															+*.csv
														
 
															+*.png
														
 
															+*.json
														
--- a/Analysis/pearsonr.py
+++ b/Analysis/pearsonr.py
@@ -0,0 +1,407 @@
 
															+import csv

														
 
															+import sys

														
 
															+

														
 
															+sys.path.append("..")

														
 
															+import os

														
 
															+import pandas as pd

														
 
															+import config

														
 
															+from Database.database_ import Database, DatabaseParam

														
 
															+import json

														
 
															+from scipy import stats

														
 
															+import numpy as np

														
 
															+import pickle

														
 
															+from utils.tools import cal_vari_without_zero_nan, cal_vari_without_nan, df_is_symetry, quick_sort, load_transfer_file_name_code

														
 
															+

														
 
															+class DFMat:

														
 
															+    """输入字段，实现从数据库中获取全部数据，核心的属性是pandas.Dataframe,融合了所有字段的数据,从数据库拿完数据后需要进行数据的清洗和预处理"""

														
 
															+    def __init__(self, keys_file_dir: str, min_records:int, db_param: DatabaseParam, transfer_file_dir:str, is_from_local:bool=True):

														
 
															+        self.bad_keys = config.EXCLUDE_WORDS

														
 
															+        self.keys_file_dir = keys_file_dir

														
 
															+        self.min_records = min_records

														
 
															+        self.keys = self.load_keys()  # 升序排序

														
 
															+        self.db_param = db_param

														
 
															+        self.transfer_file_dir = transfer_file_dir

														
 
															+        self.name_2code_dict, self.code_2name_dict = self.load_transfer_file()  # 转换字典

														
 
															+        self.diff_words = config.DIFF_WORDS  # 需要差分计算的字段，如果字段中包括这些字段就进行差分平稳化

														
 
															+        self.is_from_local = is_from_local

														
 
															+        # 本地保存数据库数据，避免重复查询

														
 
															+        self.local_df_merge_path = config.DF_MERGE_FILE_PATH

														
 
															+        self.df_merge = self.__construct()  # 构建数据部分，初始化时完成

														
 
															+

														
 
															+    def load_keys(self):

														
 
															+        keys_list = []

														
 
															+        with open(self.keys_file_dir, "r", encoding="utf-8") as f:

														
 
															+            csv_reader = csv.reader(f)

														
 
															+            try:

														
 
															+                label = next(csv_reader)

														
 
															+            except StopIteration:

														
 
															+                print('文件不存在：', self.keys_file_dir)

														
 
															+            for row in csv_reader:

														
 
															+                records_num = int(row[6])

														
 
															+                records_name = row[0]

														
 
															+                if records_num < self.min_records: continue

														
 
															+                keys_list.append(records_name)

														
 
															+        # 升序排序

														
 
															+        keys_list = sorted(keys_list)

														
 
															+        # 剔除列表不需要的字段

														
 
															+        keys_list = self.exclude_keys(keys_list)

														
 
															+        return keys_list  # 升序排列

														
 
															+

														
 
															+    def exclude_keys(self, keys_list:list):

														
 
															+        """根据剔除列表对键入的字段进行剔除"""

														
 
															+        new_keys = []

														
 
															+        for name in keys_list:

														
 
															+            flag = False

														
 
															+            for bad_key in self.bad_keys:

														
 
															+                if bad_key in name:

														
 
															+                    flag = True

														
 
															+                    break

														
 
															+            if flag: continue

														
 
															+            new_keys.append(name)

														
 
															+        return new_keys

														
 
															+

														
 
															+    def load_transfer_file(self):

														
 
															+        """加载转换文件"""

														
 
															+        path = self.transfer_file_dir

														
 
															+        return load_transfer_file_name_code(path)

														
 
															+        # if not os.path.exists(self.transfer_file_dir):

														
 
															+        #     raise FileNotFoundError('文件未发现:', self.transfer_file_dir)

														
 
															+        # with open(self.transfer_file_dir, "r", encoding="utf-8") as f:

														
 
															+        #     json_data = json.load(f)

														
 
															+        # return json_data.get('name_2_code'), json_data.get('code_2_name')

														
 
															+

														
 
															+    def save_df_merge(self, data:pd.DataFrame):

														
 
															+        """保存文件到本地"""

														
 
															+        with open(self.local_df_merge_path, 'wb') as f:

														
 
															+            pickle.dump(data, f, protocol=pickle.HIGHEST_PROTOCOL)

														
 
															+        print(f'mat_shape:{data.shape}，文件保存至：', self.local_df_merge_path)

														
 
															+

														
 
															+    def load_from_local(self) -> pd.DataFrame:

														
 
															+        """从本地加载数据"""

														
 
															+        with open(self.local_df_merge_path, 'rb') as f:

														
 
															+            local_data = pickle.load(f)

														
 
															+        return local_data

														
 
															+

														
 
															+    def normalize(self, data:pd.DataFrame)-> pd.DataFrame:

														
 
															+        """对数据进行归一化，消除量纲影响"""

														
 
															+        # 皮尔逊系数的计算不需要

														
 
															+        pass

														
 
															+

														
 
															+    @staticmethod

														
 
															+    def diff_tool(data: pd.Series):

														
 
															+        """用于计算累计量的差分,单调递增"""

														
 
															+        data = data.copy()

														
 
															+        # 0值替换为Nan

														
 
															+        data.replace([np.inf, -np.inf, 0], np.nan, inplace=True)

														
 
															+        data = data.diff()

														
 
															+        # 检查负值，替换为nan

														
 
															+        data[data < 0] = np.nan

														
 
															+        data[0] = data.mean()

														
 
															+        # 将nan向前填充

														
 
															+        data.ffill(inplace=True)

														
 
															+        return data

														
 
															+

														
 
															+    def stabilize(self, data:pd.DataFrame)-> pd.DataFrame:

														
 
															+        """数据差分使数据平稳化"""

														
 
															+        if len(self.diff_words) == 0: return data

														
 
															+

														
 
															+        # 获取所有列标签, 仅保留需要做差分的字段

														
 
															+        col_label_list = data.columns.tolist()

														
 
															+        # 剔除时间戳字段

														
 
															+        if 'time' in col_label_list:

														
 
															+            col_label_list.remove('time')

														
 
															+        # 查找需要平稳化的字段

														
 
															+        diff_label_list = set()

														
 
															+        for col in col_label_list:

														
 
															+            name = self.code_2name_dict[col]

														
 
															+            for dword in self.diff_words:

														
 
															+                if dword in name:

														
 
															+                    diff_label_list.add(col)

														
 
															+        diff_label_list = list(diff_label_list)

														
 
															+

														
 
															+        for col in diff_label_list:

														
 
															+            data.loc[:, col] = self.diff_tool(data.loc[:, col])

														
 
															+

														
 
															+        return data

														
 
															+

														
 
															+    @staticmethod

														
 
															+    def remove_outliers(data:pd.Series, fill_value=0, times:int=1)-> pd.Series:

														
 
															+        """剔除序列的离群点，使用fill_value进行填充"""

														
 
															+        data = data.copy(deep=True)

														
 
															+        for time in range(abs(times)): # 执行times次

														
 
															+            # 计算均值和方差

														
 
															+            mean, std_dev = cal_vari_without_nan(data)

														
 
															+            fill_value = mean

														
 
															+            threshold = 3 * std_dev

														
 
															+            limit_top = mean + threshold

														
 
															+            limit_low = mean - threshold

														
 
															+            # 处理离群点

														
 
															+            mask = data.notna() & (data != 0) & ((data < limit_low) | (data > limit_top))

														
 
															+            # 离群点填充

														
 
															+            data.loc[mask] = fill_value

														
 
															+            # for idx, v in enumerate(data):

														
 
															+            #     if pd.isna(v) or abs(v - 0.) < 1e-6: continue  # 0和nan不处理

														
 
															+            #     if v > limit_top or v < limit_low:

														
 
															+            #         data[idx] = fill_value  # 离群点填充

														
 
															+        return data

														
 
															+

														
 
															+    def clean(self, data:pd.DataFrame)-> pd.DataFrame:

														
 
															+        """对数据进行清洗，把离群值和Nan替换为平均值,0不参与该过程"""

														
 
															+        # 获取所有列标签

														
 
															+        col_label_list = data.columns.tolist()

														
 
															+        if 'time' in col_label_list: col_label_list.remove('time')  # 不处理time列

														
 
															+        # 逐列处理离群点

														
 
															+        for col_label in col_label_list:

														
 
															+            # 拿到列数据

														
 
															+            col_series = data.loc[:, col_label]

														
 
															+

														
 
															+            data.loc[:, col_label] = self.remove_outliers(col_series, times=1)

														
 
															+        # 统一处理nan值，使用平均值填充nan

														
 
															+        cols_mean = data[col_label_list].mean()  # 自动跳过平均值

														
 
															+        cols_mean = cols_mean.fillna(0)

														
 
															+        data[col_label_list] = data[col_label_list].fillna(cols_mean)

														
 
															+        return data

														
 
															+

														
 
															+    def fetch(self)->pd.DataFrame:

														
 
															+        """从数据库中拿到数据，拿到原始数据，尽量不要在这里面清洗数据"""

														
 
															+        # 数据库操作应在内部

														
 
															+        data_names = self.keys

														
 
															+        data_codes = [self.name_2code_dict.get(name) for name in data_names]

														
 
															+        # 从数据库取数据

														
 
															+        with Database(self.db_param) as db:  # 连接数据库

														
 
															+            # 检查表是否存在

														
 
															+            if not db.sheet_exists(config.DB_SHEET_NAME):

														
 
															+                raise RuntimeError(f'表{config.DB_SHEET_NAME}不存在于数据库{config.DB_NAME}中！')

														
 
															+            # SQL查询数据

														
 
															+            group_df = db.query_sql_time_series_group2data_frame(

														
 
															+                code_name_dict=self.code_2name_dict,

														
 
															+                project_id=config.PROJECT_ID,

														
 
															+                sheet_name=config.DB_SHEET_NAME,

														
 
															+                data_codes=data_codes,

														
 
															+                start_year=config.CHECK_YEAR_START,

														
 
															+                end_year=config.CHECK_YEAR_END,

														
 
															+                start_month=config.CHECK_MONTH_START,

														
 
															+                end_month=config.CHECK_MONTH_END,

														
 
															+                start_day=config.CHECK_DAY_START,

														
 
															+                end_day=config.CHECK_DAY_END,

														
 
															+                start_hour=config.CHECK_HOUR_START,

														
 
															+                end_hour=config.CHECK_HOUR_END,

														
 
															+                start_minute=config.CHECK_MINUTE_START,

														
 
															+                end_minute=config.CHECK_MINUTE_END,

														
 
															+                start_second=config.CHECK_SECONDS_START,

														
 
															+                end_second=config.CHECK_SECONDS_END)

														
 
															+        return group_df

														
 
															+

														
 
															+    def __construct(self):

														
 
															+        """构建所有满足条件的字段dataframe"""

														
 
															+        # 尝试从本地加载数据

														
 
															+        if self.is_from_local:

														
 
															+            if os.path.exists(self.local_df_merge_path):

														
 
															+                print(f'从本地{self.local_df_merge_path}加载数据库数据')

														
 
															+                return self.load_from_local()

														
 
															+            else:

														
 
															+                print(f'从本地{self.local_df_merge_path}加载失败，文件不存在！')

														
 
															+        # 先从数据库获取数据

														
 
															+        print("尝试从数据库获取数据！")

														
 
															+        group_df = self.fetch()

														
 
															+        # 清洗数据，消除Nan和离群值

														
 
															+        group_df = self.clean(group_df)  # 把自己的引用给自己

														
 
															+        # 平稳化

														
 
															+        group_df = self.stabilize(group_df)  # 此时数据不存在nan

														
 
															+        # 如果数据不存在就保存

														
 
															+        if not os.path.exists(self.local_df_merge_path):

														
 
															+            self.save_df_merge(group_df)

														
 
															+        return group_df

														
 
															+    def get_df_merge(self):

														
 
															+        return self.df_merge

														
 
															+

														
 
															+

														
 
															+class PearsonrMat(DFMat):

														
 
															+    """实现皮尔逊相关系数矩阵，核心属性为pandas.Dataframe，要求键入key，核心的df行和列也是按照给定的keys写入"""

														
 
															+    def __init__(self, keys_file_dir: str, min_records:int, db_param: DatabaseParam, transfer_file_dir:str, is_from_local:bool=True):

														
 
															+        super().__init__(keys_file_dir=keys_file_dir, min_records=min_records, db_param=db_param, transfer_file_dir=transfer_file_dir, is_from_local=is_from_local)

														
 
															+        self.r_mat = None

														
 
															+        self.lag_mat = None

														
 
															+

														
 
															+    def r_mat_filter(self):

														
 
															+        """将mat中只和自己相关的字段过滤掉"""

														
 
															+        # 先找到需要删除的字段

														
 
															+        filter_label_list = []

														
 
															+        label_list = self.r_mat.columns.tolist()

														
 
															+        for label in label_list:

														
 
															+            r_col = self.r_mat.loc[:, label]

														
 
															+            non_zero_counter = 0

														
 
															+            for value in r_col:

														
 
															+                if value > config.PEARSONR_VALUE_THRESHOLD:

														
 
															+                    non_zero_counter += 1

														
 
															+            if non_zero_counter < 2:

														
 
															+                filter_label_list.append(label)

														
 
															+        self.r_mat.drop(filter_label_list, axis=0, inplace=True)

														
 
															+        self.r_mat.drop(filter_label_list, axis=1, inplace=True)

														
 
															+

														
 
															+    def pearsonr_with_lag(self, a_series_data_label: str, b_series_data_label: str):

														
 
															+        """带滞后的皮尔逊计算"""

														
 
															+

														
 
															+        lags = config.MAX_LAG

														
 
															+

														
 
															+        if lags == 0:

														
 
															+            left_point = 0

														
 
															+            right_point = 1

														
 
															+        elif lags > 0:

														
 
															+            left_point = -lags

														
 
															+            right_point = lags

														
 
															+        else:

														
 
															+            raise ValueError('最大滞后不能为负数', lags)

														
 
															+

														
 
															+        step = config.STEP

														
 
															+        # 不同滞后下的相关系数

														
 
															+        list_r_lag = []

														
 
															+        for lag in range(left_point, right_point, step):

														
 
															+            if lag < 0:  # a滞后于b

														
 
															+                series_a_shifted = self.df_merge.loc[:, a_series_data_label][-lag:]

														
 
															+                series_b_shifted = self.df_merge.loc[:, b_series_data_label][:lag]

														
 
															+            elif lag > 0:  # b滞后于a

														
 
															+                series_a_shifted = self.df_merge.loc[:, a_series_data_label][:-lag]

														
 
															+                series_b_shifted = self.df_merge.loc[:, b_series_data_label][lag:]

														
 
															+            elif lag == 0:  # 0滞后

														
 
															+                series_a_shifted = self.df_merge.loc[:, a_series_data_label]

														
 
															+                series_b_shifted = self.df_merge.loc[:, b_series_data_label]

														
 
															+            else:

														
 
															+                series_a_shifted = None

														
 
															+                series_b_shifted = None

														
 
															+            # 计算皮尔逊系数和显著性

														
 
															+            if series_a_shifted is None or series_b_shifted is None:

														
 
															+                raise RuntimeError('数据不应为None',series_a_shifted, series_b_shifted)

														
 
															+            r, p_value = stats.pearsonr(series_a_shifted, series_b_shifted)

														
 
															+            # 过滤不显著的数据

														
 
															+            if p_value <= config.P_VALUE_THRESHOLD:

														
 
															+                list_r_lag.append(np.float32(r))

														
 
															+        if len(list_r_lag) > 0:

														
 
															+            return max(list_r_lag)

														
 
															+        else:

														
 
															+            return 0

														
 
															+

														
 
															+    def pearsonr_(self, a_series_data_label: str, b_series_data_label: str)->float:

														
 
															+        a_series_data = self.df_merge.loc[:, a_series_data_label]

														
 
															+        b_series_data = self.df_merge.loc[:, b_series_data_label]

														
 
															+        r, p_value = stats.pearsonr(a_series_data, b_series_data)

														
 
															+        if p_value <= config.P_VALUE_THRESHOLD:  # 结果显著

														
 
															+            return np.float32(r)

														
 
															+        else:

														
 
															+            return np.float32(0)

														
 
															+

														
 
															+    def skip_tool(self, series_a_name:str, series_b_name:str)->bool:

														
 
															+        # 标签转换

														
 
															+        series_a_name = self.code_2name_dict.get(series_a_name)

														
 
															+        series_b_name = self.code_2name_dict.get(series_b_name)

														
 
															+        if '温度' in series_a_name and '温度' in series_b_name: return True

														
 
															+        if '次数' in series_a_name and '次数' in series_b_name: return True

														
 
															+        if '累计' in series_a_name and '累计' in series_b_name: return True

														
 
															+        if '电流' in series_a_name and '电流' in series_b_name: return True

														
 
															+        if '电压' in series_a_name and '电压' in series_b_name: return True

														
 
															+        if '电流' in series_a_name and '温度' in series_b_name: return True

														
 
															+        if '温度' in series_a_name and '电流' in series_b_name: return True

														
 
															+        if '累计电量' in series_a_name and '累计电量' in series_b_name: return True

														
 
															+        if '运行时间' in series_a_name and '累计电量' in series_b_name: return True

														
 
															+        if '累计电量' in series_a_name and '运行时间' in series_b_name: return True

														
 
															+        if '运行时间' in series_a_name and '运行时间' in series_b_name: return True

														
 
															+        if '时间设定' in series_a_name and '时间设定' in series_b_name: return True

														
 
															+        return False

														
 
															+

														
 
															+    def calculate_pearsonr_mat(self):

														
 
															+        """计算pearson系数"""

														
 
															+        # 判断是否能够从本地读取，可以的话就不从新计算了

														
 
															+        if os.path.exists(config.R_MAT_JSON_PATH):

														
 
															+            print(f"皮尔逊系数矩阵从本地读取, {config.R_MAT_JSON_PATH}")

														
 
															+            with open(config.R_MAT_JSON_PATH, 'rb') as f:

														
 
															+                self.r_mat = pickle.load(f)

														
 
															+            return

														
 
															+

														
 
															+        # 先算再使标签中文化

														
 
															+        all_labels_code = [k for k in self.df_merge.columns.tolist() if k != 'time']

														
 
															+        all_labels_name = sorted([self.code_2name_dict.get(l) for l in all_labels_code])  # 升序

														
 
															+        self.r_mat = pd.DataFrame(index=all_labels_name, columns=all_labels_name, dtype=np.float32)

														
 
															+        self.r_mat.fillna(0, inplace=True)  # 全部填充为0

														
 
															+        for a_label_idx in range(0, len(all_labels_code), 1):  # 行标签

														
 
															+            for b_label_idx in range(a_label_idx, len(all_labels_code), 1): # 列标签

														
 
															+                # 检查是否属于可跳过的字段组合

														
 
															+                a_label = all_labels_code[a_label_idx]

														
 
															+                b_label = all_labels_code[b_label_idx]

														
 
															+                if self.skip_tool(a_label, b_label):

														
 
															+                    print(f'跳过组合：{a_label}，{b_label}')

														
 
															+                    self.r_mat.loc[self.code_2name_dict.get(a_label), self.code_2name_dict.get(b_label)] = np.float32(0)

														
 
															+                # 正式计算

														
 
															+                if config.IS_LAG:

														
 
															+                    result = self.pearsonr_with_lag(a_label, b_label)

														
 
															+                else:

														
 
															+                    result = self.pearsonr_(a_label, b_label)

														
 
															+                # 要保证对称性

														
 
															+                self.r_mat.loc[self.code_2name_dict.get(a_label), self.code_2name_dict.get(b_label)] = result

														
 
															+                self.r_mat.loc[self.code_2name_dict.get(b_label), self.code_2name_dict.get(a_label)] = result

														
 
															+        # 筛选一些无关字段

														
 
															+        self.r_mat_filter()

														
 
															+        # 保存计算结果

														
 
															+        self.save_pearsonr_mat()

														
 
															+    def save_pearsonr_mat(self):

														
 
															+        path = config.R_MAT_JSON_PATH

														
 
															+        if os.path.exists(path):

														
 
															+            os.remove(path)

														
 
															+        with open(path, 'wb') as f:

														
 
															+            pickle.dump(self.r_mat, f, protocol=pickle.HIGHEST_PROTOCOL)

														
 
															+        print(f'mat_shape:{self.r_mat.shape}，文件保存至：',path)

														
 
															+

														
 
															+

														
 
															+    def query_r_rank_n(self, target:str, n:int=-1)->list[str]:

														
 
															+        """输入target字段，从皮尔逊系数矩阵中挑选排名前n的字段, n为-1表示取所有"""

														
 
															+        if self.r_mat is None:

														
 
															+            raise Exception('r_mat 为None，请先计算皮尔逊系数矩阵！')

														
 
															+        # 取出对应的列，皮尔逊矩阵为对称矩阵，因此取一列或者一行就可以了

														
 
															+        if not df_is_symetry(self.r_mat):

														
 
															+            raise RuntimeError('皮尔逊矩阵非对称，请检查计算过程!')

														
 
															+        # 准备排序

														
 
															+        label_list = self.r_mat.index.tolist()

														
 
															+        if target not in label_list:

														
 
															+            raise ValueError(f'查询字段不存在',target)

														
 
															+        # 检查输入参数是否合法

														
 
															+        if n == -1:

														
 
															+            n = np.sum(np.abs(self.r_mat.loc[:, target].to_numpy()) > 0 )

														
 
															+            n = int(n)

														
 
															+        elif n <= 0:

														
 
															+            raise RuntimeError('n输入值非法，应大于0',n)

														
 
															+

														
 
															+        elements = []

														
 
															+        for row_label in label_list:

														
 
															+            elements.append((row_label, self.r_mat.loc[row_label, target]))

														
 
															+        # 按照皮尔逊相关系数的绝对值进行升序排序

														
 
															+        quick_sort(elements, 0, len(elements) - 1)

														
 
															+        # 反转list，由大到小排序

														
 
															+        elements = elements[::-1]

														
 
															+

														
 
															+        elements = [elements[e][0] for e in range(n)]

														
 
															+        return elements

														
 
															+

														
 
															+if __name__ == '__main__':

														
 
															+    # 数据库参数

														
 
															+    db_param = DatabaseParam(

														
 
															+        db_host=config.DB_HOST,

														
 
															+        db_user=config.DB_USER,

														
 
															+        db_password=config.DB_PASSWORD,

														
 
															+        db_name=config.DB_NAME,

														
 
															+        db_port=config.DB_PORT)

														
 
															+    # 先拿到所有的数据

														
 
															+    df_mat = PearsonrMat(keys_file_dir=os.path.join(config.STATISTICS_FILE_DIR, config.STATISTICS_FILE_NAME),

														
 
															+                   min_records=config.MIN_RECORDS, db_param=db_param,

														
 
															+                   transfer_file_dir=os.path.join(config.ALL_ITEMS_FILE_DIR, config.TRANSFER_JSON_NAME)

														
 
															+                         )

														
 
															+    # 计算皮尔逊系数和显著性p值（带滞后）

														
 
															+    df_mat.calculate_pearsonr_mat()

														
 
															+

														
 
															+    # 测试函数

														
 
															+    # df_mat.query_r_rank_n('反渗透总产水电导')

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
--- a/Analysis/regression.py
+++ b/Analysis/regression.py
@@ -0,0 +1,244 @@
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+from Analysis.pearsonr import DFMat, PearsonrMat

														
 
															+from Database.database_ import DatabaseParam

														
 
															+import config

														
 
															+import os

														
 
															+import json

														
 
															+import pandas as pd

														
 
															+from sklearn.preprocessing import StandardScaler

														
 
															+from sklearn.linear_model import Lasso, LassoCV, LinearRegression

														
 
															+from sklearn.model_selection import TimeSeriesSplit

														
 
															+import numpy as np

														
 
															+import matplotlib.pyplot as plt

														
 
															+from sklearn.metrics import r2_score

														
 
															+import scipy.stats as stats

														
 
															+from utils.tools import set_chinese_font

														
 
															+from sklearn.metrics import mean_squared_error, mean_absolute_error

														
 
															+from sklearn.model_selection import cross_val_score

														
 
															+from statsmodels.stats.outliers_influence import OLSInfluence

														
 
															+import statsmodels.api as sm

														
 
															+

														
 
															+class RegressionBox(PearsonrMat):

														
 
															+    """Lasso回归模型+OLS最小回归"""

														
 
															+    def __init__(self, keys_file_dir: str, min_records:int, db_param: DatabaseParam, transfer_file_dir:str, is_from_local:bool=True):

														
 
															+        super().__init__(keys_file_dir=keys_file_dir, min_records=min_records, db_param=db_param, transfer_file_dir=transfer_file_dir, is_from_local=is_from_local)

														
 
															+        self.lasso_info = {"help":"x，自变量名；y，因变量名；alpha，最佳参数；coef，自变量权重；intercept，截距；n_iter，迭代次数；dual_gap，对偶间隙；tol，对偶容忍"}

														
 
															+        self.ols_info =  {"help":"x，自变量名；y，因变量名；最佳参数；coef，自变量权重；intercept，截距；n_iter，迭代次数；score，R2决定系数；"}

														
 
															+        self.ols_model = None  # 最终的线性OLS回归模型

														
 
															+

														
 
															+    def read_features_file(self):

														
 
															+        """加载特征文件，确定因变量Y和自变量X的标签"""

														
 
															+        path = config.LASSO_FEATURE_FILE_PATH

														
 
															+        if not os.path.exists(path):

														
 
															+            raise FileNotFoundError('文件未发现:', path)

														
 
															+        with open(path, "r", encoding="utf-8") as f:

														
 
															+            json_data = json.load(f)

														
 
															+        return json_data.get('targets'), json_data.get('features')

														
 
															+

														
 
															+    def load_features(self)->tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame]:

														
 
															+        y_label_name, x_label_name = self.read_features_file()

														
 
															+        # name转换为code

														
 
															+        y_label_code = [self.name_2code_dict.get(i) for i in y_label_name if self.name_2code_dict.get(i) in self.df_merge.columns.tolist()]

														
 
															+        x_label_code = [self.name_2code_dict.get(i) for i in x_label_name if self.name_2code_dict.get(i) in self.df_merge.columns.tolist()]

														
 
															+        if len(y_label_code) ==0 or len(x_label_code) == 0:

														
 
															+            raise ValueError('需要拟合的特征为空，请检查建模字段是否存在', (y_label_code, x_label_code))

														
 
															+        targets = self.df_merge.loc[:, y_label_code].copy()

														
 
															+        features = self.df_merge.loc[:, x_label_code].copy()

														
 
															+        time = self.df_merge.loc[:, ['time']].copy()

														
 
															+        return targets, features, time

														
 
															+

														
 
															+    def select_features(self):

														
 
															+        pass

														
 
															+

														
 
															+    def lasso_(self, y_value:np.ndarray, scaler_x_value:np.ndarray,n_splits:int=5, max_iter:int=10000):

														
 
															+        """实现Lasso回归分析，选择字段"""

														
 
															+        tscv = TimeSeriesSplit(n_splits=n_splits)

														
 
															+        # 寻找最优alphas

														
 
															+        lasso_model = LassoCV(alphas=100,

														
 
															+                              cv=tscv,

														
 
															+                              max_iter=max_iter,

														
 
															+                              random_state=42,

														
 
															+                              n_jobs=-1)

														
 
															+        lasso_model.fit(scaler_x_value, y_value)

														
 
															+        # 记录最优alphas

														
 
															+        self.lasso_info['alpha'] = lasso_model.alpha_

														
 
															+        # 记录截距

														
 
															+        self.lasso_info['intercept'] = lasso_model.intercept_

														
 
															+        # 记录迭代次数

														
 
															+        self.lasso_info['n_iter'] = lasso_model.n_iter_

														
 
															+        # 记录对偶间隙

														
 
															+        self.lasso_info['dual_gap'] = lasso_model.dual_gap_

														
 
															+        # 记录对偶容忍

														
 
															+        self.lasso_info['tol'] = lasso_model.tol

														
 
															+        # 记录权重

														
 
															+        self.lasso_info['coef'] = lasso_model.coef_

														
 
															+

														
 
															+    def ols_(self, y_value:np.ndarray, scaler_x_value:np.ndarray)->LinearRegression:

														
 
															+        """OLS回归"""

														
 
															+        model = LinearRegression()

														
 
															+        model.fit(scaler_x_value, y_value)

														
 
															+        # 记录截距

														
 
															+        self.ols_info['intercept'] = model.intercept_

														
 
															+        # 记录权重

														
 
															+        self.ols_info['coef'] = model.coef_

														
 
															+        # 记录R²

														
 
															+        self.ols_info['score'] = model.score(scaler_x_value, y_value)

														
 
															+        return model

														
 
															+

														
 
															+    def any_regression_full(self, target_name:str):

														
 
															+        """对任意输入字段进行全字段回归建模"""

														
 
															+        pass

														
 
															+

														
 
															+    def any_regression_r_rank(self, target_name:str):

														
 
															+        """基于皮尔逊系数排序对字段进行回归建模"""

														
 
															+        # 所有需要建模的字段

														
 
															+        y_label_name = target_name

														
 
															+        x_label_name = self.query_r_rank_n(y_label_name)  # 根据皮尔逊排序挑选相关性字段

														
 
															+        # 剔除自身字段

														
 
															+        if y_label_name in x_label_name:

														
 
															+            x_label_name.remove(y_label_name)

														
 
															+

														
 
															+        # 拿到数据

														
 
															+        y_label_code = self.name_2code_dict[y_label_name]

														
 
															+        x_label_code = [self.name_2code_dict.get(name) for name in x_label_name]

														
 
															+

														
 
															+        y = self.df_merge.loc[:, y_label_code].copy()  # 真实值

														
 
															+        y = y.to_numpy()

														
 
															+        x = self.df_merge.loc[:, x_label_code].copy()  # 预测值

														
 
															+        t = self.df_merge.loc[:, 'time'].copy()   # 时间序列

														
 
															+

														
 
															+        # 标准化

														
 
															+        scaler = StandardScaler()

														
 
															+        x = scaler.fit_transform(x)

														
 
															+

														
 
															+        # Lasso回归，选择字段

														
 
															+        self.lasso_(y_value=y, scaler_x_value=x)

														
 
															+        self.lasso_info['x'] = x_label_name

														
 
															+        self.lasso_info['y'] = y_label_name

														
 
															+

														
 
															+        # Lasso模型诊断与可视化

														
 
															+        print('\n===========Lasso训练结果==================')

														
 
															+        print(f'最优lambda：{self.lasso_info.get('alpha')}')

														
 
															+        print(f'Y：{self.lasso_info.get('y')}')

														
 
															+        print(f"Lasso系数:")

														
 
															+        for feat, coef in zip(x_label_name, self.lasso_info.get('coef')):

														
 
															+            print(f"  {feat}: {coef}")

														
 
															+        print(f'截距:{self.lasso_info.get('intercept')}')

														
 
															+        print(f'迭代次数：{self.lasso_info.get('n_iter')}')

														
 
															+        print(f'对偶间隙：{self.lasso_info.get('dual_gap')}')

														
 
															+        print(f'对偶间隙容忍：{self.lasso_info.get('tol')}')

														
 
															+

														
 
															+        # OLS回归，筛选系数不为零的向量

														
 
															+        mask = self.lasso_info.get('coef') != 0

														
 
															+        x_label_name = list(np.array(x_label_name)[mask])

														
 
															+        x_label_code = list(np.array(x_label_code)[mask])

														
 
															+

														
 
															+        x = self.df_merge.loc[:, x_label_code]  # 没进行归一化/标准化

														
 
															+        self.ols_model = self.ols_(y_value=y, scaler_x_value=x)

														
 
															+        self.ols_info['x'] = x_label_name

														
 
															+        self.ols_info['y'] = y_label_name

														
 
															+

														
 
															+

														
 
															+        # OLS模型诊断

														
 
															+        print('\n===========OLS训练结果==================')

														
 
															+        print(f"OLS 截距: {self.ols_info.get('intercept')}")

														
 
															+        print(f"OLS 系数:")

														
 
															+        for feat, coef in zip(x_label_name, self.ols_info.get('coef')):

														
 
															+            print(f"  {feat}: {coef}")

														
 
															+        print(f"OLS R² (训练集): {self.ols_info.get('score'):.4f}")

														
 
															+

														
 
															+        # 基本指标评价

														
 
															+        y_pred = self.ols_model.predict(x)

														
 
															+        residuals = y - y_pred

														
 
															+        mse = mean_squared_error(y, y_pred)

														
 
															+        rmse = np.sqrt(mse)

														
 
															+        mae = mean_absolute_error(y, y_pred)

														
 
															+        r2 = r2_score(y, y_pred)

														
 
															+        # 调整R²

														
 
															+        n = len(y)

														
 
															+        p = x.shape[1]

														
 
															+        adj_r2 = 1 - (1 - r2) * (n - 1) / (n - p - 1)

														
 
															+        print("\n===========模型性能指标==================:")

														
 
															+        print(f"均方误差 (MSE): {mse:.4f}")

														
 
															+        print(f"均方根误差 (RMSE): {rmse:.4f}")

														
 
															+        print(f"平均绝对误差 (MAE): {mae:.4f}")

														
 
															+        print(f"决定系数 (R²): {r2:.4f}")

														
 
															+        print(f"调整R²: {adj_r2:.4f}")

														
 
															+

														
 
															+        # 创建诊断图

														
 
															+        set_chinese_font()

														
 
															+        fig, axes = plt.subplots(2, 3, figsize=(15, 10))

														
 
															+

														
 
															+        # 1. 残差 vs 拟合值图（检查同方差性和线性关系）

														
 
															+        axes[0, 0].scatter(y_pred, residuals, alpha=0.6)

														
 
															+        axes[0, 0].axhline(y=0, color='red', linestyle='--')

														
 
															+        axes[0, 0].set_xlabel('拟合值')

														
 
															+        axes[0, 0].set_ylabel('残差')

														
 
															+        axes[0, 0].set_title('残差 vs 拟合值')

														
 
															+

														
 
															+        # 2. 正态Q-Q图（检查残差正态性）

														
 
															+        stats.probplot(residuals, dist="norm", plot=axes[0, 1])

														
 
															+        axes[0, 1].set_title('Q-Q图（检查正态性）')

														
 
															+

														
 
															+        # 3. 残差直方图

														
 
															+        axes[0, 2].hist(residuals, bins=30, density=True, alpha=0.7)

														
 
															+        axes[0, 2].set_xlabel('残差')

														
 
															+        axes[0, 2].set_ylabel('密度')

														
 
															+        axes[0, 2].set_title('残差分布')

														
 
															+

														
 
															+        # 4. 观测值 vs 拟合值

														
 
															+        axes[1, 0].scatter(y, y_pred, alpha=0.6)

														
 
															+        min_val = min(y.min(), y_pred.min())

														
 
															+        max_val = max(y.max(), y_pred.max())

														
 
															+        axes[1, 0].plot([min_val, max_val], [min_val, max_val], 'red', linestyle='--')

														
 
															+        axes[1, 0].set_xlabel('实际值')

														
 
															+        axes[1, 0].set_ylabel('预测值')

														
 
															+        axes[1, 0].set_title('实际值 vs 预测值')

														
 
															+        r2 = r2_score(y, y_pred)

														
 
															+        axes[1, 0].text(0.05, 0.95, f'R² = {r2:.3f}', transform=axes[1, 0].transAxes)

														
 
															+

														
 
															+        # 5. 残差的时间序列图（如果是时间序列数据）

														
 
															+        axes[1, 1].plot(residuals)

														
 
															+        axes[1, 1].axhline(y=0, color='red', linestyle='--')

														
 
															+        axes[1, 1].set_xlabel('时间/观测序号')

														
 
															+        axes[1, 1].set_ylabel('残差')

														
 
															+        axes[1, 1].set_title('残差时间序列')

														
 
															+

														
 
															+        # 6. 尺度-位置图（检查同方差性）

														
 
															+        standardized_residuals = residuals / np.std(residuals)

														
 
															+        axes[1, 2].scatter(y_pred, np.sqrt(np.abs(standardized_residuals)), alpha=0.6)

														
 
															+        axes[1, 2].set_xlabel('拟合值')

														
 
															+        axes[1, 2].set_ylabel('√|标准化残差|')

														
 
															+        axes[1, 2].set_title('尺度-位置图')

														
 
															+

														
 
															+        plt.tight_layout()

														
 
															+        plt.show()

														
 
															+        pass

														
 
															+

														
 
															+

														
 
															+

														
 
															+    def any_regression_custom(self, target_name:str, path:str):

														
 
															+        """基于自定义字段进行回归建模，从文件读入建模字段"""

														
 
															+

														
 
															+    def auto_fit(self, x_label_name:str, y_label_name:str, is_use_lasso:bool=True):

														
 
															+        """回归分析"""

														
 
															+

														
 
															+

														
 
															+if __name__ == '__main__':

														
 
															+    # 数据库参数

														
 
															+    db_param = DatabaseParam(

														
 
															+        db_host=config.DB_HOST,

														
 
															+        db_user=config.DB_USER,

														
 
															+        db_password=config.DB_PASSWORD,

														
 
															+        db_name=config.DB_NAME,

														
 
															+        db_port=config.DB_PORT)

														
 
															+

														
 
															+    my_box = RegressionBox(

														
 
															+        keys_file_dir=os.path.join(config.STATISTICS_FILE_DIR, config.STATISTICS_FILE_NAME),

														
 
															+        min_records = config.MIN_RECORDS, db_param = db_param,

														
 
															+        transfer_file_dir = os.path.join(config.ALL_ITEMS_FILE_DIR, config.TRANSFER_JSON_NAME))

														
 
															+    # 计算皮尔逊

														
 
															+    my_box.calculate_pearsonr_mat()

														
 
															+    # 进行回归分析

														
 
															+    my_box.any_regression_r_rank("RO1脱盐率")

														
--- a/Database/database_.py
+++ b/Database/database_.py
@@ -0,0 +1,170 @@
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+import pandas as pd

														
 
															+import pymysql

														
 
															+from utils.tools import fmt_date

														
 
															+import config

														
 
															+

														
 
															+class DatabaseParam:

														
 
															+    def __init__(self, db_user: str, db_password: str, db_host: str, db_name: str, db_port: int, db_charset: str='utf8mb4'):

														
 
															+        self.db_user = db_user

														
 
															+        self.db_password = db_password

														
 
															+        self.db_host = db_host

														
 
															+        self.db_name = db_name

														
 
															+        self.db_port = db_port

														
 
															+        self.db_charset = db_charset

														
 
															+

														
 
															+    @property

														
 
															+    def params(self) -> dict:

														
 
															+        # 执行一些转换或者参数检查, 待补充

														
 
															+        pass

														
 
															+        return {'db_user': self.db_user,

														
 
															+                'db_password': self.db_password,

														
 
															+                'db_host': self.db_host,

														
 
															+                'db_name': self.db_name,

														
 
															+                'db_port': self.db_port,

														
 
															+                'db_charset': self.db_charset

														
 
															+        }

														
 
															+

														
 
															+

														
 
															+class Database:

														
 
															+    def __init__(self, params: DatabaseParam):

														
 
															+        self.params = params.params  # 参数

														
 
															+        self.db_conn = None  # 连接

														
 
															+        self.cursor = None  # 游标

														
 
															+

														
 
															+    def __enter__(self):

														
 
															+        try:

														
 
															+            # 连接失败仍为None

														
 
															+            self.db_conn = pymysql.connect(host=self.params.get('db_host'),

														
 
															+                                         user=self.params.get('db_user'),

														
 
															+                                         password=self.params.get('db_password'),

														
 
															+                                         database=self.params.get('db_name'),

														
 
															+                                         port=self.params.get('db_port'),

														
 
															+                                         charset='utf8mb4')

														
 
															+            self.db_cursor = self.db_conn.cursor()

														
 
															+        except pymysql.MySQLError as e:

														
 
															+            print('数据库连接失败：', e)

														
 
															+            print(f'请检查 host: {self.params.get('db_host')}, user: {self.params.get('db_user')}, password: , database: {self.params.get('db_name')}, port: {self.params.get('db_port')}')

														
 
															+            return None

														
 
															+        if self.db_cursor and self.db_conn: print(f'数据库{self.params.get('db_name')}已连接！')

														
 
															+        return self

														
 
															+

														
 
															+    def __exit__(self, exc_type, exc_val, exc_tb):

														
 
															+

														
 
															+        if self.db_cursor:

														
 
															+            self.db_cursor.close()

														
 
															+            self.db_cursor = None

														
 
															+        if self.db_conn:

														
 
															+            self.db_conn.close()

														
 
															+            self.db_conn = None

														
 
															+        if self.db_cursor is None and self.db_conn is None: print(f'数据库{self.params.get('db_name')}已断开！')

														
 
															+    def sheet_exists(self, sheet_name: str) -> bool:

														
 
															+        sql = f"""SHOW TABLES FROM {self.params.get('db_name')} LIKE '{sheet_name}'"""

														
 
															+        self.db_cursor.execute(sql)

														
 
															+        result = self.db_cursor.fetchall()

														
 
															+        if len(result) == 0:

														
 
															+            return False

														
 
															+        else:

														
 
															+            return True

														
 
															+    def query_sql_time_series2data_frame(self,

														
 
															+                              project_id:int ,

														
 
															+                              sheet_name:str ,

														
 
															+                              data_code:str,

														
 
															+                              start_year:int , end_year:int ,

														
 
															+                              start_month:int=1, end_month:int=12,

														
 
															+                              start_day:int=1, end_day:int=31,

														
 
															+                              start_hour:int=0, end_hour:int=23,

														
 
															+                              start_minute:int=0, end_minute:int=59,

														
 
															+                              start_second:int=0, end_second:int=59):

														
 
															+        # 时间格式化

														
 
															+        start_datetime, end_datetime = fmt_date(start_year=start_year,start_month=start_month,start_day=start_day,

														
 
															+                 end_year=end_year,end_month=end_month,end_day=end_day,

														
 
															+                 start_hour=start_hour,start_minute=start_minute,start_second=start_second,

														
 
															+                 end_hour=end_hour,end_minute=end_minute,end_second=end_second)

														
 
															+        # 查询语句

														
 
															+        sql = f"""SELECT * FROM {sheet_name} WHERE item_name = '{data_code}' AND project_id = '{project_id}' AND h_time >= '{start_datetime}' AND h_time <= '{end_datetime}'"""

														
 
															+        #print(sql)

														
 
															+        if self.db_cursor is None: raise TypeError('数据库可能未连接，值不能为None.', self.db_cursor)

														
 
															+        # 查询数据

														
 
															+        self.db_cursor.execute(sql)

														
 
															+        result = self.db_cursor.fetchall()

														
 
															+        #result = self.db_cursor.fetchmany(3)

														
 
															+        df = pd.DataFrame(result, columns=[desc[0] for desc in self.db_cursor.description])

														
 
															+

														
 
															+        if not len(df):

														
 
															+            print(f'查询到0条数据,序列标签：{data_code}, 数量：{len(df)}')

														
 
															+            return None

														
 
															+        if df.iloc[0]['item_name'].strip() != data_code:

														
 
															+            raise RuntimeError(f'数据库中序列名称与输入不一致，输入：{data_code}, 数据库：{df.iloc[0]['item_name']}')

														
 
															+        # # 消除Nan

														
 
															+        # df.dropna(subset=['val'], inplace=True)  # 不要在数据库这里消除Nan

														
 
															+        # 修改标签

														
 
															+        val_label = df.iloc[0]['item_name'].strip()# + '_val'

														
 
															+        df.rename(columns={'val': f'{val_label}', 'h_time':'time'}, inplace=True)

														
 
															+        # 删除无关列

														
 
															+        df.drop(columns=['project_id', 'item_name'], inplace=True, axis=1)

														
 
															+        # 转换值数据类型

														
 
															+        df[val_label] = df[val_label].astype("float32")

														
 
															+        return df[['time', val_label]]

														
 
															+

														
 
															+    def query_sql_time_series_group2data_frame(self,

														
 
															+                              code_name_dict: dict,

														
 
															+                              project_id:int ,

														
 
															+                              sheet_name:str ,

														
 
															+                              data_codes:list,

														
 
															+                              start_year:int , end_year:int ,

														
 
															+                              start_month:int=1, end_month:int=1,

														
 
															+                              start_day:int=1, end_day:int=1,

														
 
															+                              start_hour:int=0, end_hour:int=0,

														
 
															+                              start_minute:int=0, end_minute:int=0,

														
 
															+                              start_second:int=0, end_second:int=0):

														
 
															+        """从数据库中查询多个字段，返回统一结果"""

														
 
															+        frame_list = []

														
 
															+        data_codes = set(data_codes)

														
 
															+        for data_code in data_codes:

														
 
															+            frame = self.query_sql_time_series2data_frame(project_id=project_id,

														
 
															+                                                  sheet_name=sheet_name,

														
 
															+                                                  data_code=str(data_code),

														
 
															+                                                  start_year=start_year,end_year=end_year,

														
 
															+                                                  start_month=start_month,end_month=end_month,

														
 
															+                                                  start_day=start_day, end_day=end_day,

														
 
															+                                                  start_hour=start_hour, end_hour=end_hour,

														
 
															+                                                  start_minute=start_minute, end_minute=end_minute,

														
 
															+                                                  start_second=start_second, end_second=end_second,

														
 
															+                                                )

														
 
															+            if frame is None: continue

														
 
															+            # 过滤常数序列

														
 
															+            if frame[frame.columns[1]].nunique() <= 2:

														
 
															+                print(f'跳过常数列{frame.columns[1]}')

														
 
															+                continue

														
 
															+            frame_list.append(frame)

														
 
															+        # 融合所有字段

														
 
															+        if len(frame_list) == 0: return None

														
 
															+

														
 
															+        df_merge = frame_list[0]

														
 
															+        for i in range(1, len(frame_list)):

														
 
															+            df_merge = pd.merge(df_merge, frame_list[i], how='outer', on='time') # 外连接融合所有结果

														
 
															+        # 按照日期排序

														
 
															+        df_merge.sort_values('time', kind='mergesort', inplace=True)

														
 
															+

														
 
															+        return df_merge

														
 
															+

														
 
															+if  __name__ == '__main__':

														
 
															+    # 创建参数

														
 
															+    db_param = DatabaseParam(

														
 
															+        db_host= '192.168.50.4',

														
 
															+        db_user='root',

														
 
															+        db_password='*B-@p2b+97D5xAF1e6',

														
 
															+        db_name='ws_data',

														
 
															+        db_port=4000)

														
 
															+

														
 
															+    # 数据库操作应在内部

														
 
															+    with Database(db_param) as db:

														
 
															+        df_ = db.query_sql_time_series2data_frame(92,

														
 
															+                                 'dc_item_history_data_day',

														
 
															+                                 'QSWGB3_n',

														
 
															+                                 2025, 2025,

														
 
															+                                 3, 9,

														
 
															+                                 25,10)

														
 
															+        print(df_)
														
--- a/GetItem/get_all_items.py
+++ b/GetItem/get_all_items.py
@@ -0,0 +1,231 @@
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+import config

														
 
															+import os

														
 
															+import requests

														
 
															+import time

														
 
															+import csv

														
 
															+from  datetime import datetime

														
 
															+import shutil

														
 
															+import json

														
 
															+

														
 
															+class DataHelper:

														
 
															+    """采用爬虫方式，动态获取smart-water网站某项目的各传感器数据库标签和对应的中文名称

														
 
															+    项目代码 ：92, 锡山中荷污水再生水项目

														
 
															+    """

														
 
															+    def __init__(self,

														
 
															+                 project_id = config.PROJECT_ID,

														
 
															+                 username = config.USERNAME,

														
 
															+                 password = config.PASSWORD,

														
 
															+                 dep_id = config.DEP_ID,

														
 
															+                 base_url = config.BASE_URL,

														
 
															+                 out_path = config.ALL_ITEMS_FILE_DIR,

														
 
															+                 out_file_name = config.ALL_ITEMS_FILE_NAME,

														
 
															+                 save_path_final = config.ALL_ITEMS_FILE_PATH,

														
 
															+                 max_pages = config.MAX_PAGES,

														
 
															+                 page_size = config.PAGE_SIZE,

														
 
															+                 include_head = config.INCLUDE_HEAD

														
 
															+                 ):

														
 
															+        print('开始获取项目所有的数据编号...')

														
 
															+        self.username = username

														
 
															+        self.password = password

														
 
															+        self.dep_id = dep_id

														
 
															+        self.project_id = project_id

														
 
															+        self.BASE_URL = base_url  #smart-water 网站首页

														
 
															+        self.out_path = out_path

														
 
															+        self.out_file_name = out_file_name

														
 
															+        self.max_pages = int(max_pages)

														
 
															+        self.page_size = int(page_size)

														
 
															+        self.token = None

														
 
															+        self.include_head = include_head

														
 
															+        self.save_path_tem = os.path.join(self.out_path,'tem_' + self.out_file_name)

														
 
															+        self.save_path_final = save_path_final

														
 
															+        self.start_time = time.time()

														
 
															+        self.end_time = self.start_time

														
 
															+        # 清理上一次执行的结果文件

														
 
															+        if os.path.exists(self.save_path_tem) or os.path.exists(self.save_path_final):

														
 
															+            print(f'清理缓存文件...')

														
 
															+            if os.path.exists(self.save_path_final):

														
 
															+                os.remove(self.save_path_final)

														
 
															+                print(f'清理  {self.save_path_final}')

														
 
															+            if os.path.exists(self.save_path_tem):

														
 
															+                os.remove(self.save_path_tem)

														
 
															+                print(f'清理  {self.save_path_tem}')

														
 
															+

														
 
															+    def login_smart_water(self):

														
 
															+        login_url = f"{self.BASE_URL}/api/v2/user/login"  # smart-water 登陆页面

														
 
															+        login_headers = {  # 登陆请求头

														
 
															+            "Accept": "application/json",

														
 
															+            "Content-Type": "application/json;charset=utf-8",

														
 
															+            "Cookie": "lang=zh-CN",

														
 
															+            "Origin": self.BASE_URL,

														
 
															+            "Referer": f"{self.BASE_URL}/",

														
 
															+            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/140.0.0.0 Safari/537.36"

														
 
															+        }

														
 
															+        login_params = {  # 请求参数

														
 
															+            "username": self.username,

														
 
															+            "password": self.password,

														
 
															+            "type": "account",

														
 
															+            "DepId": self.dep_id  # 部门ID

														
 
															+        }

														
 
															+        try:

														
 
															+            # 尝试登陆

														
 
															+            response = requests.post(login_url, json=login_params, headers=login_headers)

														
 
															+            response.raise_for_status()  # 检查HTTP错误

														
 
															+            data = response.json()

														
 
															+            token = data['data']['token']

														
 
															+            self.token = token if token != '' else None

														
 
															+            if self.token is not None:

														
 
															+                print(f'{self.username} 登陆成功! \n获取token {self.token}')

														
 
															+            else:

														
 
															+                print(f'{self.username} 登陆失败!')

														
 
															+

														
 
															+        except requests.exceptions.HTTPError as errh:

														
 
															+            print("HTTP Error:", errh)

														
 
															+        except requests.exceptions.ConnectionError as errc:

														
 
															+            print("Error Connecting:", errc)

														
 
															+        except requests.exceptions.Timeout as errt:

														
 
															+            print("Timeout Error:", errt)

														
 
															+        except requests.exceptions.RequestException as err:

														
 
															+            print("OOps: Something Else", err)

														
 
															+        return None

														
 
															+

														
 
															+    @staticmethod

														
 
															+    def write_file(handler, data: list):

														
 
															+        write_cnt = 0

														
 
															+        for label in data:

														
 
															+            # '名称', '编码', '单位' , '精度', '是否枚举', '设备号'

														
 
															+            csv.writer(handler).writerow([label['ItemAlias'], label['ItemName'], label['ItemUnit'], label['ItemPrecise'], int(label['IsBool']), label['DeviceCode']])

														
 
															+            write_cnt += 1

														
 
															+        return write_cnt

														
 
															+    @staticmethod

														
 
															+    def format_chinese_datetime(dt=None):

														
 
															+        """格式化日期时间为中文格式"""

														
 
															+        if dt is None:

														
 
															+            dt = datetime.now()

														
 
															+        # 提取日期时间各部分

														
 
															+        year = dt.year

														
 
															+        month = dt.month

														
 
															+        day = dt.day

														
 
															+        hour = dt.hour

														
 
															+        minute = dt.minute

														
 
															+        # 格式化为中文

														
 
															+        return f"{year}年{month}月{day}日 {hour:02d}:{minute:02d}"

														
 
															+    def get_all_label(self):

														
 
															+        if self.token is None:

														
 
															+            self.login_smart_water()

														
 
															+        label_url = f"{self.BASE_URL}/api/v1/config/device-realtime-plc-item/list/{self.project_id}"  # 数据抓取页面

														
 
															+

														
 
															+        headers = {

														
 
															+            'Accept': '*/*',

														
 
															+            'Accept-Encoding': 'gzip, deflate',

														
 
															+            'Accept-Language': 'zh-CN,zh;q=0.9',

														
 
															+            'Connection': 'keep-alive',

														
 
															+            'Cookie': 'lang=zh-CN',

														
 
															+            'Host': '120.55.44.4:8900',

														
 
															+            'JWT-TOKEN': self.token,

														
 
															+            'Referer': 'http://120.55.44.4:8900/',

														
 
															+            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/140.0.0.0 Safari/537.36'

														
 
															+        }

														
 
															+        with requests.Session() as session:

														
 
															+            session.headers.update(headers)

														
 
															+            failed_cnt = 0

														
 
															+            # 爬取每个页面

														
 
															+            with open(self.save_path_tem, mode='a', encoding='utf-8', newline='') as file_handler:

														
 
															+                # 按照'名称', '编码', '单位' , '精度', '设备号' 格式保存数据

														
 
															+                print('准备写入数据...')

														
 
															+                csv.writer(file_handler).writerow(['名称', '编码', '单位' , '精度', '是否枚举', '设备号'])

														
 
															+                pages = 1

														
 
															+                total_write_cnt = 0

														
 
															+                while pages <= self.max_pages:

														
 
															+                    try:

														
 
															+                        params = {

														
 
															+                            'currentPage': f'{pages}',

														
 
															+                            'pageSize': f'{self.page_size}',

														
 
															+                            'ProjectId': self.project_id,

														
 
															+                            'time': int(time.time() * 1000)

														
 
															+                        }

														
 
															+                        response = session.get(label_url, params=params)

														
 
															+                        response.raise_for_status()

														
 
															+                        result = response.json()

														
 
															+

														
 
															+                        if result.get('code') == 603:  # token 过期就重新登录一次

														
 
															+                            self.login_smart_water()

														
 
															+                            headers['JWT-TOKEN'] = self.token

														
 
															+                            session.headers.update(headers)

														
 
															+                        if result.get('code') == 200:

														
 
															+                            print(f'时间:{params['time']} 页码:{params['currentPage']}, 网页数据获取成功, 写入文件')

														
 
															+                            label_list = result['data']['list']

														
 
															+                            total_write_cnt += self.write_file(file_handler, label_list)

														
 
															+                            pages += 1

														
 
															+

														
 
															+                    except requests.exceptions.HTTPError as errh:

														
 
															+                        print("HTTP Error:", errh)

														
 
															+                        failed_cnt += 1

														
 
															+                    except requests.exceptions.ConnectionError as errc:

														
 
															+                        print("Error Connecting:", errc)

														
 
															+                        failed_cnt += 1

														
 
															+                    except requests.exceptions.Timeout as errt:

														
 
															+                        print("Timeout Error:", errt)

														
 
															+                        failed_cnt += 1

														
 
															+                    except requests.exceptions.RequestException as err:

														
 
															+                        print("OOps: Something Else", err)

														
 
															+                        failed_cnt += 1

														
 
															+                    finally:

														
 
															+                        if failed_cnt >= 3 :

														
 
															+                            print('失败次数达到3次, 自动退出!')

														
 
															+                            break

														
 
															+                print(f'数据写入完成，写入网页数量为{pages - 1}页，{total_write_cnt}条数据记录！')

														
 
															+

														
 
															+            # 写最终文件

														
 
															+            self.end_time = time.time()

														
 
															+            total_time = round(self.end_time - self.start_time, 2)

														
 
															+            current_date = self.format_chinese_datetime()

														
 
															+            stat_info = f"# 项目编号: {self.project_id}, 获取日期: {current_date}, 总记录数量: {total_write_cnt}, 总耗时: {total_time}s"

														
 
															+            with open(self.save_path_tem, mode='r', encoding='utf-8') as file_handler:

														
 
															+                with open(self.save_path_final, mode='w', encoding='utf-8', newline='') as final_file_handler:

														
 
															+                    if self.include_head: final_file_handler.write(stat_info + '\n')

														
 
															+                    # 复制临时文件内容到最终文件

														
 
															+                    shutil.copyfileobj(file_handler, final_file_handler)

														
 
															+            os.unlink(self.save_path_tem)

														
 
															+            print('all-items文件写入成功：',self.save_path_final)

														
 
															+

														
 
															+    def get_name_code_transfer(self):

														
 
															+        """生成code和name之间的转换文件"""

														
 
															+        total_name_to_code = {'name_2_code': {},

														
 
															+                              'code_2_name': {},

														
 
															+                              'len': 0}

														
 
															+        if not os.path.exists(self.save_path_final):

														
 
															+            raise RuntimeError('文件不存在:', self.save_path_final)

														
 
															+        file_path_out = config.TRANSFER_JSON_NAME

														
 
															+        # file_path_out = self.save_path_final[:-4] + '_name_code_transfer.json'

														
 
															+        if os.path.exists(file_path_out):

														
 
															+            print('清理历史文件：', file_path_out)

														
 
															+            os.remove(file_path_out)

														
 
															+        with open(self.save_path_final, 'r', encoding='utf-8') as file_handler:

														
 
															+            csv_reader = csv.reader(file_handler)

														
 
															+            if self.include_head:

														
 
															+                try:

														
 
															+                    next(csv_reader)

														
 
															+                except StopIteration:

														
 
															+                    pass

														
 
															+            try:

														
 
															+                next(csv_reader)

														
 
															+            except StopIteration:

														
 
															+                pass

														
 
															+

														
 
															+            for row in csv_reader:

														
 
															+                total_name_to_code.get('name_2_code').update({row[0].strip(): row[1].strip()})

														
 
															+                total_name_to_code['len'] += 1

														
 
															+        total_name_to_code.get('code_2_name').update({v: k for k, v in total_name_to_code.get('name_2_code').items()})

														
 
															+        with open(file_path_out, 'w', encoding="utf-8",newline='') as f:

														
 
															+            json.dump(total_name_to_code, f, ensure_ascii=False, indent=4)

														
 
															+        print('name-code字典文件写入成功：',file_path_out)

														
 
															+

														
 
															+

														
 
															+if __name__ == '__main__':

														
 
															+    # 从智慧水萝卜网站获取数据库中的数据字段英文编号和中文名称

														
 
															+    dh = DataHelper()

														
 
															+    dh.get_all_label()

														
 
															+    # 生成code-name字典文件

														
 
															+    dh.get_name_code_transfer()

														
--- a/GetItem/get_items_distribution_from_database.py
+++ b/GetItem/get_items_distribution_from_database.py
@@ -0,0 +1,84 @@
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+from Database.database_ import Database, DatabaseParam

														
 
															+import config

														
 
															+import os

														
 
															+import csv

														
 
															+from utils.tools import fmt_date

														
 
															+

														
 
															+

														
 
															+def add_stat_info():

														
 
															+    # 读取字段文件

														
 
															+    file_path = os.path.join(config.ALL_ITEMS_FILE_DIR, config.ALL_ITEMS_FILE_NAME)

														
 
															+    if not os.path.exists(file_path):

														
 
															+        raise RuntimeError('文件不存在 ', file_path)

														
 
															+    # 格式化起始结束日期

														
 
															+    start_date, end_date = fmt_date(

														
 
															+        start_year=config.CHECK_YEAR_START, end_year=config.CHECK_YEAR_END,start_month=config.CHECK_MONTH_START,end_month=config.CHECK_MONTH_END,start_day=config.CHECK_DAY_START,end_day=config.CHECK_DAY_END,

														
 
															+        start_hour=config.CHECK_HOUR_START, end_hour=config.CHECK_HOUR_END, start_minute=config.CHECK_MINUTE_START, end_minute=config.CHECK_MINUTE_END, start_second=config.CHECK_SECONDS_START, end_second=config.CHECK_SECONDS_END)

														
 
															+    print(f'统计起始日期：{start_date}；结束日期：{end_date}')

														
 
															+    # 连接数据库

														
 
															+    db_param = DatabaseParam(

														
 
															+        db_host=config.DB_HOST,

														
 
															+        db_user=config.DB_USER,

														
 
															+        db_password=config.DB_PASSWORD,

														
 
															+        db_name=config.DB_NAME,

														
 
															+        db_port=config.DB_PORT)

														
 
															+    # 数据库操作应在内部

														
 
															+    with Database(db_param) as db:   # 连接数据库

														
 
															+        with open(file_path, 'r', encoding='utf-8') as file_handler:

														
 
															+            csv_reader = csv.reader(file_handler)  # all_items文件读取器

														
 
															+            # 先读一行头

														
 
															+            if config.INCLUDE_HEAD:

														
 
															+                try:

														
 
															+                    head = next(csv_reader)

														
 
															+                except StopIteration:

														
 
															+                    print(f'{file_path} 文件为空')

														
 
															+            # 读标签

														
 
															+            try:

														
 
															+                label = next(csv_reader)

														
 
															+            except StopIteration:

														
 
															+                print(f'{file_path} 文件为空')

														
 
															+            # 添加字段

														
 
															+            label += ['记录数', '最小时间', '最大时间']

														
 
															+            stat_file_path = os.path.join(config.STATISTICS_FILE_DIR,config.STATISTICS_FILE_NAME)

														
 
															+            if os.path.exists(stat_file_path):

														
 
															+                print('清理历史文件：',stat_file_path)

														
 
															+                os.remove(stat_file_path)

														
 
															+            with open(stat_file_path, 'w', encoding='utf-8', newline='') as file_handler_stat:

														
 
															+                # 写入头

														
 
															+                csv.writer(file_handler_stat).writerow(label)

														
 
															+                # 获取数据库所有的字段

														
 
															+                sql = f"""SELECT DISTINCT item_name FROM {config.DB_SHEET_NAME} WHERE project_id = {config.PROJECT_ID}"""

														
 
															+                db.db_cursor.execute(sql)

														
 
															+                db_items = [item[0].strip() for item in db.db_cursor.fetchall()]

														
 
															+                # 逐行查询数据库并写入文件

														
 
															+                print('正在统计... ', end='')

														
 
															+                for num, row in enumerate(csv_reader):  # all_items文件读取器

														
 
															+                    data_code = row[1].strip()  # 表格中的数据编码

														
 
															+                    if not data_code in db_items: continue  # 如果字段不在数据库，那么就直接跳过

														
 
															+                    # 统计数量

														
 
															+                    sql = f"""SELECT COUNT(*) FROM {config.DB_SHEET_NAME} WHERE item_name = '{data_code}' AND project_id = '{config.PROJECT_ID}' AND h_time >= '{start_date}' AND h_time <= '{end_date}'"""

														
 
															+                    db.db_cursor.execute(sql)

														
 
															+                    query_count = db.db_cursor.fetchone()[0]

														
 
															+                    row.append(query_count)

														
 
															+                    # 统计最小时间

														
 
															+                    sql = f"""SELECT MIN(h_time) FROM {config.DB_SHEET_NAME} WHERE item_name = '{data_code}' AND project_id = '{config.PROJECT_ID}' AND h_time >= '{start_date}' AND h_time <= '{end_date}'"""

														
 
															+                    db.db_cursor.execute(sql)

														
 
															+                    query_min_date = db.db_cursor.fetchone()[0]

														
 
															+                    row.append(query_min_date)

														
 
															+                    # 统计最大时间

														
 
															+                    sql = f"""SELECT MAX(h_time) FROM {config.DB_SHEET_NAME} WHERE item_name = '{data_code}' AND project_id = '{config.PROJECT_ID}' AND h_time >= '{start_date}' AND h_time <= '{end_date}'"""

														
 
															+                    db.db_cursor.execute(sql)

														
 
															+                    query_max_date = db.db_cursor.fetchone()[0]

														
 
															+                    row.append(query_max_date)

														
 
															+                    csv.writer(file_handler_stat).writerow(row)

														
 
															+                    print('.', end='')

														
 
															+                print('\n统计完成，文件保存至:',stat_file_path)

														
 
															+

														
 
															+

														
 
															+

														
 
															+if __name__ == '__main__':

														
 
															+    # 从数据库中统计各字段数据量

														
 
															+    add_stat_info()

														
 
															+

														
--- a/ResultShow/show.py
+++ b/ResultShow/show.py
@@ -0,0 +1,210 @@
 
															+import os.path

														
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+import pandas as pd

														
 
															+import config

														
 
															+import pickle

														
 
															+from utils.tools import create_custom_heatmap, set_chinese_font, group_list, quick_sort, load_transfer_file_name_code

														
 
															+import csv

														
 
															+from sklearn.preprocessing import StandardScaler

														
 
															+from sklearn.linear_model import LinearRegression

														
 
															+from sklearn.metrics import mean_squared_error, mean_absolute_error

														
 
															+from sklearn.metrics import r2_score

														
 
															+import numpy as np

														
 
															+from openpyxl import load_workbook

														
 
															+

														
 
															+set_chinese_font()

														
 
															+

														
 
															+def load_pearsonr_mat():

														
 
															+    with open(os.path.join(config.R_MAT_JSON_FILE_DIR, config.R_MAT_JSON_FILE_NAME), 'rb') as f:

														
 
															+        results = pickle.load(f)

														
 
															+    return results

														
 
															+

														
 
															+def show_all_results():

														
 
															+    """展示所有结果"""

														
 
															+    # 加载计算结果

														
 
															+    with open(os.path.join(config.R_MAT_JSON_FILE_DIR, config.R_MAT_JSON_FILE_NAME), 'rb') as f:

														
 
															+        results = pickle.load(f)

														
 
															+    label_list = results.columns.tolist()

														
 
															+    # 行列分组显示热力图

														
 
															+    row_group_elements_num = 25  # 行分组

														
 
															+    row_group_name = group_list(label_list, row_group_elements_num)

														
 
															+    col_group_elements_num = 50  # 列分组

														
 
															+    col_group_name = group_list(label_list, col_group_elements_num)

														
 
															+

														
 
															+    for i, row_group in enumerate(row_group_name):

														
 
															+        for j, col_group in enumerate(col_group_name):

														
 
															+            corr_matrix = results.loc[row_group, col_group]

														
 
															+            create_custom_heatmap(corr_matrix, title=f'{config.PROJECT_ID}_水厂数据相关系数热力图{i}-{j}')

														
 
															+

														
 
															+    query_name = input('是否继续查询结果所在位置(y/n)：')

														
 
															+    if query_name == 'y' or query_name == 'Y':

														
 
															+        while query_name != '退出':

														
 
															+            query_name = input('查询：')

														
 
															+            flag = False

														
 
															+            for i, row_group in enumerate(row_group_name):

														
 
															+                if query_name in row_group:

														
 
															+                    flag = True

														
 
															+                    print(f'位置：{i}-*.png')

														
 
															+                    break

														
 
															+            if not flag:

														
 
															+                print(f'位置：{query_name}不在统计范围')

														
 
															+

														
 
															+def save_txt(path):

														
 
															+    """按照某一个格式写入txt文件"""

														
 
															+    with open(os.path.join(config.R_MAT_JSON_FILE_DIR, config.R_MAT_JSON_FILE_NAME), 'rb') as f:

														
 
															+        results = pickle.load(f)

														
 
															+    label_list = results.columns.tolist()

														
 
															+

														
 
															+    with open(path, 'w', encoding='utf-8') as f:

														
 
															+        for i in range(len(label_list)):

														
 
															+            for j in range(len(label_list)):

														
 
															+                r = results.iloc[i,j]

														
 
															+                if abs(r-1) < 1e-6 or r < 0.2: continue

														
 
															+                f.write(f'{label_list[i]}-{label_list[j]}:{r:.2f};')

														
 
															+

														
 
															+def save_csv(path):

														
 
															+    with open(os.path.join(config.R_MAT_JSON_FILE_DIR, config.R_MAT_JSON_FILE_NAME), 'rb') as f:

														
 
															+        results = pickle.load(f)

														
 
															+    label_list = results.columns.tolist()

														
 
															+

														
 
															+def rank(path):

														
 
															+    """按照相关系数进行排序，排序后写入文件"""

														
 
															+    if os.path.exists(path):

														
 
															+        os.remove(path)

														
 
															+    rmat = load_pearsonr_mat()  # 对称矩阵

														
 
															+    label_list = rmat.columns.tolist()

														
 
															+    with open(path, 'w', newline='', encoding='utf-8') as f:

														
 
															+        csv_writer = csv.writer(f)

														
 
															+        for col_label in label_list:

														
 
															+            # 从皮尔逊矩阵挑选出1列元素

														
 
															+            elements = []

														
 
															+            for row_label in label_list:

														
 
															+                elements.append((row_label, rmat.loc[row_label, col_label]))

														
 
															+            # 按照皮尔逊相关系数的绝对值进行升序排序

														
 
															+            quick_sort(elements, 0, len(elements) - 1)

														
 
															+            # 反转list，由大到小排序

														
 
															+            elements = elements[::-1]

														
 
															+            # 写入csv

														
 
															+            csv_line_content = [f'{tup[0]} | {tup[1]:.2f}' for tup in elements if abs(tup[1]) > 0]

														
 
															+            csv_writer.writerow([col_label] + csv_line_content)

														
 
															+

														
 
															+def directed_heatmap(series_a_name, series_b_name):

														
 
															+

														
 
															+    # 定向绘制皮尔逊系数矩阵

														
 
															+    rmat = load_pearsonr_mat()

														
 
															+    series_a_name = [i for i in series_a_name if i in rmat.columns.tolist()]

														
 
															+    series_b_name = [i for i in series_b_name if i in rmat.columns.tolist()]

														
 
															+    corr_matrix = rmat.loc[series_a_name, series_b_name]

														
 
															+    create_custom_heatmap(corr_matrix, title=f'{config.PROJECT_ID}_PearsonMat-{'_'.join(series_a_name[:3])}等-VS-{'_'.join(series_b_name[:3])}等')

														
 
															+

														
 
															+def free_ols(target_name, x_name):

														
 
															+    """自由最小二乘"""

														
 
															+    # 剔除自身字段

														
 
															+    if target_name in x_name:

														
 
															+        x_name.remove(target_name)

														
 
															+    # 获取数据

														
 
															+    with open(config.DF_MERGE_FILE_PATH, 'rb') as f:

														
 
															+        df_merge_mat = pickle.load(f)

														
 
															+    name_2_code_dict, code_2_name_dict  = load_transfer_file_name_code(os.path.join(config.ALL_ITEMS_FILE_DIR, config.TRANSFER_JSON_NAME))

														
 
															+

														
 
															+    if target_name not in name_2_code_dict.keys():

														
 
															+        raise RuntimeError('输入的target字段与数据不匹配', target_name)

														
 
															+

														
 
															+    x_name = [i for i in x_name if i in name_2_code_dict.keys()]

														
 
															+

														
 
															+    target_code = name_2_code_dict.get(target_name)

														
 
															+    if target_code not in df_merge_mat.columns.tolist():

														
 
															+        return

														
 
															+    x_code = [name_2_code_dict.get(i) for i in x_name if name_2_code_dict.get(i) in df_merge_mat.columns.tolist()]

														
 
															+    if len(x_name) == 0 or len(x_code) == 0:

														
 
															+        raise RuntimeError('输入的x字段与数据不匹配', x_name)

														
 
															+

														
 
															+    #ols

														
 
															+    # 标准化

														
 
															+    x = df_merge_mat.loc[:, x_code].copy()

														
 
															+    y = df_merge_mat.loc[:, target_code]

														
 
															+    scaler = StandardScaler()

														
 
															+    x = scaler.fit_transform(x)

														
 
															+    ols_model = LinearRegression()

														
 
															+    ols_model.fit(x, y)

														
 
															+

														
 
															+    # OLS模型诊断

														
 
															+    print_info = []

														
 
															+    print('\n===========OLS训练结果==================')

														
 
															+    print(f'Y：{target_name}')

														
 
															+    print(f"OLS 截距: {ols_model.intercept_}")

														
 
															+    print(f"OLS 系数:")

														
 
															+    for feat, coef in zip(x_name, ols_model.coef_):

														
 
															+        print(f"  {feat}: {coef:.4f}")

														
 
															+        print_info.append(f'{coef:.4f}*{feat}')

														
 
															+    print(f"OLS R² (训练集): {ols_model.score(x,y):.4f}")

														
 
															+    print_info = ['+'+i if i[0]!='-' else i for i in print_info]

														
 
															+    print(f"{target_name}="+''.join(print_info) + f'+{ols_model.intercept_:.4}' if str(ols_model.intercept_)[0] != '-' else f'{ols_model.intercept_:.4}')

														
 
															+

														
 
															+    # 基本指标评价

														
 
															+    y_pred = ols_model.predict(x)

														
 
															+    residuals = y - y_pred

														
 
															+    mse = mean_squared_error(y, y_pred)

														
 
															+    rmse = np.sqrt(mse)

														
 
															+    mae = mean_absolute_error(y, y_pred)

														
 
															+    r2 = r2_score(y, y_pred)

														
 
															+    # 调整R²

														
 
															+    n = len(y)

														
 
															+    p = x.shape[1]

														
 
															+    adj_r2 = 1 - (1 - r2) * (n - 1) / (n - p - 1)

														
 
															+    print("\n===========模型性能指标==================:")

														
 
															+    print(f"均方误差 (MSE): {mse:.4f}")

														
 
															+    print(f"均方根误差 (RMSE): {rmse:.4f}")

														
 
															+    print(f"平均绝对误差 (MAE): {mae:.4f}")

														
 
															+    print(f"决定系数 (R²): {r2:.4f}")

														
 
															+    print(f"调整R²: {adj_r2:.4f}")

														
 
															+

														
 
															+if __name__ == '__main__':

														
 
															+    # 对所有结果进行展示

														
 
															+    # show_all_results()

														
 
															+    # 按照格式写入txt

														
 
															+    # save_txt('./tem.txt')

														
 
															+    # 皮尔逊排序

														
 
															+    #rank(f'./{config.PROJECT_ID}_rank.csv')

														
 
															+

														
 
															+    # 定向绘制皮尔逊分布图

														
 
															+    # 加载Excel工作簿

														
 
															+    # workbook = load_workbook(f'./{config.PROJECT_ID}_field_combination.xlsx')

														
 
															+    # # 获取所有sheet的名称

														
 
															+    # sheet_names = workbook.sheetnames

														
 
															+    # print("文件中包含的sheet有：", sheet_names)

														
 
															+    # # 遍历每一个sheet

														
 
															+    # for sheet_name in sheet_names:

														
 
															+    #     sheet = workbook[sheet_name]

														
 
															+    #     # 获取A列数据（从第一行开始）

														
 
															+    #     series_a_name = [cell.value for cell in sheet['A'] if cell.value is not None]

														
 
															+    #     # 获取B列数据（从第一行开始）

														
 
															+    #     series_b_name = [cell.value for cell in sheet['B'] if cell.value is not None]

														
 
															+    #     print(f"Sheet名称: {sheet_name}")

														
 
															+    #     print(f"  A列 {series_a_name}  ")

														
 
															+    #     print(f"  B列 {series_b_name}  ")

														
 
															+    #     directed_heatmap(series_a_name, series_b_name)

														
 
															+

														
 
															+

														
 
															+    # 定向自由回归

														
 
															+    # 加载Excel工作簿

														
 
															+    workbook = load_workbook(f'./{config.PROJECT_ID}_field_ols.xlsx')

														
 
															+    # 获取所有sheet的名称

														
 
															+    sheet_names = workbook.sheetnames

														
 
															+    print("文件中包含的sheet有：", sheet_names)

														
 
															+    # 遍历每一个sheet

														
 
															+    for sheet_name in sheet_names:

														
 
															+        sheet = workbook[sheet_name]

														
 
															+        # 获取A列数据（从第一行开始）

														
 
															+        series_a_name = [cell.value for cell in sheet['A'] if cell.value is not None]

														
 
															+        # 获取B列数据（从第一行开始）

														
 
															+        series_b_name = [cell.value for cell in sheet['B'] if cell.value is not None]

														
 
															+        free_ols(series_b_name[0], series_a_name)

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
 
															+

														
--- a/config.py
+++ b/config.py
@@ -0,0 +1,102 @@
 
															+import os

														
 
															+

														
 
															+# 项目ID

														
 
															+PROJECT_ID = 1420  # TODO 需要修改项目ID

														
 
															+# 智慧水萝卜URL登陆用户名和密码

														
 
															+USERNAME = 'admin'

														
 
															+PASSWORD = 'JK20200508'

														
 
															+# 智慧水萝卜URL登陆部门ID参数

														
 
															+DEP_ID = '135'

														
 
															+# 智慧水萝卜URL网站地址

														
 
															+BASE_URL = 'http://120.55.44.4:8900'

														
 
															+# ALL ITEMS文件保存路径

														
 
															+ALL_ITEMS_FILE_DIR = r'D:\code\data_analysis\GetItem'

														
 
															+ALL_ITEMS_FILE_NAME = f'{PROJECT_ID}_all_items.csv' # 输出的文件名称，不要轻易修改

														
 
															+ALL_ITEMS_FILE_PATH = os.path.join(ALL_ITEMS_FILE_DIR, ALL_ITEMS_FILE_NAME)

														
 
															+INCLUDE_HEAD = True  # ALL_ITEMS文件是否包含头信息

														
 
															+TRANSFER_JSON_NAME = f'{PROJECT_ID}_all_items_name_code_transfer.json'

														
 
															+# 智慧水萝卜某项目最大页数

														
 
															+MAX_PAGES = 290  # TODO 需要修改为网页的实际数量

														
 
															+PAGE_SIZE = 20

														
 
															+

														
 
															+# 数据库参数，从数据库拿数据时使用

														
 
															+DB_HOST = '192.168.50.4'

														
 
															+DB_USER = 'root'

														
 
															+DB_PASSWORD = '*B-@p2b+97D5xAF1e6'

														
 
															+DB_NAME = 'ws_data'  # 数据库名称

														
 
															+DB_PORT = 4000

														
 
															+POSTFIX = 'hour'  # 应该与DB_SHEET_NAME的后缀保持一致 TODO 可根据需求修改为天、小时或分钟

														
 
															+DB_SHEET_NAME = f'dc_item_history_data_{POSTFIX}'  # 表名称

														
 
															+# 开始年月日

														
 
															+CHECK_YEAR_START = 2025

														
 
															+CHECK_MONTH_START = 1

														
 
															+CHECK_DAY_START = 1

														
 
															+# 结束年月日

														
 
															+CHECK_YEAR_END = 2025

														
 
															+CHECK_MONTH_END = 12

														
 
															+CHECK_DAY_END = 31

														
 
															+# 时分秒

														
 
															+CHECK_HOUR_START = 0

														
 
															+CHECK_MINUTE_START = 0

														
 
															+CHECK_SECONDS_START = 0

														
 
															+CHECK_HOUR_END = 23

														
 
															+CHECK_MINUTE_END = 59

														
 
															+CHECK_SECONDS_END = 59

														
 
															+

														
 
															+# 统计数据量

														
 
															+STATISTICS_FILE_DIR = r'D:\code\data_analysis\GetItem'

														
 
															+STATISTICS_FILE_NAME = f'{PROJECT_ID}_statistics_{POSTFIX}.csv'

														
 
															+# 是否从文件加载

														
 
															+IS_FROM_LOCAL = False

														
 
															+

														
 
															+# 皮尔逊相关系数计算

														
 
															+EXCLUDE_WORDS = ['电流', '控制字', '步序', '时间设定', '开关', '报警', '噪音']  # 排除列表，若字段包含列表内的词，就自动跳过不参与统计

														
 
															+DIFF_WORDS = ['累计', '计数', '运行时间', '电能']  # 差分列表，若字段包含列表内的词，就对数据执行差分

														
 
															+MIN_RECORDS = 2000 # 低于该值的字段不会参与计算  TODO 需要修改记录的最小记录数

														
 
															+IS_LAG = True

														
 
															+IS_NORMALIZE = False

														
 
															+MAX_LAG = 0  # 最大滞后, 0表示没有滞后

														
 
															+STEP = 1  # 最大滞后步长

														
 
															+P_VALUE_THRESHOLD = 0.05 # 显著性p值阈值

														
 
															+PEARSONR_VALUE_THRESHOLD = 0.10 # 皮尔逊相关系数r阈值，低于此阈值视同为0

														
 
															+# 皮尔逊输出文件保存地址

														
 
															+R_MAT_JSON_FILE_DIR = r'D:\code\data_analysis\Analysis'

														
 
															+R_MAT_JSON_FILE_NAME = f'{PROJECT_ID}_pearsonr_mat_{POSTFIX}.pkl'

														
 
															+R_MAT_JSON_PATH = os.path.join(R_MAT_JSON_FILE_DIR, R_MAT_JSON_FILE_NAME)

														
 
															+

														
 
															+

														
 
															+# Lasso

														
 
															+LASSO_FEATURE_FILE_DIR = r'D:\code\data_analysis\Analysis'

														
 
															+LASSO_FEATURE_FILE_NAME = 'lasso_features_choose.json'

														
 
															+LASSO_FEATURE_FILE_PATH = os.path.join(R_MAT_JSON_FILE_DIR, LASSO_FEATURE_FILE_NAME)

														
 
															+

														
 
															+

														
 
															+# other 拓展参数

														
 
															+def fmt_date(start_year,end_year,

														
 
															+             start_month,end_month,

														
 
															+             start_day,end_day,

														
 
															+             start_hour=0,end_hour=23,

														
 
															+             start_minute=0,end_minute=59,

														
 
															+             start_second=0,end_second=59):

														
 
															+    fmt = lambda x: '0' + str(x) if abs(x) < 10 else str(x)

														
 
															+    start_month = fmt(start_month)

														
 
															+    end_month = fmt(end_month)

														
 
															+    start_day = fmt(start_day)

														
 
															+    end_day = fmt(end_day)

														
 
															+    start_hour = fmt(start_hour)

														
 
															+    end_hour = fmt(end_hour)

														
 
															+    start_minute = fmt(start_minute)

														
 
															+    end_minute = fmt(end_minute)

														
 
															+    start_second = fmt(start_second)

														
 
															+    end_second = fmt(end_second)

														
 
															+

														
 
															+    start_datetime = f'{start_year}-{start_month}-{start_day} {start_hour}:{start_minute}:{start_second}'

														
 
															+    end_datetime = f'{end_year}-{end_month}-{end_day} {end_hour}:{end_minute}:{end_second}'

														
 
															+    return start_datetime, end_datetime

														
 
															+DATE_START, DATE_END = fmt_date(start_year=CHECK_YEAR_START, start_month=CHECK_MONTH_START, start_day=CHECK_DAY_START,

														
 
															+                                start_hour=CHECK_HOUR_START, start_minute=CHECK_MINUTE_START, start_second=CHECK_SECONDS_START,

														
 
															+                                end_year=CHECK_YEAR_END, end_month=CHECK_MONTH_END, end_day=CHECK_DAY_END,

														
 
															+                                end_hour=CHECK_HOUR_END, end_minute=CHECK_MINUTE_END, end_second=CHECK_SECONDS_END)

														
 
															+DF_MERGE_FILE_DIR = r'D:\code\data_analysis\Analysis'

														
 
															+DF_MERGE_FILE_PATH = os.path.join(DF_MERGE_FILE_DIR, f'{PROJECT_ID}_' + DB_NAME + '_' + DB_SHEET_NAME + '_' + POSTFIX + '_' + DATE_START.replace(':','-') + '_' + DATE_END.replace(':','-') + '.pkl').replace(' ', '_')

														
 
															+

														
--- a/readme
+++ b/readme
@@ -0,0 +1,12 @@
 
															+第零步，设置config.py文件参数：

														
 
															+    需要修改水厂id，指定数据库表名称和后缀(day/hour/minutes)，修改时间范围等关键参数，看TODO

														
 
															+第一步，获取水厂所有的字段：

														
 
															+    运行get_all_items.py，生成all_items.csv，记录了数据库中字段名称和编码，同时生成了名称编码转换词典，all_items_name_code_transfer.json

														
 
															+第二步，统计数据库数据情况：

														
 
															+    运行get_items_distribution_from_database.py，生成统计数据statistics.csv，记录了每个字段的数据点数，可以根据这份统计文件修改config的MIN_RECORDS参数

														
 
															+第三步，为所有字段计算皮尔逊结果：

														
 
															+    运行pearsonr.py，开始计算全字段皮尔逊系数，计算过程中已经考虑了显著性p值，仅保留显著性结果，pearsonr_mat.pkl为皮尔逊矩阵，ws_data_dc_item_history_data_hour.pkl为历史数据

														
 
															+第四步，热力图可视化

														
 
															+    运行show.py

														
 
															+第五步，挑选相关的变量进行回归分析

														
 
															+

														
--- a/temp/config_analysis.py
+++ b/temp/config_analysis.py
@@ -0,0 +1,21 @@
 
															+PROJECT_ID = 92

														
 
															+# 需要修改

														
 
															+BASE_NAME = f'{PROJECT_ID}_all_items_statistics_hour'

														
 
															+INPUT_CSV_FILE = f'../GetItem/{BASE_NAME}.csv'  # 输入的统计文件，记录了各项字段和记录数

														
 
															+TOTAL_LIST_JSON_FILE = f'{BASE_NAME}.json'  # 筛选后需要计算相关性的字段

														
 
															+OUTPUT_JSON_FILE = f'../Analysis/{BASE_NAME}_out.json'  # 输出的计算结果

														
 
															+COLUMN_NAME_2_INDEX = {'名称': 0, '编码': 1, '单位': 2, '精度': 3, '设备号': 4,'是否枚举':5, '记录数': 6, '最小时间': 7, '最大时间': 8}

														
 
															+# 需要修改

														
 
															+DB_SHEET_NAME = 'dc_item_history_data_hour'  # 需要查询的表单名称

														
 
															+# 需要修改

														
 
															+DATA_MIN_RECORDS = 400 # 低于这个数量的字段将不会参与统计

														
 
															+MAX_LAG = 2

														
 
															+CHECK_YEAR_START = 2025

														
 
															+CHECK_YEAR_END = 2025

														
 
															+CHECK_MONTH_START = 6

														
 
															+CHECK_MONTH_END = 9

														
 
															+CHECK_DAY_START = 10

														
 
															+CHECK_DAY_END = 10

														
 
															+

														
 
															+P_VALUE_THRESHOLD = 0.05 # 检验t统计的p值阈值

														
 
															+R_THRESHOLD = 0.35 # 检验t统计的p值阈值，0.6以上可以认为相关程度强，0.8以上可以认为极强

														
--- a/temp/data_show.py
+++ b/temp/data_show.py
@@ -0,0 +1,145 @@
 
															+#sys.path.append("..")

														
 
															+import json

														
 
															+import os

														
 
															+import csv

														
 
															+from temp import config_analysis

														
 
															+from temp.utils_analysis import create_custom_heatmap, set_chinese_font, cross_corr, group_list

														
 
															+from Database.database_ import Database, DatabaseParam

														
 
															+

														
 
															+

														
 
															+def read_json(json_file, key:str='data'):

														
 
															+    """加载json"""

														
 
															+    with open(json_file, 'r', encoding='utf-8') as f:

														
 
															+        data_ = json.load(f)

														
 
															+        print('数据加载成功,总数量：', data_.get('len'))

														
 
															+    return data_.get(key)

														
 
															+

														
 
															+def select(d_list: list, l_list:list) -> list:

														
 
															+

														
 
															+    counter_dict_row = {}

														
 
															+    counter_dict_col = {}

														
 
															+    # 行计数

														
 
															+    # for l in l_list:

														
 
															+    #     counter_dict_row.update({l: 0})

														
 
															+    #     counter_dict_col.update({l: 0})

														
 
															+    for d in d_list:

														
 
															+        counter_dict_row.update({d.get('A').get('name'): 0})

														
 
															+        counter_dict_col.update({d.get('B').get('name'): 0})

														
 
															+    # 列计数

														
 
															+    for d in d_list:

														
 
															+        counter_dict_row[d['A']['name']] += 1

														
 
															+        counter_dict_col[d['B']['name']] += 1

														
 
															+

														
 
															+    # 剔除只自相关的数据字段

														
 
															+    new_d_list_idx = []

														
 
															+    for idx, d in enumerate(d_list):

														
 
															+        if d['A']['name'] == d['B']['name']:

														
 
															+            if counter_dict_row[d['A']['name']] == 1 and counter_dict_col[d['B']['name']] == 1:

														
 
															+                continue

														
 
															+        new_d_list_idx.append(idx)

														
 
															+    new_d_list = [d_list[i] for i in new_d_list_idx]

														
 
															+    return new_d_list

														
 
															+

														
 
															+

														
 
															+if __name__ == '__main__':

														
 
															+    # 添加列表

														
 
															+    added_list = ['超滤总产水浊度','超滤总产水余氯']

														
 
															+    # 排除列表

														
 
															+    not_selected = ['电流', '控制字', '步序', '时间设定', '开关', '报警', '噪音']

														
 
															+    # 设置中文字体

														
 
															+    set_chinese_font()

														
 
															+    # 获取name和code的映射关系

														
 
															+    with open('../GetItem/92_all_items_name_code_transfer.json', 'r', encoding='utf-8') as f:  # 总字段加载文件

														
 
															+        name_code_transfer = json.load(f)

														
 
															+        print(f'加载name与code映射字典，共{name_code_transfer.get('len')}条')

														
 
															+    name_2_code = name_code_transfer.get('name_2_code')

														
 
															+    code_2_name = name_code_transfer.get('code_2_name')

														
 
															+    del name_code_transfer

														
 
															+    # 结果表格化

														
 
															+    out_name = 'result_' + os.path.basename(config_analysis.OUTPUT_JSON_FILE)[:-5] + '.csv'

														
 
															+    data_list = read_json(config_analysis.OUTPUT_JSON_FILE)

														
 
															+    # 需要统计的所有字段

														
 
															+    total_name = read_json(config_analysis.OUTPUT_JSON_FILE[:-9] + '.json', 'total_name_list')

														
 
															+    total_code = read_json(config_analysis.OUTPUT_JSON_FILE[:-9] + '.json', 'total_code_list')

														
 
															+    data_list = select(data_list, total_name)

														
 
															+    # 写入csv

														
 
															+    if os.path.exists(out_name):

														
 
															+        os.remove(out_name)

														
 
															+    with open(out_name, 'a', encoding='utf-8') as f:

														
 
															+        csv.writer(f).writerow(['A序列', 'B序列', 'k1', 'p1', 'r1', 'k2', 'p2', 'r2', 'k3', 'p3', 'r3'])

														
 
															+        for item_dict in data_list:

														
 
															+            txt_content_A = [f'{item_dict.get('A').get('name')}({item_dict.get('A').get('code')})']

														
 
															+            txt_content_B = [f'{item_dict.get('B').get('name')}({item_dict.get('B').get('code')})']

														
 
															+            txt_content_res = []

														
 
															+            for it in item_dict.get('res'):

														
 
															+                txt_content_res.append(f'{it.get('k')}')

														
 
															+                txt_content_res.append(f'{it.get('p'):.4f}')

														
 
															+                txt_content_res.append(f'{it.get('r'):.4f}')

														
 
															+            csv.writer(f).writerow(txt_content_A + txt_content_B + txt_content_res)

														
 
															+    new_label_name = set()

														
 
															+    for d in data_list:

														
 
															+        new_label_name.add(d['A']['name'])

														
 
															+        new_label_name.add(d['B']['name'])

														
 
															+    # 增加添加列表

														
 
															+    for ele in added_list:

														
 
															+        new_label_name.add(ele)

														
 
															+    # 剔除排除列表

														
 
															+    new_label_name_temp = []

														
 
															+    for ele in new_label_name:

														
 
															+        flag = True

														
 
															+        for not_selected_ele in not_selected:

														
 
															+            if not_selected_ele in ele:

														
 
															+                flag = False

														
 
															+                break

														
 
															+        if flag: new_label_name_temp.append(ele)

														
 
															+    new_label_name = new_label_name_temp

														
 
															+    del new_label_name_temp

														
 
															+    new_label_code = [name_2_code.get(ele) for ele in new_label_name]

														
 
															+    # 二次筛选后的统计字段

														
 
															+    del data_list

														
 
															+    print('筛选后还剩下的字段数：', len(new_label_name))

														
 
															+

														
 
															+    # 逐组进行二次计算

														
 
															+    db_param = DatabaseParam(

														
 
															+        db_host='192.168.50.4',

														
 
															+        db_user='root',

														
 
															+        db_password='*B-@p2b+97D5xAF1e6',

														
 
															+        db_name='ws_data',

														
 
															+        db_port=4000)

														
 
															+    # 按组计算

														
 
															+    with Database(db_param) as db:

														
 
															+        group_df = db.query_sql_time_series_group2data_frame(

														
 
															+                                                 code_name_dict=code_2_name,

														
 
															+                                                 project_id=config_analysis.PROJECT_ID,

														
 
															+                                                 sheet_name=config_analysis.DB_SHEET_NAME,

														
 
															+                                                 data_codes=new_label_code,

														
 
															+                                                 start_year=config_analysis.CHECK_YEAR_START,

														
 
															+                                                 end_year=config_analysis.CHECK_YEAR_END,

														
 
															+                                                 start_month=config_analysis.CHECK_MONTH_START,

														
 
															+                                                 end_month=config_analysis.CHECK_MONTH_END,

														
 
															+                                                 start_day=config_analysis.CHECK_DAY_START,

														
 
															+                                                 end_day=config_analysis.CHECK_DAY_END)

														
 
															+        del new_label_code, new_label_name

														
 
															+        new_label_code = sorted([i for i in group_df.columns.tolist() if i != 'time'])

														
 
															+        # 对列表进行分组

														
 
															+        row_group_elements_num = 25  # 行分组

														
 
															+        row_group_code = group_list(new_label_code, row_group_elements_num)

														
 
															+        col_group_elements_num = 50  # 列分组

														
 
															+        col_group_code = group_list(new_label_code, col_group_elements_num)

														
 
															+        for i, row_code in enumerate(row_group_code):

														
 
															+            for j, col_code in enumerate(col_group_code):

														
 
															+                corr = cross_corr(row_code, col_code, group_df, code_2_name)

														
 
															+                create_custom_heatmap(corr_matrix=corr, title=f'中荷水厂数据相关系数热力图{i}-{j}')

														
 
															+

														
 
															+    query_name = input('是否继续查询结果所在位置(y/n)：')

														
 
															+    if query_name == 'y' or query_name == 'Y':

														
 
															+        while query_name != '退出':

														
 
															+            query_name = input('查询：')

														
 
															+            flag = False

														
 
															+            for i, row_group in enumerate(row_group_code):

														
 
															+                if name_2_code.get(query_name) in row_group:

														
 
															+                    flag = True

														
 
															+                    print(f'位置：{i}-*.png')

														
 
															+                    break

														
 
															+            if not flag:

														
 
															+                print(f'位置：{query_name}不在统计范围')

														
--- a/temp/directed_show.py
+++ b/temp/directed_show.py
@@ -0,0 +1,79 @@
 
															+"""

														
 
															+指定两组数据标签，绘制相关系数热力图，用于定向分析

														
 
															+"""

														
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+from temp import config_analysis

														
 
															+from temp.utils_analysis import create_custom_heatmap, set_chinese_font, cross_corr

														
 
															+from Database.database_ import Database, DatabaseParam

														
 
															+import json

														
 
															+import matplotlib.pyplot as plt

														
 
															+from datetime import datetime

														
 
															+time_now = datetime.now().strftime('%H:%M:%S')

														
 
															+#series_a_name = ['管廊间温度1','加药间温度1','膜车间温度1','泵房温度1']   # 需要修改, 列标签

														
 
															+#series_b_name = ['RO1 1段酸洗记次数','RO1 1段J洗记次数', 'RO1 1段FY洗记次数', 'RO1 2段FY洗记次数', '1#超滤反洗水泵运行时间', '段间泵A温度', '反渗透高压泵A温度', '反渗透冲洗水泵A温度','反渗透外供水泵A温度','超滤反洗水泵A温度','超滤供水泵A温度','超滤总进水浊度','超滤反洗泵A 累计电量'] # 需要修改， 行标签

														
 
															+#series_a_name = ['UF1跨膜压差','UF2跨膜压差', 'UF3跨膜压差', 'UF4跨膜压差','超滤总产水PH', 'RO1产水电导','RO2产水电导','RO3产水电导','RO4产水电导','反渗透总产水电导','RO1一段浓水压力','RO2一段浓水压力','RO3一段浓水压力','RO4一段浓水压力','RO1一段进水压力','RO2一段进水压力','RO3一段进水压力','RO4一段进水压力']

														
 
															+#series_b_name = ['超滤总进水压力','超滤总产水压力','超滤总进水浊度', '反渗透总进水温度','反渗透总进水电导','超滤总产水PH','反渗透总进水PH','外供水-PH','1#阻垢剂加药泵(RO)运行频率','2#阻垢剂加药泵(RO)运行频率','3#阻垢剂加药泵(RO)运行频率', '4#阻垢剂加药泵(RO)运行频率','1#反渗透阻垢剂流量','2#反渗透阻垢剂流量','3#反渗透阻垢剂流量','4#反渗透阻垢剂流量','还原剂流量','还原剂药箱1液位','还原剂药箱2液位','盐酸药箱液位','RO1一段浓水压力','RO2一段浓水压力','RO3一段浓水压力','RO4一段浓水压力','RO1一段进水压力','RO2一段进水压力','RO3一段进水压力','RO4一段进水压力']

														
 
															+series_a_name = ['超滤总进水压力','RO1产水电导','RO2产水电导','RO3产水电导','RO4产水电导','超滤总产水PH','反渗透总产水电导']

														
 
															+series_b_name = ['RO1一段浓水压力','RO2一段浓水压力','RO3一段浓水压力','RO4一段浓水压力','RO1一段进水压力','RO2一段进水压力','RO3一段进水压力','RO4一段进水压力','超滤总进水压力','反渗透总进水温度']

														
 
															+#series_a_name = ['RO1产水电导','RO2产水电导','RO3产水电导','RO4产水电导']

														
 
															+#series_b_name = ['1#阻垢剂加药泵(RO)运行频率','2#阻垢剂加药泵(RO)运行频率','3#阻垢剂加药泵(RO)运行频率', '4#阻垢剂加药泵(RO)运行频率','1#反渗透阻垢剂流量','2#反渗透阻垢剂流量','3#反渗透阻垢剂流量','4#反渗透阻垢剂流量']

														
 
															+db_param = DatabaseParam(

														
 
															+        db_host='192.168.50.4',

														
 
															+        db_user='root',

														
 
															+        db_password='*B-@p2b+97D5xAF1e6',

														
 
															+        db_name='ws_data',

														
 
															+        db_port=4000)

														
 
															+# 检查字段

														
 
															+with open('../GetItem/92_all_items_name_code_transfer.json', 'r', encoding='utf-8') as f:  # 总字段加载文件

														
 
															+    name_code_transfer = json.load(f)

														
 
															+    print(f'加载name与code映射字典，共{name_code_transfer.get('len')}条')

														
 
															+name_2_code = name_code_transfer.get('name_2_code')

														
 
															+code_2_name = name_code_transfer.get('code_2_name')

														
 
															+del name_code_transfer

														
 
															+

														
 
															+for name in series_a_name:

														
 
															+    if name not in name_2_code.keys():

														
 
															+        raise IOError(f'指定字段{name}不存在', '输入A序列：',series_a_name)

														
 
															+for name in series_b_name:

														
 
															+    if name not in name_2_code.keys():

														
 
															+        raise IOError(f'指定字段{name}不存在', '输入B序列：',series_b_name)

														
 
															+# 设置中文字体

														
 
															+set_chinese_font()

														
 
															+# 按组计算

														
 
															+with Database(db_param) as db:

														
 
															+    series_a_code = [name_2_code.get(i) for i in series_a_name]

														
 
															+    series_b_code = [name_2_code.get(i) for i in series_b_name]

														
 
															+    group_df = db.query_sql_time_series_group2data_frame(

														
 
															+        code_name_dict=code_2_name,

														
 
															+        project_id=config_analysis.PROJECT_ID,

														
 
															+        sheet_name=config_analysis.DB_SHEET_NAME,

														
 
															+        data_codes=series_a_code + series_b_code,

														
 
															+        start_year=config_analysis.CHECK_YEAR_START,

														
 
															+        end_year=config_analysis.CHECK_YEAR_END,

														
 
															+        start_month=config_analysis.CHECK_MONTH_START,

														
 
															+        end_month=config_analysis.CHECK_MONTH_END,

														
 
															+        start_day=config_analysis.CHECK_DAY_START,

														
 
															+        end_day=config_analysis.CHECK_DAY_END)

														
 
															+    # 剔除不存在的字段

														
 
															+    series_a_code = [i for i in series_a_code if i in group_df.columns.tolist()]

														
 
															+    series_b_code = [i for i in series_b_code if i in group_df.columns.tolist()]

														
 
															+

														
 
															+    corr = cross_corr(series_a_code, series_b_code, group_df, code_2_name)

														
 
															+    create_custom_heatmap(corr_matrix=corr, title=f'中荷水厂数据相关系数热力图 ' + time_now)

														
 
															+

														
 
															+    # 绘制曲线

														
 
															+    for code in series_a_code+series_b_code:

														
 
															+

														
 
															+        plt.figure(figsize=(12, 6))

														
 
															+        # 原始数据

														
 
															+        plt.plot(group_df['time'], group_df[code], 'b-', alpha=0.3, label='原始数据')

														
 
															+        plt.title(f'{code_2_name.get(code)} 时间序列')

														
 
															+        plt.xlabel('时间')

														
 
															+        plt.ylabel(code_2_name.get(code))

														
 
															+        plt.legend()

														
 
															+        plt.grid(True)

														
 
															+        plt.xticks(rotation=45)  # 旋转x轴标签以便阅读

														
 
															+        plt.savefig(f'{code_2_name.get(code)}.png', bbox_inches='tight', dpi=300)

														
 
															+        plt.close()

														
 
															+        print(f"已保存 {code_2_name.get(code)} 的曲线图到 {code_2_name.get(code)}.png")

														
--- a/temp/main_analysis.py
+++ b/temp/main_analysis.py
@@ -0,0 +1,189 @@
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+from Database.database_ import Database, DatabaseParam

														
 
															+import pandas as pd

														
 
															+from scipy import stats

														
 
															+from utils_analysis import label_queue, diff_tool, skip_tool

														
 
															+import config_analysis

														
 
															+import os

														
 
															+import json

														
 
															+import time

														
 
															+

														
 
															+# 打印信息确认

														
 
															+print(f"""

														
 
															+查询数据库：ws_data

														
 
															+查询表：{config_analysis.DB_SHEET_NAME}

														
 
															+起始日期：{config_analysis.CHECK_YEAR_START}-{config_analysis.CHECK_MONTH_START}-{config_analysis.CHECK_DAY_START}

														
 
															+终止日期：{config_analysis.CHECK_YEAR_END}-{config_analysis.CHECK_MONTH_END}-{config_analysis.CHECK_DAY_END}

														
 
															+项目ID：{config_analysis.PROJECT_ID}

														
 
															+""")

														
 
															+time.sleep(6)

														
 
															+# 创建数据库参数

														
 
															+db_param = DatabaseParam(

														
 
															+    db_host='192.168.50.4',

														
 
															+    db_user='root',

														
 
															+    db_password='*B-@p2b+97D5xAF1e6',

														
 
															+    db_name='ws_data',

														
 
															+    db_port=4000)

														
 
															+

														
 
															+# 存储总数量

														
 
															+total_name_list = []

														
 
															+total_code_list = []

														
 
															+

														
 
															+

														
 
															+# 数据库操作应在内部，Database定义了上下文管理器，负责自动释放连接和游标

														
 
															+with Database(db_param) as db:

														
 
															+    # 排除常数序列

														
 
															+    # 选择从文件加载

														
 
															+    if os.path.exists(config_analysis.TOTAL_LIST_JSON_FILE):

														
 
															+        with open(config_analysis.TOTAL_LIST_JSON_FILE, "r", encoding="utf-8") as f:

														
 
															+            loaded_data = json.load(f)

														
 
															+            print(f'从文件{config_analysis.TOTAL_LIST_JSON_FILE}中加载待分析列表...')

														
 
															+        total_name_list = loaded_data['total_name_list']

														
 
															+        total_code_list = loaded_data['total_code_list']

														
 
															+    # 文件不存在进行及时分析

														
 
															+    else:

														
 
															+        for lab in label_queue():

														
 
															+            time_series_name = lab.get('name')

														
 
															+            time_series_code = lab.get('code')

														
 
															+            df = db.query_sql_time_series2data_frame(project_id=config_analysis.PROJECT_ID,

														
 
															+                                                     sheet_name=config_analysis.DB_SHEET_NAME,

														
 
															+                                                     data_code=time_series_code,

														
 
															+                                                     start_year=config_analysis.CHECK_YEAR_START, end_year = config_analysis.CHECK_YEAR_END,

														
 
															+                                                     start_month=config_analysis.CHECK_MONTH_START, end_month=config_analysis.CHECK_MONTH_END,

														
 
															+                                                     start_day=config_analysis.CHECK_DAY_START, end_day=config_analysis.CHECK_DAY_END)

														
 
															+            if df is None:

														
 
															+                continue

														
 
															+            # 过滤常数序列

														
 
															+            if df[df.columns[1]].nunique() <= 2:

														
 
															+                print(f'过滤常数序列{time_series_name}({time_series_code})！')

														
 
															+                continue

														
 
															+            else:

														
 
															+                total_name_list.append(time_series_name)

														
 
															+                total_code_list.append(time_series_code)

														
 
															+        # 保存文件

														
 
															+        saved_data = {

														
 
															+            'total_name_list': total_name_list,

														
 
															+            'total_code_list': total_code_list,

														
 
															+        }

														
 
															+

														
 
															+        with open(config_analysis.TOTAL_LIST_JSON_FILE, "w", encoding="utf-8") as f:

														
 
															+            json.dump(saved_data, f, ensure_ascii=False, indent=4)

														
 
															+            print(f'分析列表保存到{config_analysis.TOTAL_LIST_JSON_FILE}')

														
 
															+    # 存储所有计算结果

														
 
															+    result = []

														
 
															+    """

														
 
															+    result: [dict, dict, ...]

														
 
															+    dict格式：

														
 
															+    {

														
 
															+    'A':{'name':,'code':},

														
 
															+    'B':{'name':,'code':},

														
 
															+    'res':[{'k':值,'r':值,'p':值},...]:

														
 
															+    }

														
 
															+    """

														
 
															+    # 寻找需要分析的数据,应该从文件中读取字段

														
 
															+    # 序列A

														
 
															+    for a_idx in range(0, len(total_code_list), 1):

														
 
															+

														
 
															+        time_series_a_name = total_name_list[a_idx]

														
 
															+        time_series_a_code = total_code_list[a_idx]

														
 
															+        # 获取A列

														
 
															+        df_a = db.query_sql_time_series2data_frame(project_id=config_analysis.PROJECT_ID,

														
 
															+                                                   sheet_name=config_analysis.DB_SHEET_NAME,

														
 
															+                                                   data_code=time_series_a_code,

														
 
															+                                                   start_year=config_analysis.CHECK_YEAR_START,

														
 
															+                                                   end_year=config_analysis.CHECK_YEAR_END,

														
 
															+                                                   start_month=config_analysis.CHECK_MONTH_START,

														
 
															+                                                   end_month=config_analysis.CHECK_MONTH_END,

														
 
															+                                                   start_day=config_analysis.CHECK_DAY_START,

														
 
															+                                                   end_day=config_analysis.CHECK_DAY_END)

														
 
															+        if df_a is None:

														
 
															+            continue

														
 
															+        # 过滤常数序列

														
 
															+        if df_a[df_a.columns[1]].nunique() <= 2 :

														
 
															+            print(f'序列A.{time_series_a_name}({time_series_a_code})遇到常数列, 跳过计算！')

														
 
															+            continue

														
 
															+        # 平稳化

														
 
															+        df_a = diff_tool(time_series_a_name, df_a, df_a.columns[1])

														
 
															+        # 序列B

														
 
															+        for b_idx in range(a_idx, len(total_code_list), 1):

														
 
															+            time_series_b_name = total_name_list[b_idx]

														
 
															+            time_series_b_code = total_code_list[b_idx]

														
 
															+            if skip_tool(time_series_a_name, time_series_b_name):

														
 
															+                print(f'跳过组合:{time_series_a_name} vs. {time_series_b_name}')

														
 
															+                continue

														
 
															+            # 获取B列

														
 
															+            df_b = db.query_sql_time_series2data_frame(project_id=config_analysis.PROJECT_ID,

														
 
															+                                                       sheet_name=config_analysis.DB_SHEET_NAME,

														
 
															+                                                       data_code=time_series_b_code,

														
 
															+                                                       start_year=config_analysis.CHECK_YEAR_START,

														
 
															+                                                       end_year=config_analysis.CHECK_YEAR_END,

														
 
															+                                                       start_month=config_analysis.CHECK_MONTH_START,

														
 
															+                                                       end_month=config_analysis.CHECK_MONTH_END,

														
 
															+                                                       start_day=config_analysis.CHECK_DAY_START,

														
 
															+                                                       end_day=config_analysis.CHECK_DAY_END)

														
 
															+            if df_b is None:

														
 
															+                continue

														
 
															+            # if abs(len(df_a) - len(df_b)) > 20: raise ValueError('时序数据数量差异过大:len(A), len(B)', len(df_a),

														
 
															+            #                                                      len(df_b))

														
 
															+            # 过滤常数序列，有一些数列为常数，这些数据方差接近0，无法计算协方差

														
 
															+            if df_b[df_b.columns[1]].nunique() <= 2:

														
 
															+                print(f'序列B.{time_series_b_name}({time_series_b_code})遇到常数列, 跳过计算！')

														
 
															+                continue

														
 
															+            # 平稳化，根据name筛选出需要平稳化的数据，进行一阶差分

														
 
															+            df_b = diff_tool(time_series_b_name, df_b, df_b.columns[1])

														
 
															+            # 融合AB序列

														
 
															+            df_merge = pd.merge(df_a, df_b, how='inner', on='time').sort_values('time', kind='mergesort')

														
 
															+            _, time_series_a_column, time_series_b_column = df_merge.columns

														
 
															+

														
 
															+            # 互相关分析

														
 
															+            series_a = df_merge[time_series_a_column]

														
 
															+            series_b = df_merge[time_series_b_column]

														
 
															+

														
 
															+            lags = config_analysis.MAX_LAG  # 最大滞后

														
 
															+            step = 1

														
 
															+            print(f'正在进行互相关性分析：A.{time_series_a_name}({time_series_a_code}) | B.{time_series_b_name}({time_series_b_code}) ')

														
 
															+            tem_dict = {'A': {'name': time_series_a_name, 'code': time_series_a_code},

														
 
															+                        'B': {'name': time_series_b_name, 'code': time_series_b_code},

														
 
															+                        'res':[]}

														
 
															+            for lag in range(-lags, lags, step):

														
 
															+                if lag < 0:  # a滞后于b

														
 
															+                    series_a_shifted = series_a[-lag:]

														
 
															+                    series_b_shifted = series_b[:lag]

														
 
															+                elif lag > 0:  # b滞后于a

														
 
															+                    series_a_shifted = series_a[:-lag]

														
 
															+                    series_b_shifted = series_b[lag:]

														
 
															+                elif lag == 0:  # 0滞后

														
 
															+                    series_a_shifted = series_a

														
 
															+                    series_b_shifted = series_b

														
 
															+                # 计算皮尔逊系数和显著性

														
 
															+                if len(series_a_shifted) < 24 or len(series_b_shifted) < 24:

														
 
															+                    print('skip')

														
 
															+                    continue

														
 
															+                r, p_value = stats.pearsonr(series_a_shifted, series_b_shifted)

														
 
															+                # 过滤不显著的数据

														
 
															+                if p_value > config_analysis.P_VALUE_THRESHOLD:

														
 
															+                    continue

														
 
															+                if abs(r) < config_analysis.R_THRESHOLD:

														
 
															+                    continue

														
 
															+

														
 
															+                tem_dict.get('res').append({'k':lag, 'r':r, 'p':p_value})

														
 
															+                # if lag < 0:

														
 
															+                #     print(f'A滞后B {abs(lag)}个单位时间, k={lag}, r={r:.4f}, 显著性p={p_value:.4f}')

														
 
															+                # elif lag > 0:

														
 
															+                #     print(f'B滞后A {abs(lag)}个单位时间, k={lag}, r={r:.4f}, 显著性p={p_value:.4f}')

														
 
															+                # else:

														
 
															+                #     print(f'A与B无滞后, k={lag}, r={r:.4f}, 显著性p={p_value:.6f}')

														
 
															+            if 0 < len(tem_dict.get('res')): result.append(tem_dict)

														
 
															+    print(f'计算完成，结果总数量为：{len(result)}')

														
 
															+

														
 
															+# 将结果保存到文件

														
 
															+if os.path.exists(config_analysis.OUTPUT_JSON_FILE):

														
 
															+    print(f'删除旧文件{config_analysis.OUTPUT_JSON_FILE}')

														
 
															+    os.remove(config_analysis.OUTPUT_JSON_FILE)

														
 
															+data = {'data': result, 'len': len(result), 'r_threshold': config_analysis.R_THRESHOLD, 'p_threshold': config_analysis.P_VALUE_THRESHOLD}

														
 
															+with open(config_analysis.OUTPUT_JSON_FILE, 'w', encoding="utf-8") as f:

														
 
															+    json.dump(data, f, ensure_ascii=False, indent=4)

														
 
															+    print(f'数据保存完成，{config_analysis.OUTPUT_JSON_FILE}')

														
 
															+

														
 
															+

														
--- a/temp/utils_analysis.py
+++ b/temp/utils_analysis.py
@@ -0,0 +1,164 @@
 
															+import os

														
 
															+import sys

														
 
															+sys.path.append("..")

														
 
															+import csv

														
 
															+from temp import config_analysis

														
 
															+from temp.config_analysis import COLUMN_NAME_2_INDEX as COLUMN_IDX

														
 
															+import seaborn as sns

														
 
															+import matplotlib.pyplot as plt

														
 
															+from  matplotlib import rcParams

														
 
															+import matplotlib.font_manager as fm

														
 
															+from scipy import stats

														
 
															+import numpy as np

														
 
															+import pandas as pd

														
 
															+

														
 
															+def label_queue():

														
 
															+    """

														
 
															+    从统计文件中筛选标签，返回标签数据，如果需要修改内部参数请对应修改config_analysis文件

														
 
															+    """

														
 
															+    with open(config_analysis.INPUT_CSV_FILE) as csv_file_handler:

														
 
															+        csv_reader = csv.reader(csv_file_handler)

														
 
															+        next(csv_reader)  # ['名称', '编码', '单位', '精度', '设备号', '记录数', '最小时间', '最大时间']

														
 
															+        for row in csv_reader:  # row: list

														
 
															+            # 通过记录数量筛选

														
 
															+            if int(row[COLUMN_IDX['记录数']]) < config_analysis.DATA_MIN_RECORDS: continue

														
 
															+            yield {'name': row[COLUMN_IDX['名称']], 'code': row[COLUMN_IDX['编码']]}

														
 
															+

														
 
															+def diff_tool(name:str, frame: pd.DataFrame, col:str):

														
 
															+    words = ['累计', '计数', '运行时间']

														
 
															+    for word in words:

														
 
															+        if word in name:

														
 
															+            frame[col] = frame[col].diff()

														
 
															+            frame.dropna(subset=[col], inplace=True)

														
 
															+    return frame

														
 
															+

														
 
															+def skip_tool(series_a_name:str, series_b_name:str):

														
 
															+    if '温度' in series_a_name and '温度' in series_b_name: return True

														
 
															+    if '次数' in series_a_name and '次数' in series_b_name: return True

														
 
															+    if '累计' in series_a_name and '累计' in series_b_name: return True

														
 
															+    if '电流' in series_a_name and '电流' in series_b_name: return True

														
 
															+    if '电压' in series_a_name and '电压' in series_b_name: return True

														
 
															+    if '电流' in series_a_name and '温度' in series_b_name: return True

														
 
															+    if '温度' in series_a_name and '电流' in series_b_name: return True

														
 
															+    if '累计电量' in series_a_name and '累计电量' in series_b_name: return True

														
 
															+    if '运行时间' in series_a_name and '累计电量' in series_b_name: return True

														
 
															+    if '累计电量' in series_a_name and '运行时间' in series_b_name: return True

														
 
															+    if '运行时间' in series_a_name and '运行时间' in series_b_name: return True

														
 
															+    if '时间设定' in series_a_name and '时间设定' in series_b_name: return True

														
 
															+    return False

														
 
															+def set_chinese_font():

														
 
															+    # 1. 清除Matplotlib缓存（关键步骤）

														
 
															+    # cache_dir = os.path.expanduser('~/.cache/matplotlib')

														
 
															+    # if os.path.exists(cache_dir):

														
 
															+    #     print(f"清除Matplotlib缓存: {cache_dir}")

														
 
															+    #     for file in os.listdir(cache_dir):

														
 
															+    #         if file.endswith('.cache') or file.endswith('.json'):

														
 
															+    #             os.remove(os.path.join(cache_dir, file))

														
 
															+

														
 
															+    # 2. 列出所有可用中文字体

														
 
															+    chinese_fonts = [

														
 
															+        # '/usr/share/fonts/truetype/wqy/wqy-microhei.ttc',  # 文泉驿微米黑

														
 
															+        # '/usr/share/fonts/truetype/wqy/wqy-zenhei.ttc',  # 文泉驿正黑

														
 
															+        # '/usr/share/fonts/opentype/noto/NotoSansCJK-Regular.ttc',  # 思源黑体

														
 
															+        # '/usr/share/fonts/windows/msyh.ttc',  # 微软雅黑

														
 
															+        '/usr/share/fonts/windows/simsun.ttc'  # 宋体

														
 
															+    ]

														
 
															+

														
 
															+    # 3. 选择第一个可用的中文字体

														
 
															+    selected_font = None

														
 
															+    for font_path in chinese_fonts:

														
 
															+        if os.path.exists(font_path):

														
 
															+            selected_font = font_path

														
 
															+            print(f"使用字体: {font_path}")

														
 
															+            break

														
 
															+

														
 
															+    if selected_font is None:

														
 
															+        print("警告: 未找到任何中文字体文件")

														
 
															+        # 尝试使用字体名称

														
 
															+        rcParams['font.sans-serif'] = ['WenQuanYi Micro Hei', 'Microsoft YaHei', 'SimSun']

														
 
															+        rcParams['axes.unicode_minus'] = False

														
 
															+    else:

														
 
															+        # 手动添加字体到字体管理器

														
 
															+        fm.fontManager.addfont(selected_font)

														
 
															+        # 获取字体名称

														
 
															+        font_prop = fm.FontProperties(fname=selected_font)

														
 
															+        font_name = font_prop.get_name()

														
 
															+        print(f"字体名称: {font_name}")

														
 
															+

														
 
															+        # 设置全局字体

														
 
															+        rcParams['font.family'] = 'sans-serif'

														
 
															+        rcParams['font.sans-serif'] = [font_name]

														
 
															+        rcParams['axes.unicode_minus'] = False

														
 
															+def create_custom_heatmap(corr_matrix: pd.DataFrame, title:str="相关系数热力图") -> str:

														
 
															+    # 设置图像尺寸（根据矩阵大小动态调整）

														
 
															+    size_factor = max(0.5, min(1.5, len(corr_matrix) / 30))  # 缩放因子

														
 
															+    fig_width = 9 + len(corr_matrix.columns) * 0.4 * size_factor

														
 
															+    fig_height = 7 + len(corr_matrix.index) * 0.4 * size_factor

														
 
															+

														
 
															+    plt.figure(figsize=(fig_width, fig_height))

														
 
															+

														
 
															+    # 创建热力图

														
 
															+    ax = sns.heatmap(

														
 
															+        corr_matrix,

														
 
															+        cmap="coolwarm",

														
 
															+        center=0,

														
 
															+        annot=True,  # 显示数值

														
 
															+        fmt=".2f",

														
 
															+        annot_kws={"size": 13 - len(corr_matrix) / 20},  # 动态调整注释大小

														
 
															+        linewidths=0.5,

														
 
															+        linecolor="white",

														
 
															+        cbar_kws={"shrink": 0.8, "label": "皮尔逊相关系数"}

														
 
															+    )

														
 
															+

														
 
															+    # 旋转x轴标签

														
 
															+    plt.xticks(rotation=45, ha='right', fontsize=15)

														
 
															+    plt.yticks(fontsize=15,rotation=0, ha='right')

														
 
															+

														
 
															+    # 设置标题和标签

														
 
															+    plt.title(title, fontsize=18, pad=20)

														
 
															+    plt.xlabel(f"B序列影响因素(显著性p值<{config_analysis.P_VALUE_THRESHOLD})", fontsize=15)

														
 
															+    plt.ylabel(f"A序列影响因素(显著性p值<{config_analysis.P_VALUE_THRESHOLD})", fontsize=15)

														
 
															+

														
 
															+    # 添加次要网格线

														
 
															+    ax.grid(True, which='minor', color='white', linestyle='-', linewidth=0.5)

														
 
															+

														
 
															+    # 调整布局

														
 
															+    plt.tight_layout()

														
 
															+

														
 
															+    # 保存图像

														
 
															+    output_file = f"{title.replace(' ', '_')}.png"

														
 
															+    plt.savefig(output_file, dpi=300, bbox_inches='tight')

														
 
															+    plt.close()

														
 
															+    print(f"热力图已保存为: {output_file}")

														
 
															+

														
 
															+    return output_file

														
 
															+

														
 
															+def cross_corr(group_a:list, group_b:list, all_data:pd.DataFrame, code_2_name_dict:dict) -> pd.DataFrame:

														
 
															+

														
 
															+    # 创建交叉协方差矩阵

														
 
															+    corr_matrix = pd.DataFrame(index=group_a, columns=group_b, dtype=np.float32)

														
 
															+    for a in group_a:

														
 
															+        for b in group_b:

														
 
															+            r, p_value = stats.pearsonr(all_data.loc[:, a], all_data.loc[:, b])

														
 
															+            if p_value < config_analysis.P_VALUE_THRESHOLD:

														
 
															+                corr_matrix.loc[a, b] = np.float32(r)

														
 
															+    # 行列标签中文化

														
 
															+    a_code_2_name = {code: code_2_name_dict.get(code) for code in group_a }

														
 
															+    b_code_2_name = {code: code_2_name_dict.get(code) for code in group_b }

														
 
															+    corr_matrix.rename(index=a_code_2_name, columns=b_code_2_name, inplace=True)

														
 
															+    return corr_matrix

														
 
															+

														
 
															+def group_list(data:list, group_elements_num:int) -> list:

														
 
															+    """对输入的列表元素进行分组"""

														
 
															+    group_num = len(data) // group_elements_num + 1

														
 
															+    group_code = []

														
 
															+    num = 0

														
 
															+    for g in range(group_num):

														
 
															+        group_code.append(data[num:num + group_elements_num])

														
 
															+        num += group_elements_num

														
 
															+    return group_code

														
 
															+if __name__ == '__main__':

														
 
															+    label_q1 = label_queue()

														
 
															+    label_q2 = label_queue()

														
 
															+    # for i in label_q1:

														
 
															+    #     print(i['name'], i['code'])

														
--- a/utils/tools.py
+++ b/utils/tools.py
@@ -0,0 +1,221 @@
 
															+import sys

														
 
															+sys.path.append('..')

														
 
															+import pandas as pd

														
 
															+from matplotlib import pyplot as plt

														
 
															+import seaborn as sns

														
 
															+import config

														
 
															+import os

														
 
															+from  matplotlib import rcParams

														
 
															+import matplotlib.font_manager as fm

														
 
															+import numpy as np

														
 
															+from typing import Iterable

														
 
															+import json

														
 
															+

														
 
															+

														
 
															+def group_list(data:list, group_elements_num:int) -> list:

														
 
															+    """对输入的列表元素进行分组,分组数量"""

														
 
															+    group_num = len(data) // group_elements_num + 1

														
 
															+    group_code = []

														
 
															+    num = 0

														
 
															+    for g in range(group_num):

														
 
															+        group_code.append(data[num:num + group_elements_num])

														
 
															+        num += group_elements_num

														
 
															+    return group_code

														
 
															+

														
 
															+

														
 
															+def fmt_date(start_year,end_year,

														
 
															+             start_month,end_month,

														
 
															+             start_day,end_day,

														
 
															+             start_hour=0,end_hour=23,

														
 
															+             start_minute=0,end_minute=59,

														
 
															+             start_second=0,end_second=59):

														
 
															+    fmt = lambda x: '0' + str(x) if abs(x) < 10 else str(x)

														
 
															+    start_month = fmt(start_month)

														
 
															+    end_month = fmt(end_month)

														
 
															+    start_day = fmt(start_day)

														
 
															+    end_day = fmt(end_day)

														
 
															+    start_hour = fmt(start_hour)

														
 
															+    end_hour = fmt(end_hour)

														
 
															+    start_minute = fmt(start_minute)

														
 
															+    end_minute = fmt(end_minute)

														
 
															+    start_second = fmt(start_second)

														
 
															+    end_second = fmt(end_second)

														
 
															+

														
 
															+    start_datetime = f'{start_year}-{start_month}-{start_day} {start_hour}:{start_minute}:{start_second}'

														
 
															+    end_datetime = f'{end_year}-{end_month}-{end_day} {end_hour}:{end_minute}:{end_second}'

														
 
															+    return start_datetime, end_datetime

														
 
															+

														
 
															+def create_custom_heatmap(corr_matrix: pd.DataFrame, title:str="相关系数热力图") -> str:

														
 
															+    """绘制热力图，输入协方差矩阵，自动生成热力图"""

														
 
															+    corr_matrix.replace(0., np.nan, inplace=True)

														
 
															+    # 设置图像尺寸（根据矩阵大小动态调整）

														
 
															+    size_factor = max(0.5, min(1.5, len(corr_matrix) / 30))  # 缩放因子

														
 
															+    fig_width = 9 + len(corr_matrix.columns) * 0.4 * size_factor

														
 
															+    fig_height = 7 + len(corr_matrix.index) * 0.4 * size_factor

														
 
															+

														
 
															+    plt.figure(figsize=(fig_width, fig_height))

														
 
															+

														
 
															+    # 创建热力图

														
 
															+    ax = sns.heatmap(

														
 
															+        corr_matrix,

														
 
															+        cmap="coolwarm",

														
 
															+        center=0,

														
 
															+        annot=True,  # 显示数值

														
 
															+        fmt=".2f",

														
 
															+        annot_kws={"size": 13 - len(corr_matrix) / 20},  # 动态调整注释大小

														
 
															+        linewidths=0.5,

														
 
															+        linecolor="white",

														
 
															+        cbar_kws={"shrink": 0.8, "label": "皮尔逊相关系数"}

														
 
															+    )

														
 
															+

														
 
															+    # 旋转x轴标签

														
 
															+    plt.xticks(rotation=45, ha='right', fontsize=15)

														
 
															+    plt.yticks(fontsize=15,rotation=0, ha='right')

														
 
															+

														
 
															+    # 设置标题和标签

														
 
															+    plt.title(title, fontsize=18, pad=20)

														
 
															+    plt.xlabel(f"B序列影响因素(显著性p值<{config.P_VALUE_THRESHOLD})", fontsize=15)

														
 
															+    plt.ylabel(f"A序列影响因素(显著性p值<{config.P_VALUE_THRESHOLD})", fontsize=15)

														
 
															+

														
 
															+    # 添加次要网格线

														
 
															+    ax.grid(True, which='minor', color='white', linestyle='-', linewidth=0.5)

														
 
															+

														
 
															+    # 调整布局

														
 
															+    plt.tight_layout()

														
 
															+

														
 
															+    # 保存图像

														
 
															+    output_file = f"{title.replace(' ', '_')}.png"

														
 
															+    plt.savefig(output_file, dpi=300, bbox_inches='tight')

														
 
															+    plt.close()

														
 
															+    print(f"热力图已保存为: {output_file}")

														
 
															+

														
 
															+    return output_file

														
 
															+

														
 
															+def set_chinese_font():

														
 
															+    """设置matplotlib中文字体"""

														
 
															+    # 1. 清除Matplotlib缓存（关键步骤）

														
 
															+    # cache_dir = os.path.expanduser('~/.cache/matplotlib')

														
 
															+    # if os.path.exists(cache_dir):

														
 
															+    #     print(f"清除Matplotlib缓存: {cache_dir}")

														
 
															+    #     for file in os.listdir(cache_dir):

														
 
															+    #         if file.endswith('.cache') or file.endswith('.json'):

														
 
															+    #             os.remove(os.path.join(cache_dir, file))

														
 
															+

														
 
															+    # 2. 列出所有可用中文字体

														
 
															+    chinese_fonts = [

														
 
															+        # '/usr/share/fonts/truetype/wqy/wqy-microhei.ttc',  # 文泉驿微米黑

														
 
															+        # '/usr/share/fonts/truetype/wqy/wqy-zenhei.ttc',  # 文泉驿正黑

														
 
															+        # '/usr/share/fonts/opentype/noto/NotoSansCJK-Regular.ttc',  # 思源黑体

														
 
															+        # '/usr/share/fonts/windows/msyh.ttc',  # 微软雅黑

														
 
															+        '/usr/share/fonts/windows/simsun.ttc'  # 宋体

														
 
															+    ]

														
 
															+

														
 
															+    # 3. 选择第一个可用的中文字体

														
 
															+    selected_font = None

														
 
															+    for font_path in chinese_fonts:

														
 
															+        if os.path.exists(font_path):

														
 
															+            selected_font = font_path

														
 
															+            print(f"使用字体: {font_path}")

														
 
															+            break

														
 
															+

														
 
															+    if selected_font is None:

														
 
															+        print("警告: 未找到任何中文字体文件")

														
 
															+        # 尝试使用字体名称

														
 
															+        rcParams['font.sans-serif'] = ['WenQuanYi Micro Hei', 'Microsoft YaHei', 'SimSun']

														
 
															+        rcParams['axes.unicode_minus'] = False

														
 
															+    else:

														
 
															+        # 手动添加字体到字体管理器

														
 
															+        fm.fontManager.addfont(selected_font)

														
 
															+        # 获取字体名称

														
 
															+        font_prop = fm.FontProperties(fname=selected_font)

														
 
															+        font_name = font_prop.get_name()

														
 
															+        print(f"字体名称: {font_name}")

														
 
															+

														
 
															+        # 设置全局字体

														
 
															+        rcParams['font.family'] = 'sans-serif'

														
 
															+        rcParams['font.sans-serif'] = [font_name]

														
 
															+        rcParams['axes.unicode_minus'] = False

														
 
															+

														
 
															+def cal_vari_without_zero_nan(data:Iterable, l='None', is_exclude_zero=True)-> tuple:

														
 
															+    """统计平局值和标准差，0和Nan不参与计算"""

														
 
															+    if not isinstance(data, pd.Series):

														
 
															+        raise TypeError("data must be pd.Series")

														
 
															+    # 计算平均

														
 
															+    tem_value_list = []

														
 
															+    for x in data:

														
 
															+        if (abs(x - 0.) < 1e-6) and is_exclude_zero: continue

														
 
															+        if pd.isna(x): continue

														
 
															+        tem_value_list.append(x)

														
 
															+    arr = np.array(tem_value_list)

														
 
															+    # 检查是否仍存在nan

														
 
															+    if np.sum(np.isnan(arr)) > 0:

														
 
															+        raise ValueError(f'数据{l}中仍存在nan没有被剔除')

														
 
															+    mean = np.mean(arr, dtype=np.float32)  # 均值

														
 
															+    std_dev = np.std(arr, dtype=np.float32)  # 标准差

														
 
															+    return mean, std_dev

														
 
															+

														
 
															+def cal_vari_without_nan(data:Iterable, l='None')-> tuple:

														
 
															+    return cal_vari_without_zero_nan(data, l, is_exclude_zero=False)

														
 
															+

														
 
															+def iqr(data:pd.Series)-> None:

														
 
															+    """剔除序列中的离群点，采用四分位数距法(IQR)"""

														
 
															+    pass

														
 
															+    return

														
 
															+

														
 
															+def quicksort_part(arr:list, low:int, high:int):

														
 
															+    """快速排序"""

														
 
															+    if low >= high:

														
 
															+        return None

														
 
															+    # 设定基准值

														
 
															+    left, right = low, high

														
 
															+    pivot = abs(arr[low][1])

														
 
															+    # 右边放大数，左边放小数

														
 
															+    while left < right:

														
 
															+        # 先从右面开始向左找小于基准值的数

														
 
															+        while left < right and abs(arr[right][1]) >= pivot:

														
 
															+            right -= 1

														
 
															+        # 执行一次交换

														
 
															+        if left < right:

														
 
															+            arr[left], arr[right] = arr[right], arr[left]

														
 
															+            left += 1

														
 
															+        # 再从左面开始向右找大于基准值的数

														
 
															+        while left < right and abs(arr[left][1]) <= pivot:

														
 
															+            left += 1

														
 
															+        # 执行一次交换

														
 
															+        if left < right:

														
 
															+            arr[left], arr[right] = arr[right], arr[left]

														
 
															+            right -= 1

														
 
															+    return left

														
 
															+

														
 
															+def quick_sort(arr:list[tuple], low:int, high:int):

														
 
															+    """元组快排算法"""

														
 
															+    if low >= high:

														
 
															+        return

														
 
															+    # 先排一趟

														
 
															+    mid = quicksort_part(arr, low, high)

														
 
															+    # 排左面

														
 
															+    quick_sort(arr, low, mid-1)

														
 
															+    # 排右面

														
 
															+    quick_sort(arr, mid+1, high)

														
 
															+

														
 
															+def df_is_symetry(df_mat:pd.DataFrame) -> bool:

														
 
															+    """检查DataFrame类型的矩阵是否为对称"""

														
 
															+    if df_mat.shape[0] != df_mat.shape[1]:

														
 
															+        return False

														
 
															+

														
 
															+    # 检查索引和列名是否匹配

														
 
															+    if not np.array_equal(df_mat.index, df_mat.columns):

														
 
															+        return False

														
 
															+

														
 
															+    # 转换为 NumPy 数组并检查

														
 
															+    return np.allclose(df_mat.values, df_mat.values.T, rtol=1e-5, atol=1e-08)

														
 
															+

														
 
															+def load_transfer_file_name_code(path):

														
 
															+    if not os.path.exists(path):

														
 
															+        raise FileNotFoundError('文件未发现:', path)

														
 
															+    with open(path, "r", encoding="utf-8") as f:

														
 
															+        json_data = json.load(f)

														
 
															+    return json_data.get('name_2_code'), json_data.get('code_2_name')

														
 
															+

														
 
															+if __name__ == '__main__':

														
 
															+    pass