Spaces:

leonsimon23
/

NewDrugPredict

Sleeping

App Files Files Community

leonsimon23 commited on Jul 13

Commit

85178a1

verified ·

1 Parent(s): d86885c

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -66

app.py CHANGED Viewed

@@ -5,6 +5,8 @@ import time
 import warnings
 import os
 import logging
 # 数据分析与建模
 from scipy import stats
@@ -40,7 +42,6 @@ if not os.path.exists(OUTPUT_DIR):
 # ======================== (B) 辅助函数 ========================
 def calculate_metrics(actual, predicted):
-    # (此函数来自您的原始代码)
     metrics_df = pd.DataFrame({'actual': actual, 'predicted': predicted}).dropna()
     if metrics_df.empty:
         return {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'sMAPE': np.nan}
@@ -60,17 +61,24 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
     """
     # --- 1. 初始化 ---
     log_lines = ["## 🚀 数据分析流程已启动..."]
-    figures = []
     final_report_text = ""
     report_file_path = None
-    # 定义一个辅助函数来更新界面状态
     def update_ui(new_log_line=None):
         if new_log_line:
             log_lines.append(new_log_line)
-        # 返回当前所有输出的状态
         # [log, gallery, final_report, download_button]
-        return "\n\n".join(log_lines), figures, final_report_text, report_file_path
     yield update_ui() # 立即显示启动信息
@@ -89,95 +97,67 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
         ts_data = df['Value']
         yield update_ui()
-        # --- 3. 平稳性检验 ---
         log_lines.append("### 2. 平稳性检验与差分")
-        # (代码与您提供的一致)
-        diff_order = 0
         current_data = ts_data.dropna()
         adf_result = adfuller(current_data)
-        p_value = adf_result[1]
-        if p_value < 0.05:
-            msg = f"✅ 序列在 d=0 阶差分后达到平稳 (p={p_value:.4f})。"
-            log_lines.append(msg)
             d_order = 0
         else:
             current_data_diff = current_data.diff().dropna()
             adf_result_diff = adfuller(current_data_diff)
-            p_value_diff = adf_result_diff[1]
-            if p_value_diff < 0.05:
-                msg = f"✅ 序列在 d=1 阶差分后达到平稳 (p={p_value_diff:.4f})。"
-                log_lines.append(msg)
-                d_order = 1
-                current_data = current_data_diff
             else:
-                 msg = f"⚠️ 1阶差分后仍未平稳 (p={p_value_diff:.4f})，将使用 d=1 继续分析。"
-                 log_lines.append(msg)
-                 d_order = 1
-                 current_data = current_data_diff
         ts_stationary = current_data
         yield update_ui()
         # --- 4. 白噪声检验 ---
         log_lines.append("### 3. 白噪声检验")
-        # (代码与您提供的一致)
         lags = min(10, len(ts_stationary) // 5)
         lb_test_result = acorr_ljungbox(ts_stationary, lags=[lags], return_df=True)
-        lb_p_value = lb_test_result['lb_pvalue'].iloc[0]
-        if lb_p_value > 0.05:
-            log_lines.append(f"⚠️ 序列可能是白噪声(p-value = {lb_p_value:.4f})，模型可能无效。")
         else:
-            log_lines.append(f"✅ 通过白噪声检验 (p-value = {lb_p_value:.4f})，可以进行后续建模。")
-        yield update_ui()
         # --- 5. 季节性检验与分解 ---
         log_lines.append("\n### 4. 季节性检验与STL分解")
         period = 365
-        seasonal_enabled = len(ts_data) > 2 * 14 # 改为数据多于两周则开启季节性
         m_period = 7 if seasonal_enabled else 1
         log_lines.append(f"✅ 季节性参数设定: m={m_period}, seasonal={seasonal_enabled}")
         if len(ts_data) >= 2 * period:
-            # 【关键修复】确保 seasonal 参数是奇数
-            seasonal_period_for_stl = period if period % 2 != 0 else period + 1
             log_lines.append(f"✅ 准备进行STL分解，周期(period)={period}，季节平滑窗口(seasonal)={seasonal_period_for_stl}。")
-            yield update_ui() # 更新一下日志，让用户知道我们在做什么
             stl = STL(ts_data, period=period, seasonal=seasonal_period_for_stl)
             res = stl.fit()
-            #fig, axes = plt.subplots(4, 1, figsize=(12, 8), sharex=True)
-            # 使用 res.plot() 可以自动处理标签
-            #res.plot(axes=axes)
-            #fig.suptitle(f'STL 分解图 (周期={period})', fontsize=16)
-            #plt.tight_layout(rect=[0, 0, 1, 0.96])
-            # 【关键修复】直接调用 res.plot()，它会返回一个 Figure 对象
             fig = res.plot()
-            # 调整 Figure 的大小和标题
             fig.set_size_inches(12, 8)
-            fig.suptitle(f'STL 分解图 (周期={period})', fontsize=16, y=0.98) # 使用 y 参数调整标题位置
-            plt.tight_layout() # 自动调整布局
-            figures.append(fig)
             log_lines.append("✅ STL分解图已生成。")
         else:
             log_lines.append("⚠️ 数据长度不足以进行年度季节性分解。")
         yield update_ui()
         # --- 6. 混合策略回测优化窗口大小 ---
         log_lines.append("\n### 5. 优化训练窗口大小")
         log_lines.append("⏳ **此步骤计算量大，可能需要5-15分钟，请耐心等待...**")
         yield update_ui()
         def evaluate_window_hybrid(window_size, time_series, d, m, seasonal):
-            # (此函数来自您的代码)
             errors = []
             series_values = time_series.values
-            backtest_length = 100 # 减少回测长度以加速
             if len(series_values) <= window_size + backtest_length: return {'window_size': window_size, 'mae': np.inf}
             end_index = len(series_values)
             start_index = end_index - backtest_length
@@ -194,7 +174,7 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
             if not errors: return {'window_size': window_size, 'mae': np.inf}
             return {'window_size': window_size, 'mae': np.mean(np.abs(errors))}
-        window_sizes_to_test = np.arange(70, 211, 14) # 增大步长以加速
         with Parallel(n_jobs=-1) as parallel:
             results = parallel(
                 delayed(evaluate_window_hybrid)(ws, ts_data, d_order, m_period, seasonal_enabled) for ws in window_sizes_to_test
@@ -212,7 +192,7 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
         ax.plot(window_results_df.index, window_results_df['mae'], marker='o', label='MAE')
         ax.set_title('训练窗口大小对预测误差的影响')
         ax.set_xlabel('训练窗口天数'); ax.set_ylabel('误差值'); ax.legend(); ax.grid(True)
-        figures.append(fig)
         yield update_ui()
         # --- 7 & 8. 动态滚动预测与评估 ---
@@ -226,23 +206,23 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
         # SARIMA 滚动
         sarima_rolling_preds = []
-        for i in range(len(test_rolling_target)):
             train_window = ts_data.iloc[split_point_roll + i - best_window_size : split_point_roll + i]
             try:
                 model = pm.auto_arima(train_window, d=d_order, m=m_period, seasonal=seasonal_enabled,
                                       stepwise=True, trace=False, error_action='ignore', suppress_warnings=True)
                 sarima_rolling_preds.append(model.predict(n_periods=1)[0])
             except:
-                sarima_rolling_preds.append(np.nan)
         rolling_predictions['Auto-SARIMA'] = pd.Series(sarima_rolling_preds, index=test_rolling_target.index).ffill()
         log_lines.append("✅ Auto-SARIMA 滚动预测完成。")
         yield update_ui()
-        # Prophet 滚动 (简化策略)
         prophet_rolling_preds = []
         prophet_model = None
-        for i, (date, value) in enumerate(test_rolling_target.items()):
-            if i % 14 == 0 or prophet_model is None: # 每 14 天重训练
                 train_upto_date = ts_data.loc[:date - pd.Timedelta(days=1)]
                 prophet_train_df = train_upto_date.reset_index().rename(columns={'Date': 'ds', 'Value': 'y'})
                 prophet_model = Prophet(yearly_seasonality='auto', weekly_seasonality=seasonal_enabled, daily_seasonality=False).fit(prophet_train_df)
@@ -268,9 +248,9 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
         ax.plot(test_rolling_target, label='真实值 (测试集)', color='blue', linewidth=2)
         for model_name, preds in rolling_predictions.items():
             is_best = ' (最佳)' if model_name == best_rolling_model_name else ''
-            ax.plot(preds, label=f'{model_name} 预测{is_best}', linestyle='--')
         ax.set_title('滚动预测结果对比'); ax.legend(); ax.grid(True)
-        figures.append(fig)
         yield update_ui()
         # --- 10. 最终未来预测 ---
@@ -301,7 +281,7 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
         ax.plot(final_forecast_series, label=f'未来 {forecast_horizon} 天预测', color='red', linestyle='--')
         ax.fill_between(future_dates, conf_int[:, 0], conf_int[:, 1], color='red', alpha=0.2, label='95% 置信区间')
         ax.set_title(f'最终未来用量预测 (基于 {best_rolling_model_name})'); ax.legend(); ax.grid(True)
-        figures.append(fig)
         # 生成最终报告
         final_report_text = f"""
@@ -328,7 +308,8 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
 - **预测摘要**:
   - 未来一周平均日用量: **{final_forecast_series.head(7).mean():.2f}**
   - 未来一月平均日用量: **{final_forecast_series.head(30).mean():.2f}**
-        """
         report_file_path = os.path.join(OUTPUT_DIR, 'final_analysis_report.txt')
         with open(report_file_path, 'w', encoding='utf-8') as f:
             f.write(final_report_text)
@@ -338,7 +319,6 @@ def run_full_analysis(progress=gr.Progress(track_tqdm=True)):
     except Exception as e:
         log_lines.append(f"\n\n❌ **分析过程中断，出现错误:**\n`{str(e)}`")
-        import traceback
         log_lines.append(f"\n**Traceback:**\n```{traceback.format_exc()}```")
         yield update_ui()
@@ -361,7 +341,7 @@ with gr.Blocks(theme=gr.themes.Soft(), css="footer {display: none !important}")
     with gr.Tabs():
         with gr.TabItem("📊 可视化图表", id=0):
-            gallery_output = gr.Gallery(label="分析图表", elem_id="gallery", columns=[1], height="auto")
         with gr.TabItem("📝 实时分析日志", id=1):
             log_output = gr.Markdown("点击按钮后，分析日志将实时显示在这里...")
         with gr.TabItem("📋 最终报告与下载", id=2):

 import warnings
 import os
 import logging
+import tempfile
+import traceback
 # 数据分析与建模
 from scipy import stats
 # ======================== (B) 辅助函数 ========================
 def calculate_metrics(actual, predicted):
     metrics_df = pd.DataFrame({'actual': actual, 'predicted': predicted}).dropna()
     if metrics_df.empty:
         return {'MAE': np.nan, 'RMSE': np.nan, 'MAPE': np.nan, 'sMAPE': np.nan}
     """
     # --- 1. 初始化 ---
     log_lines = ["## 🚀 数据分析流程已启动..."]
+    figure_paths = []
     final_report_text = ""
     report_file_path = None
+    # 辅助函数，用于将Matplotlib Figure保存为临时图片文件并返回路径
+    def save_fig_to_path(fig):
+        # 使用 NamedTemporaryFile 来创建一个不会被立即删除的临时文件
+        with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as tmpfile:
+            fig.savefig(tmpfile.name)
+            figure_paths.append(tmpfile.name)
+        plt.close(fig) # 操作完成后关闭图形，释放内存
+    # 辅助函数，用于更新UI状态
     def update_ui(new_log_line=None):
         if new_log_line:
             log_lines.append(new_log_line)
         # [log, gallery, final_report, download_button]
+        return "\n\n".join(log_lines), figure_paths, final_report_text, report_file_path
     yield update_ui() # 立即显示启动信息
         ts_data = df['Value']
         yield update_ui()
+        # --- 3. 平稳性检验与差分 ---
         log_lines.append("### 2. 平稳性检验与差分")
         current_data = ts_data.dropna()
         adf_result = adfuller(current_data)
+        if adf_result[1] < 0.05:
+            log_lines.append(f"✅ 序列在 d=0 阶差分后达到平稳 (p={adf_result[1]:.4f})。")
             d_order = 0
         else:
             current_data_diff = current_data.diff().dropna()
             adf_result_diff = adfuller(current_data_diff)
+            d_order = 1
+            if adf_result_diff[1] < 0.05:
+                log_lines.append(f"✅ 序列在 d=1 阶差分后达到平稳 (p={adf_result_diff[1]:.4f})。")
             else:
+                log_lines.append(f"⚠️ 1阶差分后仍未平稳 (p={adf_result_diff[1]:.4f})，将使用 d=1 继续分析。")
+            current_data = current_data_diff
         ts_stationary = current_data
         yield update_ui()
         # --- 4. 白噪声检验 ---
         log_lines.append("### 3. 白噪声检验")
         lags = min(10, len(ts_stationary) // 5)
         lb_test_result = acorr_ljungbox(ts_stationary, lags=[lags], return_df=True)
+        if lb_test_result['lb_pvalue'].iloc[0] > 0.05:
+            log_lines.append(f"⚠️ 序列可能是白噪声(p-value = {lb_test_result['lb_pvalue'].iloc[0]:.4f})，模型可能无效。")
         else:
+            log_lines.append(f"✅ 通过白噪声检验 (p-value = {lb_test_result['lb_pvalue'].iloc[0]:.4f})，可以进行后续建模。")
+        yield update_ui()
         # --- 5. 季节性检验与分解 ---
         log_lines.append("\n### 4. 季节性检验与STL分解")
         period = 365
+        seasonal_enabled = len(ts_data) > 2 * 14 # 数据多于两周则开启周季节性
         m_period = 7 if seasonal_enabled else 1
         log_lines.append(f"✅ 季节性参数设定: m={m_period}, seasonal={seasonal_enabled}")
         if len(ts_data) >= 2 * period:
+            seasonal_period_for_stl = period if period % 2 != 0 else period + 1
             log_lines.append(f"✅ 准备进行STL分解，周期(period)={period}，季节平滑窗口(seasonal)={seasonal_period_for_stl}。")
+            yield update_ui()
             stl = STL(ts_data, period=period, seasonal=seasonal_period_for_stl)
             res = stl.fit()
             fig = res.plot()
             fig.set_size_inches(12, 8)
+            fig.suptitle(f'STL 分解图 (周期={period})', fontsize=16, y=0.98)
+            plt.tight_layout()
+            save_fig_to_path(fig)
             log_lines.append("✅ STL分解图已生成。")
         else:
             log_lines.append("⚠️ 数据长度不足以进行年度季节性分解。")
         yield update_ui()
         # --- 6. 混合策略回测优化窗口大小 ---
         log_lines.append("\n### 5. 优化训练窗口大小")
         log_lines.append("⏳ **此步骤计算量大，可能需要5-15分钟，请耐心等待...**")
         yield update_ui()
         def evaluate_window_hybrid(window_size, time_series, d, m, seasonal):
             errors = []
             series_values = time_series.values
+            backtest_length = 100
             if len(series_values) <= window_size + backtest_length: return {'window_size': window_size, 'mae': np.inf}
             end_index = len(series_values)
             start_index = end_index - backtest_length
             if not errors: return {'window_size': window_size, 'mae': np.inf}
             return {'window_size': window_size, 'mae': np.mean(np.abs(errors))}
+        window_sizes_to_test = np.arange(70, 211, 14)
         with Parallel(n_jobs=-1) as parallel:
             results = parallel(
                 delayed(evaluate_window_hybrid)(ws, ts_data, d_order, m_period, seasonal_enabled) for ws in window_sizes_to_test
         ax.plot(window_results_df.index, window_results_df['mae'], marker='o', label='MAE')
         ax.set_title('训练窗口大小对预测误差的影响')
         ax.set_xlabel('训练窗口天数'); ax.set_ylabel('误差值'); ax.legend(); ax.grid(True)
+        save_fig_to_path(fig)
         yield update_ui()
         # --- 7 & 8. 动态滚动预测与评估 ---
         # SARIMA 滚动
         sarima_rolling_preds = []
+        for i in progress.tqdm(range(len(test_rolling_target)), desc="SARIMA Rolling Forecast"):
             train_window = ts_data.iloc[split_point_roll + i - best_window_size : split_point_roll + i]
             try:
                 model = pm.auto_arima(train_window, d=d_order, m=m_period, seasonal=seasonal_enabled,
                                       stepwise=True, trace=False, error_action='ignore', suppress_warnings=True)
                 sarima_rolling_preds.append(model.predict(n_periods=1)[0])
             except:
+                sarima_rolling_preds.append(sarima_rolling_preds[-1] if sarima_rolling_preds else np.nan)
         rolling_predictions['Auto-SARIMA'] = pd.Series(sarima_rolling_preds, index=test_rolling_target.index).ffill()
         log_lines.append("✅ Auto-SARIMA 滚动预测完成。")
         yield update_ui()
+        # Prophet 滚动
         prophet_rolling_preds = []
         prophet_model = None
+        for i, (date, value) in enumerate(progress.tqdm(test_rolling_target.items(), desc="Prophet Rolling Forecast")):
+            if i % 14 == 0 or prophet_model is None:
                 train_upto_date = ts_data.loc[:date - pd.Timedelta(days=1)]
                 prophet_train_df = train_upto_date.reset_index().rename(columns={'Date': 'ds', 'Value': 'y'})
                 prophet_model = Prophet(yearly_seasonality='auto', weekly_seasonality=seasonal_enabled, daily_seasonality=False).fit(prophet_train_df)
         ax.plot(test_rolling_target, label='真实值 (测试集)', color='blue', linewidth=2)
         for model_name, preds in rolling_predictions.items():
             is_best = ' (最佳)' if model_name == best_rolling_model_name else ''
+            ax.plot(preds.dropna(), label=f'{model_name} 预测{is_best}', linestyle='--')
         ax.set_title('滚动预测结果对比'); ax.legend(); ax.grid(True)
+        save_fig_to_path(fig)
         yield update_ui()
         # --- 10. 最终未来预测 ---
         ax.plot(final_forecast_series, label=f'未来 {forecast_horizon} 天预测', color='red', linestyle='--')
         ax.fill_between(future_dates, conf_int[:, 0], conf_int[:, 1], color='red', alpha=0.2, label='95% 置信区间')
         ax.set_title(f'最终未来用量预测 (基于 {best_rolling_model_name})'); ax.legend(); ax.grid(True)
+        save_fig_to_path(fig)
         # 生成最终报告
         final_report_text = f"""
 - **预测摘要**:
   - 未来一周平均日用量: **{final_forecast_series.head(7).mean():.2f}**
   - 未来一月平均日用量: **{final_forecast_series.head(30).mean():.2f}**
+        """.strip()
         report_file_path = os.path.join(OUTPUT_DIR, 'final_analysis_report.txt')
         with open(report_file_path, 'w', encoding='utf-8') as f:
             f.write(final_report_text)
     except Exception as e:
         log_lines.append(f"\n\n❌ **分析过程中断，出现错误:**\n`{str(e)}`")
         log_lines.append(f"\n**Traceback:**\n```{traceback.format_exc()}```")
         yield update_ui()
     with gr.Tabs():
         with gr.TabItem("📊 可视化图表", id=0):
+            gallery_output = gr.Gallery(label="分析图表", elem_id="gallery", columns=[1], height="auto", object_fit="contain")
         with gr.TabItem("📝 实时分析日志", id=1):
             log_output = gr.Markdown("点击按钮后，分析日志将实时显示在这里...")
         with gr.TabItem("📋 最终报告与下载", id=2):