亚洲一区二区三区精品视频 ,欧美一级一毛片,久久99综合国产精品亚洲首页

咱們今天討論的10種回歸類算法有：

線性回歸
嶺回歸
套索回歸
彈性網絡
多項式回歸
支持向量回歸
決策樹回歸
隨機森林回歸
梯度提升回歸
貝葉斯回歸

接下來，咱們從原理、推導、優缺點，并且使用一個不同的數據集進行詳細的分析，和大家聊聊~

1. 線性回歸 (Linear Regression)

原理

線性回歸是一種統計方法，用于描述一個或多個自變量與因變量之間的線性關系。目標是找到最佳擬合線（最小化誤差平方和），從而預測連續目標變量的值。假設給定的自變量X 與因變量 y存在線性關系，模型形式如下：

核心公式

1. 模型形式：

2. 損失函數：

線性回歸通過最小化均方誤差（MSE）來擬合模型：

3. 最小二乘法求解：

這就是線性回歸模型的最優參數解。

優缺點

優點：

易理解：公式簡單，易于解釋系數對預測結果的影響。
計算效率高：訓練和預測速度快，適合大規模數據集。
可解釋性強：每個特征的權重（系數）明確指出了其對結果的影響。

缺點：

對線性假設依賴強：僅能捕捉線性關系，無法處理復雜的非線性數據。
對異常值敏感：異常值可能會顯著影響回歸系數。
多重共線性問題：當輸入特征高度相關時，回歸系數可能不穩定。

適用場景

線性回歸適用于以下場景：

線性關系數據：當因變量與自變量之間存在線性關系時。
簡單解釋：需要對特征對結果的影響有明確解釋。
快速原型：用作更復雜模型的基準。

核心案例

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import fetch_california_housing



# 加載加利福尼亞房價數據集

california = fetch_california_housing()

X = pd.DataFrame(california.data, columns=california.feature_names)

y = pd.Series(california.target, name='MedHouseVal')



# 數據集概覽

print(X.describe())



# 數據預處理（特征縮放）

X = (X - X.mean()) / X.std()



# 數據可視化：相關性矩陣

plt.figure(figsize=(10, 8))

sns.heatmap(X.corr(), annot=True, cmap='coolwarm')

plt.title("Feature Correlation Matrix", fontsize=16)

plt.show()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 創建線性回歸模型

model = LinearRegression()

model.fit(X_train, y_train)



# 進行預測

y_pred = model.predict(X_test)



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="blue", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linewidth=2)

plt.title("Actual vs Predicted Values", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 殘差圖

plt.figure(figsize=(10, 6))

sns.residplot(x=y_test, y=y_pred, lowess=True, color="green", line_kws={'color': 'red', 'lw': 2})

plt.title("Residual Plot", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Residuals", fontsize=14)

plt.grid(True)

plt.show()



# 輸出模型性能

print(f'Mean Squared Error: {mean_squared_error(y_test, y_pred):.2f}')

print(f'R^2 Score: {r2_score(y_test, y_pred):.2f}')

1. 數據預處理：由于特征可能具有不同的量綱，對數據進行了標準化處理，以便模型更好地收斂。

2. 數據可視化：通過相關性矩陣，展示了各特征之間的相關性，這有助于理解特征之間的關系及其對目標變量的影響。

3. 實際值 vs 預測值散點圖：展示了模型預測值與實際值的對比。理想情況下，散點應集中在對角線附近。

4. 殘差圖：殘差圖展示了預測值與實際值之間的差異（殘差）。如果殘差分布均勻，說明模型的假設是合理的。

5. 性能指標：MSE（均方誤差）和R2分數衡量模型的預測能力。

2. 嶺回歸 (Ridge Regression)

原理

嶺回歸是線性回歸的擴展，主要用于解決線性回歸中可能出現的多重共線性問題。當輸入特征之間高度相關時，線性回歸的回歸系數可能會變得非常不穩定。嶺回歸通過在損失函數中加入正則化項來懲罰回歸系數的大小，從而控制模型的復雜度，穩定模型的系數。

核心公式

1. 模型形式：

嶺回歸在線性回歸的損失函數中加入了一個正則化項（L2正則化）：

2. 損失函數的推導：

嶺回歸的目標是最小化加權后的損失函數。通過對損失函數求導并令其為零，可以得到最優的回歸系數：

優缺點

優點：

解決多重共線性問題：通過引入正則化，減小特征間的多重共線性對模型穩定性的影響。
防止過擬合：正則化項控制模型復雜度，避免模型過于依賴訓練數據，從而提高泛化能力。
適用于高維數據：在特征數多于樣本數時（高維數據），嶺回歸比普通線性回歸更穩定。

缺點：

難以解釋：由于引入了正則化項，模型的系數不再代表各個特征對目標變量的直接影響，解釋性下降。
正則化參數選擇復雜：需要通過交叉驗證等方法選擇合適的正則化參數，增加了模型的復雜性。

適用場景

多重共線性：當數據中存在高度相關的特征時，嶺回歸可以通過引入正則化來穩定模型。
高維數據：當特征數遠多于樣本數時，嶺回歸可以有效防止過擬合。
需要平衡偏差和方差：在模型復雜度和預測準確性之間尋求平衡。

核心案例

我們將使用糖尿病數據集（Diabetes Dataset）來演示嶺回歸的實現。糖尿病數據集是一個中等規模的數據集，包含多個生理特征和一年后疾病進展的測量值，非常適合用于回歸模型的訓練和評估。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.linear_model import Ridge

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import load_diabetes



# 加載糖尿病數據集

diabetes = load_diabetes()

X = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)

y = pd.Series(diabetes.target, name='DiseaseProgression')



# 數據集概覽

print(X.describe())



# 數據預處理（標準化）

X = (X - X.mean()) / X.std()



# 數據可視化：相關性矩陣

plt.figure(figsize=(10, 8))

sns.heatmap(X.corr(), annot=True, cmap='viridis')

plt.title("Feature Correlation Matrix", fontsize=16)

plt.show()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 設置正則化參數

alpha = 1.0



# 創建嶺回歸模型

ridge_model = Ridge(alpha=alpha)

ridge_model.fit(X_train, y_train)



# 進行預測

y_pred = ridge_model.predict(X_test)



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="blue", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linewidth=2)

plt.title("Actual vs Predicted Values (Ridge Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 殘差圖

plt.figure(figsize=(10, 6))

sns.residplot(x=y_test, y=y_pred, lowess=True, color="purple", line_kws={'color': 'red', 'lw': 2})

plt.title("Residual Plot (Ridge Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Residuals", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')



# 嶺回歸系數

plt.figure(figsize=(10, 6))

coefficients = pd.Series(ridge_model.coef_, index=X.columns)

coefficients.plot(kind='bar', color='teal')

plt.title("Ridge Regression Coefficients", fontsize=16)

plt.xlabel("Features", fontsize=14)

plt.ylabel("Coefficient Value", fontsize=14)

plt.grid(True)

plt.show()

1. 數據預處理：對特征進行標準化處理，以確保模型的收斂性和性能。

2. 數據可視化：

相關性矩陣：展示了特征之間的相關性，有助于理解多重共線性問題。

實際值 vs 預測值散點圖：用于直觀評估模型的預測能力。

殘差圖：展示了預測值與實際值之間的差異（殘差），用于判斷模型的擬合質量。

嶺回歸系數圖：展示了每個特征的回歸系數值，可以直觀地看到正則化對特征系數的影響。

3. 性能指標：

MSE（均方誤差）：用于評估模型的平均預測誤差。
R2分數：用于衡量模型對數據的解釋能力，接近1表示模型效果好。

3. 套索回歸 (Lasso Regression)

原理

套索回歸（Lasso，即Least Absolute Shrinkage and Selection Operator）是線性回歸的擴展，通過在損失函數中引入 L1 正則化項來約束回歸系數。L1 正則化的一個顯著特點是可以將一些回歸系數縮減為零，從而實現特征選擇。這使得套索回歸特別適用于高維數據，能夠自動篩選出對預測最重要的特征。

核心公式

1. 模型形式：

套索回歸的損失函數為：

2. 推導：

套索回歸的推導涉及到 L1 正則化項的引入，相對于嶺回歸的 L2 正則化，L1 正則化可以產生稀疏解，即某些回歸系數可能被壓縮到零。這種稀疏性使得 Lasso 具有自動特征選擇的功能。

在數值優化過程中，Lasso 回歸的解可以通過坐標下降法等優化算法得到。其核心思想是逐步優化每個參數，最終收斂到最優解。

優缺點

優點：

特征選擇：L1 正則化使得套索回歸可以自動選擇特征，篩選出對模型最有貢獻的特征。
處理高維數據：適用于特征數量多于樣本數的場景，通過稀疏化減小模型復雜度。
防止過擬合：通過正則化控制模型復雜度，減少過擬合風險。

缺點：

難以處理高共線性數據：當特征高度相關時，Lasso 可能會隨機選擇其中一個特征，忽略其他。
正則化參數的選擇：需要仔細調整值，通常通過交叉驗證進行選擇。

適用場景

套索回歸適用于以下場景：

高維數據分析：當特征數量多于樣本數時，Lasso 可自動選擇特征，適用于基因數據、文本數據等。
特征篩選：需要從大量特征中篩選出最重要的幾個特征時。

核心案例

我們將使用糖尿病數據集（Diabetes Dataset），但是通過引入額外的噪聲特征來演示套索回歸的特征選擇能力。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.linear_model import Lasso

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import load_diabetes



# 加載糖尿病數據集

diabetes = load_diabetes()

X = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)



# 添加噪聲特征

np.random.seed(42)

noise = np.random.randn(X.shape[0], 10)

X_noise = pd.DataFrame(noise, columns=[f'Noise_{i}' for i in range(10)])

X = pd.concat([X, X_noise], axis=1)



y = pd.Series(diabetes.target, name='DiseaseProgression')



# 數據標準化

X = (X - X.mean()) / X.std()



# 數據可視化：相關性矩陣

plt.figure(figsize=(12, 10))

sns.heatmap(X.corr(), annot=False, cmap='coolwarm')

plt.title("Feature Correlation Matrix (Including Noise)", fontsize=16)

plt.show()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 創建套索回歸模型

lasso_model = Lasso(alpha=0.1)

lasso_model.fit(X_train, y_train)



# 進行預測

y_pred = lasso_model.predict(X_test)



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="blue", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linewidth=2)

plt.title("Actual vs Predicted Values (Lasso Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 殘差圖

plt.figure(figsize=(10, 6))

sns.residplot(x=y_test, y=y_pred, lowess=True, color="purple", line_kws={'color': 'red', 'lw': 2})

plt.title("Residual Plot (Lasso Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Residuals", fontsize=14)

plt.grid(True)

plt.show()



# 套索回歸系數

plt.figure(figsize=(10, 6))

coefficients = pd.Series(lasso_model.coef_, index=X.columns)

coefficients.plot(kind='bar', color='coral')

plt.title("Lasso Regression Coefficients", fontsize=16)

plt.xlabel("Features", fontsize=14)

plt.ylabel("Coefficient Value", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')

1. 噪聲特征的引入：我們為糖尿病數據集添加了一些無意義的噪聲特征，以展示套索回歸的特征選擇能力。

2. 套索回歸系數圖：展示了每個特征的回歸系數值，理想情況下，Lasso 會將無意義的噪聲特征系數縮減為零。

3. 性能指標：

MSE（均方誤差）：用于評估模型的平均預測誤差。
R2分數：用于衡量模型對數據的解釋能力，接近1表示模型效果好。

4. 彈性網絡回歸 (Elastic Net Regression)

原理

彈性網絡回歸結合了 L1 和 L2 正則化，通過在損失函數中同時引入兩者的正則化項來約束模型。彈性網絡可以看作是嶺回歸和套索回歸的結合，既能處理高維數據，也能進行特征選擇。

核心公式

1. 模型形式：

彈性網絡回歸的損失函數為：

2. 推導：

彈性網絡回歸的推導涉及到同時優化 L1 和 L2 正則化項，最終的解可以通過坐標下降法等優化算法獲得。彈性網絡通過結合 L1 的稀疏性和 L2 的平滑性，提供了對高維和稀疏數據的強大處理能力。

優缺點

優點：

缺點：

參數調整復雜：需要同時調整兩個正則化參數，模型調優過程較為復雜。
對模型可解釋性影響較大：引入兩個正則化項后，模型的可解釋性進一步下降。

適用場景

高維數據分析：當特征數量多于樣本數時，彈性網絡可以有效處理。
特征篩選與共線性問題共存：當需要同時處理特征選擇和共線性問題時。

核心案例

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.linear_model import ElasticNet

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import make_regression



# 生成虛擬數據集

n_samples = 1000

n_features = 10

X, y = make_regression(n_samples=n_samples, n_features=n_features, noise=0.1, random_state=42)



# 轉換為 DataFrame

X = pd.DataFrame(X, columns=[f'Feature_{i}' for i in range(n_features)])

y = pd.Series(y, name='Price')



# 人為引入高共線性特征

X['Feature_10'] = X['Feature_0'] * X['Feature_1']



# 數據標準化

X = (X - X.mean()) / X.std()



# 數據可視化：相關性矩陣

plt.figure(figsize=(12, 10))

sns.heatmap(X.corr(), annot=False, cmap='coolwarm')

plt.title("Feature Correlation Matrix (Including High Collinearity)", fontsize=16)

plt.show()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 創建彈性網絡回歸模型

elastic_net_model = ElasticNet(alpha=0.1, l1_ratio=0.5)

elastic_net_model.fit(X_train, y_train)



# 進行預測

y_pred = elastic_net_model.predict(X_test)



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="blue", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linewidth=2)

plt.title("Actual vs Predicted Values (Elastic Net Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 殘差圖

plt.figure(figsize=(10, 6))

sns.residplot(x=y_test, y=y_pred, lowess=True, color="purple", line_kws={'color': 'red', 'lw': 2})

plt.title("Residual Plot (Elastic Net Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Residuals", fontsize=14)

plt.grid(True)

plt.show()



# 彈性網絡回歸系數

plt.figure(figsize=(10, 6))

coefficients = pd.Series(elastic_net_model.coef_, index=X.columns)

coefficients.plot(kind='bar', color='cyan')

plt.title("Elastic Net Regression Coefficients", fontsize=16)

plt.xlabel("Features", fontsize=14)

plt.ylabel("Coefficient Value", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')

1. 高共線性特征的引入：通過生成一個新的特征 TAX_RM 來模擬高共線性場景，以展示彈性網絡處理共線性問題的能力。

2. 彈性網絡回歸系數圖：展示了每個特征的回歸系數值，觀察 L1 和 L2 正則化共同作用的結果。

3. 性能指標：

MSE（均方誤差）：用于評估模型的平均預測誤差。
R2分數：用于衡量模型對數據的解釋能力，接近1表示模型效果好。

5. 邏輯回歸 (Logistic Regression)

原理

邏輯回歸用于處理二分類問題，通過將線性回歸的輸出轉換為概率值來進行分類。其核心思想是使用邏輯函數（sigmoid函數）將線性模型的輸出映射到0和1之間，以預測二分類標簽。

核心公式

1. 邏輯回歸模型：

2. 推導：

邏輯回歸通過最大化似然函數（MLE）來估計回歸系數。似然函數表示為：

通過對數變換得到對數似然函數，然后對其求導并最大化，即可得到最優的回歸系數。

優缺點

優點：

概率輸出：可以提供分類的概率估計，而不僅僅是分類結果。
易于解釋：回歸系數可以解釋為特征對分類結果的影響。
簡單有效：在線性可分的情況下表現良好。

缺點：

線性假設：假設特征與目標變量之間存在線性關系，不適用于非線性數據。
無法處理多分類問題：原生的邏輯回歸僅適用于二分類問題，需擴展至多分類。

適用場景

邏輯回歸適用于以下場景：

二分類問題：如垃圾郵件識別、疾病診斷（如是否患病）等。
需要概率估計：如評估某事件發生的概率。

核心案例

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split, cross_val_score

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import confusion_matrix, classification_report, roc_curve, roc_auc_score

from sklearn.datasets import load_breast_cancer



# 加載乳腺癌數據集

cancer = load_breast_cancer()

X = pd.DataFrame(cancer.data, columns=cancer.feature_names)

y = pd.Series(cancer.target, name='CancerType')



# 數據標準化

X = (X - X.mean()) / X.std()



# 數據可視化：相關性矩陣

plt.figure(figsize=(12, 10))

sns.heatmap(X.corr(), annot=False, cmap='coolwarm')

plt.title("Feature Correlation Matrix", fontsize=16)

plt.show()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 創建邏輯回歸模型

log_reg = LogisticRegression(max_iter=10000)

log_reg.fit(X_train, y_train)



# 進行預測

y_pred = log_reg.predict(X_test)

y_pred_prob = log_reg.predict_proba(X_test)[:, 1]



# 混淆矩陣

cm = confusion_matrix(y_test, y_pred)

sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')

plt.title("Confusion Matrix", fontsize=16)

plt.xlabel("Predicted Label", fontsize=14)

plt.ylabel("True Label", fontsize=14)

plt.show()



# ROC曲線

fpr, tpr, _ = roc_curve(y_test, y_pred_prob)

roc_auc = roc_auc_score(y_test, y_pred_prob)



plt.figure(figsize=(10, 6))

plt.plot(fpr, tpr, color='blue', label=f'ROC Curve (AUC = {roc_auc:.2f})')

plt.plot([0, 1], [0, 1], color='red', linestyle='--')

plt.title("ROC Curve", fontsize=16)

plt.xlabel("False Positive Rate", fontsize=14)

plt.ylabel("True Positive Rate", fontsize=14)

plt.legend(loc="lower right")

plt.grid(True)

plt.show()



# 特征系數

plt.figure(figsize=(10, 6))

coefficients = pd.Series(log_reg.coef_[0], index=X.columns)

coefficients.plot(kind='bar', color='magenta')

plt.title("Logistic Regression Coefficients", fontsize=16)

plt.xlabel("Features", fontsize=14)

plt.ylabel("Coefficient Value", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能報告

print(classification_report(y_test, y_pred))

1. 混淆矩陣：可視化模型在測試集上的表現，展示了真實標簽與預測標簽的分布。

2. ROC曲線：展示了模型的診斷能力，曲線下面積（AUC）用于衡量分類器的優劣。

3. 特征系數圖：展示了每個特征對分類結果的影響。

6. 支持向量回歸 (SVR)

原理

支持向量回歸（SVR）是一種擴展到回歸任務的支持向量機（SVM）。它的目標是找到一個能夠最大限度地擬合訓練數據的回歸超平面，同時保持模型的復雜度盡可能小。SVR 通過在誤差范圍內（即“ε-不敏感”區域）不對數據點施加懲罰，從而控制模型的泛化能力。

核心公式

1. SVR 模型：

2. 推導：

SVR 的目標是最大化支持向量間的間隔，同時在 ε-不敏感帶寬內最小化誤差。通過引入拉格朗日乘子法，SVR 的優化問題可以轉化為二次規劃問題，最終解通過拉格朗日乘子和核函數獲得。

優缺點

優點：

強大的泛化能力：通過 ε-不敏感區域，SVR 能有效控制模型的復雜度，防止過擬合。
非線性擴展：借助核技巧，SVR 能處理非線性數據。
魯棒性：對異常值具有一定的魯棒性。

缺點：

計算復雜度高：由于二次規劃的計算復雜度，SVR 在大數據集上訓練時間較長。
參數調優復雜：需要仔細調節 C 和 ε 參數，以找到最優解。

適用場景

支持向量回歸適用于以下場景：

復雜關系的回歸任務：適用于非線性關系的數據。
需要高泛化能力的場景：如金融時間序列預測、天氣預測等。

核心案例

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.svm import SVR

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import make_regression



# 生成虛擬數據集

X, y = make_regression(n_samples=1000, n_features=10, noise=0.1, random_state=42)



# 創建DataFrame

data = pd.DataFrame(X, columns=[f'Feature_{i}' for i in range(X.shape[1])])

data['Heating Load'] = y



X = data.iloc[:, :-1]

y = data.iloc[:, -1]  # 我們預測 Heating Load



# 數據標準化

scaler_X = StandardScaler()

scaler_y = StandardScaler()

X_scaled = scaler_X.fit_transform(X)

y_scaled = scaler_y.fit_transform(y.values.reshape(-1, 1)).flatten()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_scaled, test_size=0.2, random_state=42)



# 創建支持向量回歸模型

svr = SVR(kernel='rbf', C=100, epsilon=0.1)

svr.fit(X_train, y_train)



# 進行預測

y_pred = svr.predict(X_test)



# 逆標準化

y_test_inv = scaler_y.inverse_transform(y_test.reshape(-1, 1)).flatten()

y_pred_inv = scaler_y.inverse_transform(y_pred.reshape(-1, 1)).flatten()



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test_inv, y=y_pred_inv, color="green", s=60, edgecolor="black")

plt.plot([min(y_test_inv), max(y_test_inv)], [min(y_test_inv), max(y_test_inv)], color='red', linewidth=2)

plt.title("Actual vs Predicted Values (SVR)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 殘差圖

plt.figure(figsize=(10, 6))

sns.residplot(x=y_test_inv, y=y_pred_inv, lowess=True, color="orange", line_kws={'color': 'red', 'lw': 2})

plt.title("Residual Plot (SVR)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Residuals", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test_inv, y_pred_inv)

r2 = r2_score(y_test_inv, y_pred_inv)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')

1. 實際值 vs 預測值：展示模型在測試集上的預測效果，通過對比實際值和預測值觀察模型的擬合效果。

2. 殘差圖：展示模型預測的殘差分布，檢查是否存在系統性偏差。

3. 性能指標：

MSE：均方誤差，衡量預測值與實際值的平均偏差。
R2分數：衡量模型的解釋能力，值越接近1說明模型效果越好。

7. 決策樹回歸 (Decision Tree Regression)

原理

決策樹回歸是使用樹狀模型進行回歸任務的算法。它通過不斷將數據集劃分成更小的子集，并在葉子節點上做出預測。決策樹的劃分基于對特征的某種度量，如均方誤差（MSE），以最小化葉子節點的誤差為目標。

核心公式

1. 劃分標準：

2. 推導：

決策樹從根節點開始，迭代地選擇最佳特征進行數據劃分，直到滿足終止條件（如最大深度、最小樣本數）。劃分過程中，通過選擇使 MSE 最小的特征及其閾值來決定數據的分裂方式。

優缺點

優點：

易于解釋：決策樹結構直觀易懂，便于解釋模型的預測過程。
無需特征縮放：對數據的尺度和分布不敏感。
能夠捕捉非線性關系：能夠處理復雜的非線性數據。

缺點：

易過擬合：決策樹容易生成復雜的樹結構，導致過擬合。
不穩定性：對數據的微小變化非常敏感，可能會生成截然不同的樹結構。

適用場景

決策樹回歸適用于以下場景：

直觀的模型解釋需求：如商業決策支持場景。
非線性數據集：能夠處理非線性特征之間的復雜關系。

核心案例

我們使用紅酒質量數據集（Wine Quality Dataset），以展示決策樹回歸在實際應用中的表現。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeRegressor

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import load_wine



# 加載紅酒質量數據集

wine = load_wine()

X = pd.DataFrame(wine.data, columns=wine.feature_names)

y = pd.Series(wine.target, name='Quality')



# 數據標準化

X = (X - X.mean()) / X.std()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 創建決策樹回歸模型

dt_regressor = DecisionTreeRegressor(max_depth=5, random_state=42)

dt_regressor.fit(X_train, y_train)



# 進行預測

y_pred = dt_regressor.predict(X_test)



# 決策樹結構

from sklearn.tree import plot_tree



plt.figure(figsize=(20, 10))

plot_tree(dt_regressor, feature_names=X.columns, filled=True, rounded=True)

plt.title("Decision Tree Structure", fontsize=16)

plt.show()



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="red", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='blue', linewidth=2)

plt.title("Actual vs Predicted Values (Decision Tree Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')

1. 決策樹結構可視化：展示了決策樹的完整結構，每個節點顯示了劃分特征及其閾值。

2. 實際值 vs 預測值：通過對比實際值和預測值，觀察模型的擬合效果。

3. 性能指標：

MSE：衡量模型預測的平均誤差。
R2分數：評估模型對數據的解釋能力。

8. 隨機森林回歸 (Random Forest Regression)

原理

隨機森林回歸是通過集成多棵決策樹來進行回歸任務的算法。每棵樹都是從數據的不同子集和特征子集上訓練而成的，最終的預測結果通過這些樹的平均值來給出。這種集成方法有效地降低了單棵決策樹的過擬合風險，并提高了模型的穩定性和泛化能力。

核心公式

1. 隨機森林模型：

隨機森林由多棵決策樹組成，假設我們有棵樹，每棵樹對輸入特征給出一個預測，則隨機森林的預測結果為這些樹的平均值：

2. 推導：

隨機森林通過“自助法”（Bootstrap）生成訓練集的不同子集，并在這些子集上訓練決策樹。同時，在每棵樹的構建過程中，隨機選擇特征子集以進行節點劃分。最終，通過對所有樹的預測結果進行平均化來獲得最終預測。

優缺點

優點：

高準確度：通過集成學習方法，隨機森林通常比單個決策樹具有更高的預測準確度。
防止過擬合：通過對多個子集和特征進行訓練，降低了模型的過擬合風險。
可處理高維數據：適用于高維特征的數據集。

缺點：

計算開銷大：訓練多個決策樹需要較高的計算成本，尤其在數據集較大時。
可解釋性差：由于是集成模型，難以解釋單個預測的邏輯。

適用場景

隨機森林回歸適用于以下場景：

復雜回歸任務：特別是在數據具有大量特征且存在噪聲的情況下。
需要穩健預測的場景：如經濟預測、氣候預測等。

核心案例

我們使用加利福尼亞房價數據集（California Housing Dataset），以展示隨機森林回歸在實際應用中的表現。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestRegressor

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import fetch_california_housing



# 加載加州房價數據集

housing = fetch_california_housing()

X = pd.DataFrame(housing.data, columns=housing.feature_names)

y = pd.Series(housing.target, name='Price')



# 數據標準化

X = (X - X.mean()) / X.std()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 創建隨機森林回歸模型

rf_regressor = RandomForestRegressor(n_estimators=100, random_state=42)

rf_regressor.fit(X_train, y_train)



# 進行預測

y_pred = rf_regressor.predict(X_test)



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="purple", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='orange', linewidth=2)

plt.title("Actual vs Predicted Values (Random Forest Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 特征重要性

plt.figure(figsize=(12, 8))

importances = pd.Series(rf_regressor.feature_importances_, index=X.columns)

importances.sort_values().plot(kind='barh', color='teal')

plt.title("Feature Importances (Random Forest Regression)", fontsize=16)

plt.xlabel("Importance Score", fontsize=14)

plt.ylabel("Features", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')

1. 實際值 vs 預測值：通過對比實際值和預測值，觀察模型的擬合效果。

2. 特征重要性：展示了模型中不同特征的重要性得分，用于評估哪些特征對預測結果影響最大。

3. 性能指標：

MSE：衡量模型預測的平均誤差。
R2分數：評估模型對數據的解釋能力。

9. 梯度提升回歸 (Gradient Boosting Regression)

原理

梯度提升回歸（Gradient Boosting Regression）是一種集成學習方法，通過組合多個弱學習器（通常是決策樹）來構建一個強學習器。每個學習器在前一個學習器的基礎上進行改進，逐步減少預測誤差。算法通過最小化損失函數來更新模型參數，從而提高預測性能。

核心公式

1. 梯度提升模型：

2. 推導：

優缺點

優點：

高精度：梯度提升通常能顯著提高模型的預測精度，尤其在復雜數據集上。
自動處理特征交互：能夠有效捕捉特征間的復雜交互關系。
魯棒性強：對異常值和噪聲具有一定的魯棒性，因為每一步都嘗試減少模型的誤差。

缺點：

訓練時間長：由于需要逐步添加多棵樹，訓練時間較長，特別是在數據量較大時。
超參數調優復雜：需要調節學習率、樹的數量、樹的深度等多個超參數。
容易過擬合：如果樹的數量過多或學習率過高，模型可能會過擬合訓練數據。

適用場景

需要高預測精度的任務：如金融風險評估、市場預測、疾病預測等。
復雜的回歸問題：數據具有復雜的非線性關系時。

核心案例

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.ensemble import GradientBoostingRegressor

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import fetch_california_housing



# 加載加州房價數據集

housing = fetch_california_housing()

X = pd.DataFrame(housing.data, columns=housing.feature_names)

y = pd.Series(housing.target, name='Price')



# 數據標準化

X = (X - X.mean()) / X.std()



# 劃分訓練集和測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



# 創建梯度提升回歸模型

gb_regressor = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)

gb_regressor.fit(X_train, y_train)



# 進行預測

y_pred = gb_regressor.predict(X_test)



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="green", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linewidth=2)

plt.title("Actual vs Predicted Values (Gradient Boosting Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 特征重要性

plt.figure(figsize=(12, 8))

importances = pd.Series(gb_regressor.feature_importances_, index=X.columns)

importances.sort_values().plot(kind='barh', color='orange')

plt.title("Feature Importances (Gradient Boosting Regression)", fontsize=16)

plt.xlabel("Importance Score", fontsize=14)

plt.ylabel("Features", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')

1. 實際值 vs 預測值展示模型預測效果的散點圖。如果模型效果良好，散點圖中的點應集中在對角線附近。

2. 特征重要性：展示各特征對模型預測的相對重要性。重要性高的特征對預測結果的貢獻較大。

3. 性能指標：

MSE：均方誤差，用于衡量預測值與真實值之間的平均誤差。
R2分數：決定系數，用于評估模型對數據的解釋能力。R2值越接近1，模型的解釋能力越強。

10. 貝葉斯回歸 (Bayesian Regression)

原理

貝葉斯回歸是一種基于貝葉斯統計方法的回歸模型，通過引入先驗分布和后驗分布來進行回歸分析。貝葉斯回歸的核心思想是使用概率分布來描述回歸系數的不確定性，而不是僅僅給出一個點估計值。

核心公式

1. 貝葉斯回歸模型：

2. 先驗分布：

3. 后驗分布：

4. 推導：

優缺點

優點：

不確定性建模：能夠提供參數的不確定性估計，而不僅僅是點估計。
自然的正則化：通過先驗分布可以自動進行參數的正則化，防止過擬合。
適應性強：可以處理小樣本數據和高維數據。

缺點：

計算復雜：貝葉斯推斷通常需要計算后驗分布，可能涉及復雜的積分計算和優化過程。
對先驗依賴性：結果可能對先驗分布的選擇較為敏感，選擇不當可能影響結果。

適用場景

需要不確定性估計的任務：如金融建模、醫學預測等。
小樣本或高維數據：貝葉斯回歸適用于數據量較少或特征維度較高的情況。

核心案例

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import mean_squared_error, r2_score

from sklearn.datasets import fetch_california_housing

from sklearn.linear_model import BayesianRidge



# 加載數據

housing = fetch_california_housing()

X = pd.DataFrame(housing.data, columns=housing.feature_names)

y = pd.Series(housing.target, name='Price')



# 數據標準化

scaler_X = StandardScaler()

X_scaled = scaler_X.fit_transform(X)



# 劃分數據集

X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)



# 創建貝葉斯回歸模型

bayesian_regressor = BayesianRidge()

bayesian_regressor.fit(X_train, y_train)



# 進行預測

y_pred = bayesian_regressor.predict(X_test)



# 實際值 vs 預測值散點圖

plt.figure(figsize=(10, 6))

sns.scatterplot(x=y_test, y=y_pred, color="cyan", s=60, edgecolor="black")

plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], color='red', linewidth=2)

plt.title("Actual vs Predicted Values (Bayesian Regression)", fontsize=16)

plt.xlabel("Actual Values", fontsize=14)

plt.ylabel("Predicted Values", fontsize=14)

plt.grid(True)

plt.show()



# 模型性能

mse = mean_squared_error(y_test, y_pred)

r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse:.2f}')

print(f'R^2 Score: {r2:.2f}')

1. 實際值 vs 預測值：展示貝葉斯回歸模型的預測效果。如果模型效果良好，散點圖中的點應集中在對角線附近，表明預測值接近實際值。

2. 性能指標：

MSE：均方誤差，用于衡量模型的預測誤差。
R2分數：決定系數，用于評估模型對數據的解釋能力。R2值越接近1，模型的解釋能力越強。

文章轉自微信公眾號@深夜努力寫Python

突破最強算法模型，Transformer ！！

通透！十大時間序列模型最強總結！！

#你可能也喜歡這些API文章!

如何高效爬取全球新聞網站 – 整合Scrapy、Selenium與Mediastack API實現自動化新聞采集

我們有何不同？

API服務商零注冊

多API并行試用

數據驅動選型，提升決策效率

查看全部API→

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道

一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道

一鍵對比試用API 限時免費

內容目錄

1. 線性回歸 (Linear Regression)
2. 嶺回歸 (Ridge Regression)
3. 套索回歸 (Lasso Regression)
4. 彈性網絡回歸 (Elastic Net Regression)
5. 邏輯回歸 (Logistic Regression)
6. 支持向量回歸 (SVR)
7. 決策樹回歸 (Decision Tree Regression)
8. 隨機森林回歸 (Random Forest Regression)
9. 梯度提升回歸 (Gradient Boosting Regression)
10. 貝葉斯回歸 (Bayesian Regression)

返回頂部

1. 線性回歸 (Linear Regression)

原理

核心公式

優缺點

適用場景

核心案例

2. 嶺回歸 (Ridge Regression)

原理

核心公式

優缺點

適用場景

核心案例

3. 套索回歸 (Lasso Regression)

原理

核心公式

優缺點

適用場景

核心案例

4. 彈性網絡回歸 (Elastic Net Regression)

原理

核心公式

優缺點

適用場景

核心案例

5. 邏輯回歸 (Logistic Regression)

原理

核心公式

優缺點

適用場景

核心案例

6. 支持向量回歸 (SVR)

原理

核心公式

優缺點

適用場景

核心案例

7. 決策樹回歸 (Decision Tree Regression)

原理

核心公式

優缺點

適用場景

核心案例

8. 隨機森林回歸 (Random Forest Regression)

原理

核心公式

優缺點

適用場景

核心案例

9. 梯度提升回歸 (Gradient Boosting Regression)

原理

核心公式

優缺點

適用場景

核心案例

10. 貝葉斯回歸 (Bayesian Regression)

原理

核心公式

優缺點

適用場景

核心案例

突破最強算法模型，Transformer ！！

通透！十大時間序列模型 最強總結 ！！

我們有何不同？

熱門場景實測，選對API

#AI文本生成大模型API

#AI深度推理大模型API

通透！十大時間序列模型最強總結！！