其他常用的集成学习算法

## 15.3.1 随机森林算法改进

- **随机森林算法改进**：尽管随机森林在多数应用中表现出色，但在特定场景下，针对其基本原理和算法流程的改进可以进一步提升模型性能。

### 示例代码
- 以下练习使用本平台在线工具进行学习。
- 地址：首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】")，点击 ![](/media/202406/企业微信截图_17176610853953(1)_1717661367.png) 按钮，登录即可。

- **极端随机树（Extremely Randomized Trees, ExtraTrees）**：与随机森林不同，极端随机树在每个节点选择分裂点时不仅随机选择特征，还随机选择分裂阈值。这种方法进一步增加了模型的多样性，减少了过拟合的风险。

```python
    from sklearn.ensemble import ExtraTreesClassifier

# 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target

# 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建极端随机树模型
    model = ExtraTreesClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)

# 预测并评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'Extra Trees Accuracy: {accuracy:.2f}')
    ```

- **轻量级梯度提升树（LightGBM）**：一种高效的梯度提升框架，针对大规模数据和高维特征进行优化。LightGBM通过基于直方图的决策树学习和叶子节点增长策略，提高了训练速度和预测性能。

```python
    import lightgbm as lgb

# 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target

# 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建LightGBM模型
    model = lgb.LGBMClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)

# 预测并评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'LightGBM Accuracy: {accuracy:.2f}')
    ```

- **极限梯度提升（XGBoost）**：一种高效的梯度提升决策树（GBDT）实现，采用二次泰勒展开、贪心算法、行列采样等优化技术，提高了模型的精度和计算效率。

```python
    import xgboost as xgb

# 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target

# 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建XGBoost模型
    model = xgb.XGBClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)

# 预测并评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'XGBoost Accuracy: {accuracy:.2f}')
    ```

- **CatBoost**：一种用于分类问题的梯度提升库，自动处理类别特征，无需显式编码，简化了特征工程过程，提高了模型的鲁棒性和准确性。
  
- 前提工作：

```python
  pip install catboost
  ```
  
- 代码示例：

```python
    from catboost import CatBoostClassifier

# 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target

# 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建CatBoost模型
    model = CatBoostClassifier(n_estimators=100, random_state=42, verbose=0)
    model.fit(X_train, y_train)

# 预测并评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'CatBoost Accuracy: {accuracy:.2f}')
    ```

## 15.3.2 几种常用集成学习算法

- **几种常用集成学习算法**：除了随机森林和其改进版本，还有其他几种常用的集成学习算法，应用广泛，效果显著。

### 示例代码
- 以下练习使用本平台在线工具进行学习。
- 地址：首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】")，点击 ![](/media/202406/企业微信截图_17176610853953(1)_1717661367.png) 按钮，登录即可。

- **AdaBoost（Adaptive Boosting）**：通过逐步训练弱分类器，每个分类器关注前一个分类器错误分类的样本，结合多个弱分类器形成一个强分类器。
    ```python
    from sklearn.ensemble import AdaBoostClassifier

# 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target

# 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建AdaBoost模型
    model = AdaBoostClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)

# 预测并评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'AdaBoost Accuracy: {accuracy:.2f}')
    ```

- **Gradient Boosting**：通过逐步训练决策树，每个树关注前一树的残差，不断降低误差，形成一个强分类器或回归器。
    ```python
    from sklearn.ensemble import GradientBoostingClassifier

# 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target

# 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建Gradient Boosting模型
    model = GradientBoostingClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)

# 预测并评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'Gradient Boosting Accuracy: {accuracy:.2f}')
    ```

- **Stacking（堆叠法）**：通过训练多个基模型，将基模型的预测结果作为次级模型的输入，形成一个更强的集成模型。
    ```python
    from sklearn.ensemble import StackingClassifier
    from sklearn.linear_model import LogisticRegression
    from sklearn.neighbors import KNeighborsClassifier
    from sklearn.tree import DecisionTreeClassifier

# 加载数据集
    iris = load_iris()
    X, y = iris.data, iris.target

# 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 构建基模型
    estimators = [
        ('knn', KNeighborsClassifier()),
        ('dt', DecisionTreeClassifier(random_state=42))
    ]

# 构建堆叠模型
    model = StackingClassifier(estimators=estimators, final_estimator=LogisticRegression())
    model.fit(X_train, y_train)

# 预测并评估模型
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f'Stacking Accuracy: {accuracy:.2f}')
    ```

通过了解和应用这些集成学习算法，可以在不同的应用场景中选择最合适的算法，提高模型的预测性能和鲁棒性。

------------