其他常用的聚类

## 12.3.1 K-平均算法的改进

- **K-平均算法的改进**：K-平均算法虽然简单高效，但在实际应用中存在一些不足，因此有多种改进版本和变种算法被提出，以解决其局限性。

- K-means++：改进了初始质心的选择方法，以增加初始质心的分布间隔，从而减少局部最优解的问题。
  
> w `K-means++`的初始化步骤：

1. 随机选择一个初始质心。

2. 计算所有数据点到最近质心的距离平方，并以距离平方作为权重随机选择下一个质心。
3. 重复上述步骤，直到选择出$$K$$个质心。

- **Mini-Batch K-means**：使用小批量数据（Mini-Batch）进行更新，提高算法的效率和适用性，特别适用于大规模数据集。

### 示例代码
- 使用本平台在线工具进行学习。
- 地址：首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】")，点击 ![](/media/202406/企业微信截图_17176610853953(1)_1717661367.png) 按钮，登录即可。

```python
    from sklearn.cluster import MiniBatchKMeans

# 使用 Mini-Batch K-means 进行聚类
    k = 3
    mb_kmeans = MiniBatchKMeans(n_clusters=k, random_state=0, batch_size=10)
    mb_kmeans.fit(X)

# 获取簇分配结果和质心
    labels = mb_kmeans.labels_
    centroids = mb_kmeans.cluster_centers_

# 可视化聚类结果
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o')
    plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x')
    plt.title(f'Mini-Batch K-means Clustering with {k} Clusters')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()
    ```

- **K-medoids**：替代K-平均中的质心概念，使用实际的点作为代表，从而对噪声和异常值更加鲁棒。常见的实现包括PAM（Partitioning Around Medoids）。

- **Bisecting K-means**：通过反复二分的方式进行聚类，有时能够得到比标准K-平均更好的结果。

## 12.3.2 几种常用聚类算法

- **几种常用聚类算法**：除了K-平均算法及其改进版本，还有多种其他聚类算法，适用于不同类型的数据和应用场景。

- **层次聚类（Hierarchical Clustering）**：分为自底向上（Agglomerative）和自顶向下（Divisive）两种方法，通过计算数据点之间的距离或相似度逐步合并或拆分簇。

### 示例代码
- 使用本平台在线工具进行学习。
- 地址：首页->工作台[【快捷链接】](https://zenodt.com/workbench "【快捷链接】")，点击 ![](/media/202406/企业微信截图_17176610853953(1)_1717661367.png) 按钮，登录即可。

```python
    from scipy.cluster.hierarchy import dendrogram, linkage
    from scipy.cluster.hierarchy import fcluster

# 使用层次聚类进行聚类
    linked = linkage(X, 'ward')
    dendrogram(linked)
    plt.title('Hierarchical Clustering Dendrogram')
    plt.xlabel('Sample index')
    plt.ylabel('Distance')
    plt.show()

# 根据阈值获取簇分配结果
    threshold = 0.5
    labels = fcluster(linked, threshold, criterion='distance')

# 可视化聚类结果
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o')
    plt.title('Hierarchical Clustering')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()
    ```

- **DBSCAN（Density-Based Spatial Clustering of Applications with Noise）**：基于密度的聚类算法，能够有效识别噪声点，适用于发现任意形状的簇。

```python
    from sklearn.cluster import DBSCAN

# 使用 DBSCAN 进行聚类
    dbscan = DBSCAN(eps=0.1, min_samples=5)
    labels = dbscan.fit_predict(X)

# 可视化聚类结果
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o')
    plt.title('DBSCAN Clustering')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()
    ```

- **GMM（高斯混合模型）**：将数据假设为来自多个高斯分布，使用期望最大化（EM）算法进行参数估计，适用于发现具有不同分布特征的簇。
```python
    from sklearn.mixture import GaussianMixture

# 使用 GMM 进行聚类
    gmm = GaussianMixture(n_components=3, random_state=0)
    labels = gmm.fit_predict(X)

# 可视化聚类结果
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o')
    plt.title('Gaussian Mixture Model Clustering')
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.show()
```

通过了解和应用这些不同的聚类算法，可以根据具体的任务和数据特点选择最适合的算法，从而提高聚类结果的准确性和稳定性。