聚类算法 | Notion

聚类算法：是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。
聚类算法与分类算法最大的区别是：聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。
聚类算法是指一堆没有标签的样本自动划分为几类的方法，同一类的数据要具有相似的特征。根据样本之间的距离或者说是相似性（亲疏性），把越相似、差异越小的样本聚成一类（簇），最后形成多个簇，使同一个簇内部的样本相似度高，不同簇之间差异性高。

有监督与无监督的对比

1.有标签 vs. 无标签

有监督又被称为“有老师的学习”，无监督被称为“没有老师的学习”，所谓的老师就是标签。有监督的过程为先通过已知的训练样本（已知输入和对应的输出）来训练，从而得到一个最优模型，再将这个模型应用在新的数据上，映射为输出结果。经历这个过程后，模型具有了预知能力。无监督相比于有监督，没有训练的过程，而是直接拿数据进行建模分析

2 . 分类 vs 聚类

有监督机器学习的核心是分类，无监督机器学习的核心是聚类（将数据集合分成由类似的对象组成的多个类）。有监督的工作是选择分类器和确定权值，无监督的工作是密度估计（寻找描述数据统计值），这意味着无监督算法只要知道如何计算相似度就可以开始工作。

3.同维 vs 降维

有监督的输入如果是n维，特征即被认定为n维，也即y=f(xi)或p(y|xi), i =n，通常不具有降维的能力。而无监督经常要参与深度学习，做特征提取，或者干脆采用层聚类或者项聚类，以减少数据特征的维度。

4.分类同时定性 vs 先聚类后定性

有监督的输出结果，也就是分好类的结果会被直接贴上标签，是好还是坏。也即分类分好了，标签也同时贴好了。无监督的结果只是一群一群的聚类，属于先聚类后定性，有点类似于批处理。

5.独立 vs 非独立

李航在其著作《统计学习方法》（清华大学出版社）中阐述了一个观点：对于不同的场景，正负样本的分布可能会存在偏移（可能是大的偏移，也可能偏移比较小）。好比我们手动对数据做标注作为训练样本，并把样本画在特征空间中，发现线性非常好，然而在分类面，总有一些混淆的数据样本。对这种现象的一个解释是，不管训练样本（有监督），还是待分类的数据（无监督），并不是所有数据都是相互独立分布的。或者说，数据和数据的分布之间存在联系。作为训练样本，大的偏移很可能会给分类器带来很大的噪声，而对于无监督，情况就会好很多。可见，独立分布数据更适合有监督，非独立数据更适合无监督。

6.不透明 vs 可解释性

由于有监督算法最后输出的一个结果，或者说标签。yes or no，一定是会有一个倾向。但是，如果你想探究为什么这样，有监督会告诉你：因为我们给每个字段乘以了一个参数列[w1, w2, w3…wn]。你继续追问：为什么是这个参数列？为什么第一个字段乘以了0.01而不是0.02？有监督会告诉你：这是我自己学习计算的！然后，就拒绝再回答你的任何问题。是的，有监督算法的分类原因是不具有可解释性的，或者说，是不透明的，因为这些规则都是通过人为建模得出，及其并不能自行产生规则。所以，对于像反洗钱这种需要明确规则的场景，就很难应用。而无监督的聚类方式通常是有很好的解释性的，你问无监督，为什么把他们分成一类？无监督会告诉你，他们有多少特征有多少的一致性，所以才被聚成一组。你恍然大悟，原来如此！于是，进一步可以讲这个特征组总结成规则。如此这般分析，聚类原因便昭然若揭了。