常用的聚类算法

kmeans聚类算法

  1. 初始化,随机选择k个样本点最为初始聚类中心;
  2. 对样本进行聚类,计算每个样本到类中心距离,将样本分类到最近中心;
  3. 按照聚类的结果,重新计算新的聚类中心;
  4. 若迭代收敛或者符合停止条件则返回聚类中心

算法复杂度:O(mnk),m样本维度,n样本个数,k类别个数

类别k选择:尝试不同的k检验推测;聚类质量可以通过类的平均直径判断,类别超过一定值之后平均直径不会发生改变这时就是最优的k值