DiVoMiner® 使用手册

  1. 主页
  2. 文档
  3. DiVoMiner® 使用手册
  4. 算法挖掘
  5. K-Means分类

K-Means分类

(一)模型介绍

K-Means是机器学习领域中无监督式学习中的一种最常用的聚类算法,将给定的数据集分割成多个不同的组或簇,每组的核心点就是该组成员的均值点(通常称为“质心”),可以被表示成多维向量。

K-Means判断目标是最小化组成员到包含该成员的实际质心的平方距离总和。随着被分析数据集的不断加大,每次都需要计算全部数据点到质心的距离,为解决计算量及耗时增大的问题,故采用Mini Batch K-Means方法,Mini Batch K-Means是K-Means的变形,不同之处在于Mini Batch K-Means每次只需要从全部数据集中抽样迭代,大大缩短计算时间,Mini Batch(分批处理)的思想和方法在梯度下降、神经网络反向传播中也被广泛用于减少算法的训练时间。

(二)研发依据

[1] Béjar,Javoer.K-means vs Mini Batch K-Means:A comparison.Tech. rep.Universitat Polit`ecnica de Catalunya(2013).
[2] 韩普,王东波,刘艷云,苏新宁.词性对中英文文本聚类的影响研究[J].中文信息学报,2013,27(2):65-73.

(三)算法说明

从数据集中随机抽取晓样本,形成mini batch,将他们分配到最近的组,然后不断更新调整质心,当满足收敛条件(如:迭代次数、精度)即可终止计算。

Mini Batch K-Means相比K-Means节省了大量计算时间,虽然会牺牲少量聚类质量,在数据量稍大的情况下,精度的差异可以忽略不计。

(四)指标评价

(1) 簇内误差平方和:K-Means方法中的惯性指针,表示每个样本与簇群中心点的均方距离的总和。一般惯性越小模型越好,但随着K值的增大,惯性下降的速度变得很慢,所以可以选择“肘部”的K值作为最优的K值选择。
(2) 轮廓系数:计算方法是当样本与簇群内其他样本的平均距离为a,与外部簇群样本的平均距离为b,则轮廓系数为(b-a)/max(a,b)。一般轮廓系数指标越大聚类效果越好。

这篇文章对您有用吗? 2

我们要如何帮助您?