专利名称:一种基于机器学习的大规模分布式的数据聚类方法专利类型:发明专利
发明人:王昌栋,赖剑煌,杨宇博,彭祥游申请号:CN201610086276.5申请日:20160215公开号:CN105760478A公开日:20160713
摘要:本发明公开一种基于机器学习的大规模分布式的数据聚类方法,输入需要分类的数据点以及聚类个数k,其中包含数据点索引以及数据点的坐标,数据形式如下,;对数据点进行预处理,即给数据加上索引;根据索引数据计算距离矩阵;根据距离矩阵计算每个数据点的密度信息;根据距离矩阵及密度信息得到每个数据点的最小距离信息以及其对应索引;根据密度信息及最小距离信息确定k个聚类中心;根据最小距离信息及聚类中心对所有未被分配类标的数据点进行聚类,直到所有数据点都被分到一个类标。本发明能在可扩展的大规模分布式平台上执行聚类,在面对大规模数据量的时候可适量扩展机器以提升计算能力,在可接受的时间内得出准确度较高的聚类结果。
申请人:中山大学
地址:510275 广东省广州市海珠区新港西路135号
国籍:CN
代理机构:广州粤高专利商标代理有限公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容