我们要发现一个富文本中的http链接,发现一些群体行为,获取URL
第一步:提取http链接
使用 Jsoup 来做
Document doc = Jsoup.parse(stream.getText())
Elements links = doc.select("a[href]")
for (Element element: links) {
link = element.attributes().iterator().next().getValue()
// link 就是链接
println(link)
}
第二步:提取向量
比方说 https://cwiki.apache.org/confluence/display/MAHOUT/Downloads
cwiki,apache,org,confluence,display,mahout
第三部:聚类
参考
一个基于Mahout与hadoop的聚类搭建
不要分词了,因为你已经分好词了。
上面的cwiki, apache, org,confluence,display,mahout都作为filed添加到document里面,就可以了
聚类是帮你发现群体行为,以及为了后续的文本挖掘做准备工作的
不要期望太多
分享到:
相关推荐
Web日志挖掘中的用户聚类与URL聚类.pdf
简单的聚类分析方法,采用欧式距离的最短距离聚类源程序。
对聚类算法的简单总结。聚类分析的算法可以分为划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的...
聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。 常见的聚类分析方法有...
使用控制台黑框,利用随机点来显示聚类,回车键更新屏幕,显示本次聚类后的堆中心,逐次按下回车寻找最优中心点,最后呈现堆心与周围的分布结果。
聚类程序聚类程序聚类程序聚类程序聚类程序
最短距离聚类,有关资料最短距离聚类,有关资料最短距离聚类,有关资料
聚类算法,密度聚类,高效聚类,无监督聚类,快速聚类
k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。
聚类分析程序 包括系统聚类 样品系统聚类 变量系统聚类 K均值聚类 模糊C均值聚类
摘要: 目前的聚类算法如K-means、DBSCAN等, 采用全局参数而难以发现数据的自然聚类, 提出一种新的分 级聚类算法CluFNC, 能够在数据空间中发现内部聚类特征。该算法的参数包括网格大小、噪声阈值和神经节点 数量。...
K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象...
类平均聚类方法 类平均聚类方法 类平均聚类方法 类平均聚类方法 类平均聚类方法
MYDBSCAN:基于密度的聚类DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法的底层实现 MYAP:基于划分的聚类AP(Affinity Propagation Clustering Algorithm )算法的底层实现--近邻传播...
代码 复杂网络的聚类系数算法代码代码 复杂网络的聚类系数算法代码代码 复杂网络的聚类系数算法代码代码 复杂网络的聚类系数算法代码代码 复杂网络的聚类系数算法代码代码 复杂网络的聚类系数算法代码代码 复杂网络...
基本的层次聚类算法matlab实现 简单明了 是我以前上课时记下的笔记内容 代码在15b上实验证实可用
名称:AP聚类算法 功能:聚类数据集 类别:新聚类算法
是fcm聚类算法,文献,hd不要下载,可以看看,好好看看fcm聚类算法,fcm聚类算法,fcm聚类算法,fcm聚类算法,fcm聚类算法,fcm聚类算法,
名称:DPC聚类算法 功能:聚类数据集 类别:密度聚类算法
利用MATLAB做模糊聚类,并且画出系谱图