网站首页 | SEO基础知识 | SEO文章转载
长沙SEO_网站优化_培训及顾问指导服务 - 风吟SEO

您的位置:长沙SEO > SEO文章转载 >

搜索引擎聚类国内外发展进程

聚类简介
 
聚类是指将抽象或物理对象组成集合,将集合中类似对象组成多个类的过程.由聚类所生成的簇可以看做是一组数据对象的集合,这些对象与同一个簇中的其他对象彼此相似,而与其他簇中的对象不同.聚类分析又被叫做群分析,是针对分类问题的一种统计分析方法.由一个度量的向量或多维空间中的一个点构成模式,再由多个模式构成聚类分析.聚类分析可以追溯于分类学,不过聚类并不是单纯的分类.聚类与分类最大的的不同之处是,划分为聚类的类是未知的.
 
聚类作为一种有效的分类方法,可以从庞大的消费者数据库区分属性、目标不同的消费群体,再概括出这些消费群体的消费模式也就是普通意义上的习惯.它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,在数据挖掘算法时,聚类算法可以作为对数据进行预处理,再用其他分析算法处理.聚类分析的算法可以分为层次法(Hierarchical Methods)、基于网格的方法(grid-based methods)、基于密度的方法(density-based-methods)、划分法(Partitioning Methods)、基于模型的方法(Model-Based Methods).
 
搜索引擎聚类国外发展进程
 
国外对于搜索引擎聚类方面的研究最早发生在 1996年,HearstMA,PedersenJO 学者研究开发的 Scatter/Gather系统是世界上第一个将聚类引入搜索引擎的系统.2000年开发的 Vivisimo 元搜索引擎系统,采用自主开发的启发式算法来集合并聚类原文文献.这种算法吸收了传统人工智能思想,对检索结果进行更好描述和聚类.它的文献聚类技术首先将文本内容自动分类,划分为等级式排列的目录之后进行聚类.作为一种完全自动化的聚类技术,不需要人为干扰收集数据,也不需要进行数据维护.

SnakeT 在前者研究的基础上,开发了能完整将搜索引擎聚类化的系统,并且可以向用户展示带有明确标签的层次型结构.Grouper 是利用后缀树聚类 (STC,Suffix TreeClustering)算法专门针对文档摘要进行聚类的搜索引擎系统.SHoc 是首个面向文本信息进行聚类功的搜索引擎.Sergio 系统应用改进过的 k 均值算法对两个搜索引擎结果进行聚类处理.在新闻处理方面,Nesrec 系统提取Altzvista 新闻的新闻摘要,短时间内进行层次聚类,并使之成为拥有良好可读性的类标签.而 Newsblaster 系统针对每天的新闻进行聚类处理,文本生成等处理之后,产生摘要文档.WhatsonWeb 是应用拓谷驱动和图像聚类算法来构建搜索引擎聚类系统,具有良好的可视化效果,同时支持处理无效标签.
 
搜索引擎聚类国内发展进程

国内的研究要相对较晚,最早开始于 20005 年,但是随着科技发展,取得了很不错的优秀成果.2005 年的PinkySearch 利用后缀树算法和相同词聚类对多个搜索引擎的结果进行聚类处理,最后获得搜索结果.在 2007 年成立的国内首家搜索引擎聚类公司比比猫(Bbmao),采用先进的聚类和去重技术,不仅带给用户快捷、智能的体验经历,还引领创新了聚类技术.国内高水准的数据挖掘研究所论坛上,提出了 web 挖掘算法、分类聚类,应用方案等聚类应用技术.
 

最近更新

最后更新时间:2014-05-04

seo

文章作者:风吟

联系QQ:498501258

11年开始接触英文SEO行业,负责欧美游戏金币网站推广。

12年涉足中文搜索引擎营销及网站建设并积累大量实战经验,成功帮助多家公司提升在线销售业绩和网络品牌知名度。

填写您的邮件地址,订阅我们的精彩内容: