English

Web数据挖掘的未来方向

2009-08-12 来源:中华读书报 作者:■廖海仁 我有话说
万维网的出现绝对是人类历史上一件空前的事件。这首先引起大众传媒方面的一次革命。英国牛津大学著名动物学家和行为生态学家Richard Dawkins在其著作《自私的基因》中首次提出模因(Meme)的概念。这一从基因(Gene)一词
借用过来的词汇,是指思想、理论、习惯、技能、语言等通过模仿在人与人之间的传播。Dawkins的著作出版在万维网诞生之前。在书中他曾告诫说:模因这一新的复制因子正在迅速进化,其速度之快为原来的基因望尘莫及。而万维网的出现则又大大加速了模因进化的过程。

万维网中数据量巨大,而且增长迅速。相比其他领域的数据,万维网上数据是半结构化或非结构化的,同时以高噪声、高冗余、数据质量低为特色。在浩如烟海、垃圾遍地的网络数据世界中,如何找到所需要的知识呢?

首先当然需要获取网站的内容。爬虫技术应运而生。爬虫是一种用来分解Web中超文本结构的工具。爬虫从种子URL开始,通过查询和记录每个网页的所有链接并把它们排列起来,然后找到新页面并重复开始工作。爬虫获取数据后,需要对数据进行存储与索引,以供检索。

已经存储索引的数据如何呈现给用户呢?最先想到的是主题分类目录。这一方式的思想源于图书馆的编目。给网站分类、编目,再加上一定的检索功能,即可达到目的。这一方面最成功的例子是Yahoo。现在几乎每个网站或多或少都会使用主题分类技术,大部分的搜索引擎也会融入某种形式的基于分类的搜索。

主题分类方式的价值,一是通过对网站内容进行了编目方便了检索,二是因为目录链接通常经过编辑的检查,它们一般是比较权威或热门的内容。但是这一方法的局限性显而易见:网站数量和网站的内容都在不断变化,人工方法很难跟踪这些变化。有没有通过程序自动归类的方法呢?传统机器学习理论中的聚类与分类方法正擅长于这一点。

聚类是一种无监督的学习方法。它根据相似度对网站内容自动进行归类分组,同一组内的文档比不同组内的相似度更高。聚类在超文本领域也会有一些问题存在:对聚类产生的结果的可能产生不同意见,因为不同的相似度度量可能产生不同的聚类结果;设定超文本不同部分对相似度的权值不同,也会产生不同的聚类结果,而权值的设置并没有统一的标准。

分类是一种有监督的学习方法。分类器先通过已进行标签的样本进行学习,然后将学得的分类规则应用到新的数据中。由于网络数据的数量、多样性和不统一性,也使得分类在超文本领域的应用更为复杂。

传统的信息检索技术虽然是网络搜索的核心技术,却不能满足在网络中寻找知识的需求。信息检索的实质应该是语义检索,而传统的信息检索模型都是基于词索引。但是独立的字、词集合不能完全、准确地反映文档和查询地语义。比如说,查询WebBrowser并不能找到IE或Firefox,因为IE和Firefox不会自动说明它们是浏览器。在学术出版领域,文章的引用率是其声誉的指示器。利用这一思想的最成功的公司是Google。Google搜索引擎的基础是PageRank算法,其原理是“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,以此判定所有网页的重要性。另一重要算法是HITS算法。在这一算法中,每个网页都要计算两个值:权威值(authority)与中心值(hub)。权威值类似PageRank的声誉值,而中心值则表征指向权威网页的链接程度。这两个算法是现在几乎所有基于关键词的商业搜索引擎的基础。

那么,Web数据挖掘的未来方向是什么?

首先,基于关键词的搜索引擎不能完全理解用户输入的整句的意义,所以给出的页面可能不是用户所需要的。由于不能理解语义,对用户提出的问题也难以给出好的答案。要在这方面取得进展,依赖于自然语言处理的研究进展。

其次是搜索引擎的个性化。目前的搜索引擎,包括Google在内,基本都是非个性化的。比如你叫张三,想在网上搜出关于你的报道。除非你已经牛到当上了美国总统,网上关于张三的报道很多都是关于你的,否则要找到与你相关的信息可是难上加难。

目前在Web搜索引擎领域有了许多新的进展。今年WolframResearch和他的团队开发推出了WolframAlpha搜索引擎,以“计算型知识引擎”标注,可以用来回答具体的问题。近期微软也推出自己的搜索引擎“必应”(Bing)要与Google抢夺搜索的市场。微软对其搜索引擎的广告宣传是“决策型的搜索引擎”,宣称能帮助用户做决策。这些新力量的出现会加剧搜索引擎市场的竞争,并推动Web数据挖掘的发展。

  (《Web数据挖掘――超文本数据的知识发现》,图灵原版计算机科学系列之一,[印]查凯莱巴蒂著,人民邮电出版社,2009年2月,59.00元)

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有