万维网中数据量巨大,而且增长迅速。相比其他领域的数据,万维网上数据是半结构化或非结构化的,同时以高噪声、高冗余、数据质量低为特色。在浩如烟海、垃圾遍地的网络数据世界中,如何找到所需要的知识呢?
首先当然需要获取网站的内容。爬虫技术应运而生。爬虫是一种用来分解Web中超文本结构的工具。爬虫从种子URL开始,通过查询和记录每个网页的所有链接并把它们排列起来,然后找到新页面并重复开始工作。爬虫获取数据后,需要对数据进行存储与索引,以供检索。
已经存储索引的数据如何呈现给用户呢?最先想到的是主题分类目录。这一方式的思想源于图书馆的编目。给网站分类、编目,再加上一定的检索功能,即可达到目的。这一方面最成功的例子是Yahoo。现在几乎每个网站或多或少都会使用主题分类技术,大部分的搜索引擎也会融入某种形式的基于分类的搜索。
主题分类方式的价值,一是通过对网站内容进行了编目方便了检索,二是因为目录链接通常经过编辑的检查,它们一般是比较权威或热门的内容。但是这一方法的局限性显而易见:网站数量和网站的内容都在不断变化,人工方法很难跟踪这些变化。有没有通过程序自动归类的方法呢?传统机器学习理论中的聚类与分类方法正擅长于这一点。
聚类是一种无监督的学习方法。它根据相似度对网站内容自动进行归类分组,同一组内的文档比不同组内的相似度更高。聚类在超文本领域也会有一些问题存在:对聚类产生的结果的可能产生不同意见,因为不同的相似度度量可能产生不同的聚类结果;设定超文本不同部分对相似度的权值不同,也会产生不同的聚类结果,而权值的设置并没有统一的标准。
分类是一种有监督的学习方法。分类器先通过已进行标签的样本进行学习,然后将学得的分类规则应用到新的数据中。由于网络数据的数量、多样性和不统一性,也使得分类在超文本领域的应用更为复杂。
传统的信息检索技术虽然是网络搜索的核心技术,却不能满足在网络中寻找知识的需求。信息检索的实质应该是语义检索,而传统的信息检索模型都是基于词索引。但是独立的字、词集合不能完全、准确地反映文档和查询地语义。比如说,查询WebBrowser并不能找到IE或Firefox,因为IE和Firefox不会自动说明它们是浏览器。在学术出版领域,文章的引用率是其声誉的指示器。利用这一思想的最成功的公司是Google。Google搜索引擎的基础是PageRank算法,其原理是“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,以此判定所有网页的重要性。另一重要算法是HITS算法。在这一算法中,每个网页都要计算两个值:权威值(authority)与中心值(hub)。权威值类似PageRank的声誉值,而中心值则表征指向权威网页的链接程度。这两个算法是现在几乎所有基于关键词的商业搜索引擎的基础。
那么,Web数据挖掘的未来方向是什么?
首先,基于关键词的搜索引擎不能完全理解用户输入的整句的意义,所以给出的页面可能不是用户所需要的。由于不能理解语义,对用户提出的问题也难以给出好的答案。要在这方面取得进展,依赖于自然语言处理的研究进展。
其次是搜索引擎的个性化。目前的搜索引擎,包括Google在内,基本都是非个性化的。比如你叫张三,想在网上搜出关于你的报道。除非你已经牛到当上了美国总统,网上关于张三的报道很多都是关于你的,否则要找到与你相关的信息可是难上加难。
目前在Web搜索引擎领域有了许多新的进展。今年WolframResearch和他的团队开发推出了WolframAlpha搜索引擎,以“计算型知识引擎”标注,可以用来回答具体的问题。近期微软也推出自己的搜索引擎“必应”(Bing)要与Google抢夺搜索的市场。微软对其搜索引擎的广告宣传是“决策型的搜索引擎”,宣称能帮助用户做决策。这些新力量的出现会加剧搜索引擎市场的竞争,并推动Web数据挖掘的发展。
(《Web数据挖掘――超文本数据的知识发现》,图灵原版计算机科学系列之一,[印]查凯莱巴蒂著,人民邮电出版社,2009年2月,59.00元)