摘 要:
关键词:
网络蜘蛛(Web Spider)是一个形象的名字,它把因特网比喻成一个蜘蛛网,那么Spider就是在网上觅食的蜘蛛。网络蜘蛛通过WEB文档中的链接地址来寻找WEB文档,从网站某一个页面开始读取文档的内容,找到在WEB文档中的下一级链接地址,然后通过这些链接地址寻找更下一层的WEB文档,这样循环直到将此网站的WEB文档资源都搜寻完为止。
1 网络蜘蛛的抓取策略
在抓取WEB文档的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。在实际应用中通常并非要抓取全部的WEB文档,对一些不太重要的网站,可以设置访问的层数,对于超过一定层数的WEB文档不再抓取。
2 WEB文档的种类及在信息提取中的价值
基于内容文本的WEB数据挖掘的处理对象是文本文件。对于WEB文档内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用基于插件的可扩展模式,通过一个插件程序,对各格式的WEB文档采用相应的插件处理。这种模式的优点在于扩充性好,以后每新增一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
3 HTML结构化解析
在网络蜘蛛的实现时,我们采用广度优先链接跟踪法解析HTML。要提取WEB文档中的链接和文本,首要对HTML进行解析,将HTML字符流变为由HTML标签系列组成的结构化文档。Sun公司开发的HTML解析器能够处理绝大部分HTML解析任务。下面是Sun的HTML解析器的主要功能部件。
(1) 类
它是最重要的一个HTML解析类,是一个内部类,声明如下:
:
public abstract static class extends Object
由于它是一个抽象类,因此真正的解析工作是由它具体的子类的实例来完成,这个子类是Delegator:
public class ParserDelegator extends
当解析一个HTML文件时,需要实现一个Callback的子类,由它来按照要求对文本和标签做出处理。然后将它的实例传给的parse()方法。parse()是类的唯一public方法。所有的工作是由Callback子类的回调方法来完成。在进行这项工作之前,必须获得一个类的实例,但是它是一个抽象类,其子类Delegator是一个具体类,在能够取用它之前,必须给它配置一个DTD,使用protected static方法。因此创建一个ParserDelegator,需要DTD的一个实例。DTD类有一个protected型的构造器和许多protected方法,这里直接使用,getParser()方法。它是一个protected方法,只需要创建HTMLEditorKit的子类,并用一个public型的getParser()来覆写它。
现在就可以用它来解析中文WEB文档。这是通过类的parse()方法来完成的。
(2)Callback类
ParserCallback是一个public型的内部类,也就是itorKit的内部类。其声明如下:
public static calss Callback extends Objects DTD。它有一个简单的无参数构造器:public Callback()
但是,要真正执行解析动作,需要实现其子类,并重载6个空的回调方法,执行具体的任务。
解析器并不是多线程安全的,通常在一个单独的线程中解析。因此,当parse()方法返回时,并不意味着文档被解析了。若使用同一个Callback对象来完成两个独立的解析过程,必须用线程同步机制,保证所有的回调方法都是线程安全的。
(3) 类
Tag是一个类的一个public型的内部类。public static class extends Object它含有四个方法:breaksFlow()方法当标签应该产生一个单行分隔时返回true。isBlock()方法当标签应该产生一个双行分隔时返回true。isPreformatted()方法当标签中的空白应该被保留时返回true。有了类,可以根据不同的标签类别,执行不同的操作。
(4)属性
处理HTML文件时,经常需要查看标签和属性。HandleStartTag()和handleSimpleTag()回调方法的第二个参数是eAttributeSet类,这个对象允许查看某个标签附属了哪些属性。MutableAttributeSet是uteSet接口的子接口。
AttributeSet和MutableAttributeSet都代表着HTML标签的属性集。不同的是后者接口增加了添加删除属性方法和属性集的视图。属性本身代表着对,一个代表属性名,另一个代表属性值。
与一样,属性值是字符串,属性名是ute对象。在提取链接地址时,就需要调用这些方法。在WEB文档所包含的链接信息通常都含有大量的相对URL地址,在进一步访问这些链接地址时则需要绝对地址,因此需要进行转换。
小结
本文介绍了实现网络蜘蛛所涉及到的详细算法,并以SUN公司的HTML解析器为例说明了HTML代码解析的整个过程。可以看到整个HTML代码的解析过程是庞大而复杂的。
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。