摘 要:本文从搜索引擎的分析系统着手,介绍了分析系统的工作流程,并从网页结构化、网页消重和PR值的角度出发探究优化的原因,提出针对性的网站优化手段。
关键词:搜索引擎;分析系统;网站优化
随着互联网技术的飞速发展,搜索引擎的作用越来越大,据统计大约80%的上网者是通过搜索引擎去查找自己所需要的信息。新兴的中小企业、传统的大企业都看到了电子商务的潜力,开始发展起他们在网上的业务,这也带动了电子商务网站的蓬勃发展。那么什么样的网站才是搜索引擎易于分析的网站呢?
一、什么是搜索引擎
搜索引擎是一种用来在计算机网络,特别是在万维网上检索各种文件的计算机程序。通过用户输入的查询关键词,搜索引擎推测用户的查询意图,然后快速的将各种重要、有价值的相关网页聚合成查询结果提供给用户选择。
二、搜索引擎的分析系统
搜索引擎按照其功能可划分为下载、分析、索引、查询4大系统。其中分析系统在搜索引擎的架构中主要承担了网页结构化、网页消重、文本分词及PageRank计算4项基本任务。如下图所示:
图1 分析系统结构图
分析系统的主要工作步骤如下:
1.读取Page库中下载系统通过爬虫下载到的原始网页。
2.通过建立标签树并从网页中抽取有价值的属性,完成从原始网页打包成一个网页对象的过程,即网页结构化的过程。
3.丢弃冗余的页面,仅保留一个相似或相同的网页传给分词模块,实现网页消重。
4.文本分词模块将网页的正文切分成以词汇为单位的集合。
5.最后将分析的结果发往索引模块,进行索引入库。
三、针对分析系统的网站优化
1.明确需要保留的信息
图2 网页结构化过程
网页是有HTML语言编写而成是一个半结构化的对象,要将其中有价值的信息,例如标题和正文保留下来,而将无用的信息丢弃,例如HTML标签,主要是通过网页结构化,如图2所示。那么哪些是有用的会被保留的信息呢?
(1)TITLE标签,是搜索引擎认为最重要的网页信息。在搜索引擎蜘蛛爬行的过程中,
(2)MEAT标签,是内嵌在网页中的特殊html标签,包含着有关于网页的一些隐藏信息。其作用是向搜索引擎解释网页是有关哪方面信息的。其中description标签的作用是用户在搜索引擎结果列表中链接到该网站的描述,这些描述的好坏直接影响到该网站的被访问量。keyword标签向搜索引擎提供了一组与页面有关的关键字或关键短语列表,正确的keyword标签对提高排名有效。
(3)H标签,该标签中的文字一般是作为正文标题,是对网页正文内容的描述。根据重要程度与标题相关的标签排序是这样的:TITLE >H1 >H2 >H3 >STRONG。特别要注意的是H1标签在网页中是仅次于TITLE标签的,且只能用一次,否则很容易被搜索引擎认为是优化过度或作弊。
(4)Anchor text(锚文本),通常是指超链接中可以被点击的文字,即中的内容。它是网站优化的重要组成部分,不仅仅向浏览者提供了链接目的地的入口,同时也向搜索引擎传达了目标页面的内容信息。
(5)Alt标签,用于描述设置了超链接的内容,如文字、图片等。特别是图片,由于搜索引擎不能抓取图片中的信息,如果将对图片的描述写到Alt标签中,则通过查询Alt标签描述的关键词就可以快速的搜索到相关方面的图片。
(6)正文:不管是锚文本,还是标题或者是正文标题都只是对网页的简短描述,而正文是一个网页的主体内容,它完整地表述了网页的主体内容也是不容忽视的。一般正文出现在
等HTML标签中。
2.重视网页的内容
网络中的网页数以亿计,对海量网页进行存储和处理是一项艰巨的任务,而且这些网页中又包含很多相同或者类似的页面。所以搜索引擎的分析系统在正式对网页进行分析之前首先要做的工作就是网页消重。
搜索引擎中把这4种页面看做是相同或相似的,两个网页的内容和格式上完全相同(full-layout duplicates)、两个网页的内容完全相同,但格式不同(full-content duplicates)、两个网页有部分重要的内容相同并且格式相同(partial-layout duplicates)、两个网页有部分重要的内容相同,但格式不同(partial-content duplicates)。
可见网页内容的独特性很重要,但是网络的魅力就是信息的共享性,好的内容会通过很多方式快速的传播推广出去,对于搜索引擎来说就引发了“相同或者相似的网页集合中保留哪一个,而消除哪些”的问题。
(1)从网页寿命的角度考虑,过滤掉那些网站质量不高的网页,保留大型网站的网页。
(2)从版权的角度考虑,一般会尊重原创,过滤转载或者复制的网页。所以对一些新的网站来说第一条不一定能够很好的满足,那么文章的原创性就显得尤为重要了。
3.PR值的优化
PR值,即PageRank,网页的级别技术。它是Google排名运算法则的一部分,用来标识网页的等级/重要性。级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎。
PR值的计算公式:PR(A)=(1-d)+d(PR(t1)/C(t1)+...+PR(tn)/C(tn)) ,其中PR(A)表示的是从一个外部链接站点t1上,依据Pagerank系统给网站所增加的PR值;PR(t1)表示该外部链接网站本身的PR值;C(t1)则表示该外部链接站点所拥有的外部链接数量;d为阻尼因数,即投票或链接到另外一个站点时所获得的实际PR分值,一般是0.85。
现在越来越多的电子商务企业注重外链站点的PR值,但公式可见PR值需要考虑一个网站的外部链接质量和数量。一般情况下,一个PR值大于等于6的外部链接站点,可显著提升该站点的PR值。但如果这个外部链接站点已经有100个其它的外部链接时,那能够得到的PR值就几乎为零了。同样,如果一个外部链接站点的PR值仅为2,但该站点却是它的唯一一个外部链接,那么获得的PR值要远远大于那个PR值为6,外部链接数为100的网站。
提高PR值的方法:
(1)设置友情链接,最好是PR值不低于4并与主题相关或互补的网站的友情链接,且很少导出链接。
(2)写一些高质量的软文并发布到大型网站。
(3)提供有价值的网站内容。
(4)花钱买流量,或者去QQ、群、论坛等人气旺的地方宣传。
四、总结
一个易于被搜索引擎收录到的网站需要考虑到很多方面,比如关键词的使用、网站地图、导航栏技术等等,文中仅仅是从分析系统角度提出需要重视的内容。网站优化是一个完整的系列优化过程,通过不断研究自身网站的特点和SEO策略,不断更新网站内容,增加网站流量,进而增强网站的市场竞争力。
参考文献:
[1] 欧朝辉. 解密SEO——搜索引擎优化与网站成功战略[M]. 北京:电子工业出版社,2008.
[2] 卢亮,张博文. 搜索引擎原理、实践与应用[M]. 北京:电子工业出版社,2007.
[3] 格拉夫,库辛. 搜索引擎优化[M]. 北京:清华大学出版社,2007.
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。