基于SEO的在线论文网站优化实证分析

一、前言
 
CNNIC历次《互联网调查报告》显示,搜索引擎在互联网中扮演的角色越来越重要,搜索引擎日益成为一般网站用户入口最重要来源,是整个互联网的流量分发器。

有关研究表明,一般性网站大约有50%-80%的流量来自搜索引擎。随着大量的学术论文逐渐网络化发表,搜索引擎在提升在线学术论文网站用户浏览和引用率中也发挥着重要作用。

搜索引擎优化( Search Engine Optimization,SEO)是通过研究各类搜索引擎如何抓取网页、构建索引以及确定某些搜索词的搜索结果排名规律,从而对网站网页进行相关的优化,提高网页的检索率及提升网页在搜索引擎上的排名,最终提升网站的最终用户浏览率的综合技术。SEO包含以下几层意思:第一是让搜索引擎对某个网站的整体评价尽量高,也就是网站的PR值(PageRank)尽量高;第二个含义是让搜索引擎收录某网站网页要尽量多;第三个含义是使网站网页尽可能在搜索词返回结果网页中进入前3名。有关研究表明,排序前3和排序4-10的网页点击率差别在100倍左右。因此网站网页要尽可能进入前3条;第四个含义是网站的网页要么覆盖少量热门高频搜索词,从而带来高搜索量,要么覆盖尽可能多的低频搜索词,从而达到总量最大;第五个含义是尽量让对自己网站持正面态度或中立态度的网页排前面,负面态度网页排后面,在前10条返回结果中内容呈现出最大可能的细节多样性。

因为搜索引擎排名一般由云计算机服务器根据超链分析排名算法自动生成,一般而言,用户是无法直接控制百度和Google 的排名,但是用户可以通过对自己网页的优化,从而间接的去影响上述五个方面,这就是SEO的精髓。

SEO告诉我们网站不仅是给人看的,同时也是给搜索引擎看的。只有搜索引擎认为好的网站网页,才能最终带来高流量,有了高流量,加之有一定的质量,才能提升论文网站所发表论文的引用率。

二、SEO的一般性规律

在SEO中涉及到网站和网页的四个相关因素:网站宏观特性、网页内容、网站外部链接和用户体验。

网站宏观特性主要包括网页的动态性和网站的独特性。

动态网页更新较为灵活,但是不便于搜索引擎检索。在空间允许的情况下,应尽量将整站转化为静态网页。网站的独特性也非常重要,当一个网站有大量的复制拷贝的网页,将极大的降低网站的评价。笔者的实验表明,搜索引擎收录某网站大量网页后,会启动相似性检测引擎,逐步将拷贝复制的网页剔除收录目录数据库。

对于每一个网页,内部因素主要是关键词密度。通常人们可能会误解,某个网页关于某个关键词的量越大,就越容易排在前面,实际上,关键词密度一般在4%-7%为宜。太多了,搜索引擎会认为该网页是作弊网页,而太少了,则认为相关度不够。

网站外部因素主要是链接的多少和重要与否,超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在搜索时,越受用户欢迎的内容排名越靠前。影响PageRank的三个因子分别是反向链接数、反向链接的页面的PageRank以及反向链接的页面中的正向链接数,来自重要网站的大量外部链接对提升网站的排名至关重要。而用户体验将在持续不断的排名过程中占据很大权重,即使某个链接排名第一,但由于相关性太差没有人点击,导致大部分人点击第二条,这样也会导致搜索引擎将第二条提升至第一条。

除此之外,大约还有约百种因素会考虑在排名因子中,比较重要的有:关键词在URL、header等网页元素中的使用、内部链接和外部链接中关键词使用、网页大小、网页新鲜感、链接新鲜感、更新频率、文本主题、网站规模和权威性、网站之历史。影响排名的反面因素主要有:关键词堆积、网站内容更新过频、过度使用JavaScript、图片集中的网站、过度优化、链接不妥当、重定向、多网站间的过度互联、Flash、Frame、透明文字、HTML错误等。

三、实证分析

本文使用的分析工具主要是笔者开发的ROST SEO分析工具以及相关网站。

选取以“论文”为搜索词返回结果排名前九的网站以及“中国科技论文在线”(返回结果排序未进入前100名)进行了数据统计和分析,这十个网站具有一般在线论文类网站的特性,具有一定代表性。我们从全球网站排名,网站流量,搜索引擎收录情况对这十个网站进行了数据收集(注:数据采集于各大搜索引擎,时间为2008-8-30) 1.九网站及“中国科技论文在线”SEO流量数据注:本文所写日均IP均为最严格数据,由于对所有网站标准统一,可以认为所有网站仍在同一比较标准) “中国科技论文在线”在论文类网站排名居中,但是流量和第一,第二名差距很大,说明凡在搜索引擎中排名靠前必能攫取超额流量,以这十个网站为一个整体,前三名网站占据了大约79.1%的流量份额,而“中国科技论文在线”大约占据了2.1%的流量份额。对前三名的网站研究表明排名靠前的关键就在于较为彻底的搜索引擎优化(SEO)。

由于“中国科技论文在线”以“论文”为搜索词在网页返回结果中排名未进入前100名,说明“中国科技论文在线”如能进行SEO优化,在流量上仍将有较大提升空间。搜索引擎的收录网页数量可以用来衡量一个网站在搜索引擎中的权重和信息的产生量,从收录网页看,“中国科技论文在线”百度共收录了42400个页面,在中国科技论文在线中,以“关键词”为全文搜索词,可以获得95523返回记录,说明网站网页数量至少有95523,整个网站的网页检索率为<44.3%,这与原创性很高的论文网站定位似有较大的出入。这一点也说明“中国科技论文在线”网站对搜索引擎很不友好,没有进行搜索引擎优化,导致检索率较低。

针对“中国科技论文在线”再次进行更细致的各搜索引擎收录网页数据采集,获得以下内容:2:“中国科技论文在线”各搜索引擎收录网页及PDF文档数量 当各搜索引擎收录情况差距过大的时候,我们可以断定该网站的页面存在着某一原因“不友好”地拒绝了某搜索引擎进行页面读取和检索。也就是说数据差距较大的网站可优化空间较大。从上表可以看出,百度收录的网页较Google为少,而搜狗竟然收录了33万网页,说明“中国科技论文在线”网页数量不少于33万个,对搜索引擎Google和百度而言,该网站的未收录网页数量还是太多了,Google有一个相似性检测引擎对于相似的网页经过检测后,会从网页数据库中删除,说明“中国科技论文在线”有部分网页和其他网站的网页存在一定的相似性。 再分析PDF的检索数量,我们可以看出,不管是百度还是Google收录的PDF数量都非常少,“中国科技论文在线”大量的论文都未进入到google和百度的文档搜索库中,这一点也有很大的优化空间。

针对“中国科技论文在线”的返回网页内容多样性及倾向性结果情况,我们以“中国科技论文在线”为关键词在Google和百度中手工分析以下内容: 在Google中前20条网页中,绝大部分都是重复性的“中国科技论文在线”网站介绍,很正面的新闻有“中国科技论文在线学报被美国《化学文摘》收录”以及“关于将《中国科技论文在线》增列为授予中国传媒大学硕士学位成果要求的学术刊物的通知”。而百度的返回网页前面20条基本均为重复性的中立介绍性网页,没有什么赞扬性正面新闻,反而在右侧列举一大堆“买卖论文”的网站广告。从上述分析结果看,“中国科技论文在线”在提升网站美誉度上仍有较大空间。

针对“中国科技论文在线”及各网站的SEO技术细节,再次手工采集数据,获得下文:3:八网站及“中国科技论文在线”SEO细节 从上述可知,“中国科技论文在线”在关键词优化、静态网页优化、网站地图方面均未采取任何优化措施,在反向链接方面占据较大优势,这也是GooglePR值为7的原因所在。

四、“中文科技论文在线”的优化对策

根据“中文科技论文在线”情况及SEO一般规律及表三的细节情况,我们可以初步使用以下策略以提升网站的搜索引擎友好性。

动态网站静态化。目前整个“中文科技论文在线”均为PHP设计的动态网站,为了获取更好的访问速度及更好的网页优化性,可以将网页转化为静态网页。

构建完善的网站地图指引系统,以便搜索引擎能够非常方便的检索所有网页,也可将全站地图的XML文档主动提交给搜索引擎,以便收录。

构建完善的引用标识系统,便于其他文献进行引用标注,不应只提供网页链接给用户引用,网页链接具有可变性,只有唯一稳定不变的引用标识,才能保证其他论文作者能够长期引用。

构建完善的文档相似性检测系统,将抄袭其他网页的文献从库中删除,从而提升整个网站的原创性。

五、结论

本文针对在线论文出版网站进行了实证的数据分析,梳理SEO的一般技术规律,经过对比系列的网站,得出以下结论:

“中文科技论文在线”仍有较大的SEO空间,未采取任何优化措施,通过动态网站静态化,构建完善的网站地图指引系统、引用标识系统、文档相似性检测系统等方法可有效提升该网站的搜索引擎排名,从而最终达到提升流量,增加引用率的目的。从本个案的情况也可看出,由国家和政府营运的学术性网站在SEO方面普遍存在意识薄弱、技术不到位的情况,今后笔者将继续开发数款SEO工具,以便对数字出版的其他类型网站及中外网站进行更细致研究。


搜索引擎优化(www.googleseo.net.cn)小组
文章来源:《数字出版在线》

  • 相关文章:

日历

最新评论及回复

最近发表

Powered By Z-Blog 1.8 Arwen Build 90619 Theme by toboku

Copyright 搜索引擎优化小组 Rights Reserved. 提供:网站营运_网站优化服务 [银泓电子商务营销导向机构] 电话:021-5169 5729