今天来分析一个采集站。www.myexception.cn
先来看一下它的爱站流量
这两天有所下降。显示的百度来量只有2480~3564。
28号以前是10000+
不过这个数值只是一个参考而已。有个朋友的站,查爱站只有100~200的百度来量。但实际IP数接近20000。
首页:http://www.myexception.cn/
栏目页:http://www.myexception.cn/web-develop/
内容页:http://www.myexception.cn/web-develop/1742163.html
先来看首页,首页很简洁。除了一张广告图片。没有任何图片。
全首页皆列表。指向栏目页及某些热门的内页。
备案地方指向工信部的链接加了nofollow ,防止导出权重。
<a href="http://www.miitbeian.gov.cn/" rel="nofollow">粤ICP备11033556号-1</a>
网站标题:软件开发,程序错误,exception - 我的异常网
网站描述:Exception是软件开发中经常遇到的程序错误,我的异常网提供权威的软件开发程序错误解决方案,欢迎您的到来。
网站关键词:Exception,异常,Java Exception
网站描述里把标题里出现的词全都给写上去了。
网页底部加了标题的锚文本。
<a target="_blank" href="http://www.myexception.cn/">软件开发</a>
<a target="_blank" href="http://www.myexception.cn/">程序错误</a>
<a target="_blank" href="http://www.myexception.cn/">异常</a>
<a target="_blank" href="http://www.myexception.cn/">Exception</a>
这个是全站通用的。
栏目页:
标题:web开发 - 我的异常网(栏目标题 - 网站名称 )
关键词:web开发(栏目标题)
描述:我的异常网之Web开发栏目提供权威的web开发相关的BUG、异常、错误问题解决方案,欢迎您的到来。(我的异常网之[栏目名称]栏目提供权威的[栏目名称]相关的BUG、异常、错误问题解决方案,欢迎您的到来。)
每个栏目页的描述都一样。除了把关键部分替换为栏目名称。
上部有个面包屑导航。
也就是“当前位置: 我的异常网 » Web开发 » 列表”这个。
底部和首页一样。加了标题的锚文本。
右侧看到的这些图片列表。在源码里没有体现。也就是它是一个增加用户体验的东西。对搜索引擎没有任何作用。
但是话又说回来。没有这些图片列表。搜索引擎在爬取这个页面的时候。就少爬取一些代码。可增加爬取速度,减少爬取难度。
栏目页分为了两部分。上部分是该栏目下的所有文章列表。20个分为一页。每个列表项显示标题,还有文章的前100多字。
下半部分。是所有栏目页的列表。也就是首页的上半部分。
这个对于此网站来说,相当于它的导航了。因为栏目太多,只能以此方式来显示。
而只有在首页它才放在上面。在栏目页和内容页都是放在下面的。
内容页:
标题:iframe嵌入jsp,该如何解决 - Web开发(文章标题 - 栏目名称)
关键词:iframe嵌入,jsp,该如何解决 (对文章标题进行分词。然后将结果用作关键词)
描述:(截取文章内容前N字作描述内容。但是似乎他没做处理的。从描述里的引号就能看出。)
顶部搜索及一些栏目列表就不说了。
和栏目页一样,有个面包屑导航。
然后是文章的标题及内容。标题放在 <h1></h1> 标签内。
下面的“相关解决方案”是一些相关文章的列表。
再下方,和栏目页一样。放的是此栏目内热门或者最新的一些文章链接。
最底部。就不用说了。栏目的列表及完全一样的底部信息。
右侧的图片列表,依旧是使用JS之类的引用的。在源码里没有显示。
以上是对这个网站的客观展现,下面谈谈自己的主观看法。不代表一定正确,有错误还请大神们不吝赐教。
使用了全站静态。
这里简要说一下三种方式的优缺点。
动态网页:占少量硬盘,耗主机资源一般,显示速度中等。
伪静态:占少量硬盘,耗主机资源高,显示速度略慢。
静态网页:占大量硬盘,耗主机资源低,显示速度略快。
这个只是在软件硬件完全一样的情况下才能这么比较的。否则一个用国外空间的静态页,打开速度怎么也比不上国内的伪静态页。
不过对于这个站来说,要说是静态页。其实也还有一些疑惑的地方。因为内容太多,如果生成一页内容就要生成一次栏目页的话。似乎对机器负担挺大呀。
莫非是伪静态?
页面简洁:
除了内容,就是链接。基本上没有其它多余的东西出现。比如图片之类的(除了文章内含图片的)
像右侧的图片文章列表,都使用JS加载。这样让页面不至于太难看。而又不影响搜索引擎的抓取。
导航位置的摆放
在上一篇文章我有提到过我有做失败的采集站。(详见:采集站要怎么做?)
当时那个站的首页,就是一般的CMS这样的。上面是导航,然后下面是各个栏目的最新文章列表。
栏目页,内容页的导航都是在上面。而当时我的栏目达到30多个。
所以一查看网页源码。前面一大部分都是导航。
他这个的首页和导航都比较好。
首页就是顶部一个导航,然后下面有少量的文章列表。
然后栏目页和内容页的导航都在下面部分。
搜索引擎来了,先看到上面的数据(栏目列表,和文章内容)。然后才是下面的导航。能让它尽快得到高质量的东西。
总的来说,给我的感觉就是速度。
以最快的速度展现相对高质量的内容给搜索引引擎。
让搜索引擎能花最少的时间抓取完整个网页。
无语博客,期待与您交流。