网球

根本无需悲观厌世PC行业如何再造春天奢侈品市场和消费

2020-02-15 08:12:34来源:励志吧0次阅读

根据站的访问日志看搜索引擎蜘蛛的到来

A5任务 SEO诊断选学淘宝客 站长团购 云主机

搜索引擎可以给站带来可观的来路,所以搜索引擎对一个站的收录相当重要,这不用再多说。但我们一般不太清楚搜索引擎蜘蛛何时第一次来到我们的站,也不太清楚第一次来过以后,蜘蛛随后再来的频率等等。

从搜索引擎前端,可以通过快照(cache)看到搜索引擎对站的某一个页的收录时间,但这对搜索引擎对全站的抓取情况不能很好地统计了解。没辙了 吗?固然也不是,通过站详细的访问日志,可以观察出一些端倪来。以Apache服务器的Access Log访问日志为例:

65.55.106.108 - - [21/Nov/2009:15:01:10 +0800] GET /t HTTP/1.1 200 150 ---日志1

65.55.106.108 - - [21/Nov/2009:15:02:09 +0800] GET / HTTP/1.1 200 4888 ---日志2

目前市面上几乎所有的搜索引擎都遵循一个游戏规则,那就是它们都会根据站根目录下设定的t来决定抓取那些页、不抓取那些页。那么 我们就可以在访问日志文件里面搜索 t 来大致肯定搜索引擎到来的时间。为何说大致呢,由于同一个搜索引擎可能会屡次读取 robots这个文件,那固然就是根据时间最早的一个日志记录看成该搜索引擎第一次到来的时间。从上面 日志1 可以看出,某搜索引擎在11月21号对库 吧进行了 第一次抓取。把IP地址65.55.106.108输入到IP138或其他查询IP的系统里面可以看出,该IP地址对 应的是 美国 Microsoft公司 ,那末我们可以看成微软的bing搜索引擎的蜘蛛的第一次到来。搜索引擎根据t的设定,知道了那些允许抓取, 那些不希望被抓取,那它就在这个站上开工了, 日志2 显示的是bing首先抓取了该址的主页(斜杠/意为主页)。

203.208.60.197 - - [17/Nov/2009:13:28:04 +0800] GET /icof/102104//ml HTTP/1.1 200 5813--日志3

203.208.60.194 - - [13/Nov/2009:09:02:46 +0800] GET /login/ HTTP/1.1 200 8191 --日志4

66.249.67.50 - - [13/Nov/2009:22:44:12 +0800] GET /icof/102104//ml HTTP/1.1 200 5731 --日志5

把IP 203.208.60.194和203.208.60.197输入到IP138等查询系统可以看出,这两个IP对应的都是 谷歌(中国)公司 。从这里我 们可以看出,谷歌(中国)把蜘蛛程序放在多台服务器上,有一个IP段都属于google中国的搜索引擎。另外有意思的是, 日志5 所对应的IP是 66.249.67.50,查询其归属,是 美国 加利福尼亚州山景市谷歌公司 。从 日志4 和 日志5 看出,在11月13号,谷歌中国和美国的蜘蛛同时来到了该站进行抓取。大公司的搜索引擎蜘蛛都 应该是这样吧,协同工作。

202.160.178.146 - - [17/Nov/2009:13:29:44 +0800] GET /catalogOfYongle/ml HTTP/1.0 200 45002 --日志6

把 日志6 里面对应的IP地址202.160.178.146 拿去查询,查询系统直接就很精确地告诉你结果为 雅虎中国 yahoo中国蜘蛛 ,说明雅虎中国搜索引擎的蜘蛛也对该站进行了抓取。

总的来说,站的访问日志记录了搜索引擎到来抓取的详细信息。多视察日志文件、多熟悉每一个搜索引擎所在的IP范围,就可以大致对各家搜索引擎对你的站的 收录有一个了解。最重要的是,内容为王,搜索引擎喜欢原创内容较多、更新较快的站,多进行远程内容的发布吧,搜索引擎蜘蛛会常常光顾你站的,只怕到时 候塞爆你的日志文件 :-)

本文由库吧站长田东山首发于库吧,版权所有:

小儿手足口病治疗
吃了很辣的东西拉肚子
跌打损伤用什么药最好
腰疼吃啥药止痛
骨质疏松吃什么药效果好
分享到: