| |
 |
我们先来看看SPIDER的工作,SPIDER作为一台服务器从互联网某个信息节点开始抓取网页信息回传到数据库。互联网的一开始网站以综合信息为主,所以SPIDER工作相对简单,整个网站推广搜索引擎的排序机制也相对简单。但是随着互联网的发展互联网的信息被不断的细分,SPIDER的工作也被变得复杂起来。搜索引擎为了能够快速的展示搜索结果页面必须对数据进行同样的信息细分,SPIDER从一开始的单一抓取又增加了一个信息分类的功能,但是当信息分类上升到千万这个级别的时候整个信息抓取再分类的过程就变得冗长且缓慢。最根本的解决方法就是在SPIDER抓取前就为服务器定义分类,即特定的SPIDER服务器只抓取某几类的信息内容,这样分类就变得简单且快速。SPIDER又是如何在抓取前就定义自己的抓取路径呢?我们可以建立这样的一个工作模型。
这个流程很容易理解,对我们最为重要,也是最需要了解的一个环节那就是路径筛选。SPIDER是如何进行筛选的,用一个模型建立的网站推广逻辑来考虑这个问题就是,当一个模型没法进行试验的话,首先确定模型中两个以上不辩自明的公理,再由这两个公理进行逻辑推导。我们就先要确定的公理第一:保证整体运转的效率。第二:保证抓取内容与分类的匹配。
这样通过逻辑推导我们可以设想出这样一个工作原理:泛抓取SPIDER抓取的路径通过分析(分析过程类似于路由器寻找节点间的最短路径)。分析要得出的网站推广将是一条由链接组成的抓取路径,路径中所抓取到的页面信息都是属于同一分类的信息,然后计算路径长度得出最优路径,最后将最优路径筛选的出后提交到定抓取的SPIDER服务器,接着定抓取的SPIDER服务器就能按照这条路径进行快速的抓取和分类了,并且再下次泛抓取服务器更新最优路径前都是按照这个路径进行抓取。
那么在了解到这个筛选机制后我们能够做出怎样的外链策略呢?
1.网站推广友情链接,外链所在的页面和自己网站内容相关
2.外链所在的页面导出的链接指向的页面绝大多数也需要和自己网站相关
3.避免和拥有大量外链的网站推广进行交换(就好比一个房间如果出口只有一个,那你能很快的判断出如何出去,但是一个房间有上百个出口,你了解完这些出口分别通向哪里就需要很长的时间,极大的降低SPIDER效率)
4.避免和大量有与其网站不相关的外链网站进行链接
5.不要让你的网站一个导出的链接都没有,实在没有外链也宁可链接到一个权重高的相关网站也比不做导出链接更受SPIDER喜爱
|
|
|
|