注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

网络中的眼镜蛇

 
 
 

日志

 
 

SOGOU的蜘蛛有JS文件抓取功能  

2007-04-10 11:31:49|  分类: 发现 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

  近日,通过分析网站记录发现,来自sogou+js+robot的记录很多,远远超过了其Sogou+web+spider的抓取量。

  sogou+js+robot主要是抓取页面中<script src=""></script>欠入的地址,然而用SOGOU搜索时发现,sogou+js+robot抓取的内容并未被检索到。Sogou+web+spider主要抓取的是页面,这个最为常见,与其它搜索抓取几乎相同。

  SOGOU抓取JS欠入的内容,但并未作为检索,眼镜蛇首先想到了SOGOU开始利用JS来检测作弊网站。目前众多作弊网站都会在页面中欠入一个跳转JS文件,页面是让搜索抓取的,因为众多搜索不抓取JS,导致了利用程序很难识别页面是否跳转,是否作弊。

  另一种猜想是,目前CMS或者论坛等程序提供的多是JS调用,SOGOU利用其蜘蛛sogou+js+robot来抓取JS内容,然后整合到页面中提供给用户搜索,但测试了几家网站并未发现SOGOU将JS的内容提供检索服务。

  SOGOU的流量和影响力虽然还很落后,但从其输入法,蜘蛛抓取等多方面都在不断创新,有努力加上创新离成功会越来越近。

  评论这张
 
阅读(683)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017