说说搜索引擎是怎样抓取网站页面的?
作者:www.wangzhanbaojia.com 日期:2010/07/31
其实搜索引擎先要抓取到互联网上的网页,然后索引并处理,最后将排序后的结果提供给用户,这就是搜索引擎的抓取原理。今天力洋网络就先给大家阐述一下搜索引擎是如何来抓取网页的!
搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。
网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url, 所有解决这个问题的有效方法是使用两个数据表 分别为unvisited_table和visited_table。前者包含尚未访问的url,后者记录已访问的url。本文首发力洋网络的网站推广博客,如需转载请保留相关版权!
系统首先将要搜集的种子url放入unvisited_table,然后spider从其中获取要搜集网页的url,搜集过的网页url放入visited_table中,新解析出的并且不在visited_table中的url加入unvisited_table。
搜索引擎的自动信息搜集功能分两种:
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
以上就是力洋网络对搜索引擎抓取网页的基本认识,下一篇文章力洋网络将为大家分析搜索引擎是如何索引并处理网页的!
搜索引擎首先会派出一种被称作“蜘蛛”或者是“机器人”的软件,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。
网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索引擎蜘蛛爬取过程中就有可能多次得到该网页的url, 所有解决这个问题的有效方法是使用两个数据表 分别为unvisited_table和visited_table。前者包含尚未访问的url,后者记录已访问的url。本文首发力洋网络的网站推广博客,如需转载请保留相关版权!
系统首先将要搜集的种子url放入unvisited_table,然后spider从其中获取要搜集网页的url,搜集过的网页url放入visited_table中,新解析出的并且不在visited_table中的url加入unvisited_table。
搜索引擎的自动信息搜集功能分两种:
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定期向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
以上就是力洋网络对搜索引擎抓取网页的基本认识,下一篇文章力洋网络将为大家分析搜索引擎是如何索引并处理网页的!