会漫游的网络蜘蛛(第1页)
会漫游的网络“蜘蛛”
&”
和“Webzip”
者是网络“蜘蛛(Spider)”
,或称“机器人(Robot)”
。
所谓“蜘蛛”
,是指能够在万维网上漫游,自动获取链接文档的程序,因其行为(在万维网上爬行)酷似蜘蛛而得名。
无论它们叫什么,其核心的目的都只有一个:获取那些存储在因特网上的信息。
我们熟知的Yahoo、EXcite和Sohu等搜索引擎都包含Spider。
各种Spider的工作原理基本相同。
设想一下您因查找某类信息而去访问万维网的情况吧。
您在浏览的地址栏键入某个网址,浏览器显示出网站的主页,主页上通常列出网站内不同类别网页的链接,您点击其中可能包含目标的链接,得到下一级网页,查看这个网页,继续点击,直到发现目标。
如果这个网站包含对其他网站的链接,您还可能链接到其他相关网站继续搜寻,直至找到目标为止。
“蜘蛛”
也要做同样的事情,不过它是自动进行的,而且可以同时运行多个线程,因而速度非常快(人工需要几小时的工作它只需几分钟甚至几秒种就完成了)。
还有一个重要的区别是:“蜘蛛”
通常不会像人一样去读完整的网页,它找到网页后通常只读完文件的头部,如果其中包含搜索的关键词则把网页的索引保存到分类信息数据库中,然后继续搜索。
用户只要检索这个数据库就可以得到所需的信息了。
请关闭浏览器阅读模式后查看本章节,否则将出现无法翻页或章节内容丢失等现象。