欢迎来到小白的数据梦工厂,很高兴你对爬虫感兴趣,并且想要学习爬虫,或者想从网页上采集一些数据。
先自我介绍一下,我是八爪鱼采集器的创始人刘宝强,八爪鱼是全球领先的网页数据采集平台,为全球70万企业和个人每天采集上亿条数据。恭喜你在众多的爬虫入门方式中选择了八爪鱼,这是一个非常好的起点,你将从一开始就站在巨人的肩膀上!
这是快速入门爬虫的第一篇,本系列文章将带领你从0基础开始,一步一步,从采集一个简单的网页,到复杂的列表,多页数据,Ajax页面,瀑布流等等,直到应对常见封IP,验证码等防采集措施,包括采集淘宝,京东,微信,大众点评等热门网站。由浅入深,循序渐进的深入网页数据采集领域,相信认真学完本系列,你也会成为采集大神,有能力把互联网变成自己的数据库(这一段提到了Ajax等专业数据,你可能不懂,但有个好消息:到目前为止你不需要了解这些技术概念)。
学习本篇内容,你需要先掌握以下知识:
会上网,知道什么是网页,什么是网址,什么是浏览器。
会使用windowsXP,windows7,,windows10等操作系统,会使用Excel。
没有了,如果1、2点有不懂的,我墙裂建议你百度一下。
学习本篇内容,你将会掌握以下内容:
什么是爬虫,什么是网页采集器,八爪鱼采集器是什么。
使用八爪鱼采集器采集一个新闻网页,获取一条新闻数据。
好了,能读到这里我相信上面的要求对你而言太容易达到了。因为有了百度、知乎这些知识平台,我相信查询一个名词很容易,除非你是伸手党。但是往往这些名词的解释过于专业,同时又提到更多专业术语,容易让人困惑,所以我这里给出的解释不一定那么专业严谨,但是却通俗易懂。
什么是爬虫:我们讲的不是真正的动物或者小虫子,而是一些自动化的程序或者软件,会自动浏览网页,并从网页上获取内容。百度就是一个典型的爬虫,百度从各个网站上自动浏览网页,然后把网页内容存起来,给我们提供了一个搜索的工具,我们输入关键词,百度就会搜索爬虫保存的网页内容,罗列相关网站当做搜索结果。
什么是网页采集器:我这里讲的网页采集器专门指会根据用户的指令或者设置,从指定的网页上获取用户指定内容的工具软件。严格来讲,我这里说的网页采集器也是爬虫的一种。
八爪鱼采集器:八爪鱼采集器就是一种网页采集器,用户可以设置从哪个网站爬取数据,爬取那些数据,爬取什么范围的数据,什么时候去爬取数据,爬取的数据如何保存等等。
换句话说,八爪鱼是一个网页采集器,网页采集器是一种专门的爬虫工具。参考下图:
接下来,让我们从一个最简答的任务开始,采集一篇新闻(一个网页),上手操作一下如何采集数据。
开始采集之前,你需要下载并安装八爪鱼采集器,八爪鱼采集器目前仅支持windows操作系统,如果你正在使用Mac电脑或者Linux操作系统,请更换一台电脑,或者在Mac、Linux上安装windows虚拟机,然后在windows虚拟机上安装八爪鱼采集器。你可以百度如何安装虚拟机,我稍后会专门写一篇文章讲解如何通过虚拟机来安装八爪鱼采集器。
1.下载八爪鱼采集器:免费下载-八爪鱼采集器,网址:。注意:截止本文发稿时,八爪鱼采集器最新版本为7.1.6。八爪鱼官网同时提供了6.4.5版本和7.1.6版本的下载链接(注意下载按钮下面的小字链接)。
2.安装八爪鱼采集器:下载后是一个zip文件,解压缩,然后运行里面的,这个安装文件。
使用注册的用户名和密码登录后,将默认打开八爪鱼采集器主界面:
关于八爪鱼采集器界面各个功能讲解,我会单独写文章介绍,这里我们模拟采集一条新闻,常见的新闻网页一般包括新闻标题,发布时间,正文等等,八爪鱼专门为大家提供了一些网页用来练习,例如:,这个网页非常简单,甚至有些简陋,不过都没关系,假设这就是一个新闻的网页,我们的目标就是采集这条新闻的标题,时间和正文,并且把采集到的数据保存到一个Excel文件中。
在开始采集前,我想先给大家介绍一下八爪鱼采集器的工作原理,注意,这个非常重要!理解了原理,所有采集都是一层窗户纸,一捅就破,如果不理解,你将事倍功半,只知道怎么做,不知道为什么这么做。
八爪鱼采集的核心原理是:模拟人浏览网页,复制数据的行为,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。
根据这个原理,假设你不使用采集工具,如何获取上面这个新闻网页的数据,并把数据保存到excel文件中呢,我想你会这么做:
1.复制上面的网址,打开网页浏览器(IE,火狐,Chrome、safari等等),把网址粘贴到浏览器地址栏,打开这个网页。
2.选中标题部分的文字,按鼠标右键或者Ctrl+C复制选中文字,新建一个Excel文件,打开,并且粘贴到第一个单元格,然后复制时间,粘贴到第二个单元格,然后复制正文,粘贴到第三个单元格。为了让别人知道这些数据列都是什么,你可能会给三列分别加上列名,如:标题,时间,正文。结果如图:
这个我相信是个人都会,那么,如何让八爪鱼采集这个页面呢?同样也是几乎一样的上面的两个步骤。
这个很容易理解吧,这也正是八爪鱼设计最为精妙的地方,不像其他采集工具,需要你去理解计算机内部如何工作,八爪鱼就像是一个机器人,我们要做的就是训练这个机器人,教他按照我们设定的步骤一步一步像人一样去采集数据,唯一的区别就是,八爪鱼是程序,他会不知疲倦的,全自动的工作。
小结:
首先恭喜你!你已经入门了,从完全不懂爬虫,到自己成功采集了一篇新闻数据,保存到了Excel中,这是个非常大的进步!除非你不看教程已经可以做到这个结果,否则不要因为这个教程太简单而不去实践操作,我们后面会学习更多,但是都离不开这里学习的基础,而且采集其他任何网站,采集更多数据,其实都是一样的过程,只是采集的设置过程可能更复杂而已。如果你想跑,请先学会走。
继续学习下一篇:快速入门爬虫2-完整采集一个网站的数据