欢乐游域

快速入门爬虫1-0基础采集入门知识

欢迎来到小白的数据梦工厂，很高兴你对爬虫感兴趣，并且想要学习爬虫，或者想从网页上采集一些数据。

先自我介绍一下，我是八爪鱼采集器的创始人刘宝强，八爪鱼是全球领先的网页数据采集平台，为全球70万企业和个人每天采集上亿条数据。恭喜你在众多的爬虫入门方式中选择了八爪鱼，这是一个非常好的起点，你将从一开始就站在巨人的肩膀上！

这是快速入门爬虫的第一篇，本系列文章将带领你从0基础开始，一步一步，从采集一个简单的网页，到复杂的列表，多页数据，Ajax页面，瀑布流等等，直到应对常见封IP，验证码等防采集措施，包括采集淘宝，京东，微信，大众点评等热门网站。由浅入深，循序渐进的深入网页数据采集领域，相信认真学完本系列，你也会成为采集大神，有能力把互联网变成自己的数据库（这一段提到了Ajax等专业数据，你可能不懂，但有个好消息：到目前为止你不需要了解这些技术概念）。

学习本篇内容，你需要先掌握以下知识：

会上网，知道什么是网页，什么是网址，什么是浏览器。

会使用windowsXP，windows7，，windows10等操作系统，会使用Excel。

没有了，如果1、2点有不懂的，我墙裂建议你百度一下。

学习本篇内容，你将会掌握以下内容：

什么是爬虫，什么是网页采集器，八爪鱼采集器是什么。

使用八爪鱼采集器采集一个新闻网页，获取一条新闻数据。

好了，能读到这里我相信上面的要求对你而言太容易达到了。因为有了百度、知乎这些知识平台，我相信查询一个名词很容易，除非你是伸手党。但是往往这些名词的解释过于专业，同时又提到更多专业术语，容易让人困惑，所以我这里给出的解释不一定那么专业严谨，但是却通俗易懂。

什么是爬虫：我们讲的不是真正的动物或者小虫子，而是一些自动化的程序或者软件，会自动浏览网页，并从网页上获取内容。百度就是一个典型的爬虫，百度从各个网站上自动浏览网页，然后把网页内容存起来，给我们提供了一个搜索的工具，我们输入关键词，百度就会搜索爬虫保存的网页内容，罗列相关网站当做搜索结果。

什么是网页采集器：我这里讲的网页采集器专门指会根据用户的指令或者设置，从指定的网页上获取用户指定内容的工具软件。严格来讲，我这里说的网页采集器也是爬虫的一种。

八爪鱼采集器：八爪鱼采集器就是一种网页采集器，用户可以设置从哪个网站爬取数据，爬取那些数据，爬取什么范围的数据，什么时候去爬取数据，爬取的数据如何保存等等。

换句话说，八爪鱼是一个网页采集器，网页采集器是一种专门的爬虫工具。参考下图：

接下来，让我们从一个最简答的任务开始，采集一篇新闻（一个网页），上手操作一下如何采集数据。

开始采集之前，你需要下载并安装八爪鱼采集器，八爪鱼采集器目前仅支持windows操作系统，如果你正在使用Mac电脑或者Linux操作系统，请更换一台电脑，或者在Mac、Linux上安装windows虚拟机，然后在windows虚拟机上安装八爪鱼采集器。你可以百度如何安装虚拟机，我稍后会专门写一篇文章讲解如何通过虚拟机来安装八爪鱼采集器。

1.下载八爪鱼采集器：免费下载-八爪鱼采集器，网址：。注意：截止本文发稿时，八爪鱼采集器最新版本为7.1.6。八爪鱼官网同时提供了6.4.5版本和7.1.6版本的下载链接（注意下载按钮下面的小字链接）。

2.安装八爪鱼采集器：下载后是一个zip文件，解压缩，然后运行里面的，这个安装文件。

使用注册的用户名和密码登录后，将默认打开八爪鱼采集器主界面：

关于八爪鱼采集器界面各个功能讲解，我会单独写文章介绍，这里我们模拟采集一条新闻，常见的新闻网页一般包括新闻标题，发布时间，正文等等，八爪鱼专门为大家提供了一些网页用来练习，例如：，这个网页非常简单，甚至有些简陋，不过都没关系，假设这就是一个新闻的网页，我们的目标就是采集这条新闻的标题，时间和正文，并且把采集到的数据保存到一个Excel文件中。

在开始采集前，我想先给大家介绍一下八爪鱼采集器的工作原理，注意，这个非常重要！理解了原理，所有采集都是一层窗户纸，一捅就破，如果不理解，你将事倍功半，只知道怎么做，不知道为什么这么做。

八爪鱼采集的核心原理是：模拟人浏览网页，复制数据的行为，通过记录和模拟人的一系列上网行为，代替人眼浏览网页，代替人手工复制网页数据，从而实现自动化从网页采集数据，然后通过不断重复一系列设定的动作流程，实现全自动采集大量数据。

根据这个原理，假设你不使用采集工具，如何获取上面这个新闻网页的数据，并把数据保存到excel文件中呢，我想你会这么做：
1.复制上面的网址，打开网页浏览器（IE，火狐，Chrome、safari等等），把网址粘贴到浏览器地址栏，打开这个网页。

2.选中标题部分的文字，按鼠标右键或者Ctrl+C复制选中文字，新建一个Excel文件，打开，并且粘贴到第一个单元格，然后复制时间，粘贴到第二个单元格，然后复制正文，粘贴到第三个单元格。为了让别人知道这些数据列都是什么，你可能会给三列分别加上列名，如：标题，时间，正文。结果如图：

这个我相信是个人都会，那么，如何让八爪鱼采集这个页面呢？同样也是几乎一样的上面的两个步骤。

这个很容易理解吧，这也正是八爪鱼设计最为精妙的地方，不像其他采集工具，需要你去理解计算机内部如何工作，八爪鱼就像是一个机器人，我们要做的就是训练这个机器人，教他按照我们设定的步骤一步一步像人一样去采集数据，唯一的区别就是，八爪鱼是程序，他会不知疲倦的，全自动的工作。

小结：

首先恭喜你！你已经入门了，从完全不懂爬虫，到自己成功采集了一篇新闻数据，保存到了Excel中，这是个非常大的进步！除非你不看教程已经可以做到这个结果，否则不要因为这个教程太简单而不去实践操作，我们后面会学习更多，但是都离不开这里学习的基础，而且采集其他任何网站，采集更多数据，其实都是一样的过程，只是采集的设置过程可能更复杂而已。如果你想跑，请先学会走。

继续学习下一篇：快速入门爬虫2-完整采集一个网站的数据

阅读全文

发布于 2025-07-21

喜欢 166

171

上一篇：堪比黑魂的游戏上线，玩家好评却仅有63%，都是因为画质太糊？

下一篇：动作游戏《生于黑暗》演示泄露变嗜血怪物向人类复仇

推荐阅读