1. 爬虫概述

本章简要介绍爬虫的用途和规则。

1.1 前言

现代社会,互联网让信息获取变得简单,任何人拥有一台电脑,一根网线,上至天文地理,下至鸡毛蒜皮,无不可在互联网中查到。

有效信息对于人们来说就像空气一样不可或缺,各行各业都离不开信息的采集和加工处理,农业要抓取气象数据、农产品行情数据等信息实现精准农业,金融业需要抓取上市公司基本面和技术面作为参考。

个人更加需要各种各样的有效信息来做决策使用。每个人都可以用网络爬虫技术获得更好的生存策略,避免糟糕的未来,让自己生活的更加幸福。
比如,当我要买房的时候,我选定地区抓取大量房源,然后通过定制化的条件匹配来筛选我所需要的房源,爬虫每时每刻在工作,当出现我需要的房源时,发送微信或者短信提醒我,这时候我联系中介去看房,会大大提高我的效率,甚至能抢到一些低价房源。
再比如,我抓取了各地的招聘信息,按照地区、行业进行分析,对找工作的就业人员来说,将具有指导性意义。

本系列教程,从Java基本操作开始讲解,介绍爬虫原理,引领读者入门。然后通过讲解我自己编写的多个实战案例来帮助读者融会贯通。

1.2 规则

俗话说的好:爬虫玩的好,监狱进的早。

各位有志于数据采集事业的朋友,一定要注意遵守规则,规避风险。那么都有哪些需要遵守的规则或者说需要注意的事项呢?听我一一道来。

1.2.1 不要采集敏感信息

注意不要采集敏感信息,比如拥有保密级别的文件、商业数据等信息。

1.2.2 不要采集涉及公民隐私信息

比如公民身份证编号、照片、消费记录、医疗记录等类似信息。
本条具体内容可以参考个人信息保护标准与合规实践.pdf

1.2.3 抓取网站数据时,遵守robots.txt协议

当你想爬取某一个提供公开服务的网站的数据时,请遵守robots.txt协议,不爬取robots.txt文件中声明该网站不想被爬虫访问的部分,参考robots.txt协议

注意:如果你不能遵守以上规则,所造成的一切损失与后果自行承担,本文作者不负任何连带责任,望周知。