1. 爬虫概述
- 1.1 前言
- 1.2 规则

1. 爬虫概述

本章简要介绍爬虫的用途和规则。

1.1 前言

现代社会，互联网让信息获取变得简单，任何人拥有一台电脑，一根网线，上至天文地理，下至鸡毛蒜皮，无不可在互联网中查到。

有效信息对于人们来说就像空气一样不可或缺，各行各业都离不开信息的采集和加工处理，农业要抓取气象数据、农产品行情数据等信息实现精准农业，金融业需要抓取上市公司基本面和技术面作为参考。

个人更加需要各种各样的有效信息来做决策使用。每个人都可以用网络爬虫技术获得更好的生存策略，避免糟糕的未来，让自己生活的更加幸福。
比如，当我要买房的时候，我选定地区抓取大量房源，然后通过定制化的条件匹配来筛选我所需要的房源，爬虫每时每刻在工作，当出现我需要的房源时，发送微信或者短信提醒我，这时候我联系中介去看房，会大大提高我的效率，甚至能抢到一些低价房源。
再比如，我抓取了各地的招聘信息，按照地区、行业进行分析，对找工作的就业人员来说，将具有指导性意义。

本系列教程，从Java基本操作开始讲解，介绍爬虫原理，引领读者入门。然后通过讲解我自己编写的多个实战案例来帮助读者融会贯通。

1.2 规则

俗话说的好：爬虫玩的好，监狱进的早。

各位有志于数据采集事业的朋友，一定要注意遵守规则，规避风险。那么都有哪些需要遵守的规则或者说需要注意的事项呢？听我一一道来。

1.2.1 不要采集敏感信息

注意不要采集敏感信息，比如拥有保密级别的文件、商业数据等信息。

1.2.2 不要采集涉及公民隐私信息

比如公民身份证编号、照片、消费记录、医疗记录等类似信息。
本条具体内容可以参考个人信息保护标准与合规实践.pdf。

1.2.3 抓取网站数据时，遵守robots.txt协议

当你想爬取某一个提供公开服务的网站的数据时，请遵守robots.txt协议，不爬取robots.txt文件中声明该网站不想被爬虫访问的部分，参考robots.txt协议。

注意：如果你不能遵守以上规则，所造成的一切损失与后果自行承担，本文作者不负任何连带责任，望周知。

菜单

分享

Java网络爬虫教程第一章爬虫概述

1. 爬虫概述

1.1 前言

1.2 规则

1.2.1 不要采集敏感信息

1.2.2 不要采集涉及公民隐私信息

1.2.3 抓取网站数据时，遵守robots.txt协议

评论

Java网络爬虫教程第一章爬虫概述

魔兽世界3.3.5（巫妖王）服务器 AzerothCore 搭建指南（2025年攻略）

使用 Komga 打造私人漫画库

对象存储的最佳开源实现 - MinIO

魔兽世界3.3.5（巫妖王）服务器搭建指南

数据库变更、表的版本控制 - Liquibase教程

基于YAPI的API接口单元测试

使用 Dependency Check 做安全漏洞扫描

基于Knife4j编写接口文档

YApi私有化部署手册，官方文档排雷与注意事项

分享

Java网络爬虫教程 第一章 爬虫概述

1. 爬虫概述

1.1 前言

1.2 规则

1.2.1 不要采集敏感信息

1.2.2 不要采集涉及公民隐私信息

1.2.3 抓取网站数据时，遵守robots.txt协议

评论

Java网络爬虫教程第一章爬虫概述