《Python3 网络爬虫开发实战》第二章

第二章 爬虫基础

爬虫基本原理

获取网页(urllib, requests) -> 提取信息(正则表达式, BeautifulSoup, pyquery, lxml) -> 保存数据 -> 自动化程序

只要是基于HTTP和HTTPS协议的,爬虫就可以爬取。对于需要另外加载的情况,我们只得到了html空壳,就需要分析后台ajax接口或者用Selenium,spalsh库来实现JavaScript渲染

会话和Cookies

Table of Contents