慕课-南宁理工学院

首页 - 课程列表 - 课程详情

网络爬虫

课程类型：选修课

发布时间：2023-02-20 11:37:36

主讲教师：张耸

课程来源：咸阳职业技术学院

建议学分：0.00分

课程编码：xtzx3001

初识爬虫

1.什么是爬虫（3分钟）

2.爬虫产生的背景（5分钟）

3.爬虫的用途（3分钟）

4.通用爬虫和聚焦爬虫（4分钟）

5.累积爬虫、增量爬虫（3分钟）

爬虫的实现原理和技术

1.爬虫的实现原理（8分钟）

2.爬虫爬取网页端详细流程（3分钟）

3.通用爬虫相关网站文件（8分钟）

4.防爬虫对应策略（6分钟）

5.选择python做爬虫的原因（5分钟）

6.使用八爪鱼工具爬取第一个网页（12分钟）

网页请求原理

1.浏览网页过程（6分钟）

2.HTTP网络请求原理（9分钟）

3.HTTP抓包工具Fiddler简介（5分钟）

4.HTTP抓包工具Fiddler过程（5分钟）

爬取网页数据

1.urllib库简述（5分钟）

3.数据传输（4分钟）

4.请求伪装（4分钟）

5.代理服务器（5分钟）

6.常见网络异常超时设置（5分钟）

7.更人性化的request （7分钟）

8.请求与响应（4分钟）

数据解析

1.了解网页数据和结构（3分钟）

2.数据解析技术简介（5分钟）

5.正则表达式（4分钟）

6.Xpath （5分钟）

7.1xml （6分钟）

8.BeautifulSoup （5分钟）

9.json （7分钟）

存储过程与触发器

1.多线程爬虫流程分析（4分钟）

2.Queue（列队）模块简介（6分钟）

3.Queue类简介（6分钟）

4.协程爬虫的流程分析（4分钟）

爬取动态内容

1.动态网页介绍（7分钟）

图像识别与文字处理

1.OCR技术概述（6分钟）

2.Tesseract引擎的下载和安装（4分钟）

3.pytesseract和PIL库概述（8分钟）

4.处理规范格式的文字（5分钟）

5.处理验证码（7分钟）

数据存储

1.数据存储简介（4分钟）

2.MongoDB数据库简介（7分钟）

京ICP备20031688号　|　

京公网安备 11011502004263 　 |　

教APP备1102393号

友情链接

常见问题

关于我们

联系方式

南宁理工学院——在线教学平台
地址 :广西桂林雁山区雁山镇雁山街317号
教务处电话：0773-8998791