selenium浅析
后续内容安排
- selenium
- 如果遇到了验证码处理情况(将验证码图片编程单词或者数据,调用其他人的接口实现)
- 如何使用代理(1-1.5)天
- 什么是线程,进程,协程(2天)
- 框架Scrapy(5天)
1. 爬虫的五个步骤
- 需求分析
- 通过需求分析寻找需要的URL
- 通过网站的URL获取网站返回信息(HTML,JSON)
- 定位信息的位置
- re
- xpath
- css selector
- 存储信息
其中分析网页的过程才是最长的,但是这个分析的过程在面试中,并不容易去考察你
selenium 在爬虫中的作用
- 他能够帮助我们解决掉JavaScript动态加载的问题
但是selenium的问题在于他慢,贼慢
面试题:如何加快selenium的速度
- 记加载的资源过多,所以才会慢,关闭各种资源的加载
线程进程
每一个程序的执行,都至少要包含一个进程
一个进程里面,至少要包含一个线程
那么一个线程里面至少要包含一个协程
今日内容
- 进程池
- 协程
- 代理相关网站
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Comment