后续内容安排

  1. selenium
  2. 如果遇到了验证码处理情况(将验证码图片编程单词或者数据,调用其他人的接口实现)
  3. 如何使用代理(1-1.5)天
  4. 什么是线程,进程,协程(2天)
  5. 框架Scrapy(5天)

1. 爬虫的五个步骤

  • 需求分析
  • 通过需求分析寻找需要的URL
  • 通过网站的URL获取网站返回信息(HTML,JSON)
  • 定位信息的位置
    • re
    • xpath
    • css selector
  • 存储信息

其中分析网页的过程才是最长的,但是这个分析的过程在面试中,并不容易去考察你

selenium 在爬虫中的作用

  1. 他能够帮助我们解决掉JavaScript动态加载的问题
    但是selenium的问题在于他慢,贼慢

面试题:如何加快selenium的速度

  1. 记加载的资源过多,所以才会慢,关闭各种资源的加载

线程进程

每一个程序的执行,都至少要包含一个进程
一个进程里面,至少要包含一个线程
那么一个线程里面至少要包含一个协程

今日内容

  1. 进程池
  2. 协程
  3. 代理相关网站