爬虫踩坑

本文最后更新于:2 年前

本篇博客记录自己做某汽车平台二手车报价爬取的一些小坑。(菜鸟的第一次爬虫经验)

request.get可能因为网络问题返回空值或是错误值。

基本可以这样处理:

1
2
3
4
while 1:
抓!
if 抓取为空或者错误值:
sleep + continue

频繁访问可能会返回要验证的页面。

简单的做法就是sleep。

复杂点可以找一些免费的高匿级别的代理IP,然后每次爬取的时候轮询即可。

request返回时并没有返回动态加载的页面。

直接F12在网络中找对应的返回动态加载数据的url,对该url请求内容。


本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!