博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy常用设置和注意点!!!!
阅读量:5228 次
发布时间:2019-06-14

本文共 366 字,大约阅读时间需要 1 分钟。

setting里的设置

HTTPERROR_ALLOWED_CODES = [405]   //这一条是忽略405错误退出进程,有可能跳到405页面,在parse注意判断,重新请求页面

爬虫里的设置

response.url   //这一条在parse里是返回上一个请求链接

meta = {'dont_redirect': True}      //这个是限定页面不能跳转
dont_filter = True   //这个是不过滤页面重新爬取,这个在页面取不到数据里,要重新爬取时很有用

中间件里的设置

process_exception   //这个方法里最好不要返回request 这样会停止进程的,最好在这里换IP然后什么也不要返回即可

 

转载于:https://www.cnblogs.com/firebirdweb/p/11287386.html

你可能感兴趣的文章
【codevs1033】 蚯蚓的游戏问题
查看>>
【程序执行原理】
查看>>
第二次项目冲刺(Beta阶段)5.24
查看>>
python的多行注释
查看>>
连接Oracle需要jar包和javadoc文档的下载
查看>>
UVA 10976 - Fractions Again?!
查看>>
Dreamweaver cc新版本css单行显示
查看>>
【android】安卓的权限提示及版本相关
查看>>
JavaScript可否多线程? 深入理解JavaScript定时机制
查看>>
IOS基础学习
查看>>
PHP 导出 Excell
查看>>
Java基础教程——网络基础知识
查看>>
自己到底要的是什么
查看>>
this 指向
查看>>
Kruskal基础最小生成树
查看>>
BZOJ.4819.[SDOI2017]新生舞会(01分数规划 费用流SPFA)
查看>>
ubuntu 14.04 安装搜狗拼音输入法
查看>>
浅谈算法和数据结构: 一 栈和队列
查看>>
[WebMatrix] 如何将SQL Compact 4.0 移转至SQL Server 2008 Express
查看>>
Java内部类详解
查看>>