Python爬虫中代理ip异常和超时怎么办

这篇文章主要介绍了Python爬虫中代理ip异常和超时怎么办,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

创新互联成立于2013年,是专业互联网技术服务公司,拥有项目网站制作、成都网站设计网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元召陵做网站,已为上家服务,为召陵各地企业和个人服务,联系电话:18980820575

一、反爬虫机制:这里就不详细的介绍了

相信大多数的爬虫工作者都比较了解,这里就不详细的介绍了

二、超时设置:selenium+chrome的超时设置

稳定网络不会像平常那样稳定,原因可能是代理IP在某个时期不能保持通常那样的稳定性,但也有可能是由于对方的原因,对方的服务器不稳定,还有自己的机器的网络也可能不稳定,如果没有设置好超时,程序也不好跑下去。

selenium+chrome的超时设置:

显示等待:等待某一条件发生,然后继续编码。

driver=webdriver.Firefox()

driver.get(“http://somedomain/url_that_delays_loading”)

try:

element=WebDriverWait(driver,10).until(#这里修改时间

EC.presence_of_element_located((By.ID,“myDynamicElement”))

)

finally:

driver.quit()

隐式等待:告诉WebDriver,当他们试图找到一个或多个元素(如果他们不能立即使用)时,他们会轮流询问DOM。默认设置为0。一旦设置,将为藏等待WebDriver对象实例的生命周期。

driver=webdriver.Firefox()

driver.implicitly_wait(10)#seconds

driver.get(“http://somedomain/url_that_delays_loading”)

myDynamicElement=driver.find_element_by_id(“myDynamicElement”)

三、异常处理:python通常使用try&except语句处理异常

在程序中经常发生一种情况,python通常使用try&except语句处理异常,而try&except语句的作用就是捕捉异常,当然还有更重要的用途,即可以忽略异常。由于爬虫中绝大多数的异常都不能被重新请求,所以,在发现异常时,修复它的任务队列实际上是一个最省力的方法。

四、自重启设置。

如果一个程序在某些情况下多次出错,或者运行时间足够长,其性能可能会下降,就像一台计算机一样,使用时间越长,恢复速度越慢,这是一个很好的方法。当然,这是治标不治本,但无疑是最省力的方法之一。当满足设定的重启条件时,程序自重启也是使程序持续运行的好方法。

如何解决Python爬虫代理ip异常和超时问题?编程人员在敲打代码的时候,一定会有一些错误,尤其是像Python爬虫这样的程序,并不能确定每个请求都保证了稳定的返回相同的结果,如加强了反爬虫机制、代理IP超时等,这类情况得到及时解决,才能保证爬虫工作良好的返回。

感谢你能够认真阅读完这篇文章,希望小编分享的“Python爬虫中代理ip异常和超时怎么办”这篇文章对大家有帮助,同时也希望大家多多支持创新互联,关注创新互联行业资讯频道,更多相关知识等着你来学习!


文章名称:Python爬虫中代理ip异常和超时怎么办
标题链接:http://csdahua.cn/article/pjpohs.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流