有思俱乐部学习园地

Python 爬虫错误处理


scrapy不爬取带下划线网址的处理办法


   当爬取http://api.1473.cn/NewMedia/UAV/UAV_Installanduse.aspx此类带_下划线的网页时,scrapy报错:ValueError('Missing scheme in request url: %s' % self._url)  
   网上有人说下划线_不是标准网址,scrapy不收录,但没有提供解决方案。
   查询了一下,网上无解决方案,去stackoverflow中无意中发现这样一句话:yield Request(response.urljoin(url), callback=self.parse)
   response.urljoin(url)会自动拼凑网址,这解决了一个大问题,以前只收录了1230篇,改成这个函数后即解决了下划线问题,收录增加到2000条。
   网址如下:https://stackoverflow.com/questions/42026244/scrapy-valueerrormissing-scheme-in-request-url-s-self-url

工作人员

 
作者:楚王辉
信息录入:楚王辉