Python 爬虫制作

Python 爬虫制作二上篇

Python Scrapy 入门指南（上）

Python 爬虫制作二下篇

python 简介

Python 数据库操作

Python SEO专题

Python 爬虫错误处理

scrapy不爬取带下划线网址的处理办法


   当爬取http://api.1473.cn/NewMedia/UAV/UAV_Installanduse.aspx此类带_下划线的网页时,scrapy报错:ValueError('Missing scheme in request url: %s' % self._url)  
   网上有人说下划线_不是标准网址,scrapy不收录，但没有提供解决方案。
   查询了一下，网上无解决方案,去stackoverflow中无意中发现这样一句话：yield Request(response.urljoin(url), callback=self.parse)
   response.urljoin(url)会自动拼凑网址，这解决了一个大问题，以前只收录了1230篇，改成这个函数后即解决了下划线问题，收录增加到2000条。
   网址如下：https://stackoverflow.com/questions/42026244/scrapy-valueerrormissing-scheme-in-request-url-s-self-url

工作人员

 
作者：楚王辉
信息录入:楚王辉

有思俱乐部学习园地

Python 爬虫制作

Python 爬虫制作二上篇

Python 爬虫制作二下篇

Python 数据库操作

Python SEO专题

Python 爬虫错误处理

scrapy不爬取带下划线网址的处理办法

工作人员