点击排行

您现在的位置：首页 > 技术文档 > Python网络爬虫

python3实例教程urllib模块制作网络爬虫

来源：中文源码网浏览：330 次日期：2024-04-22 11:32:18

python3使用urllib模块制作网络爬虫
urllib
urllib模块是python3的URL处理包
其中：
1、urllib.request主要是打开和阅读urls
个人平时主要用的1：
打开对应的URL：urllib.request.open(url)
用urllib.request.build_opener([handler, ...])，来伪装成对应的浏览器
import urllib
#要伪装成的浏览器(我这个是用的chrome)
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
url='http://hotels.ctrip.com/'
opener = urllib.request.build_opener()
#将要伪装成的浏览器添加到对应的http头部
opener.addheaders=[headers]
#读取相应的url
data = opener.open(url).read()
#将获得的html解码为utf-8
data=data.decode('utf-8')
print(data)
2、urllib.parse主要是用来解析url
主要方法：
urllib.parse.urlparse(urlstring)
功能：将对应的URL解析成六部分，并以元组的数据格式返回来。(在功能上和urlsplit()几乎一模一样)
import urllib
o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
print(o)
print(o.path)
print(o.scheme)
print(o.port)
print(o.geturl())
对应的结果：
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
2、构建一个新的url――urllib.parse.urljoin(base, url)
参数：base:基本的URL链接
url:另一个url
from urllib.parse import urljoin
a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html')
print(a)
结果：http://www.cwi.nl/%7Eguido/FAQ.html
这个函数在爬虫的时候应该方便多了，我之前用的是比较笨的方法直接字符串拼接
3、异常处理 urllib.error
用 try-except来捕捉异常
主要的错误方式就两种 URLError和HTTPError
因为HTTPError是URLError的子类，所以URLError应该写在HttpError后面,说白了就是找到儿子一定知道父亲，找到父亲，不一定知道儿子。
try:
data=urllib.request.urlopen(url)
print(data.read().decode('utf-8'))
except urllib.error.HTTPError as e:
print(e.code)
except urllib.error.URLError as e:
print(e.reason)
结果：[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连接尝试失败。
如果捕获到了HTTPError，则输出code，不会再处理URLError异常。如果发生的不是HTTPError，则会去捕获URLError异常，输出错误原因

上一篇：python3爬虫之设计签名小程序

下一篇：Python3实例教程的爬虫爬取数据并存入mysql数据库操作示例

点击排行

您现在的位置：首页 > 技术文档 > Python网络爬虫

python3实例教程urllib模块制作网络爬虫

相关内容