Python爬虫: urllib库详解

作者：

Park Lam

在

Python

在Python爬虫领域，数据采集是一项基础且重要的工作。作为Python标准库之一，urllib提供了一系列用于处理URL的模块，是构建网络爬虫的基石。本文将深入介绍urllib库的使用方法，帮助初学者快速掌握这个强大的网络请求工具。

urllib库简介

urllib是Python标准库中用于获取URL的包，它提供了一系列用于操作URL的模块。作为Python内置库，无需额外安装即可使用，这使得它成为开发网络爬虫的首选工具之一。

urllib的主要模块

urllib.request: 用于打开和读取URL
urllib.error: 包含urllib.request抛出的异常
urllib.parse: 用于解析URL
urllib.robotparser: 用于解析robots.txt文件

urllib的优势与局限

优势：

作为标准库，无需额外安装
功能完整，支持多种HTTP请求方法
可以处理各种URL操作
支持代理服务器设置
可以处理cookie

局限：

API相对复杂
不支持连接池
不支持keep-alive
某些功能需要手动处理（如重定向）

urllib使用详解

1. 基础GET请求

让我们从最简单的GET请求开始：

from urllib import request

# 发送GET请求
response = request.urlopen('https://api.github.com/users/python')
# 读取响应内容
html = response.read()
# 打印响应内容
print(html.decode('utf-8'))

# 获取响应状态码
print(f'Status: {response.status}')
# 获取响应头信息
print(f'Headers: {response.getheaders()}')

2. 自定义请求头

很多网站会验证请求头，我们需要自定义User-Agent等信息：

from urllib import request

# 创建请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}

# 创建请求对象
req = request.Request('https://www.python.org', headers=headers)
# 发送请求
response = request.urlopen(req)
# 读取内容
html = response.read().decode('utf-8')
print(html[:200])  # 打印前200个字符

3. POST请求发送

当需要提交表单或发送数据时，使用POST请求：

from urllib import request, parse

# 准备POST数据
data = {
    'username': 'test_user',
    'password': 'test_password'
}
# 将数据转换为bytes
data = parse.urlencode(data).encode('utf-8')

# 创建请求对象
req = request.Request('http://httpbin.org/post', data=data, method='POST')
# 发送请求
response = request.urlopen(req)
# 读取响应
print(response.read().decode('utf-8'))

4. 处理异常

网络请求可能会遇到各种异常，需要适当处理：

from urllib import request, error

try:
    response = request.urlopen('http://python.org/invalid')
except error.HTTPError as e:
    print(f'HTTP Error: {e.code}')
except error.URLError as e:
    print(f'URL Error: {e.reason}')
else:
    print('Request successful!')

5. URL解析与构建

urllib.parse提供了URL处理的工具：

from urllib import parse

# 解析URL
url = 'https://www.python.org/path?key1=value1&key2=value2'
parsed = parse.urlparse(url)
print(f'Scheme: {parsed.scheme}')
print(f'Netloc: {parsed.netloc}')
print(f'Path: {parsed.path}')
print(f'Params: {parsed.params}')
print(f'Query: {parsed.query}')

# 构建URL
params = {'key1': 'value1', 'key2': 'value2'}
base_url = 'https://www.python.org/path'
query_string = parse.urlencode(params)
full_url = f'{base_url}?{query_string}'
print(f'Constructed URL: {full_url}')

6. 使用代理服务器

在某些情况下需要使用代理服务器：

from urllib import request

# 设置代理
proxy_handler = request.ProxyHandler({
    'http': 'http://127.0.0.1:8080',
    'https': 'https://127.0.0.1:8080'
})

# 创建opener
opener = request.build_opener(proxy_handler)
# 安装opener
request.install_opener(opener)

# 发送请求
response = request.urlopen('http://example.com')

实际应用案例：获取Python官方文档

下面是一个完整的示例，展示如何使用urllib获取Python官方文档并保存：

from urllib import request, error
import os
import time

def download_python_docs(url, save_path):
    """
    下载Python文档并保存到本地
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    try:
        # 创建请求对象
        req = request.Request(url, headers=headers)
        print(f'正在下载: {url}')
        
        # 发送请求
        response = request.urlopen(req)
        
        # 获取文件名
        filename = os.path.join(save_path, 'python_docs.html')
        
        # 保存文件
        with open(filename, 'wb') as f:
            f.write(response.read())
            
        print(f'下载完成，文件保存在: {filename}')
        
    except error.HTTPError as e:
        print(f'HTTP Error: {e.code}')
    except error.URLError as e:
        print(f'URL Error: {e.reason}')
    except Exception as e:
        print(f'发生错误: {str(e)}')

# 使用示例
if __name__ == '__main__':
    url = 'https://docs.python.org/3/'
    save_path = '.'
    download_python_docs(url, save_path)

注意事项与建议

遵守网站的robots.txt规范
控制请求频率，避免对服务器造成压力
妥善处理异常情况
注意设置适当的超时时间
必要时使用代理IP轮换
适当的请求头设置，模拟真实浏览器行为

总结

urllib作为Python标准库中的网络请求工具，虽然API相对复杂，但功能完整，足以满足基本的网络爬虫需求。对于初学者来说，掌握urllib的使用不仅能够帮助理解HTTP请求的基本原理，还能为后续学习更高级的请求库（如requests）打下良好基础。

在使用urllib进行网络爬虫时，请务必注意：

遵守网站的使用条款和robots.txt规范
合理控制爬取频率
做好异常处理
注意数据安全和隐私保护

urllib虽然不是最便捷的HTTP客户端库，但作为标准库的一部分，它的稳定性和可靠性是值得信赖的。对于简单的爬虫任务，urllib完全能够胜任。在掌握urllib的基础上，你将能更好地理解和使用其他第三方HTTP客户端库。

关注我们，每天推荐一款实用的Python爬虫工具

每日分享网络爬虫

Python爬虫: urllib库详解

urllib库简介

urllib的主要模块

urllib的优势与局限

urllib使用详解

1. 基础GET请求

2. 自定义请求头

3. POST请求发送

4. 处理异常

5. URL解析与构建

6. 使用代理服务器

实际应用案例：获取Python官方文档

注意事项与建议

相关资源

总结

更多文章

Python实用工具：python-bigquery 教程

Python使用工具：PyMySQL库使用教程

Python使用工具：peewee库使用教程

Python实用工具：Elasticsearch库详解