2 月 2026 - 第3页共3页 - Park Lam的每日分享

Python实用工具库：funcy 极简函数式编程，让代码更优雅高效

一、funcy 库概述

funcy 是一款专注于函数式编程的 Python 实用工具库，核心作用是简化数据处理、集合操作、函数组合等常见编程场景，通过封装大量高阶函数，让代码更简洁、易读、可复用。其底层基于 Python 原生函数与迭代器实现，无额外依赖，轻量高效。优点是 API 简洁直观、兼容 Python2/3、大幅减少冗余代码；缺点是过度使用可能降低新手可读性。该库基于 BSD 许可证开源，可自由商用与修改。

二、funcy 库安装方法

funcy 不依赖第三方库，安装流程极为简单，通过 pip 工具即可一键完成。

2.1 基础安装

打开命令行工具（CMD、Terminal、PowerShell 均可），直接执行以下安装命令：

pip install funcy

2.2 验证安装

安装完成后，可通过简单代码验证是否安装成功，无报错则说明安装正常：

# 验证funcy安装
import funcy
# 打印库版本，确认安装完成
print(funcy.__version__)

执行后输出版本号，代表 funcy 已成功引入环境，可正常使用所有功能。

三、funcy 核心功能与代码实例

funcy 的核心价值在于简化迭代、数据处理、函数操作，覆盖列表、字典、迭代器、函数组合等高频场景，以下从常用功能展开，搭配可直接运行的代码实例讲解。

3.1 数据过滤与筛选：filter 系列函数

原生 Python 过滤数据需要写 for 循环或 filter() 配合 lambda，funcy 提供更简洁的封装，代码可读性大幅提升。

3.1.1 基础过滤：where 按条件筛选字典列表

处理字典列表时，where() 可直接按键值筛选，无需编写复杂判断：

from funcy import where

# 定义字典列表数据
user_list = [
    {"name": "张三", "age": 22, "gender": "男"},
    {"name": "李四", "age": 18, "gender": "女"},
    {"name": "王五", "age": 25, "gender": "男"},
    {"name": "赵六", "age": 20, "gender": "女"}
]

# 筛选gender为男的用户
male_users = where(user_list, gender="男")
print("男性用户：", male_users)

代码说明：where() 第一个参数是待筛选列表，后续键值对为筛选条件，自动匹配字典中对应键的值，返回符合条件的新列表，无需循环与判断。

3.1.2 反向过滤：remove 排除指定数据

remove() 与过滤逻辑相反，用于排除符合条件的元素，适合需要剔除无效数据的场景：

from funcy import remove

# 定义数字列表
num_list = [1, 2, 3, 4, 5, 6, 7, 8]

# 排除偶数，保留奇数
odd_nums = remove(lambda x: x % 2 == 0, num_list)
print("排除偶数后的列表：", odd_nums)

代码说明：remove() 第一个参数为判断函数，第二个为待处理序列，返回不符合条件的元素，代码比 for 循环更精简。

3.2 数据拆分与组合：split、concat 系列

数据处理中常需要拆分列表、拼接序列，funcy 提供一行式处理函数。

3.2.1 条件拆分：split_by 按规则拆分列表

split_by() 可根据指定条件，将序列拆分为符合条件和不符合条件两部分：

from funcy import split_by

# 定义混合数据
mix_data = [12, 5, 28, 3, 45, 9, 20]

# 按是否大于10拆分数据
greater, smaller = split_by(lambda x: x > 10, mix_data)
print("大于10的数据：", greater)
print("小于等于10的数据：", smaller)

代码说明：函数返回两个列表，第一个满足条件，第二个不满足，无需手动创建空列表追加数据。

3.2.2 多序列拼接：concat 扁平化拼接

concat() 可拼接多个序列，且自动扁平化嵌套结构，比原生 + 更灵活：

from funcy import concat

# 定义多个独立列表
list1 = [1, 2, 3]
list2 = [4, 5]
list3 = [6, 7, 8, 9]

# 拼接所有列表
combined = concat(list1, list2, list3)
# 转换为列表查看结果
print("拼接后的数据：", list(combined))

代码说明：concat() 支持传入任意数量序列，返回迭代器，内存占用更低，适合处理大数据量。

3.3 字典操作：键值快速处理

字典是 Python 最常用数据结构之一，funcy 简化字典取值、筛选、合并等操作。

3.3.1 字典筛选：select_keys、reject_keys

select_keys 保留指定键，reject_keys 剔除指定键，快速精简字典：

from funcy import select_keys, reject_keys

# 定义完整信息字典
student_info = {"name": "小明", "age": 16, "score": 90, "class": "高一2班", "address": "北京"}

# 只保留name、age、score键
useful_info = select_keys(student_info, ["name", "age", "score"])
# 剔除address键
no_address = reject_keys(student_info, ["address"])

print("精简后字典：", useful_info)
print("剔除地址后字典：", no_address)

代码说明：处理接口返回、数据库查询的冗余字典时，可快速保留有效字段，减少代码量。

3.3.2 字典合并：merge 多字典合并

merge() 可合并多个字典，后续字典键值覆盖前面，比 update() 更简洁：

from funcy import merge

# 定义三个字典
default_config = {"host": "localhost", "port": 8080}
user_config = {"port": 9090, "timeout": 30}
extra_config = {"debug": True}

# 合并所有字典
final_config = merge(default_config, user_config, extra_config)
print("最终配置：", final_config)

代码说明：无需多次调用 update()，一行完成合并，适合配置项、参数合并场景。

3.4 函数组合与增强：compose、partial

funcy 支持函数式编程核心特性，可组合函数、固定参数，提升代码复用性。

3.4.1 函数组合：compose 多函数链式调用

compose() 可将多个函数组合为一个函数，执行顺序从右到左：

from funcy import compose

# 定义基础函数
def add_two(x):
    return x + 2

def multiply_three(x):
    return x * 3

def square(x):
    return x ** 2

# 组合函数：先平方，再乘3，再加2
combined_func = compose(add_two, multiply_three, square)
# 传入数字2执行
result = combined_func(2)
print("组合函数执行结果：", result)

代码说明：组合后函数等价于 add_two(multiply_three(square(2)))，代码更简洁，适合数据处理流水线。

3.4.2 固定参数：partial 预设函数参数

partial() 可固定函数部分参数，生成新函数，减少重复传参：

from funcy import partial

# 定义基础乘法函数
def multiply(x, y):
    return x * y

# 固定第一个参数为5，生成新函数
multiply_five = partial(multiply, 5)
# 调用新函数，只需传第二个参数
print("5*8 =", multiply_five(8))
print("5*12 =", multiply_five(12))

代码说明：适合频繁调用、部分参数固定的函数，如固定系数计算、固定配置调用。

3.5 迭代器与序列操作：take、drop、chunk

处理长序列、迭代器时，funcy 可高效截取、跳过、分块数据，避免内存溢出。

3.5.1 数据截取：take 取前N个元素

take() 快速获取序列前 N 个元素，支持迭代器：

from funcy import take

# 定义长列表
long_list = list(range(1, 20))

# 取前5个元素
first_five = take(5, long_list)
print("前5个元素：", list(first_five))

代码说明：原生 Python 需要切片 [:5]，take() 兼容迭代器，适用范围更广。

3.5.2 数据分块：chunk 按大小拆分列表

chunk() 将列表按指定大小分块，适合分页、批量处理数据：

from funcy import chunk

# 定义数据列表
data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 每3个元素分一块
chunked_data = chunk(3, data)
print("分块后数据：", list(chunked_data))

代码说明：批量处理数据库数据、接口请求时，可快速分批次操作，无需手动计算索引。

四、funcy 实际业务案例演示

4.1 案例一：学生成绩数据处理

模拟学校成绩数据，使用 funcy 完成筛选、计算、格式化全流程，对比原生代码更简洁。

from funcy import where, select_keys, mapcat, compose

# 原始学生成绩数据
students = [
    {"name": "小王", "score": 85, "subject": "数学", "class": "一班"},
    {"name": "小张", "score": 92, "subject": "数学", "class": "二班"},
    {"name": "小李", "score": 76, "subject": "数学", "class": "一班"},
    {"name": "小赵", "score": 88, "subject": "数学", "class": "二班"},
    {"name": "小陈", "score": 65, "subject": "数学", "class": "一班"}
]

# 1. 筛选一班学生
class1_students = where(students, class_="一班")
# 2. 只保留name、score字段
simple_info = [select_keys(s, ["name", "score"]) for s in class1_students]
# 3. 筛选80分以上学生
excellent = [s for s in simple_info if s["score"] >= 80]
# 4. 提取姓名
names = [s["name"] for s in excellent]

print("一班80分以上学生姓名：", names)

业务价值：快速处理结构化数据，适用于数据分析、报表生成场景，代码比纯原生写法减少 30% 以上。

4.2 案例二：函数流水线处理数据

结合函数组合，实现数据清洗→转换→计算流水线，适合自动化脚本、数据预处理。

from funcy import compose, remove, partial

# 定义数据处理函数
def remove_negative(data):
    return remove(lambda x: x < 0, data)

def double_data(data):
    return [x * 2 for x in data]

def sum_data(data):
    return sum(data)

# 组合处理流水线
data_pipeline = compose(sum_data, double_data, remove_negative)
# 原始混合数据
raw_data = [3, -1, 5, -2, 7, 4]
# 执行流水线
final_result = data_pipeline(raw_data)

print("数据处理最终结果：", final_result)

业务价值：函数可复用、可插拔，便于维护复杂数据处理逻辑，适合量化交易、自动化数据清洗。

4.3 案例三：配置项快速合并与处理

后端开发中常需要合并默认配置、用户配置、环境配置，funcy 一行完成。

from funcy import merge, select_keys

# 三层配置
base_conf = {"env": "prod", "log_level": "info"}
user_conf = {"log_level": "debug", "max_conn": 100}
env_conf = {"port": 8000, "timeout": 60}

# 合并所有配置
total_conf = merge(base_conf, user_conf, env_conf)
# 提取运行时核心配置
core_conf = select_keys(total_conf, ["env", "port", "log_level"])

print("核心运行配置：", core_conf)

业务价值：适用于 Web 开发、服务启动配置，简化多来源配置整合逻辑。

Python 重试神器 tenacity 详解：让不稳定代码自动重试更优雅

一、tenacity 库概述

tenacity 是 Python 中一款轻量且强大的重试装饰器库，核心用于为函数、方法添加自动重试逻辑，解决网络请求、接口调用、IO 操作等不稳定场景的执行失败问题。

其原理是通过装饰器无侵入式包裹目标代码，捕获指定异常后，按配置的等待策略、重试次数、退避算法重新执行函数，直到调用成功或达到终止条件。该库使用 Apache 2.0 开源协议，优点是语法简洁、策略丰富、无侵入、支持异步，缺点是仅专注重试逻辑，不提供故障熔断、降级能力。

二、tenacity 安装方法

tenacity 支持 Python 3.6 及以上版本，安装方式简单，直接使用 pip 命令即可完成安装：

pip install tenacity

若需要使用异步重试相关功能，无需额外安装依赖，tenacity 原生支持 asyncio 异步环境。

安装完成后，在 Python 脚本中直接导入即可使用，基础导入语句如下：

# 基础重试装饰器
from tenacity import retry
# 常用重试条件：指定异常类型重试
from tenacity import retry_if_exception_type
# 重试停止条件：限制重试次数
from tenacity import stop_after_attempt
# 重试等待条件：固定间隔等待
from tenacity import wait_fixed

三、tenacity 基础使用方式

3.1 最简重试示例（无任何配置）

tenacity 最基础的用法是直接给函数添加 @retry 装饰器，不配置任何参数，此时默认行为是：只要函数抛出任意异常，就无限重试，直到函数执行成功。

示例代码：

from tenacity import retry

# 计数器，记录函数执行次数
count = 0

@retry
def unstable_func():
    global count
    count += 1
    print(f"函数第 {count} 次执行")
    # 主动抛出异常，模拟执行失败
    raise Exception("执行失败，触发重试")

if __name__ == "__main__":
    try:
        unstable_func()
    except Exception as e:
        print(f"最终执行失败：{e}")

代码说明：

定义一个不稳定函数 unstable_func，每次执行都会抛出异常；
添加 @retry 装饰器后，函数会无限次重试执行；
因为函数始终抛出异常，所以会一直循环执行，直到手动终止程序。

这种无配置方式适合临时调试，实际开发中必须限制重试次数，避免无限循环占用资源。

3.2 限制重试次数

通过 stop_after_attempt(n) 可以指定最多重试 n 次，注意：总执行次数 = 1 次初始执行 + n 次重试。

示例代码：

from tenacity import retry, stop_after_attempt

count = 0

# 最多重试 3 次，总执行 4 次
@retry(stop=stop_after_attempt(3))
def unstable_func():
    global count
    count += 1
    print(f"函数第 {count} 次执行")
    raise Exception("接口请求超时")

if __name__ == "__main__":
    try:
        unstable_func()
    except Exception as e:
        print(f"重试 3 次后仍失败：{e}")

代码说明：

stop=stop_after_attempt(3) 表示最多重试 3 次；
函数会执行 1 次初始调用 + 3 次重试，共 4 次；
4 次执行都失败后，不再重试，直接抛出原始异常。

3.3 设置重试等待时间

实际场景中，重试不能无间隔执行，否则会给服务器造成巨大压力，tenacity 提供多种等待策略，最常用的是固定等待时间 wait_fixed(秒数)。

示例代码：

from tenacity import retry, stop_after_attempt, wait_fixed
import time

count = 0

# 重试 3 次，每次重试前等待 2 秒
@retry(
    stop=stop_after_attempt(3),
    wait=wait_fixed(2)
)
def request_api():
    global count
    count += 1
    current_time = time.strftime("%H:%M:%S")
    print(f"【{current_time}】第 {count} 次请求接口")
    raise ConnectionError("网络连接失败")

if __name__ == "__main__":
    try:
        request_api()
    except ConnectionError as e:
        print(f"最终请求失败：{e}")

代码说明：

wait=wait_fixed(2) 表示每次重试前等待 2 秒；
执行日志会清晰看到每次请求间隔 2 秒，避免高频请求；
适合网络波动、接口限流等需要短暂等待的场景。

3.4 仅针对指定异常重试

很多场景下，不是所有异常都需要重试，比如参数错误、权限不足等异常，重试也不会成功，此时可以通过 retry_if_exception_type 指定只捕获特定异常。

示例代码：

from tenacity import retry, stop_after_attempt, wait_fixed, retry_if_exception_type

count = 0

# 仅捕获 ConnectionError 重试，其他异常直接抛出
@retry(
    stop=stop_after_attempt(3),
    wait=wait_fixed(1),
    retry=retry_if_exception_type(ConnectionError)
)
def request_data():
    global count
    count += 1
    print(f"第 {count} 次请求数据")
    # 模拟网络异常（会重试）
    raise ConnectionError("网络断开")
    # 若抛出 ValueError（不会重试）
    # raise ValueError("参数错误")

if __name__ == "__main__":
    request_data()

代码说明：

retry=retry_if_exception_type(ConnectionError) 限定只有网络连接异常才重试；
如果函数抛出非指定异常（如 ValueError、TypeError），装饰器不会触发重试；
精准控制重试逻辑，避免无效重试。

3.5 指数退避重试（高级等待策略）

针对第三方接口、云服务等场景，推荐使用指数退避算法，即等待时间随重试次数指数增长，避免集中请求，wait_exponential 是 tenacity 内置的指数退避策略。

示例代码：

from tenacity import retry, stop_after_attempt, wait_exponential
import time

count = 0

# 指数退避：初始等待 1 秒，最大等待 10 秒
@retry(
    stop=stop_after_attempt(5),
    wait=wait_exponential(multiplier=1, min=1, max=10)
)
def upload_file():
    global count
    count += 1
    current_time = time.strftime("%H:%M:%S")
    print(f"【{current_time}】第 {count} 次上传文件")
    raise TimeoutError("上传超时")

if __name__ == "__main__":
    upload_file()

代码说明：

multiplier=1 表示基础倍数，min=1 最小等待 1 秒，max=10 最大等待 10 秒；
等待时间依次为：1s → 2s → 4s → 8s → 10s（达到最大值后不再增长）；
适合调用付费接口、公共 API 等需要友好访问的场景。

3.6 重试前后执行自定义逻辑

tenacity 支持在每次重试前、重试后、最终失败时执行自定义函数，方便打印日志、记录状态、发送告警。

通过 before、after、stop 回调函数实现：

from tenacity import retry, stop_after_attempt, wait_fixed, before_log, after_log
import logging

# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

count = 0

@retry(
    stop=stop_after_attempt(3),
    wait=wait_fixed(1),
    # 重试前打印日志
    before=before_log(logger, logging.INFO),
    # 重试后打印日志
    after=after_log(logger, logging.INFO)
)
def download_data():
    global count
    count += 1
    print(f"第 {count} 次下载数据")
    raise Exception("下载失败")

if __name__ == "__main__":
    download_data()

代码说明：

before_log 在每次重试执行函数前打印日志；
after_log 在每次重试执行函数后打印日志；
可以自定义普通函数替换日志函数，实现发送钉钉/微信告警、写入数据库等操作。

3.7 异步函数重试

tenacity 原生支持 Python asyncio 异步函数，用法和同步函数完全一致，只需给异步函数添加装饰器即可。

示例代码：

import asyncio
from tenacity import retry, stop_after_attempt, wait_fixed

count = 0

# 异步函数重试配置
@retry(
    stop=stop_after_attempt(3),
    wait=wait_fixed(1)
)
async def async_request():
    global count
    count += 1
    print(f"第 {count} 次异步请求")
    raise Exception("异步请求失败")

async def main():
    await async_request()

if __name__ == "__main__":
    asyncio.run(main())

代码说明：

异步函数直接添加 @retry 装饰器，无需修改其他逻辑；
等待、重试次数、异常过滤等配置和同步函数通用；
适合异步爬虫、异步接口、异步 IO 等场景。

四、实际开发综合案例

4.1 案例场景

模拟爬虫请求第三方接口：网络不稳定、接口偶尔超时，需要实现：

最多重试 5 次；
指数退避等待，避免高频请求；
仅捕获网络异常、超时异常重试；
每次重试打印日志；
最终失败返回默认值。

4.2 完整代码实现

from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
import time
import requests

# 自定义重试异常类型：网络错误、超时错误
RETRY_EXCEPTIONS = (requests.exceptions.ConnectionError, requests.exceptions.Timeout)

def log_retry(retry_state):
    """自定义重试日志函数"""
    print(f"【重试】第 {retry_state.attempt_number} 次失败，等待后重试")

@retry(
    # 最多重试 5 次
    stop=stop_after_attempt(5),
    # 指数退避：1s, 2s, 4s, 8s, 10s
    wait=wait_exponential(multiplier=1, min=1, max=10),
    # 仅针对指定网络异常重试
    retry=retry_if_exception_type(RETRY_EXCEPTIONS),
    # 重试前执行日志函数
    before_sleep=log_retry
)
def crawl_api(url: str) -> dict:
    """
    爬取第三方接口数据
    :param url: 接口地址
    :return: 接口返回数据
    """
    print(f"\n开始请求接口：{url}")
    response = requests.get(url, timeout=3)
    response.raise_for_status()  # 非200状态码抛出异常
    return response.json()

if __name__ == "__main__":
    api_url = "https://httpstat.us/503"  # 模拟服务不可用接口
    try:
        data = crawl_api(api_url)
        print("请求成功：", data)
    except Exception as e:
        print(f"\n重试 5 次后最终失败，返回默认数据")
        # 最终失败返回默认值，保证程序不崩溃
        default_data = {"code": -1, "msg": "接口请求失败", "data": []}
        print("默认数据：", default_data)

代码说明：

封装通用爬虫函数，对接不稳定第三方接口；
组合多种 tenacity 策略，兼顾稳定性与友好性；
最终失败捕获异常，返回默认数据，保证主程序正常运行；
可直接用于生产环境的爬虫、接口调用、数据同步等场景。

4.3 案例扩展：文件读取重试

模拟读取本地文件时，文件被占用、读取失败的场景，自动重试读取：

from tenacity import retry, stop_after_attempt, wait_fixed
import os

@retry(
    stop=stop_after_attempt(3),
    wait=wait_fixed(1)
)
def read_file(file_path: str) -> str:
    """读取本地文件，失败自动重试"""
    if not os.path.exists(file_path):
        raise FileNotFoundError("文件不存在")
    with open(file_path, "r", encoding="utf-8") as f:
        return f.read()

if __name__ == "__main__":
    try:
        content = read_file("data.txt")
        print("文件内容：", content)
    except Exception as e:
        print("文件读取失败：", e)

该示例适用于本地文件读写、日志读取、配置文件加载等 IO 场景。

Python实用工具库boltons：让日常开发更高效的增强型工具集

一、boltons库概述

在Python日常开发过程中，开发者经常会遇到标准库功能不够便捷、重复编写工具代码、复杂逻辑实现繁琐等问题，而第三方库又存在功能过于单一、学习成本高等痛点，boltons就是为解决这类问题而生的增强型实用工具库。它并非对Python标准库的替代，而是在标准库基础上做功能扩展、语法简化、逻辑增强，覆盖字符串处理、数据结构、文件操作、迭代器、异常处理、调试优化等几乎所有开发场景，核心原理是通过封装高频使用的复杂逻辑，提供简洁易用的API，降低开发者的编码成本。

该库采用BSD 3-Clause License开源协议，允许商业使用、修改与分发，使用限制极少。其优点十分突出：功能全面、轻量无依赖、兼容Python2/3、API设计贴近原生、文档完善，可直接替代大量自定义工具函数；缺点是功能模块较多，新手难以快速掌握全部用法，部分功能与标准库存在重叠，需要根据场景选择使用。整体而言，boltons是Python开发者必备的效率提升工具库，无论是小型脚本还是大型项目，都能显著减少冗余代码，提升开发速度与代码可读性。

二、boltons库安装方法

boltons作为纯Python编写的轻量库，无任何第三方依赖，安装过程极其简单，支持pip、源码安装等多种方式，兼容Windows、macOS、Linux等所有操作系统，以及Python2.7、Python3.5及以上所有主流版本，不会对现有项目环境造成冲突。

2.1 pip安装（推荐）

打开命令行工具（CMD、Terminal、PowerShell均可），直接执行以下pip命令即可完成安装：

pip install boltons

若系统中存在多个Python版本，建议使用pip3指定Python3环境安装：

pip3 install boltons

2.2 源码安装

若需要使用最新开发版功能，可通过GitHub源码编译安装：

git clone https://github.com/mahmoud/boltons.git
cd boltons
python setup.py install

安装完成后，在Python交互环境中执行import boltons，若无报错则说明安装成功，可正常使用库中所有功能。

三、boltons核心功能模块与代码实例

boltons的功能按模块划分，每个模块对应一类开发需求，无需复杂配置，直接导入对应子模块即可使用，以下是最常用、最实用的模块及详细代码演示。

3.1 iterutils：迭代器与可迭代对象增强模块

Python中的列表、元组、字典、生成器等都属于可迭代对象，标准库对可迭代对象的处理功能有限，iterutils模块提供了分块、展平、去重、分组、切片、过滤等数十种增强功能，解决复杂迭代操作问题。

3.1.1 列表分块chunked

处理大批量数据时，经常需要将长列表按固定长度分割为小列表，标准库需手动编写循环逻辑，iterutils直接提供chunked函数：

from boltons.iterutils import chunked

# 原始长列表
data_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# 按每3个元素分块
chunked_data = list(chunked(data_list, 3))
print("分块后结果：", chunked_data)

代码说明：导入chunked函数，传入待分块列表与块长度，直接返回分块后的迭代器，转换为列表即可查看结果，无需编写循环与边界判断，一行代码完成分块操作。

3.1.2 多层嵌套列表展平flatten

开发中经常遇到多层嵌套的列表（如接口返回数据、爬虫解析数据），标准库展平需要递归实现，flatten函数可直接展平任意层级嵌套结构：

from boltons.iterutils import flatten

# 多层嵌套列表
nested_list = [1, [2, [3, 4], 5], 6, [[7, 8], 9]]
# 展平为一维列表
flat_list = list(flatten(nested_list))
print("展平后结果：", flat_list)

代码说明：flatten自动识别所有层级的嵌套结构，无论嵌套多深，都能一次性展平为一维可迭代对象，处理复杂数据结构时效率极高。

3.1.3 可迭代对象去重unique

标准库去重需转换为集合再转回列表，会丢失顺序，unique函数可保留原始顺序完成去重，支持列表、元组、字符串等所有可迭代对象：

from boltons.iterutils import unique

# 带重复元素且需保留顺序的列表
repeat_list = [3, 1, 2, 3, 5, 2, 1, 4]
# 保留顺序去重
unique_list = list(unique(repeat_list))
print("保留顺序去重后：", unique_list)

代码说明：相比set去重，unique最大优势是保留元素原始顺序，适合对数据顺序有要求的场景，如日志处理、数据排序后去重。

3.2 dictutils：字典操作增强模块

字典是Python最常用的数据结构，dictutils模块提供了深度合并、路径取值、键路径遍历、过滤字典、递归更新等增强功能，解决标准库字典操作繁琐的问题。

3.2.1 字典深度合并mergedict

标准库update方法只能浅合并字典，嵌套字典会直接覆盖，mergedict支持深度合并，保留嵌套结构，不丢失数据：

from boltons.dictutils import mergedict

# 两个嵌套字典
dict1 = {'a': 1, 'b': {'c': 2, 'd': 3}}
dict2 = {'b': {'c': 20}, 'e': 4}
# 深度合并
merge_result = mergedict(dict1, dict2)
print("深度合并后字典：", merge_result)

代码说明：mergedict会递归合并嵌套字典，相同键以后面字典为准，不同键自动保留，不会像update一样直接覆盖嵌套结构，适合配置文件合并、多数据源字典整合。

3.2.2 字典路径取值dict_path

多层嵌套字典取值时，标准库需多次判断键是否存在，否则会报错，dict_path支持按路径字符串直接取值，不存在返回None，不抛异常：

from boltons.dictutils import dict_path

# 多层嵌套字典
nested_dict = {'user': {'info': {'name': 'Python开发者', 'age': 25}}}
# 按路径取值
user_name = dict_path(nested_dict, 'user.info.name')
user_addr = dict_path(nested_dict, 'user.info.address')
print("用户名：", user_name)
print("不存在的地址：", user_addr)

代码说明：使用点分隔的路径字符串直接取值，无需手动判断每个层级键是否存在，避免KeyError异常，大幅简化嵌套字典取值逻辑。

3.2.3 字典键值过滤filter_dict

按条件过滤字典的键值对，标准库需字典推导式+条件判断，filter_dict可直接传入过滤函数，简洁高效：

from boltons.dictutils import filter_dict

# 原始字典
score_dict = {'数学': 90, '语文': 75, '英语': 88, '物理': 62}
# 过滤出分数大于80的键值对
high_score = filter_dict(score_dict, lambda k, v: v > 80)
print("高分科目：", high_score)

代码说明：传入lambda表达式作为过滤条件，一行代码完成字典过滤，逻辑清晰，比原生推导式更易读，适合数据筛选场景。

3.3 fileutils：文件与路径操作模块

文件操作是开发必备功能，fileutils模块封装了文件读写、路径处理、目录遍历、文件备份、文件大小格式化等功能，比os、shutil更简洁易用。

3.3.1 安全读写文件atomic_save

标准库文件写入若中途断电、程序崩溃，会导致文件损坏，atomic_save提供原子写入功能，写入成功后才替换原文件，保证文件安全：

from boltons.fileutils import atomic_save

# 原子写入文件
with atomic_save('test.txt', text_mode=True) as f:
    f.write('使用boltons安全写入文件，无损坏风险\n')
    f.write('Python实用工具库boltons')

代码说明：使用with上下文管理器，写入过程中临时保存文件，完成后自动替换原文件，避免写入失败导致文件丢失，适合配置文件、日志文件写入。

3.3.2 格式化文件大小human_readable_bytes

文件大小默认是字节数，不直观，human_readable_bytes可将字节数转换为KB、MB、GB等人类易读格式：

from boltons.fileutils import human_readable_bytes

# 不同大小的字节数
size1 = 1024
size2 = 1024*1024*5
size3 = 1024*1024*1024*2
print("1024字节：", human_readable_bytes(size1))
print("5MB：", human_readable_bytes(size2))
print("2GB：", human_readable_bytes(size3))

代码说明：自动转换单位，无需手动计算除法，适合文件管理器、存储监控等场景。

3.3.3 递归遍历目录iter_find_files

快速遍历目录下所有指定后缀的文件，支持递归查找，比os.walk更简洁：

from boltons.fileutils import iter_find_files

# 递归查找当前目录下所有.py文件
py_files = list(iter_find_files('./', '*.py'))
print("当前目录所有Python文件：", py_files[:5])  # 打印前5个

代码说明：传入目录路径与文件匹配规则，直接返回所有符合条件的文件路径，支持通配符，无需手动编写递归遍历逻辑。

3.4 strutils：字符串处理增强模块

标准库字符串功能基础，strutils提供了字符串截断、驼峰命名转换、下划线命名转换、字符串验证、格式化等实用功能，满足字符串处理所有需求。

3.4.1 驼峰与下划线命名转换

开发中经常需要在驼峰命名（camelCase）与下划线命名（snake_case）之间转换，strutils直接提供对应函数：

from boltons.strutils import camel2snake, snake2camel

# 驼峰转下划线
camel_str = 'userInfoData'
snake_str = camel2snake(camel_str)
# 下划线转驼峰
snake_str2 = 'user_info_data'
camel_str2 = snake2camel(snake_str2)
print("驼峰转下划线：", snake_str)
print("下划线转驼峰：", camel_str2)

代码说明：自动处理大小写与分隔符，适合接口字段转换、配置项命名转换，无需手动替换字符串。

3.4.2 字符串智能截断truncate

长字符串展示时需要截断并添加省略号，truncate支持按长度智能截断，不破坏单词完整性：

from boltons.strutils import truncate

# 长字符串
long_str = 'boltons是Python非常实用的工具库，覆盖所有日常开发场景，简化代码提升效率'
# 截断为20个字符，添加省略号
short_str = truncate(long_str, 20)
print("截断后字符串：", short_str)

代码说明：自动在指定长度处截断并拼接省略号，适合文章摘要、列表展示等场景。

3.4.3 字符串去除空白strip_all

去除字符串所有空白字符（空格、换行、制表符），标准库strip只能去除首尾：

from boltons.strutils import strip_all

# 带多种空白字符的字符串
raw_str = '  Python 工具库 \n boltons \t 好用  '
# 去除所有空白
clean_str = strip_all(raw_str)
print("清理空白后：", clean_str)

代码说明：一次性清除所有空白字符，适合数据清洗、用户输入处理。

3.5 debugutils：调试与日志增强模块

开发调试时，标准库print、logging功能单一，debugutils提供美化输出、对象结构查看、性能计时等功能，提升调试效率。

3.5.1 美化打印pprint

比标准库pprint更美观，支持彩色输出、自动格式化复杂对象：

from boltons.debugutils import pprint

# 复杂嵌套数据
complex_data = {
    'name': 'boltons教程',
    'author': 'Python开发者',
    'modules': ['iterutils', 'dictutils', 'fileutils', 'strutils'],
    'version': '24.0.0'
}
# 美化打印
pprint(complex_data)

代码说明：自动缩进、分行展示，结构清晰，比原生print更易查看复杂字典、列表数据。

3.5.2 代码性能计时timer

快速统计代码执行时间，无需手动记录时间戳：

from boltons.debugutils import Timer
import time

# 统计代码执行时间
with Timer() as t:
    time.sleep(1)  # 模拟耗时操作
    sum([i for i in range(1000000)])
print("代码执行耗时：", t.elapsed)

代码说明：使用with上下文管理器，自动记录代码块执行时间，单位为秒，适合性能优化、耗时逻辑分析。

四、boltons库实际综合应用案例

为了更直观体现boltons的实用价值，以下结合数据清洗+文件处理+字典操作的真实开发场景，编写完整案例，模拟处理用户数据的业务逻辑。

4.1 案例需求

读取原始用户数据（嵌套字典+重复数据）；
对用户列表去重、展平；
筛选年龄大于20的用户；
深度合并用户配置；
原子写入处理后的数据到文件；
打印执行耗时与处理结果。

4.2 完整代码实现

# 导入所需模块
from boltons.iterutils import unique, flatten
from boltons.dictutils import mergedict, filter_dict
from boltons.fileutils import atomic_save
from boltons.debugutils import Timer
import json

# 模拟原始嵌套重复用户数据
def get_raw_data():
    return [
        {'user': {'id': 1, 'name': '张三', 'age': 22, 'config': {'theme': 'dark'}}},
        {'user': {'id': 2, 'name': '李四', 'age': 18, 'config': {'font': 14}}},
        {'user': {'id': 1, 'name': '张三', 'age': 22, 'config': {'theme': 'dark'}}},
        {'user': {'id': 3, 'name': '王五', 'age': 25, 'config': {'theme': 'light', 'font': 16}}},
    ]

# 主处理逻辑
if __name__ == '__main__':
    # 开始计时
    with Timer() as timer:
        # 1. 获取原始数据并展平
        raw_data = get_raw_data()
        flat_data = list(flatten(raw_data))

        # 2. 去重（按用户id去重）
        unique_data = list(unique(flat_data, key=lambda x: x['user']['id']))

        # 3. 筛选年龄大于20的用户
        filter_data = []
        for item in unique_data:
            if item['user']['age'] > 20:
                filter_data.append(item)

        # 4. 合并所有用户配置
        base_config = {'theme': 'default', 'font': 12, 'size': 'middle'}
        for item in filter_data:
            base_config = mergedict(base_config, item['user']['config'])

        # 5. 整理最终结果
        result = {
            'total_user': len(filter_data),
            'valid_user': [i['user']['name'] for i in filter_data],
            'merged_config': base_config
        }

        # 6. 原子写入文件
        with atomic_save('user_result.json', text_mode=True) as f:
            f.write(json.dumps(result, ensure_ascii=False, indent=2))

    # 输出结果
    print("执行耗时：{:.2f}秒".format(timer.elapsed))
    print("处理完成，结果已保存到user_result.json")
    print("最终结果：", result)

4.3 案例说明

本案例模拟了真实开发中数据处理全流程，如果使用标准库实现，需要多写50%以上的冗余代码，且逻辑复杂易出错，而boltons通过简洁API，让每一步操作都清晰高效：

flatten快速展平嵌套数据，避免递归代码；
unique按id去重，保留数据顺序；
mergedict深度合并配置，不丢失字段；
atomic_save保证文件写入安全；
Timer精准统计执行时间，便于性能优化。

该案例可直接应用于爬虫数据清洗、接口数据处理、配置文件管理等实际项目中，通用性极强。

Python实用工具库toolz：让函数式编程更简洁高效

一、toolz库概述

toolz是一款专注于函数式编程的Python实用工具库，核心作用是简化数据处理、函数操作与迭代器流程，通过组合基础函数实现复杂逻辑，减少冗余代码。其底层基于纯函数与惰性计算，不修改原始数据、无副作用，兼容Python标准库。优点是轻量无依赖、执行高效、代码可读性强，适合数据 pipeline 处理；缺点是对函数式编程新手有一定学习门槛。该库采用BSD开源许可，可自由商用与修改。

二、toolz库安装方法

toolz不依赖任何第三方库，安装过程极为简便，支持pip、conda等多种安装方式，适配Python3.6及以上所有版本，无论是Windows、macOS还是Linux系统均可稳定运行。

1. pip安装（最常用）

打开命令提示符、终端或PowerShell，直接执行以下命令即可完成安装：

pip install toolz

2. conda安装（适合Anaconda/Miniconda用户）

如果使用Anaconda环境，可通过conda命令安装，避免环境冲突：

conda install -c conda-forge toolz

3. 验证安装是否成功

安装完成后，可在Python交互环境中执行导入命令，若无报错则说明安装成功：

import toolz
from toolz import curry, compose, pipe
print("toolz安装成功！")

三、toolz核心模块与基础使用

toolz的功能主要分为三大模块：itertoolz（迭代器处理）、functoolz（函数操作）、dicttoolz（字典操作），同时提供统一的顶层调用接口，无需区分模块即可直接使用核心函数。

1. 函数柯里化 curry

柯里化是函数式编程的核心特性，可将多参数函数拆分为单参数连续调用，提升函数复用性，curry是toolz最常用的函数之一。

from toolz import curry

# 定义普通加法函数
def add(a, b):
    return a + b

# 柯里化处理
curry_add = curry(add)

# 分步传参调用
add_5 = curry_add(5)
print(add_5(3))
# 输出：8

# 直接完整传参
print(curry_add(2)(4))
# 输出：6

代码说明：通过curry将普通二元函数转换为柯里化函数，先固定部分参数生成新函数，再传入剩余参数，适合批量处理固定参数的场景。

2. 函数组合 compose

compose支持从右向左组合多个函数，前一个函数的输出作为后一个函数的输入，实现函数流水线处理。

from toolz import compose

# 定义基础函数
def double(x):
    return x * 2

def subtract_1(x):
    return x - 1

def square(x):
    return x ** 2

# 组合函数：先平方，再减1，最后翻倍
func = compose(double, subtract_1, square)
# 等价于 double(subtract_1(square(x)))

print(func(3))
# 计算过程：3²=9 → 9-1=8 → 8×2=16
# 输出：16

代码说明：compose按照从右到左的顺序执行函数，简化多层嵌套函数调用，让代码逻辑更直观。

3. 管道处理 pipe

pipe与compose功能类似，区别是从左向右执行，更符合人类阅读顺序，适合数据流式处理。

from toolz import pipe

# 对数字10依次执行：平方 → 减5 → 除以3
result = pipe(10,
              lambda x: x ** 2,
              lambda x: x - 5,
              lambda x: x / 3)
print(result)
# 计算过程：10²=100 → 100-5=95 → 95/3≈31.666666666666668
# 输出：31.666666666666668

代码说明：pipe直接传入初始数据， followed by 依次执行的函数，无需嵌套，适合数据清洗、转换等链式操作。

4. 迭代器操作 mapcat、concat、unique

toolz对Python原生迭代器操作进行增强，支持扁平化处理、去重、合并等操作，无需编写多层循环。

from toolz import mapcat, concat, unique

# mapcat：映射+扁平化合并
data = [[1, 2], [3, 4], [5, 6]]
result1 = mapcat(lambda x: [i * 2 for i in x], data)
print(list(result1))
# 输出：[2, 4, 6, 8, 10, 12]

# concat：直接合并多个迭代器
list1 = [1, 2, 3]
list2 = [4, 5, 6]
list3 = [7, 8, 9]
result2 = concat([list1, list2, list3])
print(list(result2))
# 输出：[1, 2, 3, 4, 5, 6, 7, 8, 9]

# unique：惰性去重，支持可哈希对象
data_dup = [1, 2, 2, 3, 3, 3, 4]
result3 = unique(data_dup)
print(list(result3))
# 输出：[1, 2, 3, 4]

代码说明：mapcat同时完成映射与扁平化，避免编写两层循环；concat高效合并迭代器；unique惰性去重，节省内存，适合大数据量处理。

5. 字典操作 assoc、dissoc、merge

dicttoolz提供安全的字典操作函数，不修改原始字典，返回新字典，避免副作用。

from toolz import assoc, dissoc, merge

# assoc：添加/修改字段，返回新字典
original_dict = {"name": "Python", "age": 30}
new_dict = assoc(original_dict, "version", "3.12")
print(original_dict)  # 原始字典不变
# 输出：{'name': 'Python', 'age': 30}
print(new_dict)
# 输出：{'name': 'Python', 'age': 30, 'version': '3.12'}

# dissoc：删除字段，返回新字典
del_dict = dissoc(original_dict, "age")
print(del_dict)
# 输出：{'name': 'Python'}

# merge：合并多个字典，后面覆盖前面
dict1 = {"a": 1, "b": 2}
dict2 = {"b": 3, "c": 4}
merged_dict = merge(dict1, dict2)
print(merged_dict)
# 输出：{'a': 1, 'b': 3, 'c': 4}

代码说明：toolz的字典操作均为纯函数，不会改变原始数据，在多线程、数据 pipeline 中更安全，避免意外修改数据。

6. 过滤与分组 filter、groupby

toolz提供函数式风格的过滤与分组，代码更简洁，无需编写循环与条件判断。

from toolz import filter, groupby

# filter：过滤符合条件的元素
nums = [1, 2, 3, 4, 5, 6, 7, 8]
even_nums = filter(lambda x: x % 2 == 0, nums)
print(list(even_nums))
# 输出：[2, 4, 6, 8]

# groupby：按条件分组
students = [
    {"name": "Tom", "score": 85},
    {"name": "Jerry", "score": 92},
    {"name": "Alice", "score": 85},
    {"name": "Bob", "score": 78}
]
# 按分数分组
grouped = groupby(lambda x: x["score"], students)
print(grouped)

代码说明：groupby直接根据指定规则分组，返回字典格式，键为分组条件，值为对应元素列表，适合数据分析中的分类统计。

四、进阶使用：数据处理流水线实战

在实际开发中，toolz常用于构建数据清洗、转换、统计流水线，大幅减少代码量，提升可读性与维护性。

案例：用户数据清洗与统计

需求：对原始用户数据进行清洗，过滤无效用户，提取关键字段，统计年龄分布，计算平均年龄。

from toolz import pipe, filter, map, groupby, compose

# 原始用户数据
users = [
    {"id": 1, "name": "Zhang", "age": 25, "gender": "male", "is_valid": True},
    {"id": 2, "name": "Li", "age": None, "gender": "female", "is_valid": False},
    {"id": 3, "name": "Wang", "age": 30, "gender": "male", "is_valid": True},
    {"id": 4, "name": "Zhao", "age": 25, "gender": "female", "is_valid": True},
    {"id": 5, "name": "Liu", "age": 35, "gender": "male", "is_valid": None},
]

# 数据清洗流水线
cleaned_users = pipe(
    users,
    # 过滤有效用户
    filter(lambda u: u.get("is_valid") is True),
    # 过滤年龄不为空的用户
    filter(lambda u: u.get("age") is not None),
    # 提取所需字段
    map(lambda u: {"name": u["name"], "age": u["age"], "gender": u["gender"]}),
    list
)

print("清洗后用户数据：")
for user in cleaned_users:
    print(user)

# 按年龄分组
age_group = groupby(lambda u: u["age"], cleaned_users)
print("\n按年龄分组结果：")
for age, group in age_group.items():
    print(f"年龄{age}：{group}")

# 计算平均年龄
total_age = sum(u["age"] for u in cleaned_users)
avg_age = total_age / len(cleaned_users)
print(f"\n平均年龄：{avg_age:.2f}")

运行结果：

清洗后用户数据：
{'name': 'Zhang', 'age': 25, 'gender': 'male'}
{'name': 'Wang', 'age': 30, 'gender': 'male'}
{'name': 'Zhao', 'age': 25, 'gender': 'female'}

按年龄分组结果：
年龄25：[{'name': 'Zhang', 'age': 25, 'gender': 'male'}, {'name': 'Zhao', 'age': 25, 'gender': 'female'}]
年龄30：[{'name': 'Wang', 'age': 30, 'gender': 'male'}]

平均年龄：26.67

代码说明：通过pipe构建完整数据处理流水线，从过滤、清洗到提取字段，逻辑清晰，无冗余代码，相比原生Python循环减少50%以上代码量。

五、高阶特性：惰性计算与内存优化

toolz的核心优势之一是惰性计算，所有迭代器操作均不会立即执行，仅在遍历、转换为列表时才计算，适合处理超大规模数据，避免内存溢出。

from toolz import map, take

# 生成超大范围数据，不会占用大量内存
large_data = range(1, 100000000)

# 惰性映射，不执行计算
processed = map(lambda x: x * 2, large_data)

# 只取前10个数据，仅计算前10个元素
top_10 = take(10, processed)
print(list(top_10))
# 输出：[2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

代码说明：即使处理1亿条数据，toolz也不会一次性加载到内存，仅按需计算，在数据分析、爬虫数据处理、日志解析等场景中优势明显。

六、实际项目综合应用案例

在实际Python项目中，toolz可与Pandas、Flask、Django、爬虫框架等无缝结合，简化业务逻辑。以下是结合爬虫数据处理的完整案例。

from toolz import pipe, filter, map, unique, concat
import requests

# 模拟爬虫获取文章数据
def fetch_articles():
    return [
        {"title": "Python入门", "author": "张三", "read": 1000, "tag": "Python"},
        {"title": "函数式编程", "author": "李四", "read": 800, "tag": "toolz"},
        {"title": "Python进阶", "author": "张三", "read": 1500, "tag": "Python"},
        {"title": "数据处理", "author": "王五", "read": 1200, "tag": "toolz"},
        None,  # 无效数据
        {"title": "Python实战", "author": "赵六", "read": 2000, "tag": "Python"},
    ]

# 数据处理流程
articles = pipe(
    fetch_articles(),
    # 过滤空数据
    filter(lambda x: x is not None),
    # 过滤阅读量大于1000的文章
    filter(lambda x: x["read"] > 1000),
    # 提取标题与标签
    map(lambda x: {"title": x["title"], "tag": x["tag"]}),
    # 去重
    unique,
    list
)

print("筛选后的文章：")
for article in articles:
    print(article)

运行结果：

筛选后的文章：
{'title': 'Python进阶', 'tag': 'Python'}
{'title': '数据处理', 'tag': 'toolz'}
{'title': 'Python实战', 'tag': 'Python'}

代码说明：该案例模拟真实爬虫数据处理流程，通过toolz实现数据过滤、清洗、提取、去重全流程，代码简洁易维护，可直接应用于实际爬虫项目。

一、funcy 库概述

二、funcy 库安装方法

2.1 基础安装

2.2 验证安装

三、funcy 核心功能与代码实例

3.1 数据过滤与筛选：filter 系列函数

3.1.1 基础过滤：where 按条件筛选字典列表

3.1.2 反向过滤：remove 排除指定数据

3.2 数据拆分与组合：split、concat 系列

3.2.1 条件拆分：split_by 按规则拆分列表

3.2.2 多序列拼接：concat 扁平化拼接

3.3 字典操作：键值快速处理

3.3.1 字典筛选：select_keys、reject_keys

3.3.2 字典合并：merge 多字典合并

3.4 函数组合与增强：compose、partial

3.4.1 函数组合：compose 多函数链式调用

3.4.2 固定参数：partial 预设函数参数

3.5 迭代器与序列操作：take、drop、chunk

3.5.1 数据截取：take 取前N个元素

3.5.2 数据分块：chunk 按大小拆分列表

四、funcy 实际业务案例演示

4.1 案例一：学生成绩数据处理

4.2 案例二：函数流水线处理数据

4.3 案例三：配置项快速合并与处理

相关资源

一、tenacity 库概述

二、tenacity 安装方法

三、tenacity 基础使用方式

3.1 最简重试示例（无任何配置）

3.2 限制重试次数

3.3 设置重试等待时间

3.4 仅针对指定异常重试

3.5 指数退避重试（高级等待策略）

3.6 重试前后执行自定义逻辑

3.7 异步函数重试

四、实际开发综合案例

4.1 案例场景

4.2 完整代码实现

4.3 案例扩展：文件读取重试

相关资源

一、boltons库概述

二、boltons库安装方法

2.1 pip安装（推荐）

2.2 源码安装

三、boltons核心功能模块与代码实例

3.1 iterutils：迭代器与可迭代对象增强模块

3.1.1 列表分块chunked

3.1.2 多层嵌套列表展平flatten

3.1.3 可迭代对象去重unique

3.2 dictutils：字典操作增强模块

3.2.1 字典深度合并mergedict

3.2.2 字典路径取值dict_path

3.2.3 字典键值过滤filter_dict

3.3 fileutils：文件与路径操作模块

3.3.1 安全读写文件atomic_save

3.3.2 格式化文件大小human_readable_bytes

3.3.3 递归遍历目录iter_find_files

3.4 strutils：字符串处理增强模块

3.4.1 驼峰与下划线命名转换

3.4.2 字符串智能截断truncate

3.4.3 字符串去除空白strip_all

3.5 debugutils：调试与日志增强模块

3.5.1 美化打印pprint

3.5.2 代码性能计时timer

四、boltons库实际综合应用案例

4.1 案例需求

4.2 完整代码实现

4.3 案例说明

相关资源

一、toolz库概述

二、toolz库安装方法

1. pip安装（最常用）

2. conda安装（适合Anaconda/Miniconda用户）

3. 验证安装是否成功

三、toolz核心模块与基础使用

1. 函数柯里化 curry

2. 函数组合 compose

3. 管道处理 pipe

4. 迭代器操作 mapcat、concat、unique

5. 字典操作 assoc、dissoc、merge