浅析Python中Generator的工作原理与应用

 更新时间:2024年12月16日 08:23:38   作者:Piper蛋窝  
这篇文章主要为大家详细介绍了Python中Generator的工作原理与应用的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编 一起学习一下

调用 OpenAI 的 API 时,设置 stream=True ,接着 for chunk in completion: 我们就可以“流式”地获取响应的内容。而非等待远程的模型将所有内容生成完毕,再返回给我们(这通常要等很久)。

本文讨论这背后的 Python Generator 。

从一个经典问题开始

假设我们要处理一个超大的日志文件,需要按行读取并分析。传统的做法是:

def read_log_file(filename):
    result = []
    with open(filename) as f:
        for line in f:
            if "ERROR" in line:
                result.append(line)
    return result

# 使用方式
errors = read_log_file("huge.log")
for error in errors:
    process_error(error)

这段代码有什么问题?它会一次性将所有符合条件的行都读入内存。如果日志文件有 10GB,而符合条件的行有 5GB,那么我们的程序就需要 5GB 的内存。

Generator 版本

我们用 Generator 改写一下:

def read_log_file(filename):
    with open(filename) as f:
        for line in f:
            if "ERROR" in line:
                yield line

# 使用方式
for error in read_log_file("huge.log"):
    process_error(error)

看起来很相似,但运行机制完全不同。这个版本无论日志文件多大,内存占用都很小。

Generator 的工作原理

Generator 的核心特点是"懒加载"(lazy evaluation)。当我们调用一个生成器函数时,它并不会立即执行函数体,而是返回一个生成器对象。只有在实际请求下一个值时,它才会执行到下一个 yield 语句。

来看一个更直观的例子:

def counter():
    print("Starting")
    i = 0
    while True:
        print(f"Generating {i}")
        yield i
        i += 1

# 创建生成器对象
c = counter()  # 此时不会打印任何内容
print("Generator created")

# 获取前三个值
print(next(c))  # 打印 "Starting" 和 "Generating 0",返回 0
print(next(c))  # 打印 "Generating 1",返回 1
print(next(c))  # 打印 "Generating 2",返回 2

在流式 API 中的应用

现在我们理解了为什么流式 API 会使用 Generator。以 OpenAI 的流式响应为例:

def stream_completion(prompt):
    # 模拟 API 调用
    response = ["生成", "AI", "回复", "需要", "时间"]
    for token in response:
        yield token

# 使用方式
for chunk in stream_completion("你好"):
    print(chunk, end="", flush=True)

这样的设计有几个好处:

  • 节省内存:不需要等待全部内容生成完毕
  • 实时响应:用户可以立即看到部分结果
  • 可中断:如果用户不需要更多结果,可以随时停止

高级用法:Generator 表达式和的双向通信 send 的魔法

Generator 还有一些高级特性。比如 Generator 表达式:

# 列表推导式
squares = [x*x for x in range(1000000)]  # 立即生成所有结果

# Generator 表达式
squares = (x*x for x in range(1000000))  # 按需生成

GGenerator 不只是能产出值,还能接收值!这就是 send 方法的精妙之处。让我们通过一个计算移动平均值的例子,一步步看看 send 是如何工作的:

def averager():
    total = 0
    count = 0
    average = None
    while True:
        # yield 在这里扮演双重角色:
        # 1. 向外返回 average 值
        # 2. 接收外部发送的 value
        value = yield average
        if value is None:
            break
        total += value
        count += 1
        average = total / count

# 让我们一步步看发生了什么
avg = averager()          # 创建生成器对象,但函数体还未开始执行
print("第一步:创建生成器")

next(avg)                 # 启动生成器,运行到第一个 yield,返回 None
print("第二步:生成器已启动,等待第一个值")

print(avg.send(10))      # 1. send(10) 将 10 传给 value
                         # 2. 计算 average = 10/1 = 10.0
                         # 3. 到达 yield,返回 10.0
                         # 4. 生成器暂停,等待下一个值

print(avg.send(20))      # 1. value 获得值 20
                         # 2. 计算 average = 30/2 = 15.0
                         # 3. yield 返回 15.0

print(avg.send(30))      # 1. value 获得值 30
                         # 2. 计算 average = 60/3 = 20.0
                         # 3. yield 返回 20.0

每次 send 调用,生成器都会在 value = yield average 这行代码处经历一个完整的"接收-计算-返回"周期。这种优雅的设计让生成器不仅能产出数据,还能根据外部输入动态调整其行为。

类型系统中的 Generator:优雅的泛型设计

在 Python 的类型系统中,Generator 的类型定义也别具匠心。它使用了三个泛型参数:

from typing import Generator, Iterator
from typing import TypeVar, Generic

T_co = TypeVar('T_co', covariant=True)      # 生成器产出的类型
T_contra = TypeVar('T_contra', contravariant=True)  # send 方法接收的类型
V_co = TypeVar('V_co', covariant=True)      # return 语句返回的类型

def number_processor() -> Generator[int, str, float]:
    # 这个生成器:
    # - yield 产出 int
    # - 接收 str 类型的输入
    # - 最终 return float 类型的值
    count = 0
    total = 0.0
    while count < 3:
        text = yield count  # 产出 int,接收 str
        if text:
            total += len(text)
        count += 1
    return total  # 返回 float

# 使用示例
proc = number_processor()
next(proc)  # 启动生成器,返回 0
print(proc.send("hello"))  # 输出 1
print(proc.send("world"))  # 输出 2
try:
    proc.send("!")  # 生成器将结束,抛出 StopIteration
except StopIteration as e:
    print(f"最终结果:{e.value}")  # 打印 11.0 (len("hello") + len("world") + len("!"))

这个类型定义展现了 Python 类型系统中一些概念:

  • T_co 是协变的(covariant),表示生成器产出的类型可以是基类
  • T_contra 是逆变的(contravariant),表示接收的类型可以是子类
  • V_co 也是协变的,表示返回值类型可以是基类

可以通过具体的例子来解释协变和逆变:

from typing import Generator, TypeVar

# 定义一些类来演示
class Animal:
    pass

class Dog(Animal):
    pass

class Chihuahua(Dog):
    pass

# 定义类型变量
T_co = TypeVar('T_co', covariant=True)
T_contra = TypeVar('T_contra', contravariant=True)

def dog_generator() -> Generator[Dog, Animal, None]:
    # 这个生成器:
    # - 产出 Dog (协变位置)
    # - 接收 Animal (逆变位置)
    dog = yield Dog()  # dog 的类型是 Animal
    
# 协变(T_co)示例:
# 如果一个函数返回 Dog,它也可以用在需要返回 Animal 的地方
generator1: Generator[Animal, Animal, None] = dog_generator()  # 没问题!
# 因为 Dog 是 Animal 的子类,所以可以用 Dog 替代 Animal

# 逆变(T_contra)示例:
# 如果一个函数接收 Animal,它也可以接收 Dog 或 Chihuahua
generator2 = dog_generator()
generator2.send(Chihuahua())  # 没问题!
# 因为函数期望接收 Animal,那接收 Animal 的子类当然也可以

简单理解:

  • 协变(covariant):允许使用更具体的类型

    • 如果方法返回 Dog,可以用在需要 Animal 的地方
    • 因为 Dog 一定是 Animal,所以这样是安全的
  • 逆变(contravariant):允许使用更宽泛的类型

    • 如果方法接收 Animal,可以传入 Dog 或 Chihuahua
    • 因为方法能处理所有 Animal,当然也能处理具体的 Dog
  • Generator[T_co, T_contra, V_co] 中:

    • T_co:产出值的类型(协变),因为生成器提供值
    • T_contra:send 方法接收的类型(逆变),因为生成器接收值
    • V_co:return 语句的返回值类型(协变),因为是提供值

这种设计让 Generator 类型在静态类型检查时既保持了类型安全,又提供了足够的灵活性。

实战应用:构建流式处理管道

让我们把学到的知识组合起来,构建一个优雅的流式处理管道:

from typing import Generator, Iterator
from itertools import chain

def read_chunks(file_path: str) -> Generator[str, None, None]:
    with open(file_path) as f:
        while chunk := f.read(1024):
            yield chunk

def process_chunk(chunk: str) -> Generator[str, None, None]:
    # 处理单个 chunk 中的行
    # 注意:chunk 可能在行中间截断,需要处理这种情况
    lines = chunk.split('\n')
    for line in lines:
        if line.strip():
            yield line.upper()

def filter_keywords(lines: Iterator[str]) -> Generator[str, None, None]:
    keywords = {'ERROR', 'WARNING', 'CRITICAL'}
    for line in lines:
        if any(k in line for k in keywords):
            yield line

# 正确的流式处理版本
def process_log_file(file_path: str):
    # 当前行的未完成部分
    partial_line = ''
    
    for chunk in read_chunks(file_path):
        # 处理可能被截断的行
        if partial_line:
            chunk = partial_line + chunk
            partial_line = ''
            
        # 分割成行,保留最后一个可能不完整的行
        lines = chunk.split('\n')
        if not chunk.endswith('\n'):
            partial_line = lines[-1]
            lines = lines[:-1]
            
        # 处理完整的行
        for line in lines:
            if line.strip():
                # 直接在这里处理,无需存储所有行
                upper_line = line.upper()
                if any(k in upper_line for k in {'ERROR', 'WARNING', 'CRITICAL'}):
                    print(upper_line)
    
    # 处理最后一个不完整的行(如果有的话)
    if partial_line and partial_line.strip():
        upper_line = partial_line.upper()
        if any(k in upper_line for k in {'ERROR', 'WARNING', 'CRITICAL'}):
            print(upper_line)

# 或者,使用更函数式的写法
def process_log_file_functional(file_path: str):
    def handle_chunks() -> Generator[str, None, None]:
        partial_line = ''
        for chunk in read_chunks(file_path):
            if partial_line:
                chunk = partial_line + chunk
                partial_line = ''
            
            lines = chunk.split('\n')
            if not chunk.endswith('\n'):
                partial_line = lines[-1]
                lines = lines[:-1]
            
            yield from (line for line in lines if line.strip())
        
        if partial_line and partial_line.strip():
            yield partial_line

    # 现在我们真正实现了流式处理
    lines = handle_chunks()
    upper_lines = (line.upper() for line in lines)
    filtered_lines = filter_keywords(upper_lines)
    
    for line in filtered_lines:
        print(line)

这个例子展示了 Generator 在实际应用中的优雅之处:

  • 每个函数职责单一,易于测试和维护
  • 数据流处理清晰,内存占用小
  • 类型提示清晰,代码更容易理解

下次当你需要处理大量数据或实现流式处理时,不要忘了考虑使用 Generator。它可能会让你的代码更优雅,性能更好。

到此这篇关于浅析Python中Generator的工作原理与应用的文章就介绍到这了,更多相关Python Generator内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python+pygame实现简易五子棋小游戏的三种方式

    python+pygame实现简易五子棋小游戏的三种方式

    这篇文章主要介绍了使用python实现简易五子棋小游戏,文中提供了三种实现方式,解决思路和部分实现代码,感兴趣的朋友可以参考下
    2023-03-03
  • python中csv文件数据颜色设置方式

    python中csv文件数据颜色设置方式

    这篇文章主要介绍了python中csv文件数据颜色设置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-02-02
  • Python实现的Excel文件读写类

    Python实现的Excel文件读写类

    这篇文章主要介绍了Python实现的Excel文件读写类,涉及Python针对Excel常见的读写、打印等操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-07-07
  • Pytest框架之fixture详解(二)

    Pytest框架之fixture详解(二)

    本文详细讲解了Pytest框架之fixture,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-06-06
  • python使用socket制作聊天室详细源码(可以直接运行)

    python使用socket制作聊天室详细源码(可以直接运行)

    Python是一个非常灵活的编程语言,我们现在到处可见用Python编写的应用程序,下面这篇文章主要给大家介绍了关于python使用socket制作聊天室的相关资料,文中的代码可以直接运行,需要的朋友可以参考下
    2023-12-12
  • 10个必须要掌握的Python内置函数

    10个必须要掌握的Python内置函数

    Python 解释器自带的函数叫做 内置函数,这些函数不需要import 导入就可以直接使用。本文小编为大家总结了十个必须要掌握的Python内置函数,实用且高效,需要的可以参考一下
    2022-02-02
  • 跟老齐学Python之关于循环的小伎俩

    跟老齐学Python之关于循环的小伎俩

    不管是while还是for,所发起的循环,在python编程中是经常被用到的。特别是for,一般认为,它要比while快,而且也容易写(是否容易,可能因人而异,但是,执行时间快,是的确的),因此在实践中,for用的比较多点。
    2014-10-10
  • python 获取网页编码方式实现代码

    python 获取网页编码方式实现代码

    这篇文章主要介绍了python 获取网页编码方式实现代码的相关资料,需要的朋友可以参考下
    2017-03-03
  • python实现登录密码重置简易操作代码

    python实现登录密码重置简易操作代码

    这篇文章主要介绍了python实现登录密码重置简易操作,代码简单易懂,非常不错,具有一定的参考借鉴价值 ,需要的朋友可以参考下
    2019-08-08
  • python脚本实现xls(xlsx)转成csv

    python脚本实现xls(xlsx)转成csv

    这篇文章主要介绍了python脚本实现xls(xlsx)转成csv的相关资料,需要的朋友可以参考下
    2016-04-04

最新评论