资讯专栏INFORMATION COLUMN

Python 迭代器、生成器和列表解析

dreamGong / 3599人阅读

摘要:迭代器迭代器在版本中被加入它为类序列对象提供了一个类序列的接口。其中方法返回迭代器对象本身方法返回容器的下一个元素,在结尾时引发异常。迭代器协议迭代器协议即实现与方法。

迭代器

迭代器在 Python 2.2 版本中被加入, 它为类序列对象提供了一个类序列的接口。 Python 的迭代无缝地支持序列对象, 而且它还允许迭代非序列类型, 包括用户定义的对象。即迭代器可以迭代不是序列但表现出序列行为的对象, 例如字典的 key , 一个文件的行, 等等。迭代器有以下特性:

提供了可扩展的迭代器接口.

对列表迭代带来了性能上的增强.

在字典迭代中性能提升.

创建真正的迭代接口, 而不是原来的随机对象访问.

与所有已经存在的用户定义的类以及扩展的模拟序列和映射的对象向后兼容

迭代非序列集合(例如映射和文件)时, 可以创建更简洁可读的代码.

迭代器对象即实现了迭代器协议的对象,在 Python 中,支持迭代器协议就是实现对象的 __iter__()next() 方法(注:在 Python3 中被改为 next 方法)。其中 __iter__() 方法返回迭代器对象本身;next() 方法返回容器的下一个元素,在结尾时引发 StopIteration 异常。

迭代器协议

迭代器协议即实现 __iter__()next() 方法。这两个方法是迭代器最基本的方法,一个用来获得迭代器对象,一个用来获取容器中的下一个元素。对于可迭代对象,可以使用内建函数 iter() 来获取它的迭代器对象:

</>复制代码

  1. li = [1, 2]
  2. it = iter(li)
  3. print it
  4. print it.next()
  5. print it.next()
  6. print it.next()

结果如下所示:

</>复制代码

  1. 1
  2. 2
  3. Traceback (most recent call last):
  4. File "iter.py", line 21, in
  5. print it.next()
  6. StopIteration

列表(list)本身是可迭代的,通过 iter() 方法可以获得其迭代器对象,然后就可以通过 next() 方法来访问 list 中的元素。当容器中没有可以访问的元素时, next() 方法将会抛出一个 StopIteration 的异常,从而终止迭代器。当我们使用 for 语句的时候,for 语句就会自动的通过 __iter__() 方法来获得迭代器对象,并且通过 next() 方法来获取下一个元素,遇到 StopIteration 异常时会自动结束迭代。

自定义迭代器

自己创建迭代器实际上就是实现一个带有 __iter__() 方法和 next() 方法的类,用该类创建的实例即是可迭代对象。例如我们用迭代器来实现斐波那契数列:

</>复制代码

  1. class Fibs:
  2. def __init__(self):
  3. self.a = 0
  4. self.b = 1
  5. def next(self):
  6. self.a, self.b = self.b, self.a + self.b
  7. return self.a
  8. def __iter__(self):
  9. return self
  10. fibs = Fibs() // 这将得到一个无穷的数列
  11. for f in fibs:
  12. if f > 1000:
  13. print f
  14. break
  15. else:
  16. print f

这里有一个问题,大多数的序列或者类序列都不是无穷的,所以在达到一定条件后就该终止。因此我们需要在序列或者类序列需要结束时引发 StopIteration 异常:

</>复制代码

  1. class MyRange(object):
  2. def __init__(self, n):
  3. self.idx = 0
  4. self.n = n
  5. def __iter__(self):
  6. return self
  7. def next(self):
  8. if self.idx < self.n:
  9. val = self.idx
  10. self.idx += 1
  11. return val
  12. else:
  13. raise StopIteration()
  14. myRange = MyRange(3)
  15. for i in myRange:
  16. print i
可迭代对象和迭代器对象

可迭代对象即具有 __iter__() 方法的对象,该方法可获取其迭代器对象。迭代器对象即具有 next() 方法的对象。也就是说,一个实现了 __iter_() 的对象是可迭代的,一个实现了 next() 方法的对象则是迭代器。可迭代对象也可以是迭代器对象,如文件对象。此时可迭代对象自己有 next() 方法,而其 __iter() 方法返回的就是它自己。对于许多内置对象及其派生对象,如 list、dict 等,由于需要支持多次打开迭代器,因此自己并非迭代器对象,需要用 __iter_() 方法返回其迭代器对象,并用迭代器对象来访问其它元素。

以上例子中的 myRange 这个对象就是一个可迭代对象,同时它本身也是一个迭代器对象。对于一个可迭代对象,如果它本身又是一个迭代器对象,就会有这样一个问题,其没有办法支持多次迭代。如下所示:

</>复制代码

  1. myRange = MyRange(3)
  2. print myRange is iter(myRange)
  3. print [i for i in myRange]
  4. print [i for i in myRange]

运行结果:

</>复制代码

  1. True
  2. [0, 1, 2]
  3. []

为了解决上面的问题,可以分别定义可迭代类型对象和迭代器类型对象;然后可迭代类型对象的 __iter__() 方法可以获得一个迭代器类型的对象。如下所示:

</>复制代码

  1. class Zrange:
  2. def __init__(self, n):
  3. self.n = n
  4. def __iter__(self):
  5. return ZrangeIterator(self.n)
  6. class ZrangeIterator:
  7. def __init__(self, n):
  8. self.i = 0
  9. self.n = n
  10. def __iter__(self):
  11. return self
  12. def next(self):
  13. if self.i < self.n:
  14. i = self.i
  15. self.i += 1
  16. return i
  17. else:
  18. raise StopIteration()
  19. zrange = Zrange(3)
  20. print zrange is iter(zrange)
  21. print [i for i in zrange]
  22. print [i for i in zrange]

运行结果:

</>复制代码

  1. False
  2. [0, 1, 2]
  3. [0, 1, 2]

另外, reversed() 内建函数将返回一个反序访问的迭代器,enumerate() 内建函数同样也返回迭代器。例如可以用 enumerate() 函数遍历列表:

</>复制代码

  1. ll = [1, 2, 3]
  2. print enumerate(ll)
  3. /* 优雅的遍历列表 */
  4. for i, ele in enumerate(ll):
  5. print i, ll[i]
生成器

迭代器和生成器可能是近几年引入的最强大的两个特性。生成器是一种用普通的函数语法定义的迭代器,也就是说生成器实际上就是一个函数。但是生成器不用 return 返回,而是用 yield 一次返回一个结果,在每个结果之间挂起和继续它们的状态,来自动实现迭代协议。任何包含 yield 语句的函数称为生成器。yield 被人们优雅的称之为语法糖,意思就是包在里边的甜心。在 yield 的内部是一个状态机,维护着挂起和继续的状态。

生成器执行流程

先看看下边的列子:

</>复制代码

  1. def Zrange(n):
  2. print "beginning of Zrange"
  3. i = 0
  4. while i < n:
  5. print "before yield", i
  6. yield i
  7. i += 1
  8. print "after yield", i
  9. print "endding of Zrange"
  10. zrange = Zrange(3)
  11. print "------------"
  12. print zrange.next()
  13. print "------------"
  14. print zrange.next()
  15. print "------------"
  16. print zrange.next()
  17. print "------------"
  18. print zrange.next()def flatten(nested):
  19. result = []
  20. try:
  21. # 不要迭代类似字符串的对象
  22. try: nested + ""
  23. except TypeError: pass
  24. else: raise TypeError
  25. for sublist in nested:
  26. for element in flatten(sublist):
  27. result.append(element)
  28. except TypeError:
  29. result.append(nested)
  30. return result
  31. print "------------"

执行结果:

</>复制代码

  1. --------------------
  2. beginning of Zrange
  3. before yield 0
  4. 0
  5. --------------------
  6. after yield 1
  7. before yield 1
  8. 1
  9. --------------------
  10. after yield 2
  11. before yield 2
  12. 2
  13. --------------------
  14. after yield 3
  15. endding of Zrange
  16. Traceback (most recent call last):
  17. File "one.py", line 38, in
  18. print zrange.next()
  19. StopIteration

通过结果可以看到:

当调用生成器函数的时候,函数只是返回了一个生成器对象,并没有 执行。

当next()方法第一次被调用的时候,生成器函数才开始执行,执行到yield语句处停止

next()方法的返回值就是yield语句处的参数(yielded value)

当继续调用next()方法的时候,函数将接着上一次停止的yield语句处继续执行,并到下一个yield处停止;如果后面没有yield就抛出StopIteration异常

递归生成器

生成器可以向函数一样进行递归使用,下面列举两个示例:

对一个序列进行全排列:

</>复制代码

  1. def permutations(li):
  2. if len(li) == 0:
  3. yield li
  4. else:
  5. for i in range(len(li)):
  6. li[0], li[i] = li[i], li[0] #
  7. for item in permutations(li[1:]):
  8. yield [li[0]] + item
  9. for item in permutations(range(3)):
  10. print item

这里的实现思路是,每次取序列中不一样的元素放在最前面,直到只有一个元素时返回,并将返回结果往后拼接。

展开多层嵌套的列表:

</>复制代码

  1. def flatten(nested):
  2. try:
  3. # 不要迭代类似于字符串的对象
  4. try: nested + ""
  5. except TypeError: pass
  6. else: raise TypeError
  7. for sublist in nested:
  8. for element in flatten(sublist):
  9. yield element
  10. except TypeError:
  11. yield nested
  12. print list(flatten([[[1], 2], 3, 4, [5, [6, 7]], 8]))

这里需要注意的是,不应该在 flatten 函数中对类似于字符串的对象进行迭代,这样会导致无穷递归,因为一个字符串的第一个元素是另一个长度为1的字符串,而长度为一个字符串的第一个元素就是字符串本身。

通用生成器

生成器可以人为是由两部分组成:生成器的函数和生成器的迭代器。生成器的函数是用 def 语句定义的,包含 yield 部分,生成器的迭代器是这个函数返回的部分。按照一种不是很准确的说法,两个实体经常被当做一个,合起来叫做生成器。如下实例所示:

</>复制代码

  1. def simple_generator():
  2. yield 1
  3. print simple_generator
  4. print simple_generator()

运行结果:

</>复制代码

生成器方法

send(value)

外部作用域访问生成器的 send 方法,就像访问 next() 方法一样。next()方法可以恢复生成器状态并继续执行,其实 send() 是除 next() 外另一个恢复生成器的方法。Python 2.5 中,yield 语句变成了 yield 表达式,也就是说 yield 可以有一个值,而这个值就是send()方法的参数,所以 send(None) 和 next() 是等效的。同样,next()和send()的返回值都是 yield语 句处的参数(yielded value)。使用 send() 方法只有在生成器挂起之后才有意义,如果真想对刚刚启动的生成器使用 send 方法,则可以将 None 作为参数进行调用。也就是说, 第一次调用时,要使用 next() 语句或 send(None),因为没有 yield 语句来接收这个值

throw()

用于在生成器内引发一个异常。

close()

用于停止生成器,调用它时,会在 yield 运行出引发一个 GeneratorExit 异常。

使用示例:

</>复制代码

  1. def Zrange(n):
  2. i = 0
  3. while i < n:
  4. val = yield i
  5. print "val is", val
  6. i += 1
  7. zrange = Zrange(5)
  8. print zrange.next()
  9. print zrange.next()
  10. print zrange.send("hello")
  11. print zrange.next()
  12. #print zrange.next()
  13. zrange.close()
  14. print zrange.send("world")
模拟生成器

在旧的 Python 版本中并不支持生成器,那么我们可以用普通的函数来模拟生成器。如下所示:

</>复制代码

  1. def flatten(nested):
  2. result = []
  3. try:
  4. # 不要迭代类似字符串的对象
  5. try: nested + ""
  6. except TypeError: pass
  7. else: raise TypeError
  8. for sublist in nested:
  9. for element in flatten(sublist):
  10. result.append(element)
  11. except TypeError:
  12. result.append(nested)
  13. return result

尽管这个版本可能不适用于所有的生成器,但对大多数生成器来说是可行的。比如,它不适用于一个无限的生成器。

列表解析和生成器表达式 列表解析

列表解析( List comprehensions, 或缩略为 list comps ) 来自函数式编程语言 Haskell . 它是一个非常有用, 简单, 而且灵活的工具, 可以用来动态地创建列表。其语法结构为:

</>复制代码

  1. [expr for iter_var in iterable]

这个语句的核心是 for 循环, 它迭代 iterable 对象的所有条目. 前边的 expr 应用于序列的每个成员, 最后的结果值是该表达式产生的列表。 迭代变量并不需要是表达式的一部分。例如用 lambda 函数计算序列成员的平方的表达是为:

</>复制代码

  1. map(lambda x: x ** 2, range(6))

这可以用列表解析来改写:

</>复制代码

  1. [x ** 2 for x in range(6)]

列表解析的表达式可以取代内建的 map() 函数以及 lambda , 而且效率更高。结合 if 语句,列表解析还提供了一个扩展版本的语法:

</>复制代码

  1. [expr for iter_var in iterable if cond_expr]

这个语法在迭代时会过滤/捕获满足条件表达式 cond_expr 的序列成员。例如挑选出序列中的奇数可以用下边的方法:

</>复制代码

  1. [x for x in seq if x % 2]

列表解析还有很多巧妙的应用:

迭代一个有三行五列的矩阵:

</>复制代码

  1. [(x+1,y+1) for x in range(3) for y in range(5)]

计算出所有非空白字符的数目:

</>复制代码

  1. f = open("hhga.txt", "r")

    len([word for line in f for word in line.split()])

生成器表达式

生成器表达式是列表解析的一个扩展。列表解析的一个不足就是必要生成所有的数据, 用以创建整个列表。这可能对有大量数据的迭代器有负面效应。生成器表达式通过结合列表解析和生成器解决了这个问题。生成器表达式在 Python 2.4 被引入, 它与列表解析非常相似,而且它们的基本语法基本相同; 不过它并不真正创建数字列表, 而是返回一个生成器,这个生成器在每次计算出一个条目后,把这个条目“产生”(yield)出来。生成器表达式使用了"延迟计算"(lazy evaluation), 所以它在使用内存上更有效。生成器表达式语法:

</>复制代码

  1. (expr for iter_var in iterable if cond_expr)

生成器并不会让列表解析废弃, 它只是一个内存使用更友好的结构, 基于此, 有很多使用生 成器地方,如下所示:

快速地计算文件大小:

上面我们用列表解析计算出了文件中非空白字符的数目,那么只要用 sum() 函数对每个单词的长度求和,则可大致计算出文件的大小。sum() 函数的参数不仅可以是列表,还可以是可迭代对象,比如生成器表达式。这里我们用生成器表达式改写整个过程:

</>复制代码

  1. sum(len(word) for line in data for word in line.split())

交叉配对:

生成器表达式就好像是懒惰的列表解析(这反而成了它主要的优势)。它还可以用来处理其他列表或生成器:

</>复制代码

  1. rows = [1, 2, 3, 17]
  2. def cols(): # example of simple generator
  3. yield 56
  4. yield 2
  5. yield 1
  6. x_product_pairs = ((i, j) for i in rows for j in cols())
  7. for pair in x_product_pairs:
  8. print pair

寻找文件最长的行:

</>复制代码

  1. def longest(filename):
  2. glines = (x.strip() for x in open(filename))
  3. return max([len(l) for l in glines])
  4. # Script starts from here
  5. if __name__ == "__main__":
  6. print longest("/etc/hosts")

这个例子摘自 《Python核心编程》 中生成器表达式一节,作者在原书中只用了一行代码来实现这个功能,即:

</>复制代码

  1. return max(len(x.strip()) for x in open("/etc/motd"))

这行代码会报出如下错误:

</>复制代码

  1. TypeError: object of type "generator" has no len()

也就是说生成器没有 len() 方法,所以这样并不可行,但是用列表解析则可以用一行实现:

</>复制代码

  1. return max([len(x.strip()) for x in open("/etc/motd")])

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/43095.html

相关文章

  • Python迭代生成、装饰深入解读

    摘要:前言首先,明确可迭代对象迭代器和生成器这三个概念。迭代器对象传送门之迭代器实现原理首先明确它是一个带状态的对象。生成器是一种特殊的迭代器,它的返回值不是通过而是用。 前言 首先,明确可迭代对象、迭代器和生成器这三个概念。 可迭代对象(Iterable) 可迭代对象(Iterable Object),简单的来理解就是可以使用 for 来循环遍历的对象。比如常见的 list、set和di...

    codercao 评论0 收藏0
  • python开发第五篇--装饰内置函数

    摘要:装饰器的应用场景比如插入日志,性能测试,事务处理,缓存等等场景。装饰器完美的遵循了这个开放封闭原则。迭代器迭代器遵循迭代器协议必须拥有方法和方法。直到函数执行结束。调用相关函数用于检查一个对象是否是可调用的。 装饰器 装饰器的含义: 1.装饰器本质上就是一个python函数,他可以让其他函数在不需要做任何代码变动的前提下,增加额外的功能,装饰器的返回值也是一个函数对象。2.装饰器的应用...

    Integ 评论0 收藏0
  • [译] PEP 255--简单的生成

    摘要:第四种选择是在不同的线程中运行生产者和消费者。包含语句的函数被称为生成器函数。然后引发一个异常,表明迭代器已经耗尽。换句话说,未捕获的异常终结了生成器的使用寿命。 showImg(https://segmentfault.com/img/bVbntUq?w=4272&h=2848);我正打算写写 Python 的生成器,然而查资料时发现,引入生成器的 PEP 没人翻译过,因此就花了点时...

    tracymac7 评论0 收藏0

发表评论

0条评论

dreamGong

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<