资讯专栏INFORMATION COLUMN

Python 正则表达式

FrancisSoung / 1708人阅读

摘要:今天就专门看看正则表达式。下面是一个正则表达式最简单的使用例子。这个例子使用了正则表达式模块的函数,它会返回所有符合模式的列表。查询标志让正则表达式具有不同的行为。,按给定正则表达式分割字符串。,正则表达式中捕获组的数量。

最近研究Python爬虫,很多地方用到了正则表达式,但是没好好研究,每次都得现查文档。今天就专门看看Python正则表达式。本文参考了官方文档 re模块。

模式

首先正则表达式的语法我就不说了,这玩意倒是不算难,用的时候现查就行了——正则表达式_百度百科。

在很多编程语言中,由于有转义字符这么一种东西的存在,导致正则表达式需要使用两个斜杠来处理。如果编程语言支持原始字符串,那么就不需要两个斜杠了。在Python中,字符串前面添加字母r即可把字符串变成原始字符串。

下面是一个正则表达式最简单的使用例子。我们查找所有以字母F开头的单词,不论大小写。这个例子使用了正则表达式模块的re.findall函数,它会返回所有符合模式的列表。

import re

text = "fuck shit it make she forest"

results = re.findall(r"[Ff]w+", text)
print(results)

如果某一个模式需要经常使用,我们可以把它编译为模式对象。然后从模式对象上调用各种正则查询方法。这样做的优点是:由于模式已经编译了,所以后续的查询速度会更快。

pattern = re.compile(r"[Ff]w+")
print(pattern.findall(text))
查询标志

大部分查询方法还可以接受一个查询标志参数。查询标志让正则表达式具有不同的行为。下面一一说明。

标志 作用
re.A、re.ASCII 以ASCII模式查询,默认是Unicode模式
re.DEBUG 显示编译表达式的调试信息
re.I、re.IGNORECASE 忽略字母的大小写
re.L、re.LOCALE 以区域敏感方式查询匹配
re.M、re.MULTILINE 开启多行模式,开启之后行边界符^$会匹配每行的开始和结束,而不是整个字符串的开始和结束
re.S、re.DOTALL 使用此标志,会让点符号匹配所有字符,默认情况下点符号会匹配换行符以外的符号
re.X、re.VERBOSE 开启啰嗦模式,可以在写正则表达式的时候添加注释

下面是啰嗦模式的例子,来自Python官方文档。

a = re.compile(r"""d +  # the integral part
                   .    # the decimal point
                   d *  # some fractional digits""", re.X)
b = re.compile(r"d+.d*")
查询方法

查询方法有两种形式,第一种是re模块的函数,这些函数需要接受一个模式字符串。第二种就是从编译好的模式对象上调用,这样不需要模式字符串了。基本上大部分方法都有这两种形式,所以这里只需要介绍一种形式。

re.search(pattern, string, flags=0)方法查询字符串,返回第一个结果的匹配对象。不管有多少个满足条件的字符串,这个方法之返回第一个。如果查询不到,就返回None。

re.match(pattern, string, flags=0)查询字符串,当字符串的前面一部分和模式匹配的时候,会返回相应的匹配对象。如果不匹配,那么返回None。需要注意即使开启了多行模式,这个方法也只查询字符串最前面的一部分,不会查询每行的前面。

re.fullmatch(pattern, string, flags=0),如果整个字符串和模式匹配,返回相应的匹配对象。否则返回None。

re.split(pattern, string, maxsplit=0, flags=0),按给定正则表达式分割字符串。

re.findall(pattern, string, flags=0),最常用的方法,返回一个列表,包含所有匹配模式的字符串。

re.finditer(pattern, string, flags=0),和findall方法类似,不过返回的是一个迭代器。

re.sub(pattern, repl, string, count=0, flags=0),将字符串中匹配模式的部分使用repl替换,返回替换后的字符串。

re.subn(pattern, repl, string, count=0, flags=0),和sub方法类似,不过返回元组(新字符串,替换的数量)

re.purge(),清除正则表达式缓存。

在已编译好的正则表达式对象上还有以下几个属性。

flags,正则表达式的所有标志,包括flags参数设置的,compile方法编译传入的,以及正则表达式中本身的标志。

groups,正则表达式中捕获组的数量。

pattern,返回模式字符串。

groupindex,返回(?P)形式的命名组和组编号键值对组成的字典。

匹配对象

上面提到的很多方法都返回匹配对象。匹配对象包含了一些方法和属性,方便我们进行查询。

最常用的就是group函数,它会返回指定组对应的字符串。下面的例子就查询了给定数据中的数据量和每页的条数。第0组返回整个匹配,第1组返回第一个匹配,以此类推……也可以采用命名组的方式。

text = "总共20条数据 每页5条"
pattern = re.compile(r"总共(?Pd+)条数据s+每页(?Pd+)条")

match = pattern.match(text)
print(match.group(0))

另一个比较常用的函数就是groups(default=None),它返回所有组组成的元组。如果有的组没有匹配到字符串,就会显示为None,这时候可以使用default参数指定默认值。

text = "总共20条数据 每页5条"
pattern = re.compile(r"总共(?Pd+)条数据s+每页(?Pd+)条")

match = pattern.match(text)

print(match.groups())

# 结果
# ("20", "5")

groupdict(default=None)返回组名和字符串组成的字典。还是上面的例子。

print(match.groupdict())
# {"total": "20", "per": "5"}

startend函数返回给定组的在字符串的起始和结束索引,如果对应的组没有任何匹配,则返回-1。下面的例子来自Python官方文档,从电子邮件地址中去除remove_this。

>>> email = "tony@tiremove_thisger.net"
>>> m = re.search("remove_this", email)
>>> email[:m.start()] + email[m.end():]
"tony@tiger.net"

match.span([group])返回给定组的起始索引和结束索引组成的元组。

以上就是Python正则表达式的大部分内容了,灵活使用这些知识,可以获得强大的功能。关于如何巧用,就看大家的智慧了。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/38581.html

相关文章

  • Python基础教程:-正则达式基本语法以及re模块

    摘要:正则表达式关闭或可选标志。如果所含正则表达式,以表示,在当前位置成功匹配时成功,否则失败。否则指的是八进制字符码的表达式。 正则表达式是个很牛逼的东西,不管是在javascript,还是在Python web开发(http://www.maiziedu.com/course/python-px...)中,我们都会遇到正则表达式,虽然javascript和Python的正则表达式区别不大...

    y1chuan 评论0 收藏0
  • python 正则达式

    摘要:正则表达式是一种用来匹配字符串的强有力的武器。正则表达式匹配如果直接给出字符,就是精确匹配。模块提供模块,包含所有正则表达式的功能。分组除了简单地判断是否匹配之外,正则表达式还有提取子串的强大功能。 正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它匹配了,否则,该字符串就是不合法的。 showImg...

    孙淑建 评论0 收藏0
  • PythonPython正则达式使用指导

    摘要:反斜杠的困扰与大多数编程语言相同,正则表达式里使用作为转义字符,这就可能造成反斜杠困扰。文本中正则表达式结束搜索的索引。以元组形式返回全部分组截获的字符串。用于指定最大分割次数,不指定将全部分割。 1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法...

    nihao 评论0 收藏0
  • Python正则达式保姆式教学,带你精通大名鼎鼎的正则

    摘要:今天来给大家分享一份关于比较详细的正则表达式宝典,学会之后你将对正则表达式达到精通的状态。正则表达式是用在方法当中,大多数的字符串检索都可以通过来完成。导入模块在使用正则表达式之前,需要导入模块。 ...

    tulayang 评论0 收藏0
  • Python正则达式很难?一篇文章搞定他,不是我吹!

    摘要:正则表达式语法字符与字符类特殊字符以上特殊字符要想使用字面值,必须使用进行转义字符类包含在中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指定量词则只会匹配其中的一个。 1. 正则表达式语法 1.1 字符与字符类 1 特殊字符:.^$?+*{}| 以上特殊字符要想使用字面值,必须使用进行转义 2 字符类 1. 包含在[]中的一个或者多个字符被称为字符类,字符类在匹配时如果没有指...

    dcr309duan 评论0 收藏0

发表评论

0条评论

FrancisSoung

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<