使用Python正则表达式操作文本数据

Yuanf 发布于2019-07-31 10:24 / 1559人阅读

摘要：在中，使用的内置模块处理正则表达式操作。使用正则表达式对象在字符串中搜索模式。编写和使用正则表达式在中创建正则表达式的第一步是导入模块正则表达式使用模式字符串表示，模式字符串是指定所需搜索模式的字符串。

来源 | 愿码(ChainDesk.CN)内容编辑

愿码Slogan | 连接每个程序员的故事

网站 | http://chaindesk.cn

愿码愿景 | 打造全学科IT系统免费课程，助力小白用户、初级工程师0成本免费系统学习、低成本进阶，帮助BAT一线资深工程师成长并利用自身优势创造睡后收入。

官方公众号 | 愿码 | 愿码服务号 | 区块链部落

免费加入愿码全思维工程师社群 | 任一公众号回复“愿码”两个字获取入群二维码

本文阅读时长：7min

什么是正则表达式

正则表达式，是简单地字符的序列，可指定特定的搜索模式。正则表达式已存在很长一段时间，并且它本身就是计算机科学的一个领域。

在 Python中，使用Python的内置re模块处理正则表达式操作。在本节中，我将介绍创建正则表达式并使用它们的基础知识。您可以使用以下步骤实现正则表达式：

指定模式字符串。

将模式字符串编译为正则表达式对象。

使用正则表达式对象在字符串中搜索模式。

可选：从字符串中提取匹配的模式。

编写和使用正则表达式

在Python中创建正则表达式的第一步是导入re 模块：

import re

Python正则表达式使用模式字符串表示，模式字符串是指定所需搜索模式的字符串。在最简单的形式中，模式字符串只能由字母，数字和空格组成。以下模式字符串表示精确字符序列的搜索查询。您可以将每个角色视为一个多带带的模式。在后面的例子中，我将讨论更复杂的模式：

import re

pattern_string = "this is the pattern"

下一步是将模式字符串处理为Python可以使用的对象，以便搜索模式。这是使用re模块的compile（）方法完成的。的编译（）方法将图案字符串作为参数并返回一个正则表达式对象：

import re

pattern_string = "this is the pattern" regex = re.compile(pattern_string)

获得正则表达式对象后，可以使用它在搜索字符串中搜索模式字符串中指定的模式。搜索字符串只是您要在其中查找模式的字符串的名称。要搜索模式，可以使用regex对象的search（）方法，如下所示：

import re

pattern_string = "this is the pattern" regex = re.compile(pattern_string)

match = regex.search("this is the pattern")

如果模式字符串中指定的模式位于搜索字符串中，则search（）方法将返回匹配对象。否则，它返回None数据类型，这是一个空值。

由于Python相当松散地解释了True和False值，因此搜索函数的结果可以像if语句中的布尔值一样使用，这可能相当方便：

....

match = regex.search("this is the pattern") if match:

print("this was a match!")

这个模式应该产生一个匹配，因为它与模式字符串中指定的模式完全匹配。如果在搜索字符串的任意位置找到模式，搜索函数将生成匹配，如下所示:

....

match = regex.search("this is the pattern") if match:

print("this was a match!")

if regex.search("*** this is the pattern ***"): print("this was not a match!")

if not regex.search("this is not the pattern"): print("this was not a match!")

特殊字符

正则表达式取决于使用某些特殊字符来表达模式。因此，除非用于预期目的，否则不应直接使用以下字符：

. ^ $ * + ? {} () [] |

如果确实需要使用模式字符串中的任何前面提到的字符来搜索该字符，则可以编写以反斜杠字符开头的字符。这称为转义字符。这是一个例子：

pattern string = "c*b"

## matches "c*b"

如果需要搜索反斜杠字符本身，则使用两个反斜杠字符，如下所示：

pattern string = "cb"

## matches "cb"

匹配空格

在模式字符串中的任何位置使用s都匹配空白字符。这比空格字符更通用，因为它适用于制表符和换行符：

....

a_space_b = re.compile("asb") if a_space_b.search("a b"):

print(""a b" is a match!")

if a_space_b.search("1234 a b 1234"): print(""1234 a b 1234" is a match")

if a_space_b.search("ab"):

print(""1234 a b 1234" is a match")

匹配字符串的开头

如果在模式字符串的开头使用^字符，则只有在搜索字符串的开头找到模式时，正则表达式才会产生匹配：

....

a_at_start = re.compile("^a") if a_at_start.search("a"):

print(""a" is a match")

if a_at_start.search("a 1234"): print(""a 1234" is a match")

if a_at_start.search("1234 a"): print(""1234 a" is a match")

匹配字符串的结尾

类似地，如果在模式字符串的末尾使用$符号，则正则表达式将仅在模式出现在搜索字符串的末尾时生成匹配：

....

a_at_end = re.compile("a$") if a_at_end.search("a"):

print(""a" is a match") if a_at_end.search("a 1234"):

print(""a 1234" is a match") if a_at_end.search("1234 a"):

print(""1234 a" is a match")

匹配一系列字符

可以匹配一系列字符而不是一个字符。这可以为模式增加一些灵活性：

[A-Z] matches all capital letters

[a-z] matches all lowercase letters

[0-9] matches all digits

....

lower_case_letter = re.compile("[a-z]") if lower_case_letter.search("a"):

print(""a" is a match")

if lower_case_letter.search("B"): print(""B" is a match")

if lower_case_letter.search("123 A B 2"): print(""123 A B 2" is a match")

digit = re.compile("[0-9]") if digit.search("1"):

print(""a" is a match") if digit.search("342"):

print(""a" is a match") if digit.search("asdf abcd"):

print(""a" is a match")

匹配几种模式中的任何一种

如果存在构成匹配的固定数量的模式，则可以使用以下语法组合它们：

(||)

以下a_or_b正则表达式将匹配任何字符或ab字符的字符串：

....

a_or_b = re.compile("(a|b)") if a_or_b.search("a"):

print(""a" is a match") if a_or_b.search("b"):

print(""b" is a match") if a_or_b.search("c"):

print(""c" is a match")

匹配序列而不是仅匹配一个字符

如果+字符位于另一个字符或模式之后，则正则表达式将匹配该模式的任意长序列。这非常有用，因为它可以很容易地表达可以是任意长度的单词或数字。

将模式放在一起

通过一个接一个地组合图案串可以产生更复杂的图案。在下面的示例中，我创建了一个正则表达式，用于搜索严格后跟单词的数字。生成正则表达式的模式字符串由以下内容组成：

与数字序列匹配的模式字符串：[0-9]+与空白字符匹配的模式字符串：s与字母序列匹配的模式字符串：[az] +

与字符串结尾或空格字符匹配的模式字符串：（s | $）

....

number_then_word = re.compile("[0-9]+s[a-z]+(s|$)")

正则表达式split（）函数

Python中的Regex 对象也有一个split（）方法。split方法将搜索字符串拆分为子字符串数组。所述分裂发生在沿着其中该图案被识别的字符串中的每个位置。结果是在模式的实例之间出现的字符串数组。如果模式出现在搜索字符串的开头或结尾，则分别在结果数组的开头或结尾包含一个空字符串：

....

print(a_or_b.split("123a456b789")) print(a_or_b.split("a1b"))

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/43766.html

python爬虫抓取纯静态网站及其资源

摘要：下面跟大家详细分享一下写爬虫抓取静态网站的全过程。而我们上面说的元字符都代表一定的规则和占据一定的字符。遇到的需求前段时间需要快速做个静态展示页面，要求是响应式和较美观。由于时间较短，自己动手写的话也有点麻烦，所以就打算上网找现成的。中途找到了几个页面发现不错，然后就开始思考怎么把页面给下载下来。由于之前还没有了解过爬虫，自然也就没有想到可以用爬虫来抓取网页内容。所以我采取的办...

daydream 2019-07-30 17:16 评论0 收藏0
【Python】Python正则表达式使用指导

摘要：反斜杠的困扰与大多数编程语言相同，正则表达式里使用作为转义字符，这就可能造成反斜杠困扰。文本中正则表达式结束搜索的索引。以元组形式返回全部分组截获的字符串。用于指定最大分割次数，不指定将全部分割。 1. 正则表达式基础 1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法...

nihao 2019-07-30 16:51 评论0 收藏0
Python实用技法第30篇：从字符串中去掉不需要的字符

摘要：上一篇文章实用技法第篇用正则表达式处理字符下一篇文章实用技法第篇文本过滤和清理问题我们想在字符串的开始结尾或中间去掉不需要的字符，比如说空格符。解决方案方法可用来从字符串的开始和结尾处去掉字符。上一篇文章： Python实用技法第29篇：用正则表达式处理Unicode字符下一篇文章：Python实用技法第31篇：文本过滤和清理　问题我们想在字符串的开始、结尾或中间去掉不需要的字...

yck 2019-07-31 10:37 评论0 收藏0
Python中的正则表达式

摘要：正则表达式就是用来描述他称为正则集的代数的表达式，因此采用正则表达式这个术语。文本中正则表达式结束搜索的索引值与和方法的同名参数相同。对象是一个编号的正则表达式通过提供的一系列方法可以对文本进行匹配查找。一、概述今天这篇文章带领大家学习一下Python中的正则表达式,当然了,正则表达式本身的内容就足以写好几本书了,我们这里列出的内容,仅仅是Python中常用的和基础的一些内容。那...

Juven 2019-07-31 10:18 评论0 收藏0
Python正则表达式简记和re库

摘要：正则表达式是定义搜索模式的字符序列。通常这种模式被字符串搜索算法用于字符串上的查找或查找和替换操作，或者用于输入验证。正则表达式是定义搜索模式的字符序列。通常这种模式被字符串搜索算法用于字符串上的查找或查找和替换操作，或者用于输入验证。 1. 正则表达式的语法 . 表示任何单个字符 [] 字符集，对单个字符给出取值范围 [^] 非字符集，对单个字符给出排除范围 *前一个字符0次或者...

hizengzeng 2019-07-31 10:02 评论0 收藏0