Python 正则表达式方法 rematch() 和 resub()

php中文网 2024-10-15 11:08:53

介绍

让我们通过示例来了解一下 python re 模块中的两个方法 re.sub() 和 re.match()。

1. re.sub():

re.sub() 函数用于替换字符串中模式的出现。它需要三个主要参数：

您要替换的模式（正则表达式）。
替换字符串（您想要替换的字符串）。
要替换其中出现的模式的原始字符串。

语法：

re.sub(pattern, replacement, string, count=0, flags=0)

模式：要搜索的正则表达式模式。
replacement: 替换匹配模式的字符串。
string：将发生替换的输入字符串。
count：（可选）限制替换次数。默认情况下，所有出现的地方都会被替换。
flags：（可选）允许修改匹配行为（例如不区分大小写）。

示例：

让我们用单词 num 替换字符串中的所有数字。

import re

text = "the price is 123 dollars and 45 cents."
new_text = re.sub(r'd+', 'num', text)

print(new_text)

输出:

the price is num dollars and num cents.

这里，d+ 是匹配一个或多个数字的正则表达式模式。 re.sub() 函数用字符串“num”替换此模式的所有出现。

2. re.match():

re.match() 函数仅检查字符串开头的匹配。如果在字符串的开头找到匹配项，则返回一个匹配对象。否则，它返回 none。

立即学习“Python免费学习笔记（深入）”；

语法：

re.match(pattern, string, flags=0)

模式：要匹配的正则表达式模式。
string：要搜索的输入字符串。
flags：（可选）允许修改匹配行为。

示例：

让我们检查一个字符串是否以单词开头，后跟数字。

import re

text = "price123 is the total cost."
match = re.match(r'w+d+', text)

if match:
    print(f"matched: {match.group()}")
else:
    print("no match found")

输出:

matched: price123

这里，w+匹配一个或多个单词字符（字母、数字和下划线），d+匹配一个或多个数字。由于字符串以“price123”开头，因此成功匹配并打印它。

主要区别：

re.sub() 用于替换，适用于整个字符串。
re.match() 检查字符串 是否以匹配的 开头，并且不会搜索超出字符串中第一个匹配项的内容。

您想要更多示例或更深入地了解正则表达式吗？

让我们通过更高级的示例和正则表达式 (regex) 模式的解释来更深入地了解 re.sub() 和 re.match()。

re.sub() 高级示例：

假设我们想通过替换电话号码的格式来格式化电话号码。我们有 123-456-7890 等电话号码，我们希望将其替换为 (123) 456-7890 等格式。

示例：

import re

text = "contact me at 123-456-7890 or 987-654-3210."
formatted_text = re.sub(r'(d{3})-(d{3})-(d{4})', r'(1) 2-3', text)

print(formatted_text)

说明：

d{3}：这正好匹配 3 位数字。
(d{3})：括号 () 用于捕获组。在本例中，我们将前三位数字作为一组进行捕获。
r'(1) 2-3'：这是替换字符串。它使用 1、2 和 3 来指代捕获的组（分别是区号、前三位数字和后四位数字）。
因此，此示例查找 123-456-7890 格式的电话号码，并将其转换为 (123) 456-7890。

输出:

contact me at (123) 456-7890 or (987) 654-3210.

re.match() 高级示例：

现在让我们看看如何将 re.match() 与更复杂的模式一起使用。假设您想要验证给定字符串是否是有效的电子邮件地址，但我们只想检查它是否以电子邮件格式开头。

示例：

import re

email = "someone@example.com sent you a message."

# basic email pattern matching the start of a string
pattern = r'^[a-za-z0-9_.+-]+@[a-za-z0-9-]+.[a-za-z0-9-.]+'

match = re.match(pattern, email)

if match:
    print(f"valid email found: {match.group()}")
else:
    print("no valid email at the start")

说明：

^[a-za-z0-9_.+-]+：此部分匹配一个或多个字母数字字符、点 (.)、下划线 (_)、加号 (+) 或连字符 (-)。 ^ 确保匹配从字符串的开头开始。
@[a-za-z0-9-]+：匹配 @ 符号后跟一个或多个字母数字字符或连字符（域名）。
.[a-za-z0-9-.]+：匹配点 (.) 后跟字母数字字符、连字符或其他点（顶级域）。

此模式将匹配字符串开头的有效电子邮件地址。

输出:

valid email found: someone@example.com

解释常见的正则表达式模式：

d：匹配任意数字（相当于[0-9]）。
w：匹配任何单词字符（字母数字加下划线）。相当于[a-za-z0-9_]。
+：匹配前面的字符或组出现 1 次或多次。
*：匹配前面的字符或组出现 0 次或多次。
.：匹配除换行符之外的任何字符。
^：将模式锚定到字符串的开头。
$：将模式锚定到字符串的结尾。
{m,n}：前面的字符或组出现 m 到 n 次之间的匹配。
[ ]：用于定义字符集。例如，[a-z] 匹配任意小写字母。
()：用于捕获组，允许我们提取匹配的部分并稍后引用它们（如 re.sub() 中）。

将 re.sub() 与函数结合：

如果您想要更多动态行为，您还可以使用函数作为 re.sub() 中的替代品。让我们看看如何。

示例：将句子中的每个单词大写。

import re

text = "this is a test sentence."

def capitalize(match):
    return match.group(0).capitalize()

new_text = re.sub(r'bw+b', capitalize, text)

print(new_text)

说明：

b：字边界。
w+：匹配一个或多个单词字符。
每次匹配都会调用 capitalize() 函数，它将每个单词的第一个字母大写。

输出:

this is a test sentence.

re.match() 与 re.search()：

如果你想在字符串中任何地方搜索模式（不仅仅是在开头），你应该使用re.search()而不是re.match()。

使用 re.search() 的示例：

import re

text = "this is my email someone@example.com"

# search for an email pattern anywhere in the string
pattern = r'[a-za-z0-9_.+-]+@[a-za-z0-9-]+.[a-za-z0-9-.]+'

search = re.search(pattern, text)

if search:
    print(f"email found: {search.group()}")
else:
    print("no email found")

输出: