正则表达式十步通关

创始人

2024-06-03 03:43:19

0次

正则表达式（regular expression）是对字符串操作的一种逻辑公式。学习正则表达式，实际上是学习一种十分灵活的逻辑思维，通过简单、快速的方法达到对字符串的控制。可以说正则表达式是程序员手中一种威力无比巨大的武器！

正则表达式大有用处，这里简要介绍几种常见的用途。

测试字符串内的模式。可以测试输入字符串，以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
替换文本。可以使用正则表达式来识别文档中特定文本，完全删除该文本或者用其他文本替换。
基于模式匹配从字符串中提取子字符串。可以查找文档内或者输入域内特定的文本等并删除或替换。例如，你可能需要搜索整个网站，删除过时的资料，以及替换某些HTML格式标记。在这些情况下，可以使用正则表达式来确定每个文件中是否出现相应材料或HTML标记。此过程将受影响的文件范围缩小到包含需要删除或更改的材料的那些文件。然后可以使用正则表达式来删除过时的材料。最后，可以使用正则表达式来搜索和替换HTML格式标记。
总结下来，正则表达式最核心的功能就是搜索和替换。

第一关：基本的字符串搜索方法

在Vim文本编辑器的一般命令模式（Normal Mode）下按/输入文本main（与按:进入底线命令模式类似的方式），即在当前文档中向光标之下寻找文本模式为main的字符串。例如，要在文件内搜索RegEx这个字符串，输入/RegEx按Enter键即可。在底部的状态栏可以看到输入的搜索命令/RegEx，按Enter键之后光标就停在了搜索到的下一个RegEx字符串上。相应地，?word是向光标之上寻找一个文本模式为word的字符串。

按Enter键搜索到一个目标字符串之后按N键，代表重复前一个搜索的动作继续搜索目标字符串。举例来说，如果我们刚刚执行/RegEx向下搜寻到RegEx这个字符串，按N键后，会继续向下搜索RegEx字符串。如果是执行?RegEx，那么按N键会向上继续搜寻RegEx字符串。

按Enter键搜索到一个目标字符串之后，我们可以用Shift+N快捷键，反方向进行前一个搜索动作（与按N键实现的功能相反）。例如/RegEx后，按Shift + N快捷键则表示向上搜寻RegEx。

第二关：同时搜索多个字符串的方法

在Vim文本编辑器中，只要在多个字符串之间增加或运算符“|”，比如“/main|int”，即可同时搜索多个字符串。你也可以同时搜索超过两个字符串，通过添加更多的或运算符来分隔它们，比如/yes|no|maybe。

第三关：在匹配字符串时的大小写问题

到目前为止，你已经知道使用正则表达式进行字符串匹配的方法了。但有时，你也可能想要匹配具有大小写差异的字符串。比如大写字母“A”，“B”,小写字母“a”，“b”。

在Vim文本编辑器中可通过底线命令方式:set ignorecase将其设置为忽略大小写，可通过:set noignorecase使其恢复到大小写敏感的状态。Vim文本编辑器默认是大小写敏感的。

类Unix操作系统默认都是大小写敏感的，而Windows操作系统默认是大小写不敏感的。

在Vim文本编辑器中也可以通过\c表示大小写不敏感，\C表示大小写敏感。比如/ignorecase\c，表示可以匹配“ignorecase”、“igNoreCase”和“IgnoreCase”等。

第四关：通配符的基本用法

有时不知道文件的确切字符，就找出所有可能与之相匹配的单词，但如果拼写错误会浪费很长时间。幸运的是，可以使用通配符 "." "+" "*" "?" 查找以节省时间。

通配符 “.” 表示将匹配任意一个字符。该通配符也可称之为dot和period。你可以像使用正则表达式中的任何其他字符一样使用通配符。例如，你想匹配“hug”，“huh”，“hut”和“hum”等，可以使用正则表达式hu. 来匹配所有可能得字符串。
通配符 “+” 表示查找出现一次或多次的字符。例如要匹配“hahhhhh”，可以使用正则表达式hah+。
通配符 “*” 表示匹配零次或多次出现的字符。例如，使用正则表达式hah*可以匹配ha字符串，因为*表示前一个字符出现零次或多次都是符合正则表达式条件的。
通配符 “?” 表示指定可能存在的元素，也就是检查前一个元素存在与否，如正则表达式colou?r中的通配符“?” 前面的u字符存在和不存在这两种情况的字符串都符合匹配条件。

简要总结一下：通配符“.” 表示任意一个字符；“?” 表示其前的一个字符是否存在，也就是存在0次或1次；“+”表示前一个字符出现一次或多次；“*” 表示前一个字符出现0次、1次或多次。

如果有指定查找某个字符出现3~5次的情况该怎么办呢？可以使用数量说明符指定下限次数和上限次数。数量说明符使用大括号“{}”，将两个数字放在大括号之间并使用逗号“,”隔开表示字符出现的上限次数和下限次数。

要匹配字符串“aaah”中出现3~5次字母a，正则表达式是a{3,5}h。
要匹配字符串“haaah”与至少出现3次字母a，正则表达式是ha{3,}h。
仅匹配字符串“haaah”（出现3次字母a），正则表达式是ha{3}h。

第五关：匹配具有多种可能性的字符集

前文介绍了如何匹配完整的字符串以及通配符“.” “+” “*” “?” 等，这些只是正则表达式的两种极端情况，一种是查找完整的字符串进行匹配，另一种通过通配符可以匹配任意字符出现零次、一次和多次的方法。

除此之外，我们可以使用字符集来灵活地搜索字符。

方括号“[]”用来定义一组你希望匹配的字符。例如，你要匹配"bag"，"big"，“bug”而不是“bog”，此时可以创建正则表达式b[aiu]g来执行此操作。[aiu]是只匹配字符"a" "i" 或 "u"的字符集。
连字符“-”用来定义要匹配的字符的范围。当需要匹配一系列字符（例如字母表中的每个字母）时，需要输入很多字符。幸运的是，在字符集中，你可以使用连字符“-”定义要匹配的字符范围。例如匹配小写字母a到e，可以使用[a-e]。使用连字符匹配一系列字符并不只限于字母，也可以匹配一系列数字。例如字符集[0-5]匹配0和5之间的所有数字，包括0和5。
字符“^”用来定义不想匹配的字符，称为否定字符集。要创建一个否定字符集，可以在左边的方括号之后放置一个插入字符“^”。例如[^aeiou]表示排除“a” “e” “i” “o” “u”。

如果匹配的可能存在的字符太多，写起来不是很方便，可使用字符集提供的快捷写法。