1、 字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是普通字符。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。 举例1:表达式 c,在匹配字符串 abcde 时,匹配结果是:成功;匹配到的内容是:;匹配到的位置是:开始于2,结束于3。注:下标从0开始还是从1开始,因当前编程语言的不同而可能不同 举例2:bcd开始于1,结束于4。1.2 简单的转义字符 一些不便书写的字符,采用在前面加 的方法。这些字符其实我们都已经熟知了。表达式可匹配r, n代表回车和换行符t制表符代表 本身 还有其他一些在后边章节中有特殊用处的标点符号,在前面加 后,就代表该符号本身。比
2、方:, $ 都有特殊意义,如果要想匹配字符串中 和 $ 字符,则表达式就需要写成 $匹配 符号本身$匹配 $ 符号本身.匹配小数点.本身 这些转义字符的匹配方法与 是类似的。也是匹配与之相同的一个字符。$dabc$de$d开始于3,结束于5。1.3 能够与 多种字符 匹配的表达式 正则表达式中的一些表示方法,可以匹配 其中的任意一个字符。比方,表达式 d 可以匹配任意一个数字。虽然可以匹配其中任意字符,但是只能是一个,不是多个。这就好比玩扑克牌时候,大小王可以代替任意一张牌,但是只能代替一张牌。d任意一个数字,09 中的任意一个w任意一个字母或数字或下划线,也就是 AZ,az,09,_ 中任意
3、一个s包括空格、制表符、换页符等空白字符的其中任意一个.小数点可以匹配除了换行符n以外的任意一个字符dd,在匹配 abc123 时,匹配的结果是:12a.daaa100aa11.4 自定义能够匹配 的表达式 使用方括号 包含一系列字符,能够匹配其中任意一个字符。用 包含一系列字符,则能够匹配其中字符之外的任意一个字符。同样的道理,虽然可以匹配其中任意一个,但是只能是一个,不是多个。ab5匹配 a 或 b5abc, 之外的任意一个字符f-kfk 之间的任意一个字母A-F0-3AF03bcdbcd 匹配 bc开始于1,结束于3。abc1开始于3,结束于4。1.5 修饰匹配次数的特殊符号 前面章节中
4、讲到的表达式,无论是只能匹配一种字符的表达式,还是可以匹配多种字符其中任意一个的表达式,都只能匹配一次。如果使用表达式再加上修饰匹配次数的特殊符号,那么不用重复书写表达式就可以重复匹配。 使用方法是:次数修饰放在被修饰的表达式后边。 可以写成 bcd2作用n表达式重复n次,比方:w2 相当于 wwa5aaaaam,n表达式至少重复m次,最多重复n次,比方:ba1,3可以匹配 ba或baabaaam,表达式至少重复m次,比方:wd2,a12_456M12344.?匹配表达式0次或者1次,相当于 0,1,比方:acd?acad+表达式至少出现1次,相当于 1,,比方:a+babaabaaab*表达
5、式不出现或出现任意次,相当于 0,,比方:*bbd+.?d* 在匹配 It costs $12.512.5开始于10,结束于14。go2,8gleAds by gooooooglegoooooogle开始于7,结束于17。1.6 其他一些代表抽象意义的特殊符号 一些符号在表达式中代表抽象的特殊意义:与字符串开始的地方匹配,不匹配任何字符$与字符串结束的地方匹配,不匹配任何字符b匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符 进一步的文字说明仍然比较抽象,因此,举例帮助大家理解。aaaxxx aaa xxx失败。因为 要求与字符串开始的地方匹配,因此,只有当 aaa 位于字符串的开
6、头的时候, 才能匹配,比方:aaa xxx xxxaaa$ 要求与字符串结束的地方匹配,因此,只有当 位于字符串的结尾的时候,xxx xxx aaa 举例3:.b.abca开始于2,结束于4。 进一步说明:b 与 类似,本身不匹配任何字符,但是它要求它在匹配结果中所处位置的左右两边,其中一边是 w 范围,另一边是 非 的范围。 举例4:bendbweekend,endfor,endend开始于15,结束于18。 一些符号可以影响表达式内部的子表达式之间的关系:|左右两边表达式之间 关系,匹配左边或者右边( )(1). 在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰(2). 取匹配结果
7、的时候,括号中的表达式匹配到的内容可以被单独得到 举例5:Tom|Jack 在匹配字符串 Im Tom, he is JackTom开始于4,结束于7。匹配下一个时,匹配结果是:Jack匹配到的位置时:开始于15,结束于19。 举例6:(gos*)+Lets go go go!匹配到内容是:go go go开始于6,结束于14。 举例7:¥(d+.?d*)10.9,¥20.5¥20.5开始于6,结束于10。单独获取括号范围匹配到的内容是:20.52. 正则表达式中的一些高级规则2.1 匹配次数中的贪婪与非贪婪 在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,
8、比方:m,n, m,*+,具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比方,针对文本 dxxxdxxxd,举例如下:匹配结果(d)(w+)w+ 将匹配第一个 d 之后的所有字符 xxxdxxxd(d)(w+)(d) 和最后一个 之间的所有字符 xxxdxxx虽然 也能够匹配上最后一个 ,但是为了使整个表达式匹配成功, 可以 让出 它本来能够匹配的最后一个 由此可见, 在匹配的时候,总是尽可能多的匹配符合它规则的字符。虽然第二个举例中,它没有匹配最后一个 ,但那也是为了让整个表达式能够匹配成功。同理,带 的表达式都是尽可能地多匹配,带 的表达
9、式在可匹配可不匹配的时候,也是尽可能的 要匹配这 种匹配原则就叫作 贪婪 模式 。 非贪婪模式: 在修饰匹配次数的特殊符号后再加上一个 号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的 不匹配这种匹配原则叫作 非贪婪 模式,也叫作 勉强 模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本 举例:(d)(w+?)w+? 将尽可能少的匹配第一个 之后的字符,结果是: 只匹配了一个 x)(d)为了让整个表达式匹配成功, 不得不匹配 xxx 才可以让后边的 匹配,从而使整个表达式匹配成功