JavaScript正则表达式
来源:互联网 发布:lgg5韩版支持哪些网络 编辑:程序博客网 时间:2024/06/10 02:28
JavaScript的正则表达式语法是Perl15的正则表达式语法的大型子集。
正则表达式的创建
像创建对象一样,正则表达式的创建也可以通过2种方式进行定义:直接量创建、RegExp()构造函数创建。
直接量创建
正则表达式直接量为包含在一对斜杠(/)之间的字符。
var pattern = /s$/;
在ECMAScript5中,正则表达式直接量的每次运算都会返回新对象。
RegExp()构造函数创建
同创建对象一样,通过new来调用RegExp()构造函数。
var pattern = new RegExp("s$");
RegExp()的第2个参数是可选的,表示正则表达式的修饰符(g,i,m)。
如果待创建的正则表达式的字符串是由用户输入的,就必须使用RegExp()构造函数在程序运行时创建。
正则表达式的规则
直接量字符
- 正则表达式中的所有字母和数字都是按照字面含义进行匹配的。
- 非字母的字符匹配需要通过反斜线()作为前缀进行转义,如下所示:
- 许多标点符号具有特殊的含义,它们是
^ $ . * + ? = ! : | \ / ( ) [ ] { }
关于控制字符,由于无法直接打印出来,可以通过下面的代码将其escape()编码后显示编码结果,如下:
var str = ''; // 用于存放 \x00-\xff 这256个字符for(var i=0; i<=255; i++) { str += String.fromCharCode(i); // 填充字符}var c='', // 存放转码后的字符 re, // 存放动态生成的表达式 m; // 存放匹配结果for(var i=65; i<=90; i++) { // ascii 65-90 分别对应字符 A-Z c = String.fromCharCode( i ); // 转为字符 A-Z re = RegExp('\\c'+c); // 生成正则表达式 \cA-\cZ m = str.match(re); // 进行匹配 if(m) { // 如果匹配到了就输出 console.log(i, re, escape(m[0]) ); // 输出 ascii码, 正则, 匹配到的字符(无法直接输出显示,需要编码后显示) }}
更多请参考:
js正则之控制字符 \cX
php_js_escaping
ASCII码对照表
字符类 []
- 将直接量字符单独放进方括号内就组成了字符类(character class),一个字符类可以匹配它所包含的任意字符。
如,/[abc]/
可以和字母”a”、”b”、”c”中的任意一个都匹配。 - “^”符号可以否定字符类,将”^”作为左方括号内的第一个字符。
如,/^[abc]/
匹配的是”a”、”b”、”c”之外的所有字符。 - 字符类可以使用连字符(-)表示字符范围。
如,/[a-zA-Z0-9]/
可以匹配任意字母的数字。
以下列出正则表达式的字符类匹配:
注意: 在正则表达式中的特殊字符,在字符类中不再表示原有的含义。
如,”^”符号不再表示匹配开关,而是否定含义。”\b”符号不再表示匹配边界,而是表示退格符。
重复 {}
根据之前的规则,可以使用/\d\d/匹配两位数,/\d\d\d\d/匹配四位数。为了方便匹配,可以使用重复语法。
注意:由于”?”、”*”可以匹配0次,因此它们允许什么都不匹配。如,/a*/
实际可以匹配”bbbb”,因为字符串含有0个a。
非贪婪的重复
上面使用的重复原则,都会在匹配时尽可能多地匹配,而非贪婪的重复则表示尽可能少的匹配。
非贪婪的重复只需要在重复匹配符后添加一个”?”符号。如,”??”、”+?”、”*?”或”{1,5}?”。
对于字符串”aaa”,使用/a+/
匹配结果是”aaa”,而使用/a+?/
的匹配结果则是第1个”a”。
选择 |
字符”|”用于分隔供选择的字符。
如:/\d{3}|[a-z]{4}/
表示匹配的是3位数字 或者 4个小写字母。
分组和引用 ()
正则表达式中的圆括号有多种作用:
- 把单独的项组合成子表达式,以便可以像处理一个独立的单元那样对单元内的项进行处理。
如,/(ab|cd)+|ef/
可以匹配”ef”,也可以匹配字符串”ab”或”cd”的一次或多次重复。 - 可以定义子模式,以便在后部进行引用匹配的文本(不是引用模式表达式),通过\n对第n个括号中的匹配文件进行引用。
如,/['"][^'"]['"]/
表示匹配以单引号或双引号开始或结束的字符串,但是开始和结束的引用并不一定相同。
如果想要匹配开始与结束相同引号,则可以写成/(['"])[^'"]\1/
。
注意:使用括号进行匹配时,结果将返回一个数组,而不是单独的匹配结果。
如果返回数组a,那么a[0]存放的是完整匹配,a[1]存放的是与第1个括号匹配的子串,以此类推。
var str = "Java: The Definition"; var re = new RegExp("(Java: )([A-Z])");var m = str.match(re);if(m) { console.log(m); // => ["Java: T", "Java: ", "T"],注意:返回数组}
同时,JavaScript也支持不带数字编码的分组,不再以”(“和”)”进行分组,而是以”(?:”和”)”进行分组。
如,/([Jj]ava(?:[Ss]cript)?)\sis\s(fun\w*)/
,其中(?:[Ss]cript)
仅用于分组,\2将引用与(fun\w*)
匹配的文本,而不是与(?:[Ss]cript)
匹配的文本。
指定位置匹配 ^ & $
正则表达式中不是匹配实际的字符,而是字符之间的位置,我们称这些元素为正则表达式的锚。
常用的锚元素如下:
如,如果想匹配单词”Java”,可使用正则表达式/\bJava\b/
。
零宽正向先行断言:
var str = "Java: The Definition"; var re = new RegExp("Java(?=\:)(\:)");var m = str.match(re);if(m) { console.log(m); // => ["Java:", ":"],注意:匹配结果不包含先行断言}
零宽负向先行断言:
var str = "JavaBeans";var re = RegExp("Java(?!Script)([A-Z]\w*)");var m = str.match(re);if(m) { console.log(m); // => ["Java", "B"]}
更多请参考:
Regular Expression Lookaround Demystified
修饰符 g & i & m
修饰符是放在”/”符号之外的,即第二条斜线之后。
- 修饰符”i”,用以说明匹配不区分大小写。
- 修饰符”g”,用以说明匹配应该是全局的,即检索出字符串中的所有匹配。
- 修饰符”m”,用以在说明不仅匹配全文,还要匹配每行的文本。如,
/java$/m
不仅可以匹配”java”,也可以匹配”java\nis fun”。
用于模式匹配的String方法
search()方法
"JavaScript".search(/script/i);
如果search()的参数不是正则表达式,则首先会通过RegExp构造函数将它转换成正则表达式。
注意:search()方法不支持全局检索,因为它忽略修饰符g。
replace()
// 将所有不区分大小写的javascript都替换成正确的JavaScripttext.replace(/javascript/gi, "JavaScript");
同时,replace()中可以使用引用”$n”:
// 一段引用文本起始于引号,结束于引号// 中间的内容区域不能包含引号var quote = /"([^"]*)"/g;// 用中文半角引号替换英文引号,$1表示英文引号之间的内容text.replace(quote, ‘ "$1" ’);
另外值得注意的是,replace()方法的第2个参数可以是函数,该函数计算出要替换的字符串:
String.prototype.box = function(){ var entity={ quot:'"', lt:'<', gt:'>' }; // function(a,b,c,d),参数a,b,c,d分别对应匹配结果数组的元素 return function(){ return this.replace(/&([^&;]+);/g, function(a,b,c,d){ var r=entity[b]; return typeof r==='string' ? r : a; }); }}();console.log('<">'.box()); // => <">
注意:replace()支持全局搜索。
match()方法
"1 plus 2 equals 3".match(/\d+/g); // => ["1", "2", "3"]
注意:match()支持全局搜索,如果这个表达式没有设置修饰符g,match()就不会进行全局检索。
split()方法
通过正则表达式表示分隔符:
"1, 2, 3, 4, 5".split("/\s*,\s*/"); // => ["1", "2", "3", "4", "5"]
RegExp对象
RegExp属性
每个RegExp对象都包含5个属性:
- source,一个只读的字符串,包含正则表达式的文本。
- global,一个只读的布尔值,说明这个正则表达式是否带有修饰符g。
- ignoreCase,一个只读的布尔值,说明这个正则表达式是否带有修饰符i。
- multiline,一个只读的布尔值,说明这个正则表达式是否带有修饰符m。
- lastIndex,一个可读/写的整数,如果匹配模式带有g修饰符,这个属性存储下一次检索的开始位置。
RegExp方法
exec()
这个方法类似于String的match()方法,但是当使用修饰符g时,2个方法的返回结果不一样。
- String的match()方法会返回所有的匹配结果(数组对象)
- RegExp的exec()方法则只会返回1个匹配结果(数组对象),并将属性lastIndex设置为下一次搜索的起始索引位置。
var pattern = /Java/g;var text = "JavaScript is more fun than Java!";// 第1次执行exec()var result = pattern.exec(text);console.log(result); // "java"console.log(pattern.lastIndex); // 4// 第2次执行exec()result = pattern.exec(text);console.log(result); // "java"console.log(pattern.lastIndex); // 32
test()
test()的调用等价于exec()调用,只是返回值是一个布尔值,表示匹配是否成功。
var pattern = /java/i;pattern.test("JavaScript"); // => true
注意:
- 与exec()和test()不同,String方法search()、replace()和match()并不会用到lastIndex属性。实际上,String方法只是简单将lastIndex重置为0。
- 如果正则表达式带有修饰符g,则调用exec()和test()方法时注意lastIndex的变化(可以手动设置为0)。
- 在ECMAScript5中,正则表达式直接量的每次计算都会创建一个新的RegExp对象,每个对象都具有各自的lastIndex属性。
- JavaScript 正则 正则表达式
- Javascript 正则表达式javascript
- javascript正则表达式,jquery正则
- javascript正则表达式,jquery正则
- javascript正则表达式,jquery正则
- javascript正则表达式,jquery正则
- JavaScript正则表达式
- JavaScript正则表达式
- javascript中的正则表达式
- JavaScript正则表达式
- javascript正则表达式
- [JavaScript]正则表达式学习
- JavaScript中的正则表达式
- JavaScript正则表达式- -
- javascript正则表达式
- JavaScript正则表达式
- Javascript正则表达式
- javascript 正则表达式总结
- c++工厂模式
- merge中写的属性不起作用
- 规划(AI Planning)
- XML-6处理(C#—XML读取、增加、修改和删除操作 )A-B版本
- 项目34-复数类中的运算符重载
- JavaScript正则表达式
- 什么样的人混得好?
- mysql 5.7以上免安装版本无法找到data文件夹问题的解决办法
- 弹出框
- Redis和Memcached的区别
- WKWebView 与UIWebview 对比讲解
- 读书笔记三--- Date构造函数与字符串
- 第十一周项目训练1
- 详解swift和OC以及C语言的混编(不看后悔!)