黑马程序员

来源:互联网 发布:js concat 字符串 编辑:程序博客网 时间:2024/06/27 05:09

---------------------- ASP.Net+Android+IOS开发、.Net培训、期待与您交流! ----------------------

一、正则表达式的概述
1、正则表达式是符合一定规则的表达式。
(1) 特点:用一些特定的符号来表示一些代码的操作,这样简化书写。
(2)作用:专门用于操作字符串。
(3)好处:可以简化对字符串的复杂操作。
(4)弊端:符号定义越多,正则越长,阅读性越差。
2、具体的操作功能
(1)匹配:String matches方法;
(2)切割:String split方法;
(3)替换:String replaceAll(regex,str);//如果regex中有定义组,可以在第二参数中通过$符号获取正则表达式中已有的组;
(4)获取:将字符串中符合规则的子串匹配取出。
3、使用技巧:到底用四种功能中的哪一个呢?或者哪几个呢?
            思路方式:
1)如果只想知道该字符是否对是错,使用匹配。
2)想要将已有的字符串变成另一个字符串,替换。
3)想要按照自定的方式将字符串变成多个字符串。切割。获取规则以外的子串。
4)想要拿到符合需求的字符串子串,获取。获取符合规则的子串。
切割:获取规则以外的子串。               获取:获取符合规则的子串。
4、(1)字符类
[abc]      a、b 或 c(简单类)
[^abc]    任何字符,除了 a、b 或 c(否定)
[a-zA-Z]  a 到 z 或 A 到 Z,两头的字母包括在内(范围)
[a-d[m-p]]    a 到 d 或 m 到 p:[a-dm-p](并集)
[a-z&&[def]]   a、e 或 f(交集)
[a-z&&[^bc]]    a 到 z,除了 b 和 c:[ad-z](减去)
[a-z&&[^m-p]]  a 到 z,而非 m 到 p:[a-lq-z](减去)
(2)预定义字符类
.                 任何字符(与行结束符可能匹配也可能不匹配)
\d                数字:[0-9]
\D                非数字: [^0-9]
\s               空白字符:[ \t\n\x0B\f\r]
\S                非空白字符:[^\s]
\w                单词字符:[a-zA-Z_0-9]
\W                非单词字符:[^\w]
(3)边界匹配器
^                 行的开头
$                 行的结尾
\b                单词边界
\B                非单词边界
\A                输入的开头
\G                上一个匹配的结尾
\Z                输入的结尾,仅用于最后的结束符(如果有的话)
\z                输入的结尾
(4)Greedy 数量词
X?                X,一次或一次也没有
X*                X,零次或多次
X+                X,一次或多次
X{n}              X,恰好 n 次
X{n,}             X,至少 n 次
X{n,m}            X,至少 n 次,但是不超过 m 次。


二、经典案例
网页爬虫(蜘蛛)

[java] view plaincopyprint?
  1. import java.io.*; 
  2. import java.util.regex.*; 
  3. import java.net.*; 
  4. import java.util.*; 
  5. class RegexTest2  
  6. public staticvoid main(String[] args) throws Exception 
  7. getMails_1(); 
  8.  
  9. public staticvoid getMails_1()throws Exception 
  10. URL url = new URL("http://192.168.1.254:8080/myweb/mail.html"); 
  11.   URLConnection conn = url.openConnection(); 
  12.   BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream())); 
  13.   String line = null
  14.   String mailreg = "\\w+@\\w+(\\.\\w+)+"
  15. Pattern p = Pattern.compile(mailreg); 
  16.   while((line=bufIn.readLine())!=null
  17. Matcher m = p.matcher(line); 
  18. while(m.find()) 
  19. System.out.println(m.group()); 
  20.  
  21. /*
  22. 获取指定文档中的邮件地址。
  23. 使用获取功能。Pattern  Matcher
  24. */ 
  25. public staticvoid getMails()throws Exception 
  26. BufferedReader bufr =  
  27. new BufferedReader(new FileReader("mail.txt")); 
  28.   String line = null
  29.   String mailreg = "\\w+@\\w+(\\.\\w+)+"
  30. Pattern p = Pattern.compile(mailreg); 
  31.   while((line=bufr.readLine())!=null
  32. Matcher m = p.matcher(line); 
  33. while(m.find()) 
  34. System.out.println(m.group()); 
0 0
原创粉丝点击