python（re 模塊）-有解無憂

1.re.match()

嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就回傳none，
- group()　　以str形式回傳物件中match的元素
- start()　　回傳開始位置
- end()　　回傳結束位置
- span()　　以tuple形式回傳范圍

import re
print(re.match('www', 'www.duoceshi.com').span())  # 在起始位置匹配
print(re.match('www', 'www.duoceshi.com').start())  # 在起始位置匹配
print(re.match('www', 'www.duoceshi.com').end())  # 在起始位置匹配
print(re.match('www', 'www.duoceshi.com').group())  # 在起始位置匹配
print(re.match('duo', 'www.duoceshi.com'))  # 不在在起始位置匹配
print(re.match('com', 'www.duoceshi.com'))  # 不在在起始位置匹配

#結果如下
(0, 3)
0
3
www
None
None

2.re.search()

掃描整個字串并回傳第一個成功的匹配

import re

print(re.search('www', 'www.duoceshi.com').span())  # 在起始位置匹配
print(re.search('com', 'www.duoceshi.com').span())  # 不在起始位置匹配

#結果如下
(0, 3)
(13, 16)

3.re.findall()

在字串中找到正則運算式所匹配的所有子串，并回傳一個串列，如果沒有找到匹配的，則回傳空串列，

import re

print(re.findall("\d","asd123adasd"))   #查找匹配的數字

#結果如下
['1', '2', '3']

4.re.finditer()

和 findall 類似，在字串中找到正則運算式所匹配的所有子串，并把它們作為一個迭代器回傳，

import re

for i in re.finditer("\d","asd123adasd"):   #查找匹配的數字
    print(i.group())

#結果如下
1
2
3

5.re.split()

split 方法按照能夠匹配的子串將字串分割后回傳串列

import re

print(re.split("a","asd123adasd")) 

#結果如下
['', 'sd123', 'd', 'sd']

模式	描述
^	匹配字串的開頭
	import re print(re.findall("^t","python")) print(re.findall("^p","python")) #結果如下 [] ['p']
$	匹配字串的末尾，
	import re print(re.findall("t$","python")) print(re.findall(".n$","python")) #結果如下 [] ['on']
.	匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符，
	import re print(re.findall(".","python")) print(re.findall("t.","python")) #匹配t + 后面的任意字符 #結果如下 ['p', 'y', 't', 'h', 'o', 'n'] ['th']
[...]	用來表示一組字符,單獨列出：[amk] 匹配 'a'，'m'或'k'
	import re print(re.findall("a.","asd123adasd")) print(re.findall("a..","asd123adasd")) print(re.findall("a...","asd123adasd")) print(re.findall("[^a]","asd123adasd")) #結果如下 ['as', 'ad', 'as'] ['asd', 'ada'] ['asd1', 'adas'] ['s', 'd', '1', '2', '3', 'd', 's', 'd']
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符，
	import re print(re.findall("[^th]","python")) #匹配除 th 以外的所有字符 #結果如下 ['p', 'y', 'o', 'n']
re*	匹配0個或多個的運算式，
re+	匹配1個或多個的運算式，
re?	匹配0個或1個由前面的正則運算式定義的片段，非貪婪方式
re{ n}	精確匹配 n 個前面運算式，例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的兩個 o，
re{ n,}	匹配 n 個前面運算式，例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o，"o{1,}" 等價于 "o+"，"o{0,}" 則等價于 "o*"，
re{ n, m}	匹配 n 到 m 次由前面的正則運算式定義的片段，貪婪方式
a\| b	匹配a或b
	import re print(re.findall("y\|a","python")) #匹配 y 或 a #結果如下 ['y']
(re)	對正則運算式分組并記住匹配的文本
(?imx)	正則運算式包含三種可選標志：i, m, 或 x ，只影響括號中的區域，
(?-imx)	正則運算式關閉 i, m, 或 x 可選標志，只影響括號中的區域，
(?: re)	類似 (...), 但是不表示一個組
(?imx: re)	在括號中使用i, m, 或 x 可選標志
(?-imx: re)	在括號中不使用i, m, 或 x 可選標志
(?#...)	注釋.
(?= re)	前向肯定界定符，如果所含正則運算式，以 ... 表示，在當前位置成功匹配時成功，否則失敗，但一旦所含運算式已經嘗試，匹配引擎根本沒有提高；模式的剩余部分還要嘗試界定符的右邊，
(?! re)	前向否定界定符，與肯定界定符相反；當所含運算式不能在字串當前位置匹配時成功
(?> re)	匹配的獨立模式，省去回溯，
\w	匹配字母數字及下劃線
\W	匹配非字母數字及下劃線
\s	匹配任意空白字符，等價于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意數字，等價于 [0-9].
\D	匹配任意非數字
\A	匹配字串開始
\Z	匹配字串結束，如果是存在換行，只匹配到換行前的結束字串，
\z	匹配字串結束
\G	匹配最后匹配完成的位置，
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置，例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'，
\B	匹配非單詞邊界，'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'，
\n, \t, 等.	匹配一個換行符，匹配一個制表符，等
\1...\9	匹配第n個分組的內容，
\10	匹配第n個分組的內容，如果它經匹配，否則指的是八進制字符碼的運算式，

參考：https://www.cnblogs.com/shenjianping/p/11647473.html

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/170379.html

標籤：Python

上一篇：《自拍教程46》Python adb自動拍照100張

下一篇：python基礎學習day9：函式的初識