Python學習日志13 - 正則運算式-有解無憂

Python學習日志

RBHGO的主頁歡迎關注

溫馨提示：創作不易，如有轉載，注明出處，感謝配合~

文章目錄

- Python學習日志
- - 目錄
  - - 前言
    - 進入正題
  - Python學習日志13課 - 正則運算式
  - - 基本符號表
    - Python對正則運算式的支持
    - 例題
    - - (1).用正則運算式分別驗證QQ號和用戶名
      - (2).用正則運算式找到所給字串中所有的數字
      - (3).用正則運算式匹配新聞的標題及鏈接
      - (4).替換字串中的不良內容
      - (5).拆分長字串
    - 總結

前言

上次分享了如何使用Python實作辦公自動化，基于我們的日常學習作業，它的用處是還是非常大的，我分享了很大一部分檔案的操作方法辦公自動化有興趣的話可以去閱讀一下，最好還能點個贊，幫我指錯哦，在這里就通過一個例題稍微回顧，然后開始今天的分享內容，我們先來看例題，

1.將三個Excel檔案的內容合并到一個Excel檔案中
2.將合并后的Excel檔案轉換成一個CSV檔案

"""
1.將三個Excel檔案的內容合并到一個Excel檔案中

Author: RBHGO
"""
import openpyxl
from openpyxl.styles import Font, Alignment, Border, Side


sum_wb = openpyxl.Workbook()
sum_sheet = sum_wb.active
sum_sheet.title = '銷售匯總資料'
row_index = 2
# 改變單元格樣式
sum_sheet.append(('藥房2018年銷售資料匯總', ))
cell = sum_sheet['A1']  # type: Cell
cell.alignment = Alignment(horizontal='center')

# 合并單元格
sum_sheet.merge_cells('A1:G1')
sum_sheet.append(('購藥時間', '社保卡號', '商品編碼',
                  '商品名稱', '銷售數量', '應收金額',
                  '實收金額'))


names = ('高新', '新津', '犀浦')
for name in names:
    wb = openpyxl.load_workbook(f'resources/藥房（{name}店）2018年銷售資料.xlsx')
    sheet = wb.worksheets[0]
    flag = True
    for row in sheet.iter_rows(min_row=3):
        for col_index, cell in enumerate(row):
            if cell.value is None:
                flag = False
                break
            sum_sheet.cell(row_index, col_index + 1, cell.value)
        if not flag:
            break
        row_index += 1
sum_wb.save('resources/藥房2018年銷售資料匯總.xlsx')

"""
2.將合并后的Excel檔案轉換成一個CSV檔案

Author: RBHGO
"""
import csv

import openpyxl

workbook = openpyxl.load_workbook('resources/藥房2018年銷售資料匯總.xlsx')
worksheet = workbook.worksheets[0]
data = [[cell.value for cell in row]
        for row in worksheet[f'A3:G{worksheet.max_row}']]
with open('resources/sales_data.csv', 'w', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(('購藥時間', '社保卡號', '商品編碼',
                     '商品名稱', '銷售數量', '應收金額',
                     '實收金額'))
    writer.writerows(data)

進入正題

在撰寫處理字串的程式或網頁時，經常會有查找符合某些復雜規則的字串的需要，正則運算式就是用于描述這些規則的工具，（正則運算式就是記錄文本規則的代碼，）換句話說，我們可以使用正則運算式來定義字串的匹配模式，即如何檢查一個字串是否有跟某種模式匹配的部分或者從一個字串中將與模式匹配的部分提取出來或者替換掉再或者進行拆分，

如果您是之前完全沒有聽說過正則運算式也給大家推薦一篇博文《正則運算式30分鐘入門教程》，我接觸時也是先看過這片文章后，在通過對正則運算式進行應用學習的，里面的例子比較經典，稍加思考基本都還算是好理解的，同時對正則運算式中的一些基本符號也會有一定的了解，

Python學習日志13課 - 正則運算式

首先關于正則運算式的相關知識肯定是要提基本符號的，這里是我對正則運算式中的一些基本符號進行的稍微總結，有一條比其他規則的優先級更高：最先開始的匹配擁有最高的優先權

基本符號表

符號/代碼/語法	作用	例子說明
`\d`	匹配數字	`\d\d`匹配01-99的任意數字
`\s`	匹配任意空白字符	`I\sdo`匹配 `I do`
`\b`	匹配單詞的開始或結束(如果在字符類里使用代表退格)	`\bhello\b`匹配單詞`hello`
`\w`	匹配字母/數字/下劃線	`r\w`匹配 `ru、r1、r_`
`^`	匹配字串的開始	`^I`匹配`I`開頭的字串
`$`	匹配字串的結束	`you$`匹配`you`結尾的字串
`.`	匹配任意字符	`m.`匹配`mm、m1、m#、m_`
`*`	重復0次或者更多次	`.*`匹配任意字符0-無數次
`+`	重復1次或者更多次	`.+`匹配任意字符1-更多次
`?`	重復0次或者1次	`.?`匹配任意字符0或1
`{x}`	重復x次	`{9}`匹配重復9次
`{x,}`	重復x次或者更多次	`{7}`匹配重復7次及以上
`{x,y}`	重復不小于x次不大于y次	`{3,5}`匹配不小于3不大于5次
`[]`	匹配來自字符集的任意單一字符	例子如下5條
`[0-9]`	匹配一位數基本上等于\d
`[aeiou]`	匹配元音字符
`[.!@#_%]`	匹配里面的符號
`[a-z0-9A-Z_]`	匹配字母/數字/下劃線基本上等于\w
`[\u4e00-\u9fa5]`	匹配絕大部分漢字
`[^]`	匹配不在字符集中的任意單一字符	基本上是和`[]`相反，例子如下
`[^aeiou]`	可以匹配任一非元音字母字符
`\W`	匹配非字母/數字/下劃線	`r\W`不匹配 `ru、r1、r_`，但匹配`r@、r#`
`\S`	匹配非空白字符	`I\Sdo`不匹配 `I do`，但匹配`I#do`
`\D`	匹配非數字	`\D`匹配`a、_、#`
`\B`	匹配不是單詞開頭或結束的位置	`\Bhello\B`匹配不是單詞`hello開頭或結束的位置`
`\|`	分支	`foo\|bar`可以匹配foo或者bar
`(?#)`	注釋	這種型別的分組不對正則運算式的處理產生任何影響，用于提供注釋讓人閱讀
`()`	匹配這個子運算式的文本(也就是此分組捕獲的內容)	從左向右，以分組的左括號為標志，第一個出現的分組的組號為1，第二個為2，以此類推
`(exp)`	匹配`exp`并捕獲文本到自動命名的組里	未命名情況下`(0)`引數為0是所有分組內容,`(1)`捕獲的第一個組
`(?<name>exp)`	匹配`exp`,并捕獲文本到名稱為name的組里，也可以寫成`(?'name'exp)`	命名用`<>`和`''`一樣
`(?:exp)`	匹配`exp`,不捕獲匹配的文本，也不給此分組分配組號
`(?=exp)`	匹配`exp`前面的位置	`\b\w+(?=ing)`可以匹配`I'm dancing`中的`danc`
`(?<=exp)`	匹配`exp`后面的位置	`(?<=\bdanc)\w+\b`可以匹配I `love dancing and reading`中的第一個`ing`
`(?!exp)`	匹配后面跟的不是`exp`的位置
`(?<!exp)`	匹配前面不是`exp`的位置
`*?`	重復任意次，但盡可能少重復	`.*?`匹配任意字符0-無數次,但盡可能少重復
`+?`	重復1次或更多次，但盡可能少重復	`.+?`匹配任意字符1-無數次,但盡可能少重復
`??`	重復0次或1次，但盡可能少重復	`.??`匹配任意字符0或1,但盡可能少重復
`{n,m}?`	重復n到m次，但盡可能少重復	`{3,5}?`重復3到5次，但盡可能少重復
`{n,}?`	重復n次以上，但盡可能少重復	`{7,}?`重復7次以上，但盡可能少重復

**說明：**如果需要匹配的字符是正則運算式中的特殊字符，那么可以使用\進行轉義處理，例如想匹配\或/則要寫成\\和\/的形式；同理，想匹配圓括號必須寫成$和$，否則圓括號被視為正則運算式中的分組，當然在Python的字串中我們也可以使用原始字符r'字串'這樣就不需要轉義處理，

Python對正則運算式的支持

Python提供了re模塊來支持正則運算式相關操作，下面是re模塊中的核心函式，

函式	說明
`compile(pattern, flags=0)`	編譯正則運算式回傳正則運算式物件
`match(pattern, string, flags=0)`	用正則運算式匹配字串成功回傳匹配物件否則回傳`None`
`search(pattern, string, flags=0)`	搜索字串中第一次出現正則運算式的模式成功回傳匹配物件否則回傳`None`
`split(pattern, string, maxsplit=0, flags=0)`	用正則運算式指定的模式分隔符拆分字串回傳串列
`sub(pattern, repl, string, count=0, flags=0)`	用指定的字串替換原字串中與正則運算式匹配的模式可以用`count`指定替換的次數
`fullmatch(pattern, string, flags=0)`	`match`函式的完全匹配（從字串開頭到結尾）版本
`findall(pattern, string, flags=0)`	查找字串所有與正則運算式匹配的模式回傳字串的串列
`finditer(pattern, string, flags=0)`	查找字串所有與正則運算式匹配的模式回傳一個迭代器
`purge()`	清除隱式編譯的正則運算式的快取
`re.I` / `re.IGNORECASE`	忽略大小寫匹配標記
`re.M` / `re.MULTILINE`	多行匹配標記

說明： 上面提到的re模塊中的這些函式和方法，實際開發中也可以用正則運算式物件的方法替代對這些函式的使用，如果一個正則運算式需要重復的使用，那么先通過compile函式編譯正則運算式并創建出正則運算式物件無疑是更佳的選擇，

例題

(1).用正則運算式分別驗證QQ號和用戶名

這道題主要是介紹re模塊中的match和 fullmatch函式的應用場景

"""
正則運算式（regular expression）
正則運算式 ---> 模式 ---> 匹配字串的模式 ---> 復雜的匹配規則

Python使用正則運算式的兩種方式:
 ~ 不創建正則運算式物件，直接呼叫函式進行匹配操作
 ~ 創建正則運算式物件(Pattern)，通過給物件發訊息實作匹配操作
 
match - 匹配 - 從頭開始進行匹配
fullmatch - 匹配 - 完全匹配

Author: RBHGO
Declaration: Mia San Mia ~~~
"""
import re

qq = input('請輸入您的QQ號：')
# r原始字符，match如果要完全匹配使用^$
matcher = re.match(r'^[1-9]\d{4,}$', qq)
# fullmatch完全匹配，不用^$
# matcher = re.fullmatch(r'\d{4,12}', qq)
if matcher is None:
    print('QQ號不合規則！！！')
else:
    print('QQ號可以使用')


username = input('請輸入用戶名：')
username_pattern = re.compile(r'^\w{6,20}$')
print(type(username_pattern))
matcher = username_pattern.match(username)
print(type(matcher))
if matcher is None:
    print('無效用戶名！！！')
else:
    print(matcher.group())

(2).用正則運算式找到所給字串中所有的數字

這道題主要是介紹re模塊中的search和 findall函式的應用場景

"""
正則運算式（regular expression）

match - 匹配 - 從頭開始進行匹配
search - 搜索 - 從任意位詈匹配
findall - 從字串中找出所有和正則運算式匹配的內容 ---> 回傳list[str]

Author: RBHGO
"""
import re

content = """報警電話:110，我們班是Python-817班，
我的QQ號是9023758，我的手機號是19105242466，謝謝!"""

# # match, fullmatch在用來搜索的就不管用了
pattern = re.compile(r'\d+')
matcher = pattern.search(content)
while matcher:
    print(matcher.group())
    # 輸出匹配字串的開始/結束的位置
    # print(matcher.start(), matcher.end())
    # 創建物件，search函式中沒有，search方法中有位置引數pos
    matcher = pattern.search(content, matcher.end())

# 得到字串中的匹配結果，回傳一個串列，可以將元素遍歷出來
print(pattern.findall(content))

(3).用正則運算式匹配新聞的標題及鏈接

這里主要是為了提到貪婪和惰性機制，以及捕獲組的應用

"""
正則運算式（regular expression）
懶惰（量詞加？）／貪婪（.*）規則
括號()得到捕獲組，用于捕獲想要內容

Author: RBHGO
"""

import re
import requests

# 惰性匹配，量詞后面加?，盡可能短的匹配

# 匹配整個a標簽，但是只捕獲()中的內容 ---> 正則運算式的捕獲組
pattern = re.compile(r'<a\s.*?href="(.+?)".*?title="(.+?)".*?>')
resp = requests.get('https://www.sohu.com/')
# 捕獲得到2元組
results = pattern.findall(resp.text)
# 將二元組中的元素先后遍歷出來
for href, title in results:
    print(title)
    if not href.startswith('https://www.sohu.com'):
        href = 'https://www.sohu.com' + href
    print(href)

(4).替換字串中的不良內容

re模塊的正則運算式相關函式中都有一個flags引數，它代表了正則運算式的匹配標記，可以通過該標記來指定匹配時是否忽略大小寫、是否進行多行匹配、是否顯示除錯資訊等，

"""
正則運算式 - 替換

Author: RBHGO
"""
# 不良內容（敏感內容）過濾-> 替換 -> sub(substitute)
import re

content = '傻逼,FUck you,son of bitch'
modified_content = re.sub(r'[傻沙煞][逼筆幣]|fuck|shit|son\sof\sbitch',
                          '***', content, flags=re.IGNORECASE)  # re.I
print(modified_content)

(5).拆分長字串

"""
正則運算式 - 拆分字串

Author: RBHGO
"""
import re

poem = '風急天高猿嘯哀，渚青沙白鳥飛回，無邊落木蕭蕭下，不盡長江滾滾來，'
# 拆分過后得到字串拆分為多個元素的串列
sentences_list = re.split(r'[，，,.]', poem)
print(sentences_list)
# 拆分會多出一個空字符，生成式判斷去掉
sentences_list = [sentence for sentence in sentences_list if sentence]
print(sentences_list)
for sentence in sentences_list:
    print(sentence)

總結

看完上面的例題，相信大家或多或少的都明白正則運算式在字串的處理和匹配上真的非常強大，只是想寫好正則運算式確實也比較難，對于新手來說更是不那么‘友善’，當然和所有的知識都是一樣的 —— 熟能生巧，放開手來嘗試很重要，越寫得多用起來也就越得心應手，

感謝學習陪伴，您的點贊，評論就是我更新的動力

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/294949.html

標籤：python

上一篇：基于 python + WebDriverAgent 的“跳一跳”小程式高分教程

下一篇：Python 的圖形用戶界面

Python學習日志13 - 正則運算式