python3中運用urllib抓取貼吧的郵箱以及QQ-有解無憂

　　python3中運用urllib抓取貼吧的郵箱以及QQ:
import urllib
import urllib.request
import re
from urllib import parse

#抓取貼吧頁面數量資訊
def gettiebalistnumbers(name):    #計算搜索的關鍵詞有多少頁  輸入名字  回傳頁數
    url="https://tieba.baidu.com/f?"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}  # header 字典形式
    word = {"kw": name}  # 介面   貼吧的名字
    word = parse.urlencode(word)  # 編碼成字串
    url = url + word  # 拼接url
    request = urllib.request.Request(url, headers=headers)  # 發送請求
    # 也可以通過呼叫Request.add_header()  添加/修改一個特定的  header
    request.add_header("Connection", "keep-alive")  # 一直活著
    response = urllib.request.urlopen(request)  # 打開請求
    data = https://www.cnblogs.com/my-global/p/response.read().decode("utf-8")  # 讀取資料
    print(response.code)  # 可以查看相應狀態碼

    restr = "<span class=\"card_infoNum\">([\s\S]*?)</span>"  # 正則這個貼吧有多少帖子
    regex = re.compile(restr, re.IGNORECASE)
    mylist = regex.findall(data)  #尋找頁面所有符合條件的
    tienumbers = mylist[0].replace(",","")  #替換逗號
    tienumbers = eval(tienumbers)   #str轉化為數字
    #print(tienumbers)

    restr = "<span class=\"card_menNum\">([\s\S]*?)</span>"  # 正則關注貼吧的數
    regex = re.compile(restr, re.IGNORECASE)
    mylist = regex.findall(data)  # 尋找頁面所有符合條件的
    Peoplenumbers = mylist[0].replace(",", "")  # 替換逗號
    Peoplenumbers = eval(Peoplenumbers)  # str轉化為數字
    #print(Peoplenumbers)

    return tienumbers,Peoplenumbers

def gettiebalist(name):   #抓取所有的符合name的頁數  輸入搜索關鍵詞，回傳所有的頁數url
    numberstuple=gettiebalistnumbers(name)   #(元組）
    tienumbers=numberstuple[1]   #帖子的數量
    word = {"kw": name}  # 介面   貼吧的名字
    word = parse.urlencode(word)  # 編碼成字串
    tiebalist = []
    if tienumbers % 53 == 0:  # 生成頁面串列
        for i in range(tienumbers // 53):
            tiebalist.append("https://tieba.baidu.com/f?" + word + "&pn=" + str(i * 50))
    else:
        for i in range(tienumbers // 53 + 1):
            tiebalist.append("https://tieba.baidu.com/f?" + word + "&pn=" + str(i * 50))
    #print(tiebalist)
    return tiebalist
def geturllistformpage(url):      #抓取頁面的每個帖子url  輸入一頁url 回傳串列內的的所有url
    headers = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);"}
    request = urllib.request.Request(url, headers=headers)  # 發起請求，
    # 也可以通過調?Request.add_header() 添加/修改?個特定的 header
    response=urllib.request.urlopen(request)
    data=response.read().decode("utf-8","ignore")#打開請求，抓取資料
    #print(response.code)  # 可以查看回應狀態碼

    restr = "<ul id=\"thread_list\" class=\"threadlist_bright j_threadlist_bright\">([\s\S]*?)<div class=\"thread_list_bottom clearfix\">"  # 正則運算式，（）只要括號內的資料
    regex = re.compile(restr, re.IGNORECASE)
    mylist = regex.findall(data)
    #print(mylist[0])#抓取整個表格

    restr = "href=https://www.cnblogs.com/"/p/(\d+)\""  # 正則運算式，（）只要括號內的資料
    regex = re.compile(restr, re.IGNORECASE)
    urltitlelist = regex.findall(data)
    #print(urltitlelist)      #抓取的url變化的數字
    urllist=[]
    for title in urltitlelist:
        urllist.append("http://tieba.baidu.com/p/"+title)   #拼接鏈接
    #print(urllist)  #得到每個頁面的帖子url串列
    return urllist
def getallurllist(url):          #獲取每一頁里面的分頁   輸入一個帖子url  輸出所有分頁url鏈接
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}  # header 字典形式
    request = urllib.request.Request(url, headers=headers)  # 發送請求
    # 也可以通過呼叫Request.add_header()  添加/修改一個特定的  header
    response = urllib.request.urlopen(request)  # 打開請求
    tiebadata = https://www.cnblogs.com/my-global/p/response.read().decode("utf-8", "ignore")  # 讀取資料
    allurllist1=[]

    restr = "共<span class=\"red\">(\d+)</span>頁</li>"  # 正則運算式，（）只要括號內的資料
    regex = re.compile(restr, re.IGNORECASE)
    numalllist = regex.findall(tiebadata)
    nums=eval(numalllist[0])
    for i in range(1,nums+1):
        allurllist1.append(url+"?pn="+str(i))


    return allurllist1

    # print(urltitlelist)      #抓取的url變化的數字


def getpagedata(url):
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}  # header 字典形式
    request = urllib.request.Request(url, headers=headers)  # 發送請求
    # 也可以通過呼叫Request.add_header()  添加/修改一個特定的  header
    response = urllib.request.urlopen(request)  # 打開請求
    pagedata = https://www.cnblogs.com/my-global/p/response.read().decode("utf-8","ignore")  #讀取資料
    return pagedata
def getemaillistfrompage(pagedata):  #在帖子內頁面，把每一個郵箱抓取下來   輸入一個帖子url 回傳郵箱
    emaillist = []
    restr = "[A-Z0-9._%+-]+[@][A-Z0-9.-]+\.[A-Z]{2,4}"  # 正則運算式，（）只要括號內的資料
    regex = re.compile(restr, re.IGNORECASE)
    emaillist = regex.findall(pagedata)
    return emaillist      #回傳提取的郵箱串列

def QQlistfrompage(url):  #在帖子內頁面，把每一個郵箱抓取下來   輸入一個帖子url 回傳QQ
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}  # header 字典形式
    request = urllib.request.Request(url, headers=headers)
    response = urllib.request.urlopen(request)
    #data = https://www.cnblogs.com/my-global/p/response.read().decode("utf-8","ignore")  #讀取資料
    QQlist = []
    while True:
        line = response.readline()
        line = line.decode('utf-8')
        if not line:
            break
        if line.find("QQ") != -1 or line.find("Qq") != -1 or line.find("qq") != -1:
            restr = "[1-9]\\d{4,10}"  # 正則運算式，（）只要括號內的資料
            regex = re.compile(restr, re.IGNORECASE)
            templist = regex.findall(line)
            QQlist.extend(templist)
    return QQlist

#print(gettiebalistnumbers("python"))

#print(gettiebalist("python3"))


#mylist=gettiebalist("python3")
#for line in mylist:
#    print(line)
#geturllistformpage("https://tieba.baidu.com/f?kw=python3&ie=utf-8&pn=4000")
#print(getemaillistfrompage(getpagedata("http://tieba.baidu.com/p/6490450301")))
#print(QQlistfrompage("http://tieba.baidu.com/p/3950107421"))
""" 
name="qqmail"
emailalllist=[]
for numberurl in gettiebalist(name):   #取出這個關鍵詞  所有頁面的url
    tieziurllist=geturllistformpage(numberurl) #取出每個頁面的 帖子url
    for fentieziurllist in tieziurllist:
        tieziurllist1=getallurllist(fentieziurllist)
        
        for pagetext in tieziurllist1:     
            pagedata=https://www.cnblogs.com/my-global/p/getpagedata(pagetext)   #取出每個頁面的代碼
            datas=getemaillistfrompage(pagedata)  #正則提取郵箱
            if len(datas) !=0:        #如果提取的里面一個頁面上的一個帖子  郵箱不是空的話
                emailalllist.append(datas[0])
print(emailalllist)             #測驗可以提取一個 貼吧的所有郵箱
 """
"""
name="qqmail"
QQalllist=[]
for numberurl in gettiebalist(name):   #取出這個關鍵詞  所有頁面的url
    tieziurllist=geturllistformpage(numberurl) #取出每個頁面的 帖子url
    for url in tieziurllist:
        QQnumberlist=QQlistfrompage(url)    #提取的里面一個頁面上的一個帖子的QQ
        #print(QQnumberlist)
        if len(QQnumberlist) != 0:    #如果一個頁面QQ不為空的話
            for qqdata in QQnumberlist:    #一個頁面QQ串列遍歷
                QQalllist.append(qqdata)   #添加到串列中
         #   qq=QQalllist.append(QQnumberlist[0])
#print(QQalllist)# #提取一個貼吧的所有QQ  測驗成功
"""

name="qqmail"
savefilepath="qqmail_qq.txt"
savefile=open(savefilepath,"wb")
for numberurl in gettiebalist(name):   #取出這個關鍵詞  所有頁面的url
    tieziurllist=geturllistformpage(numberurl) #取出每個頁面的 帖子url
    for fenurl in tieziurllist:
        tieziurllist1=getallurllist(fenurl)   #一個頁面分頁的所有鏈接
        for url in tieziurllist1:
            QQnumberlist=QQlistfrompage(url)    #提取的里面一個頁面上的一個帖子的QQ
            #print(QQnumberlist)
            if len(QQnumberlist) != 0:    #如果一個頁面QQ不為空的話
                print(QQnumberlist)
                qqstr=" ".join(QQnumberlist)
                savefile.write((qqstr+"\r\n").encode("utf-8"))

         #   qq=QQalllist.append(QQnumberlist[0])
#最后寫入檔案測驗，  寫入qq.txt  69K
# TimeoutError: [WinError 10060] 由于連接方在一段時間后沒有正確答復或連接的主機沒有反應，連接嘗試失敗，
#可優化為timeout=   或者匯入 import time  進行time.sleep(3) 睡眠定時訪問操作，
#為避免出錯，還需再訪問url時加入  try   except  出錯避過
轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/179257.html
標籤：Python
上一篇：python reduce函式
下一篇：Python程式中呼叫Java代碼的實踐