評級榜網站是: https://www.imdb.com/chart/top
然后,你可以使用rating = [i. split('"')[1] for i in data if ' user ratings" > ' in i]。
with open("outfile"/span>, "w"/span>) as outfile:
outfile.write("
".join(str(item) for item in rating) )
要得到你的結果
你可以在同一個目錄下一個叫做outfile的檔案中找到你的結果uj5u.com熱心網友回復:
編輯: (使用regex)
span class="hljs-keyword">import re
import requests
data = requests.get('https://www.imdb.com/chart/top').text
title = re.findall('/title/w*/(?=">)', data)
評分 = re.findall('d.d.*ratings', data)
這就把所有的標題鏈接保存到titles,把評級句子保存到ratings。然后,你可以通過以下方式列印出前六個:
for i in range(6)。
print(f'No.{i 1}。{ratings[i]} (Link: {titles[i]}) ')
其中輸出:
No.1。9.2基于2,460,328用戶評分(鏈接:/title/tt0111161/)
沒有.2。9.1基于1,701,913用戶評分(鏈接:/title/tt0068646/)
沒有.3。9.0基于1,182,111用戶評價 (鏈接: /title/tt0071562/)
沒有.4。9.0基于2,415,762用戶評分(鏈接:/title/tt0468569/)
沒有.5。8.9基于728,394用戶評價 (鏈接: /title/tt0050083/)
沒有.6。8.9基于1,264,883用戶評分(鏈接:/title/tt0108052/)
舊答案:
我不能完全理解為什么你需要使用regex,但如果你想獲得文本
我不能完全理解為什么你需要使用regex。
X.X based on X,X,X user ratings
對于一個給定的標題鏈接,例如,
/title/tt0068646/。
你可以做到:
title = '/title/tt0068646/'>
# 在湯中找到第一個指向標題的鏈接'title']
其中輸出:
9.1基于1、701、913用戶評分
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/319528.html
標籤:
上一篇:動態創建/修改xml
下一篇:我給了這個網址"Group=1&Group=2&Group=3&Group=4",在這里我必須洗掉組欄位,然后用C#在串列中傳遞1、2、3、4的值?
