我之前用Beautiful Soup4來提取，但后來它要求只用正則運算式來提取250個urls，使其看起來像圖片1，我有點卡住了。我也可以使用回圈，但沒有任何內置的功能來洗掉重復的內容。

謝謝你。

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = 'https://www.imdb.com/chart/top'/span>
html = urlopen(url)
soup = BeautifulSoup(html, 'html.parser')

count = 0
all_urls = list()

for tdtag in soup.find_all(class_ = "titleColumn") 。
    url = tdtag.a['href']
    all_urls.append(url)
    count  = 1 1

print('total of {} urls'.format(count) >)

data = np.array(all_urls)
print(data)

np.savetxt('urls.txt', data, fmt = '%s', encoding = 'utf-8')

uj5u.com熱心網友回復：

我不確定這是否是你想要的，但如果你需要任何澄清，我很樂意幫助你。

你并不真的需要美麗的搜刮，

你并不真的需要美麗的搜刮。

X.X based on X,X,X user ratings

只要使用

span class="hljs-keyword">import requests
data = requests.get('https://www.imdb.com/chart/top'/span>).text.split('
')

為了獲得資料

然后，你可以使用

rating = [i. split('"')[1] for i in data if ' user ratings" > ' in i]。
with open("outfile"/span>, "w"/span>) as outfile:
    outfile.write("
".join(str(item) for item in rating) )

要得到你的結果

你可以在同一個目錄下一個叫做outfile的檔案中找到你的結果

uj5u.com熱心網友回復：

編輯: (使用regex)

span class="hljs-keyword">import re
import requests

data = requests.get('https://www.imdb.com/chart/top').text
title = re.findall('/title/w*/(?=">)', data)
評分 = re.findall('d.d.*ratings', data)

這就把所有的標題鏈接保存到titles，把評級句子保存到ratings。然后，你可以通過以下方式列印出前六個：

for i in range（6）。 print(f'No.{i 1}。{ratings[i]} (Link: {titles[i]}) ')

其中輸出：

No.1。9.2基于2,460,328用戶評分（鏈接：/title/tt0111161/)
沒有.2。9.1基于1,701,913用戶評分(鏈接：/title/tt0068646/)
沒有.3。9.0基于1,182,111用戶評價 (鏈接: /title/tt0071562/)
沒有.4。9.0基于2,415,762用戶評分(鏈接：/title/tt0468569/)
沒有.5。8.9基于728,394用戶評價 (鏈接: /title/tt0050083/)
沒有.6。8.9基于1,264,883用戶評分(鏈接：/title/tt0108052/)

舊答案：

我不能完全理解為什么你需要使用regex，但如果你想獲得文本

我不能完全理解為什么你需要使用regex。

X.X based on X,X,X user ratings

對于一個給定的標題鏈接，例如，

/title/tt0068646/。

你可以做到：

title = '/title/tt0068646/'>
# 在湯中找到第一個指向標題的鏈接'title']

其中輸出：

9.1基于1、701、913用戶評分

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/319528.html

標籤：

上一篇：動態創建/修改xml

下一篇：我給了這個網址"Group=1&Group=2&Group=3&Group=4"，在這里我必須洗掉組欄位，然后用C#在串列中傳遞1、2、3、4的值？

如何在Python中只用正則運算式從網站的評級串列中提取一些url鏈接

編輯: (使用regex)

舊答案：