希望使用 beautifulsoup4、python 3 和 requests 庫下載 href 鏈接。
這是我現在擁有的代碼,我認為在這種情況下使用正則運算式會很困難,但我不確定是否可以使用 beautifulsoup3 來完成。我必須從網格下載所有形狀檔案并希望自動執行此任務。謝謝你!
網址:https : //earth-info.nga.mil/index.php?dir=coordsys&action=gars-20x20-dloads
import requests
from bs4 import BeautifulSoup
import re
URL = 'https://earth-info.nga.mil/index.php?dir=coordsys&action=gars-20x20-dloads'
page = requests.get(URL)
soup = BeautifulSoup(page.content,'html.parser')
results = re.findall(r'<a[^>]* href="([^"]*)"', page)
print(results)
uj5u.com熱心網友回復:
這些檔案都與area標簽相關聯,所以我只需選擇那些:
import requests
from bs4 import BeautifulSoup as bs
r = requests.get('https://earth-info.nga.mil/index.php?dir=coordsys&action=gars-20x20-dloads')
soup = bs(r.content, 'lxml')
files = ['https://earth-info.nga.mil/' i['href'] for i in soup.select('area')]
uj5u.com熱心網友回復:
您可以轉換page為字串,以便a使用正則運算式搜索所有's。
代替:
results = re.findall(r'<a[^>]* href="([^"]*)"', page)
用:
results = re.findall(r'<a[^>]* href="([^"]*)"', page.text)
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/341159.html
