我正在嘗試使用 python 和請求在嵌入網頁的 pdf 中提取一些資訊,這正是我想要達到的句子 ? Sciences de la vie et de l'environnement ?。
圖片
這是您撰寫的代碼:
import time
import requests
from bs4 import BeautifulSoup
# website to scrap
url = "https://fs.uit.ac.ma/avis-de-soutenance-dune-these-de-doctorat-mme-achachi-hind/"
with requests.session() as s:
# get the url from requests get method
html_content = s.get(url, verify=False)
# Parse the html content
soup = BeautifulSoup(html_content.content, "html.parser")
url2 = soup.iframe["src"]
html_doc = s.get(url2, verify=False).text
print(html_doc)
下面是一些 print(html_doc),
列印結果
比較兩張圖片時,我看不到最后一張圖片里面的內容:
<div id="viewer" class="pdfViewer"></div>
這行里面是我想要的文字:
我想到達的線路
uj5u.com熱心網友回復:
您可以手動訪問 PDF ( https://fs.uit.ac.ma/wp-content/uploads/2022/02/AVIS-DE-SOUTENANCE-ACHACHI-HIND.pdf )。iframe 和請求中有 url。如果無法從源代碼中獲取 url,則必須抓取請求(例如,使用 BrowserMob)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/439600.html
標籤:Python 网页抓取 美丽的汤 蟒蛇请求 html内容提取
上一篇:試圖從標題中拆分文本
下一篇:通過R從嵌入網站的表格中抓取網頁
