主頁 > 資料庫 > Python:使用BeautifulSoup提取HTML<main>資料

Python:使用BeautifulSoup提取HTML<main>資料

2022-06-23 05:55:06 資料庫

我目前正在學習使用 BeautifulSoup 包進行資料抓取。目前,我正在嘗試從 Box Office Mojo 網站 ( https://www.boxofficemojo.com/franchise/?ref_=bo_nb_bns_secondarytab ) 獲取電影特許經營權串列。

主要問題是我似乎無法訪問或提取 <main> 標記中的資料。下面是我正在使用的代碼。

import requests
from bs4 import BeautifulSoup

listOfFranchiseLink = "https://www.boxofficemojo.com/franchise/?ref_=bo_nb_bns_secondarytab"

r = requests.get(listOfFranchiseLink)
soup = BeautifulSoup(r.content, 'html.parser')

s0 = soup.find('div', id='a-page')
s1 = s0.find(id='')
s2 = s1.find('div', id='a-section mojo-body aok-relative')

assert s1 is not None
assert s2 is not None

雖然腳本確實找到了帶有's1'的東西,但它似乎不像我所期望的那樣(它應該包含一個帶有“a-section mojo-body aok-relative”類的div)在頂部。因此,對于“s2”,我沒有得到任何結果。

我的問題是:

  1. 我究竟做錯了什么?如何提取 <main> 標簽內的資料?
  2. 我感覺為每一層創建一個湯物件不是很有效。提取隱藏在不同 HTML 標簽層中的資料的更標準方法是什么?

編輯:打算寫 s0.find('main') 而不是 s0.find(id='')。但是前者回傳的結果與后者相同,所以這并不重要。

uj5u.com熱心網友回復:

這是因為s2is實際上 None,因為s1回傳:

<script data-a-state='{"key":"a-wlab-states"}' type="a-state">{}</script>

所以搜索id='a-section mojo-body aok-relative不應該產生任何結果。因此第二個斷言失敗。

如果你想刮桌子,你可以用pandasand requests,像這樣:

import requests
import pandas as pd

df = (
    pd.read_html(
        requests.get(
            "https://www.boxofficemojo.com/franchise/?ref_=bo_nb_bns_secondarytab"
        ).text,
        flavor="lxml",
    )[0]
)
print(df)

要得到這個:

                           Franchise  ... Lifetime Gross
0          Marvel Cinematic Universe  ...   $858,373,000
1                          Star Wars  ...   $936,662,225
2    Disney Live Action Reimaginings  ...   $543,638,043
3                         Spider-Man  ...   $804,789,334
4     J.K. Rowling's Wizarding World  ...   $381,011,219
..                               ...  ...            ...
287                 Ip Man Franchise  ...     $2,679,437
288                   Chal Mera Putt  ...       $644,000
289                           Shiloh  ...     $1,007,822
290                       Evangelion  ...       $174,945
291                            V/H/S  ...       $100,345

[292 rows x 5 columns]

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/494787.html

標籤:Python html 美丽的汤

上一篇:如何將JavaScript頁面鏈接到djangoweb應用程式?

下一篇:返回列表

標籤雲
其他(140879) Python(35885) JavaScript(23373) Java(15860) C(14566) 區塊鏈(8222) C#(7474) AI(7469) 爪哇(6976) MySQL(6406) html(6396) 基礎類(6313) sql(5854) 熊猫(5841) PHP(5510) 数组(5440) R(5148) 腳本語言(PerlPython)(5129) Linux(5030) 非技術區(4971) 反应(4830) Android(4340) 数据框(4104) css(4051) 节点.js(3756) C語言(3288) C++語言(3117) json(3053) 列表(2973) 扑(2873) 安卓(2839) 打字稿(2802) Java相關(2746) VBA(2702) 疑難問題(2699) 單片機工控(2479) 细绳(2435) ASP.NET(2267) iOS(2265) MongoDB(2200) 麻木的(2156) 正则表达式(2107) 字典(2102) 循环(2088) 擅长(2068) 迅速(2010) 镖(2000) Web開發(1951) 功能(1869) Unity3D(1810) 網絡通信(1793) 蟒蛇-3.x(1774) 弹簧靴(1771) 谷歌表格(1769) python-3.x(1767) 數據庫相關(1767) VB基礎類(1755) .NETCore(1755) xml(1743) for循环(1723)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • Python:使用BeautifulSoup提取HTML<main>資料

    我目前正在學習使用 BeautifulSoup 包進行資料抓取。目前,我正在嘗試從 Box Office Mojo 網站 ( https://www.boxofficemojo.com/franchise/?ref_=bo_nb_bns...

    uj5u.com 2022-06-23 05:55:06 more
  • 如何將JavaScript頁面鏈接到djangoweb應用程式?

    所以我有一個 javascript 檔案,我試圖鏈接到我的 html 檔案。我已經設法將 css 檔案連接到多個 html 檔案,所以我的靜態設定似乎運行良好,但是我收到一條錯誤...

    uj5u.com 2022-06-23 05:54:31 more
  • 如何連接Python腳本以在網頁輸入上運行組合?

    作為一個小練習專案,我正在嘗試撰寫一個 Python 腳本,以從本質上暴力破解網站上隨機餐廳的優惠券代碼輸入。代碼采用兩個大寫字母后跟 6 個整數的形式。例如:X...

    uj5u.com 2022-06-23 05:53:56 more
  • 下拉選單不使用引導程式打開

    有人能幫我嗎。我從引導程式 5 中獲得了導航欄和下拉選單,但是在嘗試打開下拉選單時它沒有任何操作<!-- NAV BAR BOOTSRAP 5--><nav class="navbar navbar-e...

    uj5u.com 2022-06-23 05:53:03 more
  • 如何使用BeautifulSoup在<head>中獲取元素

    我有這個網站,我想獲取元素“datePublished”,但這個資訊在 Json 中。無論如何可以通過 BeautifulSoup 獲取這些資訊嗎?這是我正在談論的html部分:<script type...

    uj5u.com 2022-06-23 05:52:21 more
  • 使用if陳述句重定向用戶的HTMLJavascript不起作用

    我想使用用戶輸入來決定用戶是否被重定向到另一個頁面。在這種情況下,用戶輸入用戶名和密碼。如果用戶名和密碼正確,則重定向用戶。為此,我使用簡單的 javascr...

    uj5u.com 2022-06-23 05:51:47 more
  • 垂直間距單個段落的行

    我有一個<p>放在盒子里的元素。結果,單行文本折疊成多行文本。如何垂直分隔多行文本? <div class="Test1"> <span class="fa fa-s...

    uj5u.com 2022-06-23 05:49:36 more
  • 如何顯示以最左側和最右側的內容為中心的容器

    我想在我的 html 網站上顯示一個物件的價格。這就是我希望它看起來的樣子:動態的容器以頁面為中心,最大寬度為 400 像素“價格”字串在最左側,而實際價格在居...

    uj5u.com 2022-06-23 05:48:58 more
  • 將div內的文本與底部中心對齊

    假設我有以下檔案:*, *::before, *::after { box-sizing: border-box;}body { background-color: #612718; margin: 0; display: flex; just...

    uj5u.com 2022-06-23 05:48:04 more
  • 添加兩個變數后Python腳本中的Tar命令失敗

    我在稍微更改 Python 腳本的最后一步時遇到錯誤,有人可以幫我嗎?1- 請求輸入vm = 'input your VM name'#centos2-手動定義路徑path = 'var/lib/libvirt/image...

    uj5u.com 2022-06-23 05:23:14 more