我正在使用硒來抓取亞馬遜搜索結果頁面。當我結束它時,我將我的抓取移動到無頭模式,因為它可以節省效率。但是,在無頭模式下,某些頁面元素不可用,例如贊助品牌。使用非無頭模式時它作業得很好,但即使在設定以下選項后使用無頭也失敗:
options = Options()
#options.headless = True
options.add_argument("--window-size=1920,1080")
options.add_argument("--disable-extensions")
options.add_argument("--proxy-server='direct://'")
options.add_argument("--proxy-bypass-list=*")
options.add_argument("--start-maximized")
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--no-sandbox')
options.add_argument('--ignore-certificate-errors')
options.add_argument('--allow-running-insecure-content')
driver = webdriver.Chrome(options=options)
PS:我嘗試使用和不使用評論部分以及僅使用評論部分。
為了澄清起見,我截取了每個示例:這是它在無頭模式下運行時的樣子,這就是它通常的樣子(沒有無頭模式以及正常用戶瀏覽)。我想知道還需要添加什么才能在我以無頭模式運行時顯示贊助品牌資訊。我在想這可能是 JavaScript 無法與瀏覽器正確通信的問題?
和往常一樣,提前謝謝你!!
uj5u.com熱心網友回復:
使用最新的谷歌瀏覽器 v95.0
當你使用正常的頭 谷歌瀏覽器 瀏覽器如下 用戶代理 正在使用中:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36當您使用 谷歌瀏覽器無頭 瀏覽器如下 用戶代理 正在使用中:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/95.0.4638.69 Safari/537.36
附加Headless引數/屬性的存在被攔截為機器人. 因此,您會看到差異。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/360251.html
標籤:javascript Python html css 硒
