本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理,
以下文章來源于python教程,作者:小雨
剛接觸Python的新手、小白,可以復制下面的鏈接去免費觀看Python的基礎入門教學視頻
https://v.douyu.com/author/y6AZ4jn9jwKW
前言
HTML檔案是互聯網上的主要檔案型別,但還存在如TXT、WORD、Excel、PDF、csv等多種型別的檔案,網路爬蟲不僅需要能夠抓取HTML中的敏感資訊,也需要有抓取其他型別檔案的能力,下面簡要記錄一些個人已知的基于python3的抓取方法,以備查閱,
抓取TXT檔案
在python3下,常用方法是使用urllib.request.urlopen方法直接獲取,之后利用正則運算式等方式進行敏感詞檢索,
如果抓取的是某個HTML,最好先分析,例如:
抓取CSV檔案
抓取PDF檔案
抓取word
方法:
(1)利用urlopen抓取遠程word docx檔案;
(2)將其轉換為記憶體位元組流;
(3)解壓縮(docx是壓縮后檔案);
(4)將解壓后的檔案作為xml讀取
(5)尋找xml中的標簽(正文內容)并處理
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/227886.html
標籤:其他
上一篇:Spring事務總結
