1.什么是XPath?
xpath是一門在XML和HTML檔案中查找資訊的語言,可用來在XML和HTML檔案中對元素和屬性進行遍歷,XPath 通過使用路徑運算式來選取 XML 檔案中的節點或者節點集,這些路徑運算式和在常規的電腦檔案系統中看到的運算式非常相似,
2.XPath語法
想要學好xpath,首先要搞明白html檔案中的節點,
以上是在網上隨便找的一段html的文本,可以觀察得到,div的標簽下是ul標簽,而ul標簽下是li標簽,于是發現html的標簽是一級一級如樹狀的,Xpath正是通過這樣的方式去尋找,以生活中舉例,要確定一個人的位置,首先確定他在中國,然后確定他在某個省份,哪座城市,那個小區,最后找到他,
同級標簽可以用li[1],li[2],li[3]的方式獲取
3.lxml庫
簡單介紹一下lxml庫,接下來會用到它
lxml是一個HTML/XML的決議器,主要的功能是如何決議和提取HTML/XML 資料,
lxml和正則一樣,也是用C實作的,是一款高性能的PythonHTML/XML決議器,可以利用之前學習的XPath語法,來快速的定位特定元素以及節點資訊,
4.實際案例
隨便爬取一個網站,找到找到網站的html文本,如下圖
要找到title和href,仔細觀察可以得到路徑分別是//div[@id="resultList"]/div[@]/p/span/a/@title
//div[@id="resultList"]/div[@]/p/span/a/@href
運行如下:
5.總結
Xpath,是在爬蟲中常見的提取資料的方式之一,相比于正則,它更加簡單一些,便于操作,xpath的難點在于準確的確定資料所在的位置,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/261254.html
標籤:Python
上一篇:Python繪制雷達圖
