主頁 > 後端開發 > Python3標準庫:xml.etree.ElementTree XML操縱API

Python3標準庫:xml.etree.ElementTree XML操縱API

2020-10-08 23:38:39 後端開發

1. xml.etree.ElementTree XML操縱API

ElementTree庫提供了一些工具,可以使用基于事件和基于檔案的API來決議XML,可以用XPath運算式搜索已決議的檔案,還可以創建新檔案或修改現有檔案,

1.1 決議XML檔案

已決議的XML檔案在記憶體中由ElementTree和Element物件表示,這些物件基于XML檔案中節點嵌套的方式按樹結構互相連接,

用parse()決議一個完整的檔案時,會回傳一個ElementTree實體,這個樹了解輸入檔案中的所有資料,另外可以原地搜索或操縱樹中的節點,基于這種靈活性,可以更方便的處理已決議的檔案,不過,與基于事件的決議方法相比,這種方法往往需要更多的記憶體,因為必須一次加載整個檔案,

對于簡單的小檔案(如下面的播客串列,被表示為一個OPML大綱),記憶體需求不大,

podcasts.opml:

<?xml version="1.0" encoding="UTF-8"?>
<opml version="1.0">
<head>
    <title>My Podcasts</title>
    <dateCreated>Sat, 06 Aug 2016 15:53:26 GMT</dateCreated>
    <dateModified>Sat, 06 Aug 2016 15:53:26 GMT</dateModified>
</head>
<body>
  <outline text="Non-tech">
    <outline
        text="99% Invisible" type="rss"
        xmlUrl="http://feeds.99percentinvisible.org/99percentinvisible"
        htmlUrl="http://99percentinvisible.org" />
  </outline>
  <outline text="Python">
    <outline
        text="Talk Python to Me" type="rss"
        xmlUrl="https://talkpython.fm/episodes/rss"
        htmlUrl="https://talkpython.fm" />
    <outline
        text="Podcast.__init__" type="rss"
        xmlUrl="http://podcastinit.podbean.com/feed/"
        htmlUrl="http://podcastinit.com" />
  </outline>
</body>
</opml>

要決議這個檔案,需要向parse()傳遞一個打開的檔案句柄,

from xml.etree import ElementTree

with open('podcasts.opml', 'rt') as f:
    tree = ElementTree.parse(f)

print(tree)

這個方法會讀取資料、決議XML,并回傳一個ElementTree物件,

1.2 遍歷決議樹

要按順序訪問所有子節點,可以使用iter()創建一個生成器,該生成器迭代處理這個ElementTree實體,

from xml.etree import ElementTree

with open('podcasts.opml', 'rt') as f:
    tree = ElementTree.parse(f)

for node in tree.iter():
    print(node.tag)

這個例子會列印整個樹,一次列印一個標記,

如果只是列印播客的名字組和提要URL,則可以只迭代處理outline節點(而不考慮首部中的所有資料),并且通過查找attrib字典中的值來列印text和xmlUrl屬性,

from xml.etree import ElementTree

with open('podcasts.opml', 'rt') as f:
    tree = ElementTree.parse(f)

for node in tree.iter('outline'):
    name = node.attrib.get('text')
    url = node.attrib.get('xmlUrl')
    if name and url:
        print('  %s' % name)
        print('    %s' % url)
    else:
        print(name)

iter()的'outline'引數意味著只處理標記為'outline'的節點,

1.3 查找檔案中的節點 

查看整個樹并搜索有關的節點可能很容易出錯,前面的例子必須查看每一個outline節點,來確定這是一個組(只有一個text屬性的節點)還是一個播客(包含text和xmlUrl的節點),要生成一個簡單的播客提要URL串列而不包含名字或組,可以簡化邏輯,使用findall()來查找有更多描述性搜索特性的節點,

對以上第一個版本做出第一次修改,用一個XPath引數來查找所有outline節點,

from xml.etree import ElementTree

with open('podcasts.opml', 'rt') as f:
    tree = ElementTree.parse(f)

for node in tree.findall('.//outline'):
    url = node.attrib.get('xmlUrl')
    if url:
        print(url)

這個版本中的邏輯與使用getiterator()的版本并沒有顯著區別,這里仍然必須檢查是否存在URL,只不過如果沒有發現URL,它不會列印組名,

outline節點只有兩層嵌套,可以利用這一點,把搜索路徑修改為.//outline/outline,這意味著回圈只處理outline節點的第二層,

from xml.etree import ElementTree

with open('podcasts.opml', 'rt') as f:
    tree = ElementTree.parse(f)

for node in tree.findall('.//outline/outline'):
    url = node.attrib.get('xmlUrl')
    print(url)

輸入中所有嵌套深度為兩層的outline節點都認為有一個xmlURL屬性指向播客提要,所以回圈在使用這個屬性之前可以不做檢查,

不過,這個版本僅限于當前的這個結構,所以如果outline節點重新組織為一個更深的樹,那么這個版本就無法正常作業了,

1.4 決議節點屬性

findall()和iter()回傳的元素是Element物件,各個物件分別表示XML決議樹中的一個節點,每個Element都有一些屬性可以用來獲取XML中的資料,可以用一個稍有些牽強的示例輸入檔案data.xml來說明這種行為, 

<?xml version="1.0" encoding="UTF-8"?>
<top>
    <child>Regular text.</child>
    <child_with_tail>Regular text.</child_with_tail>"Tail" text.
    <with_attributes name="value" foo="bar"/>
    <entity_expansion attribute="This &#38; That">
        That &#38; This
    </entity_expansion>
</top>

可以由attrib屬性得到節點的XML屬性,attrib屬性就像是一個字典,

from xml.etree import ElementTree

with open('data.xml', 'rt') as f:
    tree = ElementTree.parse(f)

node = tree.find('./with_attributes')
print(node.tag)
for name,value in sorted(node.attrib.items()):
    print(name,value)

輸入檔案第5行上的節點有兩個屬性name和foo,

還可以得到節點的文本內容,以及結束標記后面的tail文本,

from xml.etree import ElementTree

with open('data.xml', 'rt') as f:
    tree = ElementTree.parse(f)

for path in ['./child','./child_with_tail']:
    node = tree.find(path)
    print(node.tag)
    print('child node text:',node.text)
    print('and tail text:',node.tail)

第3行上的child節點包含嵌入文本,第4行的節點包含帶tail的文本(包括空白符),

回傳值之前,檔案中嵌入的XML物體參考會被轉換為適當的字符,

from xml.etree import ElementTree

with open('data.xml', 'rt') as f:
    tree = ElementTree.parse(f)

node = tree.find('entity_expansion')
print(node.tag)
print('in attribute:',node.attrib['attribute'])
print('in text:',node.text.strip())

這個自動轉換意味著可以忽略XML檔案中表示某些字符的實作細節,

1.5 決議時監視事件

另一個處理XML檔案的API是基于事件的,決議器為開始標記生成start事件,為結束標記生成end事件,決議階段中可以通過迭代處理事件流從檔案抽取資料,如果以后沒有必要處理整個檔案,或者沒有必要將決議檔案都保存在記憶體中,那么基于事件的API就會很方便,

有以下事件型別:

start遇到一個新標記,會處理標記的結束尖括號,但不處理內容,

end已經處理結束標記的結束尖括號,所有子節點都已經處理,

start-ns結束一個命名空間宣告,

end-ns結束一個命名空間宣告,

iterparse()回傳一個iterable,它會生成元組,其中包含事件名和觸發事件的節點, 

from xml.etree.ElementTree import iterparse

depth = 0
prefix_width = 8
prefix_dots = '.' * prefix_width
line_template = '.'.join([
    '{prefix:<0.{prefix_len}}',
    '{event:<8}',
    '{suffix:<{suffix_len}}',
    '{node.tag:<12}',
    '{node_id}',
])
EVENT_NAMES = ['start','end','start-ns','end-ns']
for (event,node) in iterparse('podcasts.opml',EVENT_NAMES):
    if event == 'end':
        depth -= 1

    prefix_len = depth * 2

    print(line_template.format(
        prefix = prefix_dots,
        prefix_len = prefix_len,
        suffix = '',
        suffix_len = (prefix_width - prefix_len),
        node = node,
        node_id = id(node),
        event = event,
    ))

    if event == 'start':
        depth += 1

默認的,只會生成end事件,要查看其他事件,可以將所需的事件名串列傳入iterparse(),

以事件方式進行處理對于某些操作來說更為自然,如將XML輸入轉換為另外某種格式,可以使用這個技術將播可串列(來自前面的例子)從XML檔案轉換為一個CSV檔案,以便把它們加載到一個電子表格或資料庫應用,

import csv
import sys
from xml.etree.ElementTree import iterparse

writer = csv.writer(sys.stdout,quoting=csv.QUOTE_NONNUMERIC)
group_name = ''

parsing = iterparse('podcasts.opml',events=['start'])

for (event,node) in parsing:
    if node.tag != 'outline':
        # Ignore anything not part of the outline.
        continue
    if not node.attrib.get('xmlUrl'):
        #Remember the current group.
        group_name = node.attrib['text']
    else:
        #Output a podcast entry.
        writer.writerow(
            (group_name,node.attrib['text'],
             node.attrib['xmlUrl'],
             node.attrib.get('htmlUrl',''))
        )

這個轉換程式并不需要將整個已決議的輸入檔案保存在記憶體中,其在遇到輸入中的各個節點時才進行處理,這樣做會更為高效,

1.6 創建一個定制樹構造器

要處理決議事件,一種可能更高效的方法是將標準的樹構造器行為替換為一種定制行為,XMLParser決議器使用一個TreeBuilder處理XML,并呼叫目標類的方法保存結果,通常輸出是由默認TreeBuilder類創建的一個ElementTree實體,可以將TreeBuilder替換為另一個類,使它在實體化Element節點之前接收事件,從而節省這部分開銷, 

可以將XML-CSV轉換器重新實作為一個樹構造器,

import io
import csv
import sys
from xml.etree.ElementTree import XMLParser

class PodcastListToCSV(object):
    def __init__(self,outputFile):
        self.writer = csv.writer(
            outputFile,
            quoting = csv.QUOTE_NONNUMERIC,
        )
        self.group_name = ''

    def start(self,tag,attrib):
        if tag != 'outline':
            # Ignore anything not part of the outline.
            return
        if not attrib.get('xmlUrl'):
            #Remember the current group.
            self.group_name = attrib['text']
        else:
            #Output a pddcast entry.
            self.writer.writerow(
                (self.group_name,
                attrib['text'],
                attrib['xmlUrl'],
                attrib.get('htmlUrl',''))
            )
    def end(self,tag):
        "Ignore closing tags"
    def data(self,data):
        "Ignore data inside nodes"
    def close(self):
        "Nothing special to do here"

target = PodcastListToCSV(sys.stdout)
parser = XMLParser(target=target)
with open('podcasts.opml','rt') as f:
    for line in f:
        parser.feed(line)
parser.close()

PodcastListToCSV實作了TreeBuilder協議,每次遇到一個新的XML標記時,都會呼叫start()并提供標記名和屬性,看到一個結束標記時,會根據這個標記名呼叫end(),在這二者之間,如果一個節點有內容,則會呼叫data()(一般認為樹構造器會跟蹤“當前”節點),在所有輸入都已經被處理時,將呼叫close(),它會回傳一個值,回傳給XMLTreeBuilder的用戶,

1.7 用元素節點構造檔案

除了決議功能,xml.etree.ElementTree還支持由應用中構造的Element物件來創建良構的XML檔案,決議檔案時使用的Element類還知道如何生成其內容的一個串行化形式,然后可以將這個串行化內容寫至一個檔案或其他資料流,

有3個輔助函式對于創建Element節點層次結構很有用,Element()創建一個標準節點,SubElement()將一個新節點關聯到一個父節點,Comment()創建一個使用XML注釋語法串行化資料的節點,

from xml.etree.ElementTree import Element,SubElement,Comment,tostring

top = Element('top')

comment = Comment('Generated for PyMOTW')
top.append(comment)

child = SubElement(top,'child')
child.text = 'This child contains text.'

child_with_tail = SubElement(top,'child_with_tail')
child_with_tail.text = 'This child has text.'
child_with_tail.tail = 'And "tail" text.'

child_with_entity_ref = SubElement(top,'child_with_entity_ref')
child_with_entity_ref.text = 'This & that'

print(tostring(top))

這個輸出只包含樹中的XML節點,而不包含版本和編碼的XML宣告,

1.8 美觀列印XML

ElementTree不會通過格式化tostring()的輸出來提高可讀性,因為增加額外的空白符會改變檔案的內容,為了讓輸出更易讀,后面的例子將使用xml.dom.minidom決議XML,然后使用它的toprettyxml()方法,

from xml.etree import ElementTree
from xml.dom import minidom
from xml.etree.ElementTree import Element,SubElement,Comment,tostring

def prettify(elem):
    """
    Return a pretty-printed XML string for the Element.
    """
    rough_string = ElementTree.tostring(elem,'utf-8')
    reparsed = minidom.parseString(rough_string)
    return reparsed.toprettyxml(indent="  ")

top = Element('top')

comment = Comment('Generated for PyMOTW')
top.append(comment)

child = SubElement(top,'child')
child.text = 'This child contains text.'

child_with_tail = SubElement(top,'child_with_tail')
child_with_tail.text = 'This child has text.'
child_with_tail.tail = 'And "tail" text.'

child_with_entity_ref = SubElement(top,'child_with_entity_ref')
child_with_entity_ref.text = 'This & that'

print(prettify(top))

輸出變得更易讀,

除了增加用于格式化的額外空白符,xml.dom.minidom美觀列印器還會向輸出增加一個XML宣告, 

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/163628.html

標籤:Python

上一篇:Centos7下部署Python專案

下一篇:django時區問題

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more