Pythonを使ったXML処理の全手順!初心者でも10ステップでマスターする方法 – Japanシーモア

Pythonを使ったXML処理の全手順!初心者でも10ステップでマスターする方法

PythonとXMLの連携を解説する記事のサムネイルPython
この記事は約19分で読めます。

 

【サイト内のコードはご自由に個人利用・商用利用いただけます】

このサービスは複数のSSPによる協力の下、運営されています。

この記事では、プログラムの基礎知識を前提に話を進めています。

説明のためのコードや、サンプルコードもありますので、もちろん初心者でも理解できるように表現してあります。

基本的な知識があればカスタムコードを使って機能追加、目的を達成できるように作ってあります。

※この記事は、一般的にプロフェッショナルの指標とされる『実務経験10,000時間以上』を凌駕する現役のプログラマチームによって監修されています。

サイト内のコードを共有する場合は、参照元として引用して下さいますと幸いです

※Japanシーモアは、常に解説内容のわかりやすさや記事の品質に注力しております。不具合、分かりにくい説明や不適切な表現、動かないコードなど気になることがございましたら、記事の品質向上の為にお問い合わせフォームにてご共有いただけますと幸いです。
(送信された情報は、プライバシーポリシーのもと、厳正に取扱い、処分させていただきます。)

はじめに

PythonとXMLは、それぞれ強力なツールで、両者を組み合わせることでさまざまな可能性が広がります。

この記事では、Pythonを使用してXMLを効率的に取り扱う方法を初心者向けに10ステップで解説します。

独自のアプリケーションを開発したり、既存のデータを解析したりする際に役立つでしょう。

●PythonとXMLについて

○Pythonとは

Pythonは、初心者でも学びやすいプログラミング言語の一つで、その文法は明瞭で読みやすいことが特徴です。

また、標準ライブラリが豊富で、XMLの解析や操作もこれを使用して行うことが可能です。

○XMLとは

XML(eXtensible Markup Language)は、データを構造化して保存・交換するためのマークアップ言語です。

HTMLと似たタグベースの形式を持っていますが、自由にタグを定義できる点が異なります。

この自由度の高さから、様々な用途で利用されています。

●PythonでXMLを読み込む方法

XMLの読み込みは、Pythonの標準ライブラリの一つであるElementTreeを使用します。

下記のサンプルコード1は、XMLファイルを読み込む簡単な例です。

○サンプルコード1:PythonでXMLを読み込む

import xml.etree.ElementTree as ET

tree = ET.parse('example.xml')
root = tree.getroot()

このコードでは、まずxml.etree.ElementTreeモジュールをETという名前でインポートします。

次に、ET.parse関数を使用してXMLファイル(ここでは’example.xml’)を解析し、その結果をtreeに格納します。

最後に、tree.getrootメソッドでXMLドキュメントのルート(最上位)要素を取得しています。

上記のコードを実行すると、指定したXMLファイルのルート要素が得られます。

ルート要素を取得することで、その下に存在するすべての要素や属性にアクセスできるようになります。

●PythonでXMLを解析する方法

次に、XMLの解析方法について説明します。

PythonでXMLを解析するには、ElementTreeのfindfindalliterなどのメソッドを使用します。

○サンプルコード2:PythonでXMLを解析する

import xml.etree.ElementTree as ET

tree = ET.parse('example.xml')
root = tree.getroot()

for elem in root.findall('.//element'):
    print(elem.text)

このコードでは、findallメソッドを使用して、ルート要素以下のすべての要素から、’element’というタグを持つものを全て探し出しています。

そして、その要素のテキスト内容を出力します。

このコードを実行すると、指定したXMLファイル中の’element’タグを持つ全ての要素のテキストが表示されます。

●PythonでXMLの内容を取得する方法

それでは、Pythonを用いてXMLの内容を取得する手順を見ていきましょう。

ここでは、ElementTreeモジュールのfind()やfindall()といったメソッドを活用します。

これらは、XMLの特定のタグ名に対応する要素を検索し、それらの内容を取り出すための機能を持っています。

○サンプルコード3:PythonでXMLの内容を取得する

このサンプルコードでは、PythonのElementTreeモジュールを使ってXMLの内容を取得します。

この例では、次のXMLファイルを取り扱います。

<root>
  <element1>テキスト1</element1>
  <element2>テキスト2</element2>
  <element3>テキスト3</element3>
</root>

下記のPythonコードでは、このXMLから特定の要素のテキストを取得します。

import xml.etree.ElementTree as ET

# XMLデータをパース
root = ET.parse('sample.xml').getroot()

# element1のテキストを取得
element1_text = root.find('element1').text
print(f'element1のテキスト: {element1_text}')

# element2のテキストを取得
element2_text = root.find('element2').text
print(f'element2のテキスト: {element2_text}')

# element3のテキストを取得
element3_text = root.find('element3').text
print(f'element3のテキスト: {element3_text}')

上記のコードを実行すると、次の結果が出力されます。

element1のテキスト: テキスト1
element2のテキスト: テキスト2
element3のテキスト: テキスト3

find()メソッドは、指定したタグ名の最初の要素を返します。

その要素のテキストを取得するには、text属性を参照します。

なお、該当する要素が存在しない場合、find()メソッドはNoneを返しますので、その場合のエラーハンドリングも考慮するとよいでしょう。

●PythonでXMLの要素を追加・変更する方法

次に、PythonでXMLの要素を追加したり、既存の要素を変更する方法について学びます。

ElementTreeモジュールは、新しい要素を作成するためのElementクラスと、既存の要素のテキストや属性を変更するためのメソッドを提供しています。

○サンプルコード4:PythonでXMLの要素を追加する

このサンプルコードでは、PythonのElementTreeモジュールを使ってXMLに新たな要素を追加します。

次のXMLファイルを基に進めます。

<root>
  <element1>テキスト1</element1>
  <element2>テキスト2</element2>
</root>

次のPythonコードでは、新たなelement3を追加します。

import xml.etree.ElementTree as ET

# XMLデータをパース
root = ET.parse('sample.xml').getroot()

# 新たなelement3を作成
new_element = ET.Element('element3')
new_element.text = 'テキスト3'

# element3をrootに追加
root.append(new_element)

上記のコードを実行すると、次のようなXMLになります。

<root>
  <element1>テキスト1</element1>
  <element2>テキスト2</element2>
  <element3>テキスト3</element3>
</root>

PythonのElementTreeモジュールでは、新たな要素を作成するためにElementクラスを用います。

そして、その要素を既存のXMLに追加するためには、append()メソッドを用います。

○サンプルコード5:PythonでXMLの要素を変更する

このサンプルコードでは、PythonのElementTreeモジュールを使ってXMLの既存の要素を変更します。

次のXMLファイルを基に進めます。

<root>
  <element1>テキスト1</element1>
  <element2>テキスト2</element2>
  <element3>テキスト3</element3>
</root>

次のPythonコードでは、既存のelement3のテキストを変更します。

import xml.etree.ElementTree as ET

# XMLデータをパース
root = ET.parse('sample.xml').getroot()

# element3のテキストを取得し、変更する
element3 = root.find('element3')
element3.text = '新しいテキスト3'

上記のコードを実行すると、次のようなXMLになります。

<root>
  <element1>テキスト1</element1>
  <element2>テキスト2</element2>
  <element3>新しいテキスト3</element3>
</root>

PythonのElementTreeモジュールでは、既存の要素を検索し、そのテキストを変更するにはfind()メソッドとtext属性を活用します。

ただし、要素が存在しない場合、find()メソッドはNoneを返しますので、その場合のエラーハンドリングも忘れないようにしましょう。

●PythonでXMLを保存する方法

PythonでXMLの内容を編集した後は、その結果をファイルに保存したい場合がほとんどでしょう。

XMLのデータを保存するためには、ElementTreeのwriteメソッドを使います。

このメソッドを使用すれば、XMLの内容を直接ファイルに書き出すことが可能です。

この章ではPythonでXMLを保存する方法を紹介します。

PythonでXMLを扱うためには標準ライブラリのxml.etree.ElementTreeを使用します。

xml.etree.ElementTreeはPythonに標準で組み込まれているライブラリなので、特別なインストールは必要ありません。

○サンプルコード6:PythonでXMLを保存する

下記のコードはPythonを使用してXMLの内容をファイルに保存する例です。

import xml.etree.ElementTree as ET

# XMLデータを作成
root = ET.Element('root')
child = ET.SubElement(root, 'child')
child.text = 'This is a child element'

# XMLデータを保存
tree = ET.ElementTree(root)
tree.write('output.xml')

このコードでは、まずXMLの要素を作成しています。

その後、作成したXMLの要素を用いてElementTreeオブジェクトを作り、最後にwriteメソッドを使ってXMLデータを’output.xml’という名前のファイルに保存しています。

このコードを実行すると、カレントディレクトリに’output.xml’という名前のXMLファイルが作成されます。

その内容は次のようになります。

<root>
  <child>This is a child element</child>
</root>

XMLのインデントを整えて見やすくしたい場合は、xml.dom.minidomモジュールを使用します。

下記のサンプルコードは、上記のコードにxml.dom.minidomを用いてインデントを加えたバージョンです。

import xml.etree.ElementTree as ET
from xml.dom import minidom

# XMLデータを作成
root = ET.Element('root')
child = ET.SubElement(root, 'child')
child.text = 'This is a child element'

# XMLデータを文字列に変換
rough_string = ET.tostring(root, 'utf-8')
reparsed = minidom.parseString(rough_string)

# インデントを追加してXMLデータを保存
with open('output.xml', 'w') as f:
    f.write(reparsed.toprettyxml(indent="\t"))

このコードを実行すると、次のようにインデントが整ったXMLファイルが作成されます。

<root>
    <child>This is a child element</child>
</root>

●PythonとXMLの応用例

PythonとXMLを組み合わせることで、様々な応用例が考えられます。

特に、XMLを使って情報を抽出したり、データの管理に活用したりすることが可能です。

ここでは、PythonでXMLから情報を抽出する方法と、PythonでXMLを用いたデータ管理の方法をサンプルコードを交えて解説します。

これらの手法をマスターすれば、PythonとXMLをより効果的に活用することができます。

○サンプルコード7:PythonでXMLから情報を抽出する

以下きのコードは、PythonでXMLから特定の情報を抽出する例です。

import xml.etree.ElementTree as ET

# XMLデータをパース
tree = ET.parse('input.xml')
root = tree.getroot()

# 'child'要素のテキスト情報を抽出
for child in root.findall('child'):
    print(child.text)

このコードでは、まずET.parse関数を用いてXMLデータをパースし、それをroot変数に格納しています。

そして、findallメソッドを使用してroot要素の下にある’child’要素を全て見つけ出し、そのテキスト情報を抽出して表示しています。

このコードを実行すると、input.xmlファイル中の’child’要素のテキスト情報がすべて表示されます。

ここでinput.xmlの内容が以下の場合、

<root>
  <child>Child 1</child>
  <child>Child 2</child>
</root>

コードの実行結果は次のようになります。

Child 1
Child 2

○サンプルコード8:PythonでXMLを用いたデータ管理

次に、PythonでXMLを用いたデータ管理の例を見てみましょう。

この例では、XMLを使ってユーザーデータを管理する方法を紹介します。

import xml.etree.ElementTree as ET

# XMLデータを作成
root = ET.Element('users')

# ユーザーデータを追加
for i in range(1, 4):
    user = ET.SubElement(root, 'user')
    user.set('id', str(i))
    user.text = f'User {i}'

# XMLデータを保存
tree = ET.ElementTree(root)
tree.write('users.xml')

このコードでは、まず’users’という名前のroot要素を作成します。

その後、forループを用いて3つのユーザー要素を作成し、各要素に’id’属性とテキスト情報を設定しています。

最後に作成したXMLデータを’users.xml’というファイルに保存します。

このコードを実行すると、次のような内容のXMLファイルが作成されます。

<users>
  <user id="1">User 1</user>
  <user id="2">User 2</user>
  <user id="3">User 3</user>
</users>

以上がPythonとXMLの基本的な応用例です。

このようにPythonとXMLを組み合わせることで、情報の抽出やデータの管理といった作業を効率的に行うことができます。

●注意点と対処法

PythonでXMLを扱う際にはいくつかの注意点があります。

特に、XMLパースのエラーと文字列のエスケープ処理について説明します。

○XMLパースのエラー

まず、XMLのパースエラーについてです。

XMLのパースエラーは、XMLの構造が正しくない場合に発生します。

例えば、閉じタグが存在しない、属性値がクォートで囲まれていないなどが考えられます。

次のコードは、XMLのパースエラーを捉えて適切なエラーメッセージを表示する例です。

import xml.etree.ElementTree as ET

try:
    # XMLデータをパース
    tree = ET.parse('input.xml')
except ET.ParseError as e:
    print(f'XMLのパースエラー: {e}')

このコードでは、try-except文を使ってXMLのパースエラーを捕捉しています。

input.xmlファイルのXML構造に問題がある場合、ET.parse関数がET.ParseError例外を投げます。

その例外を捕捉してエラーメッセージを表示します。

例えば、閉じタグが存在しないXMLデータをパースしようとすると、次のようなエラーメッセージが表示されます。

XMLのパースエラー: mismatched tag: line 3, column 2

このメッセージから、XMLの3行目にマッチしないタグがあることがわかります。

○文字列のエスケープ処理

次に、文字列のエスケープ処理についてです。

XMLには特殊文字が含まれている場合、そのままではエラーとなります。

そのため、特殊文字をエスケープする必要があります。

特殊文字とは、XMLでは予約されている文字のことで、次の5つがあります。

  1. &(アンパサンド):&amp;
  2. <(小なり記号):&lt;
  3. >(大なり記号):&gt;
  4. ‘(シングルクォート):&apos;
  5. “(ダブルクォート):&quot;

これらの特殊文字をXMLデータに含める場合は、上記のようにエスケープする必要があります。

下記のコードは、特殊文字を含むテキストをエスケープしてXMLデータに追加する例です。

import xml.etree.ElementTree as ET
import html

# 特殊文字を含むテキスト
text = "5 > 3 & 2 < 4"

# テキストをエスケープ
escaped_text = html.escape(text)

# XMLデータを作成
root = ET.Element('root')
child = ET.SubElement(root, 'child')
child.text = escaped_text

# XMLデータを保存
tree = ET.ElementTree(root)
tree.write('output.xml')

このコードでは、まず特殊文字を含むテキストをhtml.escape関数でエスケープしています。

その後、エスケープしたテキストをXMLデータに追加して、XMLファイルに保存しています。

このコードを実行すると、次のような内容のXMLファイルが作成されます。

<root>
  <child>5 &gt; 3 &amp; 2 &lt; 4</child>
</root>

以上、XMLパースのエラーと文字列のエスケープ処理についての注意点と対処法を説明しました。

これらを理解しておくことで、PythonでXMLを扱う際のエラーを適切に対処することができます。

●カスタマイズ方法

PythonでXMLを扱う際のカスタマイズ方法について解説します。

Pythonの強力なXML処理ライブラリを活用すれば、XMLのデータ構造を自由に操作し、特定の要素を追加、削除、変更することが可能です。

○要素の追加

まずは新しい要素の追加についてです。

下記のサンプルコードでは、新たに’child2’という要素をXMLデータに追加します。

import xml.etree.ElementTree as ET

# XMLデータを読み込み
tree = ET.parse('input.xml')
root = tree.getroot()

# 新しい要素を作成
new_element = ET.Element('child2')
new_element.text = 'This is a new element.'

# 新しい要素を追加
root.append(new_element)

# XMLデータを保存
tree.write('output.xml')

このコードでは、まずinput.xmlという既存のXMLデータを読み込んでいます。

次に、新しい要素’child2’を作成し、そのテキストに’This is a new element.’を設定しています。

そして、その新しい要素をroot要素の子要素として追加し、その結果をoutput.xmlに保存しています。

このコードを実行すると、元のXMLデータに新たに’child2’という要素が追加されます。

つまり、次のようなXMLデータが生成されます。

<root>
  <child>Existing child element.</child>
  <child2>This is a new element.</child2>
</root>

○要素の削除

次に要素の削除についてです。

下記のサンプルコードでは、’child’という名前の要素をXMLデータから削除します。

import xml.etree.ElementTree as ET

# XMLデータを読み込み
tree = ET.parse('input.xml')
root = tree.getroot()

# 'child'という要素を探し
for element in root.findall('child'):
    root.remove(element)

# XMLデータを保存
tree.write('output.xml')

このコードでは、まず既存のXMLデータを読み込んでいます。

次に、’child’という名前のすべての要素を探し、それぞれをroot要素から削除しています。

最後に、その結果をoutput.xmlに保存しています。

このコードを実行すると、’child’という要素がXMLデータから削除されます。

つまり、次のようなXMLデータが生成されます。

<root>
  <child2>This is a new element.</child2>
</root>

以上がPythonでXMLをカスタマイズする基本的な方法です。

これらの方法を活用すれば、XMLのデータ構造を自由に操作することが可能です。

ただし、元のXMLデータを上書きする前に、必ずバックアップを取るようにしましょう。

まとめ

本記事では、Pythonを使用してXMLを処理する基本的な手順を詳細に説明しました。

XMLファイルの読み込みから要素の探索、内容の変更、そして新しいXMLファイルの保存まで、初心者でも理解できるように分かりやすいサンプルコードとともに解説しました。

まず最初に、Pythonのxml.etree.ElementTreeモジュールを用いてXMLファイルを読み込む方法を示しました。

その後、XML構造内の特定の要素や属性を探し出す方法、XMLの内容を変更する方法を詳しく説明しました。

また、XMLファイルをパースした結果を新しいXMLファイルとして保存する方法についても触れました。

さらに、PythonでXMLを扱う際の注意点や応用例についても、サンプルコードを交えて解説しました。

特に、新しい要素の追加や既存要素の削除といったXMLのカスタマイズ方法について詳しく説明しました。

PythonとXMLの連携は、データ解析やウェブスクレイピング、APIの利用など、様々な場面で役立つスキルです。

本記事が、その学習の一助となれば幸いです。