Webスクレイピングの基礎となるXPathの基本を分かりやすく解説します。Webスクレイピングを行う上で欠かせないのがXPathです。
XPathは、Webサイトの構造を表現する言語であり、特定の要素を効率的に抽出することができます。
しかし、XPathは初めて触れる人にとっては、難解な言語と感じるかもしれません。そこでこの記事では、Webスクレイピング初心者でも簡単に使えるXPathの基本や書き方をご紹介。
Webスクレイピングができれば、価格比較や競合調査や顧客情報の収集、ニュース記事の収集、商品情報の更新など、様々なビジネスシーンで役立てることができます。
システム管理・運用や新規CSチームの立ち上げ、新規事業プロジェクトの進行などを経験し、現在はマーケティングやインフルエンサー事業をメインとする。
XPathとは?

XPathはXML文書を処理するための言語です。複雑なXML文書から必要なデータを効率的に抽出したり、XML文書を編集したりすることができます。
仕組みやメリット、使用シーンを詳しく見ていきましょう。
XPathの基本原理
XPathの基本的な仕組みは以下の通りです。
| ノードの種類 | XPathは、XML文書の要素、属性、テキストノードなど、さまざまな種類のノードを区別可能 |
| 軸 | 軸は、現在のノードから他のノードへの方向を表す。子ノード、親ノード、兄弟ノードなど、さまざまな軸が存在 |
| 演算子 | 演算子は、ノードを選択するための条件を指定するために使用。論理演算子、比較演算子、数学演算子など、さまざまな演算子が存在 |
| 関数 | ノードの操作や文字列処理などを行うための関数 |
これらの要素を組み合わせて、XPathのパス式を作成することができます。パス式は、以下の形式で記述されます。
| /軸1/軸2/…/ノードの種類[条件1][条件2]… |
XPathはさまざまな条件を指定して、必要なノードを効率的に選択することができます。
XPathは、XML文書を処理するさまざまなアプリケーションで使用されています。例えば、Webスクレイピング、XMLデータの変換、XSLTによるスタイルシート処理など、幅広い用途に使用されています。
XPathのメリットと使用シーン
XPathのメリットは以下の通り。
- シンプルで使いやすい:
- 強力な機能
- 汎用性が高い
XPathはシンプルな構文で記述されており、初心者でも比較的簡単に習得することができます。初心者でも複雑な条件に基づいてデータを選択したり、データを編集したりすることが可能。
また、様々なプログラミング言語やXML処理ツールで利用することができるので便利です。
では、XPathはどのようなシチュエーションで使われるのでしょうか。
- XML文書からのデータ抽出
- XML文書の編集
- XML文書の変換
Webサービスのレスポンス、データベースのダンプなど、様々なXML文書から必要なデータを抽出するだけではなく、XML文書の要素を追加したり、削除したり、変更したりすることもできます。
具体的には、Webサービスのレスポンスから、商品名、価格、在庫数などの情報をXPathを使用して抽出したり、XML文書をXPathを使用して解析し、データベースに格納したりすることです。
また、XPathを使用して、XML文書を別の形式に変換することができます。XPathを使用して、XML文書をHTMLに変換し、Webページとして表示することが可能です。
XPathの書き方

ここからは、XPathの具体的な書き方を紹介します。
基本的なXPathの書き方
XPathは、XML文書の構造を利用して、特定の要素や属性を効率的に取得するための言語です。HTML文書にも適用できます。
XPathの書き方は、以下の3つの要素を組み合わせることで構成されます。
1. 軸:要素間の関係を表します。
代表的な軸は以下の通りです。
- //:ドキュメント全体から要素を検索
- /:子要素を検索
- ..:親要素を検索
- preceding:前の要素を検索
- following:後の要素を検索
2. ノードテスト:検索対象となる要素の種類を表します。
代表的なノードテストは以下の通りです。
- *:すべての要素
- tagName:特定のタグ名を持つ要素
- @attributeName:特定の属性を持つ要素
3. 述語:要素を絞り込むための条件を表します。
代表的な述語は以下の通りです。
- =:属性値が等しい
- !=:属性値が等しくない
- <:属性値が小さい
- >:属性値が大きい
- contains():属性値に特定の文字列が含まれている
これらの要素を組み合わせて、XPathを記述します。
例は次の通り。
/html/body/div[@id=’main’]:id属性が”main”であるdiv要素を取得
//p[contains(text(), ‘キーワード’)]:テキスト内容に”キーワード”を含むp要素を取得
XPathは、複雑なXML文書から必要な情報を効率的に取得するための強力なツールです。上記の基本的な書き方を理解すれば、様々な情報を取り出すことができます。
応用的なXPathの書き方
XPathは、XML文書の要素を抽出するための言語です。基本的な書き方は簡単ですが、複雑な文書を扱う場合は、より高度なテクニックが必要になります。ここでは3つ紹介します。
述語による条件指定
XPathでは、要素の属性やテキスト内容に基づいて、抽出対象を絞り込むことができます。
- contains():特定の文字列が含まれる要素を抽出
- position():特定位置の要素を抽出
- and/not/or:複数の条件を組み合わせて要素を抽出
例は次の通りです。
上記は、タイトルに “ABC” という文字列が含まれる書籍の著者の名前を抽出します。
axesによる関係性の表現
XPathでは、要素間の関係性を表現するaxesを使用できます。
- parent:親要素
- child:子要素
- descendant:子孫要素
- ancestor:先祖要素
- following-sibling:後続兄弟要素
- preceding-sibling:先行兄弟要素
例を挙げます。
上記は、DEF著の書籍の後に続く書籍を抽出します。
名前空間の扱い
XML文書では、名前空間を使用して要素を一意に識別することができます。XPathでは、名前空間を指定することで、特定の名前空間の要素のみを抽出できます。
- namespace:::名前空間プレフィックスを指定
- *:すべての名前空間
こちらも例を紹介します。
上記は、ns という名前空間の book 要素のうち、タイトルに “ABC” という文字列が含まれる要素の author 要素を抽出します。
他にも、以下のような高度なテクニックもあります。
- fn:string():数値やノードセットを文字列に変換
- fn:number():文字列を数値に変換
- fn:boolean():文字列をブール値に変換
- fn:substring():文字列の一部を抽出
XPathは簡単ですが、豊富な機能があるので使いこなすには時間がかかります。自社でしたいことをきちんと見極めて、必要なテクニックを身につけましょう。
XPathを使ったスクレイピングテクニック

XPathを使用したスクレイピングのテクニックを紹介します。
効率的なデータ収集のためのXPathテクニック
XPathは、XML文書から特定のデータを抽出するのに役立つ強力なツールです。効率的なデータ収集のために、以下のテクニックを覚えておくと役立ちます。
| 軸とノードテスト | XPath式は軸とノードテストを組み合わせて構成されます。軸は、現在のノードからどのように移動するかを指定し、ノードテストは選択するノードの種類を指定します。 |
| 述語 | 述語は、ノードを選択するための条件を指定します。ノード名、属性、名前空間などを比較することができます。 |
| ワイルドカード | ワイルドカードは、ノード名や属性値の一部に一致するノードを選択するのに役立ちます。 |
| 名前空間 | 名前空間は、異なるXML文書で使用されている要素名を区別するのに役立ちます。 |
| 関数 | XPathには、文字列操作、数値操作、日付操作など、様々な関数が用意されています。 |
| テンプレート | 繰り返し処理されるXPath式をまとめるのに役立ちます。 |
これらのテクニックを組み合わせることで、複雑なデータでも効率的に抽出することができます。
スクレイピングの精度を高めるXPathテクニック
スクレイピングの精度を高めるためには、以下のXPathテクニックを使用することができます。
ワイルドカード
ワイルドカードを使用することで、複数の要素を取得することができます。例えば、以下のXPathは、すべてのdiv要素を取得します。
属性
属性を使用することで、要素の属性値を取得することができます。例えば、以下のXPathは、id属性がmainであるdiv要素を取得します。
関数
XPathには、さまざまな関数が用意されています。これらの関数を使用することで、データの抽出をより効率的に行うことができます。例えば、以下のXPathは、text()関数を使用して、div要素内のテキストを取得します。
XPathを活用したWebスクレイピングの効果

XPathを活用した場合、Webスクレイピングにはどのような効果があるでしょうか。ビジネスシーンへのメリットや事例も含めて紹介します。
WebスクレイピングにおけるXPathの効果
- 高い効率性
- 高い精度
- 柔軟性
- コードの簡潔性
XPathは、Webサイトの構造を理解し、特定のデータをピンポイントで抽出できるため、効率的にデータ収集を行うことができます。大量のデータを短時間で取得したい場合に特に有効です。
また、要素の属性や位置関係を指定することで、必要なデータを正確に抽出することが可能です。誤ったデータを取得するリスクを減らし、データの信頼性を向上させることができます。
さらに、複雑なWebサイトの構造にも対応できる柔軟性を持っています。様々なWebサイトからデータを収集したい場合に最適です。
そして、シンプルな構文で記述できるため、コードの理解とメンテナンスが容易で、チームでの開発や将来的な改修にもぴったりです。
これらの効果により、XPathを使ったスクレイピングは、以下のビジネスシーンで大きなメリットをもたらします。
- 商品情報の収集
- 価格調査
- 顧客情報の分析
- 市場調査
- 競合調査
XPathを利用することによる業務効率化、コスト削減、売上向上、顧客満足度向上など、様々な効果を期待できます。
XPath活用事例
では、実際にはどのようなところでXPathが利用されているのでしょうか。
楽天市場:商品情報の抽出

楽天市場では、XPathを使用して商品ページから商品名、価格、画像などの情報を効率的に抽出しています。
この情報は、商品検索結果の表示や、レコメンデーションシステムなどに活用されています。
このXPathは、商品ページのタイトル要素を取得します。
メルカリ:出品情報の管理
メルカリでは、XPathを使用して出品者が出品した商品の情報を管理しています。
商品のタイトル、説明、価格、画像などの情報は、XPathによってデータベースに格納され、検索や表示などに活用されています。
このXPathは、出品ページの商品タイトルを取得します。
Amazon:商品レビューの分析

Amazonでは、XPathを使用して商品のレビューデータを分析しています。
レビューの内容や評価などを分析することで、商品の改善や顧客満足度の向上に役立てています。
このXPathは、レビューページの評価を取得します。
金融機関:顧客情報の管理
金融機関では、XPathを使用して顧客情報を含むXMLファイルを処理しています。
顧客の氏名、住所、口座情報などの情報は、XPathによってデータベースに格納され、各種業務に活用されています。
このXPathは、顧客ID 12345 の顧客の住所を取得します。
医療機関:診療録の管理
医療機関では、XPathを使用して電子カルテなどのXMLファイルを処理しています。
患者の氏名、病歴、検査結果などの情報は、XPathによってデータベースに格納され、診療や研究などに活用されています。
このXPathは、患者ID 12345 の患者の診断結果を取得します。
このように、XPathは様々な業界で様々な用途で活用されています。これらの事例を参考に、ぜひ業務に役立ててみてください。
まとめ:XPathでのWebスクレイピングを活用してビジネスに活かしましょう

Webスクレイピングは、Webサイトから必要な情報を自動的に抽出する技術です。XPathは、そのスクレイピングにおいて重要な役割を果たす言語です。
XPathは、Webサイトの構造を表現する言語であり、特定の要素を効率的に抽出することができます。この特性を活かすことで、ビジネスに役立つ様々な情報収集が可能になります。
もし、「XPathを扱えるリソースがない」「専門家にお任せしたい」とお困りであれば、ぜひ株式会社Jiteraへご連絡ください。
スクレイピングだけではなく、情報をいかに活用できるかまで、専門的な知見でアドバイスいたします。
