xpathとは?
xpathはxmlやhtmlといったマークアップ言語の中にあるコンテンツを指定するのに使用する言語です。
代表的なマークアップ言語のひとつであるhtmlはwebページを作るのに使用されています。webページ中に含まれるコンテンツの一部を取り出すのにxpathで指定します。
マークアップ言語ではタグを使ってデータの意味を指定します。htmlには<body>タグや<head>タグなどがあります。
<body> ここに本文が入ります</body>
タグは<タグ名>データ </タグ名>というように使います。
タグは重箱のように重ねて記述していきます。
<html>
<head>contents1</head>
<body><div class =”main”>contents2</div>
<div class = “set”>contents3</div>
</body>
</html>
xpathの記述法
xpathの基本の記述
htmlの最も外側のタグを頂点としてディレクトリのようにツリー状に表現すると以下のようになります。
/html/head/ あるいは html/body/div
というようにです
第一階層目がhtmlで第二階層にhead, bodyがあります。第三階層目にはdivがあります。
xpathはディレクトリのように記述します。headの中のcontents1をxpathで指定すると「/html/head」となります。
bodyの中の第三階層目にはdivで区切られたcontents2と3が2つあります。これを別々に指定するには
「/html/body/div[1]」あるいは「/html/body/div[2]」と記述します。
属性@で指定
divタグには class=”main”というように値が設定されています。
このclassを属性といいます。属性には属性値が=” “が設定されています。
この属性と属性値を指定する方法でxpathを記述すると
「/html/body/div[@class=”main”]」となります。
属性値に含まれる文字列をキーワードとして指定する方法は
/html/body/div[contains(@class,”main”)]