NekoHTMLを使ってDOMをいじくる

仕事の調査でとあるアンカータグ(aタグのname属性が決まっている)の中身を 抜き出さなくてはいけなくなりました。

今までは文字列ベースで正規表現でゴリゴリやったりしてたのですが、 先日、NekoHTMLってのが便利だよ、と教えてもらいました。

早速試してみました↓ すげー簡単&便利〜

========= import org.cyberneko.html.parsers.DOMParser; import org.w3c.dom.Document; import org.w3c.dom.Element; import org.w3c.dom.NodeList;

public class NekoHTMLParser {   public static void main(String args[]) throws Exception{     DOMParser parser = new DOMParser();     parser.parse("http://localhost/test/index.html");     Document document = parser.getDocument();     NodeList nodeList = document.getElementsByTagName("a");     for(int i=0; i < nodeList.getLength(); i++){       Element element = (Element)nodeList.item(i);       if (element.getAttribute("name").equals("HOGEHOGE")) {         System.out.println(element.getTextContent());       }     }   } } =========