NekoHTMLを使ってDOMをいじくる - shinodoggのテキトーなブログ

仕事の調査でとあるアンカータグ(aタグのname属性が決まっている)の中身を抜き出さなくてはいけなくなりました。

今までは文字列ベースで正規表現でゴリゴリやったりしてたのですが、先日、NekoHTMLってのが便利だよ、と教えてもらいました。

早速試してみました↓ すげー簡単＆便利〜

＝＝＝＝＝＝＝＝＝ import org.cyberneko.html.parsers.DOMParser; import org.w3c.dom.Document; import org.w3c.dom.Element; import org.w3c.dom.NodeList;

public class NekoHTMLParser { 　　public static void main(String args[]) throws Exception{ 　　　　DOMParser parser = new DOMParser(); 　　　　parser.parse("http://localhost/test/index.html"); 　　　　Document document = parser.getDocument(); 　　　　NodeList nodeList = document.getElementsByTagName("a"); 　　　　for(int i=0; i < nodeList.getLength(); i++){ 　　　　　　Element element = (Element)nodeList.item(i); 　　　　　　if (element.getAttribute("name").equals("HOGEHOGE")) { 　　　　　　　　System.out.println(element.getTextContent()); 　　　　　　} 　　　　} 　　} } ＝＝＝＝＝＝＝＝＝