首页 > 开发 > JAVA > 正文

【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档

2015-08-30 22:46:20  来源: 网友分享

问题

你有一个HTML文档要从中提取数据,并了解这个HTML文档的结构。

方法

将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码:

  1. File input = new File("/tmp/input.html");  

  2. Document doc = Jsoup.parse(input, "UTF-8""http://example.com/");  

  3.   

  4. Element content = doc.getElementById("content");  

  5. Elements links = content.getElementsByTag("a");  

  6. for (Element link : links) {  

  7.   String linkHref = link.attr("href");  

  8.   String linkText = link.text();  

  9. }  

说明

Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:

查找元素

元素数据

操作HTML和文本