首页 > 开发 > JAVA > 正文

【使用JSOUP实现网络爬虫】从一个URL加载一个Document

2015-08-30 22:45:47  来源: 网友分享

存在问题

你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据。你可以使用下面解决方法:

解决方法

使用 Jsoup.connect(String url)方法:

  1. Document doc = Jsoup.connect("http://example.com/").get();  

  2. String title = doc.title();  

说明

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。

Connection 接口还提供一个方法链来解决特殊请求,具体如下:

  1. Document doc = Jsoup.connect("http://example.com")  

  2.   .data("query""Java")  

  3.   .userAgent("Mozilla")  

  4.   .cookie("auth""token")  

  5.   .timeout(3000)  

  6.   .post(

这个方法只支持Web URLs (httphttps 协议); 假如你需要从一个文件加载,可以使用 parse(File in, String charsetName) 代替。