假设我需要通过Process来执行一个进程,并且需要把进程写入InputStream里面的东西进行读取并分析,并且假设这个进程会产生很多的字符串输出。假定这个进程是curl。
以下代码:
try { // TODO add your handling code here: StringBuilder sb = new StringBuilder(); ProcessBuilder pb = new ProcessBuilder("curl","http://www.sina.com.cn"); Process p = pb.start(); InputStream is = p.getInputStream(); BufferedReader reader = new BufferedReader(new InputStreamReader(is),4096); String line = reader.readLine(); while(line != null){ //sb.append(line); line = reader.readLine(); } this.jTextArea1.append(sb.toString()); } catch (IOException ex) { Logger.getLogger(MainWindow.class.getName()).log(Level.SEVERE, null, ex); }
在速度上似乎没问题,但是将sb.append(line)
加上去之后,明显变得非常卡,并且CPU占用率特别高。这是为什么呢?
解决方案
不要自己写,因为你用的 4096 的那个缓存大小有可能不太好。而且你是一行一行地读,BufferedReader 需要查找换行符,这种做法也不高效。
推荐使用 commons-io 的 IOUtils.toString(InputStream, String)
参考代码如下:
InputStream is = null;try { ... is = p.getInputStream(); String text = IOUtils.toString(is, "GBK"); this.jTextArea1.append(text);} catch (...) { ...} finally { IOUtils.closeQuietly(is)}
另外,我顺便发现 lz 代码的两个问题:
- 从 InputStream 这种字节流转到 InputStreamReader 这样的字符流的时候没有指定编码。注意到 new InputStreamReader(InputStream) 会使用平台默认的编码。比如 Windows 是 GBK ,Linux 一般是 UTF-8 ,所以你的程序在 Linux 上运行的时候可能会出现乱码。事实上,这里的编码应该只跟 http://www.sina.com.cn/ 这个网页的编码有关,跟运行平台无关。打开后发现新浪用了 gb2313 ,GBK 是 gb2312 的扩展,所以可以在代码中那样写。
- 你没有关闭 is ,从 Process 获取的 InputStream 是否需要关闭?Java API 里没有明确写,但一般是需要关闭的,否则可能造成资源泄露。参考 http://stackoverflow.com/questions/7097697/properly-closing-java-process-inputstream-from-getinputstream
如果还有性能问题,可以用 profiler ,比如 VisualVM 。但是你的代码存在一些基本问题,建议楼主了解并使用一些静态代码检查工具,比如 FindBugs 。