Java Process, InputStream读取字符串放入StringBuilder很卡的问题

Question

假设我需要通过Process来执行一个进程，并且需要把进程写入InputStream里面的东西进行读取并分析，并且假设这个进程会产生很多的字符串输出。假定这个进程是curl。

以下代码：

try {        // TODO add your handling code here:        StringBuilder sb = new StringBuilder();        ProcessBuilder pb = new ProcessBuilder("curl","http://www.sina.com.cn");            Process p = pb.start();        InputStream is = p.getInputStream();        BufferedReader reader = new BufferedReader(new InputStreamReader(is),4096);        String line = reader.readLine();        while(line != null){            //sb.append(line);            line = reader.readLine();        }        this.jTextArea1.append(sb.toString());    } catch (IOException ex) {            Logger.getLogger(MainWindow.class.getName()).log(Level.SEVERE, null, ex);    }

在速度上似乎没问题，但是将sb.append(line)加上去之后，明显变得非常卡，并且CPU占用率特别高。这是为什么呢？

Answer 1

不要自己写，因为你用的 4096 的那个缓存大小有可能不太好。而且你是一行一行地读，BufferedReader 需要查找换行符，这种做法也不高效。

推荐使用 commons-io 的 IOUtils.toString(InputStream, String)

参考代码如下：

InputStream is = null;try {    ...    is = p.getInputStream();    String text = IOUtils.toString(is, "GBK");    this.jTextArea1.append(text);} catch (...) {    ...} finally {    IOUtils.closeQuietly(is)}

另外，我顺便发现 lz 代码的两个问题：

从 InputStream 这种字节流转到 InputStreamReader 这样的字符流的时候没有指定编码。注意到 new InputStreamReader(InputStream) 会使用平台默认的编码。比如 Windows 是 GBK ，Linux 一般是 UTF-8 ，所以你的程序在 Linux 上运行的时候可能会出现乱码。事实上，这里的编码应该只跟 http://www.sina.com.cn/ 这个网页的编码有关，跟运行平台无关。打开后发现新浪用了 gb2313 ，GBK 是 gb2312 的扩展，所以可以在代码中那样写。
你没有关闭 is ，从 Process 获取的 InputStream 是否需要关闭？Java API 里没有明确写，但一般是需要关闭的，否则可能造成资源泄露。参考 http://stackoverflow.com/questions/7097697/properly-closing-java-process-inputstream-from-getinputstream

如果还有性能问题，可以用 profiler ，比如 VisualVM 。但是你的代码存在一些基本问题，建议楼主了解并使用一些静态代码检查工具，比如 FindBugs 。

Java Process, InputStream读取字符串放入StringBuilder很卡的问题

解决方案