使用POI的WordExtractor批量提取Word文件的文本内容
(2009-10-27 15:02:27)
标签:
it |
分类: JAVA |
使用POI的WordExtractor批量提取Word文件的文本内容
依然使用到poi-3.0.2的两个jar包,如下为工程的.classpath:
<?xml version="1.0"
encoding="UTF-8"?>
<classpath>
<classpathentry kind="src"
path="src"/>
<classpathentry kind="con"
path="org.eclipse.jdt.launching.JRE_CONTAINER"/>
<classpathentry kind="lib"
path="E:/JAR包/POI/poi-3.0.2-FINAL-20080204.jar"/>
<classpathentry kind="lib"
path="E:/JAR包/POI/poi-scratchpad-3.0.2-FINAL-20080204.jar"/>
<classpathentry kind="output"
path="bin"/>
</classpath>
这里仅仅使用到org.apache.poi.hwpf.extractor.WordExtractor类提取Word文件中的文本内容。
实现过程:
从本地磁盘中读取某个文件目录下的Word文件,然后提取出所有的Wrod文件的文本内容,直接写入到对应的以该Word文件名称命名的txt文件中,保存到本地磁盘中。
测试的实现类如下所示:
package org.shirdrn.word;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Date;
import org.apache.poi.hwpf.extractor.WordExtractor;
public class WordBatchExtractor {
private String path;
public void setPath(String path){
}
public FileInputStream getFileInputStream(File file) throws
FileNotFoundException {
}
public void extractBatchWordFiles() throws IOException{
}
public void outputToPath(WordExtractor wordExtractor,String file)
throws IOException{
}
}
首先,在指定的目录中添加Word文件,我使用的测试文件如以下所示:
E:\POI\word 的目录
2008-05-01
11:08
2008-05-01
11:08
2008-04-06
12:42
2008-04-06
11:54
2008-04-28
16:15
2008-04-06
12:18
2008-04-06
12:44
2008-04-06
12:40
2008-04-06
12:37
2008-04-06
13:00
2008-04-28
16:15
测试主函数为:
public static void main(String[] args) {
}
这里,只有提取Word文件文本内容使用了WordExtractor类,其它的,写入到txt文件及其本地磁盘,都是使用java.io包中一些使用类实现的。
测试结果如下所示:
正在处理Word文件 E:\POI\word\BEA Portal培训.doc(约188KB) ...
正在处理Word文件 E:\POI\word\Jboss 下开发EJB简介.doc(约137KB) ...
正在处理Word文件 E:\POI\word\JBoss3.0 下配置和部署EJB简介.doc(约24KB) ...
正在处理Word文件 E:\POI\word\JMS入门.doc(约44KB) ...
正在处理Word文件 E:\POI\word\taglib(struts2标签).doc(约255KB) ...
正在处理Word文件 E:\POI\word\WebSphere Portal V6.0 安装指南.doc(约5100KB)
...
正在处理Word文件 E:\POI\word\WebSphere Portal技术概述.doc(约3815KB) ...
正在处理Word文件 E:\POI\word\WPS6.0安装配置文档 .doc(约4361KB) ...
正在处理Word文件 E:\POI\word\配置和部署EJB.doc(约24KB) ...
将Word文件处理成txt文件用时 2 秒(s).
可以到目录E:\POI\word\下面查看生成的txt文件,与上面的Word文件一一对应,列表如下所示:
E:\POI\word 的目录
2008-05-01
11:21
2008-05-01
11:21
2008-05-01
11:21
2008-05-01
11:21
2008-05-01
11:21
2008-05-01
11:21
2008-05-01
11:21
2008-05-01
11:21
2008-05-01
11:21
上面实现中,Word文件的总大小为13.6MB,转化成txt文件后只有171KB

加载中…