这是poi-3.7-20101029.jar下载,多年(nián)以来,Apache POI已经为所有项目支持的文件格式提供了基本的文本提取。另外,除了(简单)文本之(zhī)外,这些(xiē)文件还(hái)提供(gòng)对与给定文件(jiàn)相关联的元数据的访(fǎng)问(wèn),例如标题(tí)和作者。
poi-3.7-20101029.jar是如果您是通过(guò)交(jiāo)钥匙文本提取(包括最新支持(chí),样式等(děng)),强烈建议您使(shǐ)用 Apache Tika,它将构建在POI之上(shàng),以提供文本和元数据(jù)提取。如果您希望有一(yī)些非常简单和独立(lì)的东西,或者您希望进行(háng)大量修改,那么POI提供的文本提取器可能会(huì)更适合您的需求。
所有POI文本提取器都从org.apache.poi.POITextExtractor扩展 。这(zhè)提供了所有提取器getText()的通用方法。在许多情况(kuàng)下(xià),返(fǎn)回的文本(běn)将是(shì)您需要的。然而(ér),许多提取(qǔ)器确实提供更有(yǒu)针对性的文本提取方法,因(yīn)此您可能(néng)希望在某些情况(kuàng)下使用这些方法。
所有基于POIFS / OLE 2的文本提取(qǔ)器也从org.apache.poi.POIOLE2TextExtractor扩展 。这另(lìng)外提供了获(huò)取HPFS文(wén)档元(yuán)数据的常用方法(fǎ)。
所有基(jī)于OOXML的文本提取器也从org.apache.poi.POIOOXMLTextExtractor扩展 。这另外(wài)提供(gòng)了获取OOXML元(yuán)数据的常用方法。
文字提取工厂
POI提(tí)供了(le)一个常见的类,根据提供的文(wén)档内容为您(nín)选择适当的文(wén)本提(tí)取器。 org.apache.poi.extractor.ExtractorFactory提供与WorkbookFactory类似的功能(néng)。您只需传递一(yī)个InputStream,一个文件,一个POIFSFileSystem或一个OOXML包。它为您(nín)确(què)定正确(què)的文本提取器(qì),并返回。
对于完整的检测和(hé)文本提取器自(zì)动选择,强烈(liè)建议用(yòng)户调查 Apache Tika。
Excel
对于.xls文件,有 org.apache.poi.hssf.extractor.ExcelExtractor,它将返回文(wén)本,可选地使(shǐ)用公式而不是其内容。同样,对于.xlsx文件,还有 org.apache.poi.xssf.extractor.XSSFExcelExtractor,它提供相同的功能(néng)。
对(duì)于那些(xiē)在有(yǒu)限的(de)内存占用(yòng)空间中工作的(de)人员,还有两(liǎng)个可用的Excel文本提取器。对于.xls文件,它是基于流式EventUserModel代(dài)码的 org.apache.poi.hssf.extractor.EventBasedExcelExtractor,通常会提供较低(dī)的(de)内存占用以进行提取。但(dàn)是,正确输出更复杂的(de)公式(shì)将会出现问题,因为它们与记录一起(qǐ)工作,因此无法访问复杂和共享公式(shì)的所有部分(fèn)。对于.xlsx文件,等(děng)效的是 基于XSSF SAX事件代码库(kù)的org.apache.poi.xssf.extractor.XSSFEventBasedExcelExtractor。
词
对于来自Word 97 - Word 2003的.doc文件,在暂存器(qì)中有(yǒu) org.apache.poi.hwpf.extractor.WordExtractor,它将返回(huí)文(wén)档的(de)文本。
使用POI 3.7的用(yòng)户也(yě)可以使用scratchpad类org.apache.poi.hwpf.extractor.Word6Extractor从旧(jiù)的Word 6和Word 95文件中提取简单(dān)的文(wén)本内容 。
对于.docx文件,相关类是(shì) org.apache.poi.xwpf.extractor.XPFFWordExtractor
PowerPoint
对于.ppt文件,在(zài)暂存器(qì)中有 org.apache.poi.hslf.extractor.PowerPointExtractor,它将返回幻灯片的文本,可选地(dì)仅限于(yú)幻灯片文(wén)本或(huò)笔记文(wén)本。对于.pptx文(wén)件(jiàn),要使用(yòng)的类(lèi)是 org.apache.poi.xslf.extractor.XSLFPowerPointExtractor
出版商(shāng)
对于.pub文件,在暂存器中有 org.apache.poi.hpbf.extractor.PublisherExtractor,它将(jiāng)返回文件的(de)文本。
Visio
对于.vsd文件,在暂(zàn)存器中有 org.apache.poi.hdgf.extractor.VisioTextExtractor,它将返回(huí)文(wén)件的文(wén)本。
嵌(qiàn)入对(duì)象
Extractors已经存在(zài)Excel,Word,PowerPoint和Visio; 如果(guǒ)这(zhè)些对象(xiàng)之一嵌入到工作(zuò)表中,则ExtractorFactory类可用于为(wéi)其恢复提取器。
Java POI读取Office excel (2003,2007)及相关jar包(bāo) 其中(zhōng)必要的poi-ooxml-schemas-3.7-20101029.jar,对于操作word实(shí)现一些模板化的功能(néng)很有帮助的jar包.
