poi.jar包官方版全名叫做Apache POI-the Java API for Microsoft Documents,poi.jar包官方版内包含了poi.jar-3.8,poi.jar-3.9,poi.jar-3.10,该软件针对特别专业用户使用及下载。
相关软件 | 版本说明 | 下载地址 |
---|---|---|
mysql |
v8.0.26 |
查看 |
Kettle Spoon |
中文版 |
查看 |
TablePlus |
官方版 |
查看 |
XlsToSql |
专业版 |
查看 |
软件功能
可以使用Java读取和写入MSExcel文件
可以使用Java读取和写入MSPowerPoint文件。
ApachePOI是您的JavaExcel解决方案(适用于Excel97-2008
OLE2文件包括大多数MicrosoftOffice文件,如XLS,DOC和PPT以及基于MFC序列化API的文件格式
对于每个MSOffice应用程序,存在一个组件模块,尝试为OLE2和OOXML文档格式提供公共的高级JavaAPI
OfficeOpenXML格式是在MicrosoftOffice2007和2008中找到的新的基于标准的XML文件格式。
这包括XLSX,DOCX和PPTX。该项目提供了一个低级别的API来支持使用openxml4j的开放式包装约定
软件特色
POI夜间构建在Jenkins持续集成服务器上运行。
这些构建不应在生产中使用:它们主要用于开发人员帮助解决错误和评估新功能或想要尝试最新版本的用户。
ApachePOI在2007年6月成为顶级项目,POI3.0工件被重新发布。在此日期之前,POI是ApacheJakarta的一个子项目。
POI允许远程攻击者通过特制OOXML文件(也称为XML实体扩展(XEE)攻击)造成拒绝服务(CPU消耗)
多年来,ApachePOI已经为所有项目支持的文件格式提供了基本的文本提取。此外,以及(纯)文本,这些提供对与给定文件相关联的元数据的访问,例如标题和作者。
对于更高级的文本提取需求,包括富文本提取(如格式化和样式),以及XML和HTML输出,ApachePOI与ApacheTika密切合作,为所有项目支持的文件格式提供POI驱动的Tika解析器。
如果你是在交钥匙文本提取之后,包括最新的支持,样式等,强烈建议使用ApacheTika,它建立在POI之上,提供文本和元数据提取。如果您希望有非常简单和独立的东西,或者您希望进行重大修改,那么下面提供的POI提供的文本提取器可能更适合您的需要。
文件详解
目前poi.jar包官方版的最新发布版本是3.10_FINAL.该版本保护的jar包有:
很多人都困惑POI那么多Jar到底应该导入哪一个。
实际上很多时候我们只利用POI来操作Excel。甚至只用xls这一种格式。
那么就没有必要全部都导入了。具体应该使用哪个JAR包请参考以下内容:
当我们只要使用xls格式时、只要导入poi-version-yyyymmdd.jar就可以了;
当我们还要使用xlsx格式、还要导入poi-ooxml-version-yyyymmdd.jar;
至于poi-ooxml-schemas-version-yyyymmdd.jar这个jar基本不太会用到的;
当我们需要操作word、ppt、viso、outlook等时需要用到poi-scratchpad-version-yyyymmdd.jar
什么是POI?
POI是“Point of Interest”的缩写,可以翻译成“兴趣点”吧,每个POI包含四方面信息,名称、类别、经度、纬度。
使用说明
所有POI文本提取器都从org.apache.poi.POITextExtractor扩展 。这提供了一个跨所有提取器,getText()的通用方法。在许多情况下,返回的文本将是所有你需要的。然而,许多提取器确实提供更有针对性的文本提取方法,因此您可能希望在某些情况下使用这些方法。
所有基于POIFS / OLE 2的文本提取器也从org.apache.poi.POIOLE2TextExtractor扩展 。此外,还提供了获取HPFS文档元数据的常用方法。
所有基于OOXML的文本提取器也从org.apache.poi.POIOOXMLTextExtractor扩展 。这还提供了获取OOXML元数据的常用方法。
文本提取器工厂
POI提供了一个公共类,根据提供的文档内容为您选择适当的文本提取器。 org.apache.poi.extractor.ExtractorFactory提供了一个类似于WorkbookFactory的函数。您只需传递一个InputStream,一个文件,一个POIFSFileSystem或一个OOXML包。它为你找出正确的文本提取器,并返回它。
对于完全检测和文本提取程序自动选择,强烈建议用户调查 Apache Tika。
Excel
对于.xls文件,有 org.apache.poi.hssf.extractor.ExcelExtractor,它将返回文本,可选择使用公式而不是其内容。类似地,对于.xlsx文件,有 org.apache.poi.xssf.extractor.XSSFExcelExtractor,它提供相同的功能。
对于在受限内存占用中工作的用户,还有两个可用的Excel文本提取器。对于.xls文件,它是 org.apache.poi.hssf.extractor.EventBasedExcelExtractor,基于流式EventUserModel代码,并且通常会提供较低的内存占用来进行提取。然而,它会有问题正确地输出更复杂的公式,因为它在记录通过时工作,因此不能访问复杂和共享公式的所有部分。对于.xlsx文件,等效的是 org.apache.poi.xssf.extractor.XSSFEventBasedExcelExtractor,它基于XSSF SAX Event代码库。
对于来自Word 97 - Word 2003的.doc文件,在暂存器中有 org.apache.poi.hwpf.extractor.WordExtractor,它将返回文档的文本。
使用POI 3.7的用户还可以使用scratchpad类org.apache.poi.hwpf.extractor.Word6Extractor从较旧的Word 6和Word 95文件中提取简单的文本内容 。
对于.docx文件,相关类是 org.apache.poi.xwpf.extractor.XPFFWordExtractor
PowerPoint
对于.ppt文件,在暂存器中有 org.apache.poi.hslf.extractor.PowerPointExtractor,它将返回幻灯片的文本,可选地仅限于幻灯片文本或注释文本。对于.pptx文件,要使用的类是 org.apache.poi.xslf.extractor.XSLFPowerPointExtractor
发布商
对于.pub文件,在scratchpad中有 org.apache.poi.hpbf.extractor.PublisherExtractor,它将为您的文件返回文本。
Visio
对于.vsd文件,在scratchpad中有 org.apache.poi.hdgf.extractor.VisioTextExtractor,它将为您的文件返回文本。