这是PDFBox jar包下载,是一个开(kāi)源的用于处理PDF文档(dàng)的(de) Java工具(jù),支持各种语言和平(píng)台的PDF工具和类库就如(rú)雨(yǔ)后春笋般涌现。PDFBox 提取文本,包括Unicode字符。PDFBox和Jakarta Lucene等文本搜索(suǒ)引擎的整合过程十分(fèn)简单。加密/解密PDF文档(dàng)。PDFBox从PDF和XFDF格式中导(dǎo)入或(huò)导出表单(dān)数(shù)据。向(xiàng)已有PDF文档(dàng)中追加内容。将(jiāng)一个PDF文档切(qiē)分(fèn)为多个文档。
PDFBox jar包全称Portable Document Format,是Adobe公司开发的电子文(wén)件格式。这种文件(jiàn)格式与操作系(xì)统平台无关,可(kě)以在Windows、Unix或Mac OS等(děng)操作系(xì)统上通(tōng)用(yòng)。
PDF文件(jiàn)格式将文字(zì)、字型(xíng)、格式(shì)、颜(yán)色及(jí)独立于(yú)设备和分辨率的图形图像(xiàng)等封装在一个文件中(zhōng)。如果要抽取其中的文本信息(xī),需要根据(jù)它的文件格(gé)式(shì)来进行解析(xī)。幸(xìng)好(hǎo)目前已经有不少工具能(néng)帮助(zhù)我们(men)做这些(xiē)事情(qíng)。
1、文本提取:从PDF文档中(zhōng)提取文本。
2、合(hé)并&分割(gē):可(kě)以把多个PDF文档合并成单个,也可以把单个(gè)PDF分拆成多个PDF文档。
3、表单填充(chōng):可以从PDF表单中提取数据,或(huò)者是填充PDF表单。
4、PDF/A验证:验证PDF文档是(shì)否满足PDF/A ISO标准。
5、PDF打(dǎ)印(yìn):把PDF文档输出到打印机——利用(yòng)了Java的(de)打(dǎ)印API。
6、PDF转换:可以把PDF文档(dàng)转换成映像(xiàng)文(wén)件。
7、PDF创(chuàng)建:可以从头创建(jiàn)新的PDF文档。
8、集成Lucene搜索引擎(qíng):Lucene搜索引擎与PDF索引相集成。
PDFBox(一个BSD许(xǔ)可下的(de)源码开放项目)是一个(gè)开源的(de)用于处理PDF文(wén)档的 Java工具,支(zhī)持各种语言和平台(tái)的PDF工具和(hé)类库就如雨后春笋般涌现(xiàn)。PDFBox 提取文本,包括Unicode字符。PDFBox和(hé)Jakarta Lucene等文本(běn)搜(sōu)索引擎的整合过程十分简(jiǎn)单。加密/解密PDF文档。PDFBox从PDF和XFDF格(gé)式(shì)中导入或(huò)导出(chū)表单(dān)数据(jù)。向已有PDF文(wén)档(dàng)中(zhōng)追加(jiā)内容。将一个PDF文档切分为多个文档。
