700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > java tika pdf转图片_使用tika将pdf转为html

java tika pdf转图片_使用tika将pdf转为html

时间:2019-11-17 12:53:04

相关推荐

java tika pdf转图片_使用tika将pdf转为html

tika是个功能强大的项目,这里展示下如何使用tika来将pdf转为html。

maven

org.apache.tika

tika-core

1.16

org.apache.tika

tika-parsers

1.16

转换

public static String extractHtml(File file) throws IOException {

byte[] bytes = Files.toByteArray(file);

AutoDetectParser tikaParser = new AutoDetectParser();

ByteArrayOutputStream out = new ByteArrayOutputStream();

SAXTransformerFactory factory = (SAXTransformerFactory) SAXTransformerFactory.newInstance();

TransformerHandler handler;

try {

handler = factory.newTransformerHandler();

} catch (TransformerConfigurationException ex) {

throw new IOException(ex);

}

handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");

handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");

handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "UTF-8");

handler.setResult(new StreamResult(out));

ExpandedTitleContentHandler handler1 = new ExpandedTitleContentHandler(handler);

try {

tikaParser.parse(new ByteArrayInputStream(bytes), handler1, new Metadata());

} catch (SAXException | TikaException ex) {

throw new IOException(ex);

}

return new String(out.toByteArray(), "UTF-8");

}

小结

效果对比的话,pdfDom的效果好一点。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。