java 取pdf 文本域_java – 使用iText从pdf文件中提取文本列
我需要使用iText從pdf文件中提取文本.
問題是:一些pdf文件包含2列,當我提取文本時,我得到一個文本文件,其中列被合并為結果(即同一行中兩列的文本)
這是代碼:
public class pdf
{
private static String INPUTFILE = "http://www.revuemedecinetropicale.com/TAP_519-522_-_AO_07151GT_Rasoamananjara__ao.pdf" ;
private static String OUTPUTFILE = "c:/new3.pdf";
public static void main(String[] args) throws DocumentException, IOException {
Document document = new Document();
PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream(OUTPUTFILE));
document.open();
PdfReader reader = new PdfReader(INPUTFILE);
int n = reader.getNumberOfPages();
PdfImportedPage page;
// Go through all pages
for (int i = 1; i <= n; i++) {
page = writer.getImportedPage(reader, i);
Image instance = Image.getInstance(page);
document.add(instance);
}
document.close();
PdfReader readerN = new PdfReader(OUTPUTFILE);
for (int i = 1; i <= n; i++) {
String myLine = PdfTextExtractor.getTextFromPage(readerN,i);
System.out.println(myLine);
try {
FileWriter fw = new FileWriter("c:/yo.txt",true);
fw.write(myLine);
fw.close();
}catch (IOException ioe) {ioe.printStackTrace(); }
}
}
你能幫我完成這個任務嗎?
總結
以上是生活随笔為你收集整理的java 取pdf 文本域_java – 使用iText从pdf文件中提取文本列的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java高级反射_反射---Java高级
- 下一篇: 字符ascii码值转换_没想到 Unic