java 如何使用pdfbox提取文本内容的字体样式？

Question

提问by Master Stroke

I am using pdfbox library to extract text contents from pdf file.I would able to extract all the text,but couldn't find the method to extract font styles.

我正在使用pdfbox库从pdf文件中提取文本内容。我可以提取所有文本，但找不到提取字体样式的方法。

Answer 1

回答by Harpreet

This is not the right way to extract font. To read font one has to iterate through pdf pages and extract font as below:

这不是提取字体的正确方法。要阅读字体，必须遍历 pdf 页面并提取字体，如下所示：

PDDocument  doc = PDDocument.load("C:/mydoc3.pdf");
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for(PDPage page:pages){
    Map<String,PDFont> pageFonts=page.getResources().getFonts();
}

Answer 2

回答by Master Stroke

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class pdf2box {
    public static void main(String args[])
    {
        try
        {
    PDDocument pddDocument=PDDocument.load("table2.pdf");
    PDFTextStripper textStripper=new PDFTextStripper();
    System.out.println(textStripper.getText(pddDocument));
    textStripper.getFonts();



    pddDocument.close();
        }
        catch(Exception ex)
        {
        ex.printStackTrace();
        }
    }


}

Answer 3

回答by Walid Bousseta

File file = new File("sample.pdf");
        PDDocument document = PDDocument.load(file);

        for (int i = 0; i < document.getNumberOfPages(); ++i)
        {
            PDPage page = document.getPage(i);
            PDResources res = page.getResources();
            for (COSName fontName : res.getFontNames())
            {
                PDFont font = res.getFont(fontName);
                System.out.println(font.getName());

            }
        }

java 如何使用pdfbox提取文本内容的字体样式？

提问by Master Stroke

回答by Harpreet

回答by Master Stroke

回答by Walid Bousseta

相关推荐

最近更新

标签

java 如何使用pdfbox提取文本内容的字体样式？

提问by Master Stroke

回答by Harpreet

回答by Master Stroke

回答by Walid Bousseta

相关推荐

java 如何在休眠中进行乐观锁定

java Jar 地狱：如何使用类加载器在运行时将一个 jar 库版本替换为另一个

以编程方式设置 Java.library.path

如何在 Java 中使用 Apache POI 框架创建 RichTextString？

相关推荐

最近更新

标签