程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 編程語言 >> .NET網頁編程 >> C# >> C#入門知識 >> c#完成將pdf轉文本的示例分享

c#完成將pdf轉文本的示例分享

編輯:C#入門知識

c#完成將pdf轉文本的示例分享。本站提示廣大學習愛好者:(c#完成將pdf轉文本的示例分享)文章只能為提供參考,不一定能成為您想要的結果。以下是c#完成將pdf轉文本的示例分享正文


若何解析PDF文件

在.NET中從PDF文件裡提取文本的幾種重要辦法有:

1、Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 完成;

2、iTextSharp;

3、PDFBox。

不幸的是這些 PDF 解析計劃都不完善。我們將鄙人面評論辯論這些辦法。

Adobe PDF IFilter

為了應用 IFilter 接口來解析 PDF 文件,你須要:

Windows 2000 或許後續版本

Adobe Acrobat 或 Reader 7.0.5+ (或零丁的 Adobe PDF IFilter [adobe.com])

IFilter COM 封裝類 [dotlucene.net]

樣例代碼:


using IFilter;
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path);
}

缺陷:

應用了弗成靠的 COM 互操作來處置 IFilter 接口 (而且組合 IFilter COM、 Adobe PDF IFilter 特殊費事)。

須要在目的體系上零丁裝置 Adobe IFilter。假如你須要對其它人宣布可索引的處理計劃,會很苦楚。

iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一個 Java 的PDF 操作庫iText(http://itextpdf.com/) 的.NET輸入。它重要著眼於編纂PDF而不是浏覽,但它固然也支撐從PDF中提取文本(雖然有點年夜材小用)。

例程:


using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser; 
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();

    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }

    return text.ToString();
  }
}

信譽證: 成員號 10364982

缺陷:

須要允許證(假如你不愛好 AGPL允許證 的話)

PDFBox

PDFBox是另外一個Java PDF類庫。它同時也能夠與本來的Java Lucene一同應用(拜見LucenePDFDocument)。

榮幸的是,PDFBox有一個應用IKVM.NET開辟的.NET版本 (只需拜訪PDFBox下載頁)。

在.NET中應用PDFBox須要援用:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8.4.dll

並將以下文件復制到bin文件夾下:

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dll

應用PDFBox解析PDF非常簡略:


using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util; 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}

編譯後的年夜小加起來差不多有18MB:

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

速度還可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。

感激bobrien100供給的改良建議。

缺陷:

IKVM.NET依附 (18 MB)

速度(特別是IKVM.NET的啟動時光)

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved