C# 将 PDF 转化成文本格式
2016-08-23
0 0 0
4.0 分
其他
如何获取积分?
翻译 maninwest@Codeforge 作者: Dan Letecky @CodeProject
使用PDFBox 和 IKVM.NET在 .NET 中解析PDF 文件(托管代码)
如何解析 PDF文件
在 .NET 中提取 PDF 文本有多个方式:
· Microsoft IFilter接口和Adobe IFilter 实现.
· iTextSharp
· PDFBox
1. 如何使用Adobe PDF IFilter解析 PDF 文件
要使用 IFilter 接口解析 PDF 文件,需要以下条件:
· Windows 2000 或以上版本
· Adobe Acrobat 或 Reader 7.0.5以上版本 (或者单机版 Adobe PDF IFilter [adobe.com])
· IFilter COM wrapper class [dotlucene.net]
示例代码
using IFilter; // ... public static string ExtractTextFromPdf(string path) { return DefaultParser.Extract(path); }
下载一个示例代码
· Parsing PDF Files using IFilter [squarepdf.net]
如果使用Adobe Acrobat Reader 自带的 PDF IFilter ,需要重命名进程为 "filtdump.e
c#
转化
格式
成文
相关源码推荐
第186号:DX0110-小区物业管理系统源码
0
0
暂无评分
第219号:DX0149-小区物业管理系统源码
0
0
暂无评分
验证码识别
0
0
暂无评分
CSV数据分析工具
0
0
暂无评分
医院病历信息管理系统源码
0
0
暂无评分
暂无评论