博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用iTextSharp提取PDF文件中的文本内容
阅读量:6000 次
发布时间:2019-06-20

本文共 676 字,大约阅读时间需要 2 分钟。

      最近测试中需要对比两个PDF文件的内容,当然只是文字没有图表的,但是没有现成的工具可用。于是我的想法是先把PDF转换为Text,然后再对比Text的内容。现在问题的关键变成了如何提取PDF中的文本,在网上找了一下,发现iTextSharp可以满足我的需求。所以我把它写下来供大家参考,关于PDF文件对比如果谁有更好的解决办法,欢迎交流!

      这里我创建了一个Windows Form的程序,它的界面如下。点击Browse button,选择需要提取文本内容的PDF文件,点击Open button,该PDF文件的文本内容将会显示在下面的textbox里。     

     

      下面是它的详细步骤:

       1. 打开VS2010 Express, 新建一个Windows Forms Project,命名为ExtractTextFromPdf。

       2. Download itextsharp-all-5.1.2.zip from , and Unzip itextsharp-dll-core-5.1.2.zip。

       3. Add itextsharp.dll as reference in ExtractTextFromPdf project:       

      

       4. Add using namespace:

       

       5. 接下来我主要介绍一下一个核心函数,其它的代码我就不贴出来了。

       

        编译运行之后,选择仅含有文本的PDF文件,然后这些文本就会显示出来。

        

 

转载于:https://www.cnblogs.com/improveeveryday/archive/2011/10/16/2214198.html

你可能感兴趣的文章
Inno Setup入门(二)——修改安装过程中的图片
查看>>
服务器性能瓶颈分析方法(转载)
查看>>
JAVA学习笔记——JAVA基础语法(六)
查看>>
modelform实例学习
查看>>
EF CRUD
查看>>
初识python:time 模版
查看>>
mysql慢查询日志分析工具mysqldumpslow
查看>>
4.09.1
查看>>
电话本管理程序(实现增删改查功能)
查看>>
LOCK_TIMEOUT
查看>>
Python脱产8期 Day29 2019/5/24
查看>>
学c#语言的感想
查看>>
Windows 驱动模型的发展历史
查看>>
Android视图的截图
查看>>
App列表之分组ListView
查看>>
Android&iOS崩溃堆栈上报
查看>>
关于iOS开发的各种证书
查看>>
【Openjudge】 算24
查看>>
lvreduce -L 1000M /dev/vg0/lv0 表示最后缩减至多大,不是减少了多大
查看>>
ES 自动恢复分片的时候不恢复了是磁盘超过了85%,然后不恢复了 ES可以配置多个数据目录...
查看>>