提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|使用教程|编辑:黄竹雯|2016-07-12 11:19:32.000|阅读 1025 次
概述:LEADTOOLS为.NET(C# & VB.NET)、C/C++、Java和Web开发者提供了快速且精确度高的 OCR SDK技术。本文主要为大家介绍在OCR文档中如何处理和识别页面以及创建具体应用程序的步骤。
#慧都22周年庆大促·界面/图表报表/文档/IDE/IOT/测试等千款热门软控件火热促销中>>
相关链接:
LeadTools为.NET(C# & VB.NET)、C/C++、Java和Web开发者提供了快速且精确度高的 OCR SDK技术。利用LeadTools高级OCR工具包,可以快速的开发健壮的、可扩展的、高性能识别的文档处理应用程序,这些应用程序可提取出扫描文件中的文本,将图像转化为文本搜索格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等。LeadTools广泛支持40余种字符集,编程者通过提供多语言的解决方案扩展用户群,包括英语、西班牙语、法语、德语、日语、中文、阿拉伯语等。
本文主要为大家介绍在OCR文档中如何处理和识别页面以及创建具体应用程序的步骤。
本文概述:
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
OCR的识别过程为:图像输入、预处理;二值化;噪声去除;倾斜校正;版面分析;字符切割;字符识别;版面恢复;后处理,校对。
根据以下步骤,您可以轻松创建一个使用OCR识别英文的应用程序。
1. 打开Visual Studio .NET。
2. 点击 文件->新建->项目…。
3. 打开新建项目对话框后,在模板中选择“Visual C#”或“Visual Basic”,随后选择“Windows窗体应用程序”。在名称栏中输入项目名称“OcrTutorial”,并使用“浏览”按钮选择您工程的存储路径,点击“确定”。
4. 在“解决方案资源管理器”中,右击“引用”,选择“添加引用”。在“引用管理器”中,浏览选择Leadtools For .NET文件夹” LEADTOOLS_INSTALLDIR\Bin\DotNet\Win32”,选择以下的DLL:
注意:添加Leadtools.Codecs.*.dll引用后,可使用BMP、JPG、CMP、TIF和FAX图像文件格式。如果您想使用更多的文件格式,可添加相关文件格式的codec DLL至应用程序。
5. 将Form1切换至代码视图,将以下代码添加至using 部分:
using Leadtools;
using Leadtools.Codecs;
using Leadtools.Forms;
using Leadtools.Forms.DocumentWriters;
using Leadtools.Forms.Ocr;
using Leadtools.ImageProcessing;
6. 将以下私有变量添加至Form1类:
private IOcrEngine _ocrEngine;
private IOcrDocument _ocrDocument;
7. 将以下代码添加至Form1的构造函数:
public Form1()
{
InitializeComponent();
//解锁OCR功能,用您的密钥替换此处
string MY_LICENSE_FILE = "d:\\temp\\TestLic.lic";
string MY_DEVELOPER_KEY = "xyz123abc";
RasterSupport.SetLicense(MY_LICENSE_FILE, MY_DEVELOPER_KEY);
//初始化OCR引擎
_ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false);
}
8. 拖拽5个button控件至Form1。Button的名称默认为“button1,button2…”,根据以下表格修改相应的Text属性:
| Name | Text |
|---|---|
| button1 | 启动OCR引擎 |
| button2 | 添加页面 |
| button3 | 删除页面 |
| button4 | 识别文档(英文)并保存为pdf |
| button5 | 关闭OCR引擎 |
如下图:

9. 将以下代码添加至button1(启动OCR引擎)按钮的Click句柄中,启动OCR引擎:
private void button1_Click(object sender, EventArgs e)
{
//启动OCR引擎
_ocrEngine.Startup(null, null, null, @"C:\LEADTOOLS 18\Bin\Common\OcrAdvantageRuntime");
//创建文档
_ocrDocument = _ocrEngine.DocumentManager.CreateDocument();
MessageBox.Show("OCR引擎成功启动");
}
10. 将以下代码添加至button2(添加页面)的Click句柄中,将多页的图像文件添加至OCR文档:
string tifFileName = Path.Combine(Application.StartupPath, @"..\..\..\Pic\Ocr.tif");
//将4个单页的图像Ocr1.tif、Ocr2.tif、Ocr3.tif、Ocr4.tif合并为Ocr.tif
if (File.Exists(tifFileName))
File.Delete(tifFileName);
using (RasterCodecs codecs = new RasterCodecs())
{
for (int i = 0; i < 4; i++)
{
string pageFileName = Path.Combine(Application.StartupPath, string.Format("..\\..\\..\\Pic\\Ocr{0}.tif", i + 1));
using (RasterImage image = codecs.Load(pageFileName))
codecs.Save(image, tifFileName, RasterImageFormat.CcittGroup4, 1, 1, 1, -1, CodecsSavePageMode.Append);
}
}
//将共4页的TIF文件添加至OCR文档
_ocrDocument.Pages.AddPages(tifFileName,1,-1,null);
int pageCount = _ocrDocument.Pages.Count;
// 显示此文档每个页面的相关信息
string message = string.Format("总页数为 {0}\n",pageCount);
for (int i = 0; i < pageCount; i++)
{
message += string.Format(
"第{0}页:\n页面大小 = {1} * {2}\n分辨率 = {3} * {4}\n每个像素的位数 = {5}\n",
i+1,
_ocrDocument.Pages[i].Width, _ocrDocument.Pages[i].Height,
_ocrDocument.Pages[i].DpiX, _ocrDocument.Pages[i].DpiY,
_ocrDocument.Pages[i].BitsPerPixel);
}
MessageBox.Show(message);
11. 将以下代码添加至button3(删除页面)的Click句柄,从OCR文档中移走了所有的页面:
private void button3_Click(object sender, EventArgs e)
{
//从OCR文档中移除所有添加的页面
_ocrDocument.Pages.Clear();
MessageBox.Show("所有页面已被移除");
}
12. 将以下代码添加至button4(识别文档(英文)并保存为pdf)的Click句柄,识别文档中的英文字符,并将识别的结果保存为pdf文档:
// 识别所有页面 // 注意,我们不需要调用AutoZone,引擎会检查页面是否被分区,若无,则会自动分区 _ocrDocument.Pages.Recognize(null); // 将结果保存为PDF文件 string pdfFileName = Path.Combine(Application.StartupPath, @"..\..\..\Pic\Result.pdf"); _ocrDocument.Save(pdfFileName, DocumentFormat.Pdf, null); // 显示我们刚刚保存的PDF文件 System.Diagnostics.Process.Start(pdfFileName);
13. 将以下代码添加至button5(关闭OCR引擎)按钮的Click句柄,关闭OCR引擎:
// 释放此文档
_ocrDocument.Dispose();
// 关闭OCR引擎
_ocrEngine.Shutdown();
MessageBox.Show("OCR引擎关闭");
此段代码会将最终的识别结果保存为PDF文件。若您想将图像的文字保存为文本搜索格式,可依照以下步骤:启动OCR引擎->添加页面->识别文档(英文)并保存为pdf->删除页面->关闭OCR引擎。
14. 编译、运行程序。结果如下图:





DEMO下载:
文章转自:葡萄城控件产品博客,//blog.gcpowertools.com.cn
本文提供的Demo可以高效准确的识别出文档中的英文,为了运行此demo,欢迎查看并免费下载LeadTools试用版。
如需帮助,请联系!
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@hmdbvip.cn


LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各种特点的精选组合,这套强大的工具利用了LEAD行业领先的图像处理技术来智能地识别文档的特征,而根据文档的特征可以识别扫描的或传真的任何类型的表格图像。


LEADTOOLS Medical Imaging是一款医疗成像控件,包含了一些精心挑选的、经过优化的特性,可以满足医疗成像应用程序开发的特殊需要。
在现代软件开发过程中,自动化单元测试是确保代码质量与可靠性的关键环节。尤其对于特定框架(如MFC)的代码,测试复杂度显著增加,常因依赖外部资源或交互操作而难以在静默环境中顺利执行。Parasoft C/C++test作为专业的软件测试工具,致力于帮助开发团队高效实施自动化测试,通过其强大的桩函数功能,能够有效模拟依赖组件的行为,从而实现对复杂逻辑的隔离测试。
本文将为大家介绍如何在MyEclipse中使用XDoclet开发EJB 2 Session Bean,欢迎下载最新版体验!
如果能将 CSV 自动转换为 PDF ,就能快速生成清晰、美观的报表,既节省手动排版时间,又能保持数据的专业呈现。本文将介绍如何使用 Spire.XLS for Java 实现这一过程——从加载 CSV 到输出高质量 PDF,仅需数行代码即可完成。
Parasoft C/C++test是一款专为C/C++代码设计的自动化测试工具,通过静态代码分析、单元测试和运行时错误检测等功能,帮助开发团队在早期发现并修复缺陷,提升代码质量和开发效率 。在实际使用中,尤其是在VC6此类旧版开发环境中执行单元测试时,可能会因环境兼容性问题触发链接错误。
相关产品
20多年的老牌图像处理控件,支持TWAIN扫描、200多种图像效果、150多种图像格式…
LEADTOOLS Document Suite Developer ToolkitLEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各种特点的精选组合,这套强大的工具利用了LEAD行业领先的图像处理技术来智能地识别文档的特征,而根据文档的特征可以识别扫描的或传真的任何类型的表格图像。
LEADTOOLS Document Imaging Developer Toolkit多语言的文档图像处理控件,支持光符识别处理、条形码扫描识别等。
LEADTOOLS Medical Developer ToolkitLEADTOOLS Medical Imaging是一款医疗成像控件,包含了一些精心挑选的、经过优化的特性,可以满足医疗成像应用程序开发的特殊需要。
LEADTOOLS Medical Imaging Suite Developer ToolkitLEADTOOLS Medical Imaging Suite帮您开发功能强大的PACS和医学成像应用程序
最新文章 MORE
永利最大(官方)网站相关的文章 MORE
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@hmdbvip.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢
永利最大(官方)网站