Tesseract——OCR图像识别入门篇

Tesseract——OCR图像识别入门篇

最近给了我一个任务，让我研究图像识别，从我们项目的screenshot中识别文字信息，so我开始了学习，与大家分享下。

我看到目前OCR技术有很多，最主要的是Asprise OCR，Tesseract OCR和Java OCR。

Asprise OCR速度很快，Java实现很简单，但是它是商业的，要收费的，免费版每次都要弹出对话框，是个很麻烦的事情。

Tesseract OCR是C++的，要使用cmd命令的，速度也很快，质量也很好。当然Java也是可以使用的。

Java OCR是纯Java的，效率也不错。

今天先记录下Tesseract吧，后续再补充

1. 首先从官网上下载压缩包，最新版本是Tesseract 3.03，之前的版本可以从这里下载.

2. 解压下载好的压缩包到本地目录。

3. 打开cmd窗口，进入到tesseract目录下，然后就可以开始我们的测试之旅啦

1）选择好你所要识别的图片，并确定你所要输出的文件，然后输入下列命令:

tesseract letter.png 1

"letter.png": 需要识别的图片

"1": 输出的文件 1.txt

2) 我们已经把图片中的信息解析出来啦。

来自: http://blog.csdn.net/PanRuiFang/article/details/27191739

上面说道tesseract 是支持中文的，所以么，接下来看看如何使用tesseract 实现我们中文的识别，下面继续介绍其他参数

参数3：-l

参数4：使用的语言库

参数3 -l应该是知道参数4所使用的语言库，默认英文，也就是为什么上面识别英文的例子，并没有输入参数3和参数4，也实现了识别。

下面继续我们的实验：

我们准备了一张图片，然后使用tesseract zhongwen.jpg 7 -l chi_sim 指明了中文语言，然后效果图上，还是很不错的，毕竟我们的中文是如此的博大精深，并且tesseract可以经过训练，然后识字的能力就会大幅度提升。

好了，由于一行代码没写，就不上传代码了，大家自己去官网下载。接下来我会使用Java带大家实现这样的小程序。

来自: http://blog.csdn.net/lmj623565791/article/details/23955883

Tesseract——OCR图像识别入门篇的相关教程结束。

《Tesseract——OCR图像识别入门篇.doc》

下载本文的Word格式文档，以方便收藏与打印。

Tesseract——OCR图像识别入门篇

Tesseract——OCR图像识别入门篇的相关教程结束。

相关推荐

opencv-python 车牌检测和识别

K210 调节颜色阈值识别红绿黄三色

深度学习-05(tensorflow模型保存与加载、文件读取、图像分类：手写体识别、服饰识别)

Python从零到壹丨图像增强的顶帽运算和底帽运算

百度飞桨(PaddlePaddle) - PaddleOCR 文字识别简单使用

C# net Emgu.CV.World 人脸识别根据照片将人脸抠图出来。

Python + 超级鹰识别图形验证码

【Python&目标识别】labelimg报错IndexError: list index out of range

Tesseract——OCR图像识别 入门篇

Tesseract——OCR图像识别 入门篇的相关教程结束。

相关推荐

opencv-python 车牌检测和识别

K210 调节颜色阈值识别红绿黄三色

深度学习-05(tensorflow模型保存与加载、文件读取、图像分类：手写体识别、服饰识别)

Python从零到壹丨图像增强的顶帽运算和底帽运算

百度飞桨(PaddlePaddle) - PaddleOCR 文字识别简单使用

C# net Emgu.CV.World 人脸识别 根据照片将人脸抠图出来。

Python + 超级鹰 识别图形验证码

【Python&目标识别】labelimg报错IndexError: list index out of range

Tesseract——OCR图像识别入门篇

Tesseract——OCR图像识别入门篇的相关教程结束。

C# net Emgu.CV.World 人脸识别根据照片将人脸抠图出来。

Python + 超级鹰识别图形验证码