首页 正文

用php实现图片识别文字ocr

       5225      2018-04-03    

最近想用php实现一下ocr的功能,就是图片识别文字的技术。上网找了一下原来早就有。实现起来也很简单。我是用linux的系统。所以下面我给大家讲解一下我的实现过程。

首先看看是需要用到的插件。

我们会用到Tesseract OCR 作为我们的识别的核心。这个是在GitHub上的一个Apache2.0的开源项目,地址是这个

https://github.com/tesseract-ocr/tesseract 

上面会说到不同系统的安装方法。首先我是用linux服务器的,我安装到linux上。所以我接下来是讲解linux的安装方法。如果其他的话请你们自己看上面的教程。

首先在linux上把所需要的包安装

apt-get install tesseract-ocr

接下来安装好之后我们就需要安装语言包。

在他的github上有好多不同国家语言,我们可以在这上面找到有哪些语言是我们需要的。

https://github.com/tesseract-ocr/langdata

在这里我们需要的是简体中文,所以看到上面我们选择chi-sim这一个

在命令行输入

apt-get install tesseract-ocr-chi-sim
chi-sim
chi-sim

在这里说明一下

apt-get install tesseract-ocr-[语言代码]

在最后那里替换你要的语言就能识别了。

安装完这些之后就差不多成功了。

跟着在你的项目里安装php插件

用composer安装

composer require thiagoalessio/tesseract_ocr

安装成功后,还差一步就成功了。

接下来直接上php代码,非常简单

<?php
require_once __DIR__ . '/vendor/autoload.php';
use thiagoalessio\TesseractOCR\TesseractOCR;
echo (new TesseractOCR('text.png'))
->run();


我要打赏