最近想用php实现一下ocr的功能,就是图片识别文字的技术。上网找了一下原来早就有。实现起来也很简单。我是用linux的系统。所以下面我给大家讲解一下我的实现过程。
首先看看是需要用到的插件。
我们会用到Tesseract OCR 作为我们的识别的核心。这个是在GitHub上的一个Apache2.0的开源项目,地址是这个
https://github.com/tesseract-ocr/tesseract
上面会说到不同系统的安装方法。首先我是用linux服务器的,我安装到linux上。所以我接下来是讲解linux的安装方法。如果其他的话请你们自己看上面的教程。
首先在linux上把所需要的包安装
apt-get install tesseract-ocr
接下来安装好之后我们就需要安装语言包。
在他的github上有好多不同国家语言,我们可以在这上面找到有哪些语言是我们需要的。
https://github.com/tesseract-ocr/langdata
在这里我们需要的是简体中文,所以看到上面我们选择chi-sim这一个
在命令行输入
apt-get install tesseract-ocr-chi-sim
chi-sim
chi-sim
在这里说明一下
apt-get install tesseract-ocr-[语言代码]
在最后那里替换你要的语言就能识别了。
安装完这些之后就差不多成功了。
跟着在你的项目里安装php插件
用composer安装
composer require thiagoalessio/tesseract_ocr
安装成功后,还差一步就成功了。
接下来直接上php代码,非常简单
<?php require_once __DIR__ . '/vendor/autoload.php'; use thiagoalessio\TesseractOCR\TesseractOCR; echo (new TesseractOCR('text.png')) ->run();
版权声明:本文为博主原创文章,未经博主允许不得转载。