这是tesseract3.04简(jiǎn)体中文语(yǔ)言包chi_sim下(xià)载,谷歌(gē)开源OCR,tesseract的最(zuì)新版(bǎn)本3.04的(de),对(duì)应的简体中(zhōng)文语言包,可以不(bú)用翻墙下了。
tesseract3.04简(jiǎn)体中文(wén)语言包chi_sim可以直接将图片中的文(wén)字进(jìn)行识别(bié),其最新版本3.0已(yǐ)经支(zhī)持中文OCR,并提供了一个命令行工具,转换成文(wén)本信息。tesseract-ocr官方下载据说曾(céng)经的图像识(shí)别(bié)能(néng)力排名第(dì)三。tesseract-ocr中(zhōng)文版可以(yǐ)识别多种格式的图像文件(jiàn)并(bìng)将(jiāng)其转换(huàn)成文本,目前已支持(chí)60多种(zhǒng)语言(包括中文(wén))。 Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。
tesseract3.04简体中文语(yǔ)言包chi_sim是原(yuán)先惠普(pǔ)开发的(de)图像识别类库,后面(miàn)成(chéng)为Open source,据说曾经的(de)图(tú)像识别能力排名第三,为大家提供的版本(běn)是3.02.02 for windows。
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用简(jiǎn)体中文字库(需(xū)要下载(zǎi)中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名(míng)为 .raineddata 简体中文(wén)字库文件名为: chi_sim.traineddata)
-psm 7 表示告诉tesseract code.jpg图片是一行文(wén)本 这(zhè)个参数可以减少识别(bié)错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下(xià)的文件名
