尚(shàng)书六号文字识别系统完(wán)全版可以对彩色、灰度(dù)图像文件直接进(jìn)行识别;尚书六号支持更多的(de)扫描文件格式,例如tiff、bmp和jpg格式;与此(cǐ)同时,尚书六号完善了表格识别功能,各(gè)式各样的表格几(jǐ)乎都可以原封(fēng)不动的由图片格式转变为可(kě)以自由编辑的文(wén)字格式。
尚(shàng)书(shū)六号支持TIFF、BMP和JPG格式等扫描。
OCR也就是文字识别技(jì)术,运用电(diàn)脑或(huò)者扫描仪来识别图片或者数(shù)字图片文件里的文字内(nèi)容,方(fāng)便(biàn)文字录入,提高工(gōng)作效率。
使用(yòng)只需要用(yòng)本软件打(dǎ)开要识别(bié)的文字的(de)图片(piàn),点击识别即可,识别率非常高,即(jí)便是有严重划(huá)痕和干扰的(de)图片,也能达到惊人的98.5%!
按书(shū)写方式区分,汉字(zì)识别可分(fèn)为手(shǒu)写汉字(zì)识别和印刷体汉(hàn)字(zì)识别两大类(lèi)。按工作(zuò)方式区分,则可分为联机(jī)汉字识(shí)别和脱机汉字识别两种方式。前者为实(shí)时识(shí)别,书写者在(zài)专(zhuān)用书写书写的汉字即时送(sòng)入(rù)计(jì)算机进行识别;后者为非实(shí)时识别(bié),打(dǎ)印(yìn)或已写好的书面文字经光(guāng)电转换装(zhuāng)置(如扫描仪(yí)等)变为电信号(hào)后送入计算机进行识别(bié),通常把这种设备(bèi)叫做光电阅读(dú)机(jī)(optical character reader),记为 OCR。
汉(hàn)字识别是(shì)模式识(shí)别的(de)一(yī)个分支(zhī)。汉(hàn)字是(shì)一种特殊的模式,其特点是字数多,字形复杂,有的字形十分相似,印刷体(tǐ)汉字又有多种字体(tǐ)(仿宋、宋、黑、楷书与打印(yìn)体等)和多种大(dà)小不同的字号。因而汉字(zì)识别是一个相当困(kùn)难的(de)问(wèn)题。
和(hé)一(yī)般的模式识别相同,汉(hàn)字识别的基本方法主要(yào)有统(tǒng)计法和结(jié)构法两种。汉字由笔划组(zǔ)成,具有较严格的拓扑结构,包(bāo)含(hán)丰富的结构信息(xī),因而结构法较适用于汉字识别。中国和日本学者先(xiān)后提出若干以结构信(xìn)息为主的(de)统计与结构(gòu)法(fǎ)相结合(hé)的新算法,选用了(le)-些分类能力强、抗畸(jī)变和干扰性能好(hǎo)的特征,较好地解决(jué)了多子(zǐ)体多(duō)字号(hào)混合排(pái)印的印刷体(tǐ)汉(hàn)字脱机识别和(hé)限制性手写汉字联机识别(bié)问题。研制成功几种识别(bié)系统,并已付诸(zhū)应用。
汉字识别(bié)系统(tǒng)大体上(shàng)可分为预处理(lǐ)、特征提(tí)取与识(shí)别和(hé)后处理三部(bù)分,见图。在脱机(jī)识别(bié)系统中(zhōng),扫描仪将打印或(huò)书写在纸上的汉字文稿,转(zhuǎn)换为电信号输(shū)入计算机,经版(bǎn)面分析、逐字分割和归一化等汉字识别预(yù)处理后,获得版面(miàn)上各个汉(hàn)字(zì)的二(èr)维点(diǎn)阵图(tú)形。特征提取(qǔ)和识(shí)别部(bù)分的任(rèn)务是提(tí)取识别特征,并将它(tā)和存储(chǔ)在识(shí)别字典(diǎn)内的每个特征模(mó)板逐一进行比较、判别,得出识别结果(guǒ)。汉字识别后处理(lǐ)部分利(lì)用词组或上(shàng)下文关系(xì)纠正识别(bié)结果中的一些错(cuò)误,以提(tí)高整个系统的正确识别率。
汉字识别的用途十分(fèn)广泛。用联机(jī)手写汉字识别代替击键打(dǎ)字的方式(shì),实时地把汉字输(shū)入计(jì)算机,比较符合(hé)人处理文字资料(liào)的(de)习惯。脱机印刷体汉字识(shí)别可用于办公室自动化、邮件分(fèn)拣、机器翻译和盲(máng)人机助阅读(dú)等(děng)方面。脱机手写汉字识(shí)别的困(kùn)难较(jiào)大,处于研究(jiū)阶段。采(cǎi)用人工神经网络的汉(hàn)字识别研究正越(yuè)来越得到各方面(miàn)的重视,并已取得一(yī)些进展。
