Программа для распознавания текста из png изображений, которая представляет собой интерфейс к tesseract OCR, позволяющий преобразовывать изображения в текст.
Tesseract OCR - это высокоточный конвертер изображений в текст с открытым исходным кодом, но его интерфейс представлен только в виде командной строки.
JATI представляет собой просто ещё один интерфейс к движку Tesseract OCR. Он может выполнять преобразование в пакетном режиме, а также преобразование только части картинки в текст.
Особенности программы:
- графический интерфейс для Tesseract OCR;
- выбор части изображения для преобразования;
- преобразование нескольких изображений;
- анализ преобразованного текста (попытка извлечения с помощью регулярного выражения).
Программа использует Tesseract OCR 3-ей версии, и по умолчанию в ней поддерживается только английский язык. Для поддержки русского языка необходимо скачать с официальной страницы Tesseract OCR файлы поддержки русского языка и положить в папку tessdata, и тогда появляется поддержка русского языка, но сразу стоит отметить, что многие слова распознаются некорректно (можно заметить на снимке экрана).
Специально для посетителей сайта КонтинентСвободы.рф подготовлен архив с уже установленным словарем русского языка, чтобы можно было сразу распознать текст png на русском языке. Программа работает плохо, поэтому рекомендуется обратить внимание на другие программы для распознавания текста - VietOCR, GImageReader и Cognitive OpenOCR.
Характеристики
Ссылки на официальный сайт и загрузку- Язык: Английский
- ОС: Windows 10, Windows 7
- Лицензия: Apache License 2.0
- Разработчик: gohminghui88
- Категория: Сканирование
Форма для добавления комментария отключена навсегда из-за большого количества спама.