Английский Apache License 2.0

Программа для распознавания текста из png изображений, которая представляет собой интерфейс к tesseract OCR, позволяющий преобразовывать изображения в текст.

Tesseract OCR - это высокоточный конвертер изображений в текст с открытым исходным кодом, но его интерфейс представлен только в виде командной строки.

JATI представляет собой просто ещё один интерфейс к движку Tesseract OCR. Он может выполнять преобразование в пакетном режиме, а также преобразование только части картинки в текст.

Особенности программы:

  • графический интерфейс для Tesseract OCR;
  • выбор части изображения для преобразования;
  • преобразование нескольких изображений;
  • анализ преобразованного текста (попытка извлечения с помощью регулярного выражения).

Программа использует Tesseract OCR 3-ей версии, и по умолчанию в ней поддерживается только английский язык. Для поддержки русского языка необходимо скачать с официальной страницы Tesseract OCR файлы поддержки русского языка и положить в папку tessdata, и тогда появляется поддержка русского языка, но сразу стоит отметить, что многие слова распознаются некорректно (можно заметить на снимке экрана).

Специально для посетителей сайта КонтинентСвободы.рф подготовлен архив с уже установленным словарем русского языка, чтобы можно было сразу распознать текст png на русском языке. Программа работает плохо, поэтому рекомендуется обратить внимание на другие программы для распознавания текста - VietOCR, GImageReader и Cognitive OpenOCR.

Характеристики

Ссылки на официальный сайт и загрузку
  • Язык: Английский
  • ОС: Windows 10, Windows 7
  • Лицензия: Apache License 2.0
  • Разработчик: gohminghui88
  • Категория: Сканирование
  • Видеообзор: YouTube
  • VirusTotal: отчет
  • Подтверждение лицензии: Отсутствует
  • Создано: 21.06.2021
  • Обновлено: 09.04.2022