сканирование и распознавание текста

Обработка документов, издательская деятельность

Модераторы: Olej, vikos

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 02 июн 2016, 19:05

Код: Выделить всё

[olej@dell tasks]$ dnf list yagf*
Последняя проверка окончания срока действия метаданных: 2:18:34 назад, Thu Jun  2 16:43:33 2016.
Доступные пакеты
yagf.x86_64                                                         0.9.5-1.fc23                                                          fedora

Код: Выделить всё

[olej@dell tasks]$ sudo dnf install yagf
[sudo] пароль для olej: 
Попробуйте ещё раз.
[sudo] пароль для olej: 
Последняя проверка окончания срока действия метаданных: 0:13:30 назад, Thu Jun  2 18:49:10 2016.
Зависимости разрешены.
================================================================================================================================================
 Package                        Архитектура                      Версия                                  Репозиторий                      Размер
================================================================================================================================================
Установка:
 yagf                           x86_64                           0.9.5-1.fc23                            fedora                           501 k

Результат операции
================================================================================================================================================
Установка  1 Пакет

Объем загрузки: 501 k
Объем изменений: 1.2 M
Продолжить? [д/Н]: y
Загрузка пакетов:
yagf-0.9.5-1.fc23.x86_64.rpm                                                                                    565 kB/s | 501 kB     00:00    
------------------------------------------------------------------------------------------------------------------------------------------------
Общий размер                                                                                                    219 kB/s | 501 kB     00:02     
Проверка транзакции
Проверка транзакции успешно завершена.
Идет проверка транзакции
Тест транзакции проведен успешно
Выполнение транзакции
  Установка    : yagf-0.9.5-1.fc23.x86_64                                                                                                   1/1 
  Проверка     : yagf-0.9.5-1.fc23.x86_64                                                                                                   1/1 

Установлено:
  yagf.x86_64 0.9.5-1.fc23                                                                                                                      

Выполнено!
После чего YAGF появляется в системном Меню->Графика...
Вложения
yagf5.png
yagf4.png
yagf3.png

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 02 июн 2016, 19:27

Olej писал(а):что будет пригодно для распознавания графических страниц из книги DJVU...
Что из этого получается смотрим здесь: эл. книги в формате .djvu

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 28 авг 2020, 18:45

Olej писал(а):
14 апр 2015, 11:12
5. Для распознавания русского текста существуют 2 инструмента - Cuneiform & tesseract.
Что там новенького, упрощающего OCR?

gImageReader
GImageReader — кроссплатформенный графический интерфейс для системы оптического распознавания символов Tesseract.

Код: Выделить всё

olej@nvidia:~$ aptitude search gImageReader
p   gimagereader                            - Graphical GTK+ front-end to tesseract-ocr        
OCRFeeder
OCRFeeder использует «внешние» движки распознания текста. Это могут быть, например, Tesseract, Ocrad, GOCR, Cuneiform.

Код: Выделить всё

olej@nvidia:~$ aptitude search OCRFeeder
p   ocrfeeder                                                           - система анализа структуры документа и оптического распознавания символов      
Ocrad - The GNU OCR
Судя по странице проекта, поддержка только английского языка.

Код: Выделить всё

olej@nvidia:~$ aptitude search ocrad
p   libocrad-dev                                                        - optical character recognition library                                         
p   ocrad                                                               - оптическое распознавание символов                                        

Код: Выделить всё

olej@nvidia:~$ aptitude show ocrad
Пакет: ocrad                                     
Версия: 0.27-2build1
Новый: да
Состояние: не установлен
Мультиархитектура: сторонняя
Приоритет: необязательный
Раздел: universe/graphics
Сопровождающий: Ubuntu Developers <ubuntu-devel-discuss@lists.ubuntu.com>
Архитектура: amd64
Размер в распакованном виде: 313 k
Зависит: libc6 (>= 2.14), libgcc-s1 (>= 3.0), libstdc++6 (>= 5.2)
Описание: оптическое распознавание символов
 GNU Ocrad — программа OCR (оптического распознавания символов), использующая метод выделения характерных признаков (feature extraction). Она читает
 побитовое изображение в формате PGM/PBM и генерирует текст в байтовом (8-бит) формате или в UTF-8. 
 
 Ocrad содержит анализатор макета, способный отделять столбцы или блоки текста, часто встречающиеся в печатных страницах. 
 
 Пакет содержит утилиты командной строки.
Домашняя страница: http://www.gnu.org/software/ocrad/ocrad.html

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 29 авг 2020, 17:54

Olej писал(а):
28 авг 2020, 18:45
gImageReader

Код: Выделить всё

olej@nvidia:~$ sudo apt install gimagereader
Чтение списков пакетов… Готово
Построение дерева зависимостей       
Чтение информации о состоянии… Готово
Будут установлены следующие дополнительные пакеты:
  libgtksourceviewmm-3.0-0v5 libgtkspellmm-3.0-0v5 liblept5 libpodofo0.9.6 libtesseract4 libxml++2.6-2v5
Следующие НОВЫЕ пакеты будут установлены:
  gimagereader libgtksourceviewmm-3.0-0v5 libgtkspellmm-3.0-0v5 liblept5 libpodofo0.9.6 libtesseract4 libxml++2.6-2v5
Обновлено 0 пакетов, установлено 7 новых пакетов, для удаления отмечено 0 пакетов, и 1 пакетов не обновлено.
Необходимо скачать 3 550 kB архивов.
После данной операции объём занятого дискового пространства возрастёт на 11,1 MB.
Хотите продолжить? [Д/н] y
Пол:1 http://mirror.mirohost.net/ubuntu focal/universe amd64 libgtksourceviewmm-3.0-0v5 amd64 3.18.0-4build1 [80,8 kB]
Пол:2 http://mirror.mirohost.net/ubuntu focal/universe amd64 libgtkspellmm-3.0-0v5 amd64 3.0.5+dfsg-2build1 [11,9 kB]
Пол:3 http://mirror.mirohost.net/ubuntu focal/universe amd64 libpodofo0.9.6 amd64 0.9.6+dfsg-5build1 [521 kB]
Пол:4 http://mirror.mirohost.net/ubuntu focal/universe amd64 liblept5 amd64 1.79.0-1 [999 kB]
Пол:5 http://mirror.mirohost.net/ubuntu focal/universe amd64 libtesseract4 amd64 4.1.1-2build2 [1 237 kB]
Пол:6 http://mirror.mirohost.net/ubuntu focal/main amd64 libxml++2.6-2v5 amd64 2.40.1-3build1 [63,2 kB]
Пол:7 http://mirror.mirohost.net/ubuntu focal/universe amd64 gimagereader amd64 3.3.1-1build1 [638 kB]
Получено 3 550 kB за 1с (3 303 kB/s)       
Выбор ранее не выбранного пакета libgtksourceviewmm-3.0-0v5:amd64.
(Чтение базы данных … на данный момент установлено 416236 файлов и каталогов.)
Подготовка к распаковке …/0-libgtksourceviewmm-3.0-0v5_3.18.0-4build1_amd64.deb …
Распаковывается libgtksourceviewmm-3.0-0v5:amd64 (3.18.0-4build1) …
Выбор ранее не выбранного пакета libgtkspellmm-3.0-0v5:amd64.
Подготовка к распаковке …/1-libgtkspellmm-3.0-0v5_3.0.5+dfsg-2build1_amd64.deb …
Распаковывается libgtkspellmm-3.0-0v5:amd64 (3.0.5+dfsg-2build1) …
Выбор ранее не выбранного пакета libpodofo0.9.6.
Подготовка к распаковке …/2-libpodofo0.9.6_0.9.6+dfsg-5build1_amd64.deb …
Распаковывается libpodofo0.9.6 (0.9.6+dfsg-5build1) …
Выбор ранее не выбранного пакета liblept5:amd64.
Подготовка к распаковке …/3-liblept5_1.79.0-1_amd64.deb …
Распаковывается liblept5:amd64 (1.79.0-1) …
Выбор ранее не выбранного пакета libtesseract4:amd64.
Подготовка к распаковке …/4-libtesseract4_4.1.1-2build2_amd64.deb …
Распаковывается libtesseract4:amd64 (4.1.1-2build2) …
Выбор ранее не выбранного пакета libxml++2.6-2v5:amd64.
Подготовка к распаковке …/5-libxml++2.6-2v5_2.40.1-3build1_amd64.deb …
Распаковывается libxml++2.6-2v5:amd64 (2.40.1-3build1) …
Выбор ранее не выбранного пакета gimagereader.
Подготовка к распаковке …/6-gimagereader_3.3.1-1build1_amd64.deb …
Распаковывается gimagereader (3.3.1-1build1) …
Настраивается пакет libgtksourceviewmm-3.0-0v5:amd64 (3.18.0-4build1) …
Настраивается пакет liblept5:amd64 (1.79.0-1) …
Настраивается пакет libxml++2.6-2v5:amd64 (2.40.1-3build1) …
Настраивается пакет libtesseract4:amd64 (4.1.1-2build2) …
Настраивается пакет libpodofo0.9.6 (0.9.6+dfsg-5build1) …
Настраивается пакет libgtkspellmm-3.0-0v5:amd64 (3.0.5+dfsg-2build1) …
Настраивается пакет gimagereader (3.3.1-1build1) …
Обрабатываются триггеры для mime-support (3.64ubuntu1) …
Обрабатываются триггеры для hicolor-icon-theme (0.17-2) …
Обрабатываются триггеры для doc-base (0.10.9) …
Обработка 1 добавленный файл doc-base...
Регистрация документа в scrollkeeper...
Обрабатываются триггеры для gnome-menus (3.36.0-1ubuntu1) …
Обрабатываются триггеры для libglib2.0-0:amd64 (2.64.3-1~ubuntu20.04.1) …
Обрабатываются триггеры для libc-bin (2.31-0ubuntu9) …
Обрабатываются триггеры для man-db (2.9.1-1) …
Обрабатываются триггеры для desktop-file-utils (0.24+linuxmint1) …
Старт...
Снимок экрана от 2020-08-29 17-55-15.png
Снимок экрана от 2020-08-29 17-55-15.png (11.25 КБ) 1835 просмотров
:-(

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 29 авг 2020, 18:04

Olej писал(а):
29 авг 2020, 17:54
Старт...
Языковых пакетов у tesseract вот примерно столько :-o :

Код: Выделить всё

olej@nvidia:~$ aptitude search tesseract-ocr- | wc -l
164
Установлю только:

Код: Выделить всё

olej@nvidia:~$ sudo apt install tesseract-ocr-eng tesseract-ocr-rus
Чтение списков пакетов… Готово
Построение дерева зависимостей       
Чтение информации о состоянии… Готово
Рекомендуемые пакеты:
  tesseract-ocr
Следующие НОВЫЕ пакеты будут установлены:
  tesseract-ocr-eng tesseract-ocr-rus
Обновлено 0 пакетов, установлено 2 новых пакетов, для удаления отмечено 0 пакетов, и 1 пакетов не обновлено.
Необходимо скачать 2 873 kB архивов.
После данной операции объём занятого дискового пространства возрастёт на 8 005 kB.
Пол:1 http://mirror.mirohost.net/ubuntu focal/universe amd64 tesseract-ocr-eng all 1:4.00~git30-7274cfa-1 [1 598 kB]
Пол:2 http://mirror.mirohost.net/ubuntu focal/universe amd64 tesseract-ocr-rus all 1:4.00~git30-7274cfa-1 [1 274 kB]
Получено 2 873 kB за 1с (3 664 kB/s)             
Выбор ранее не выбранного пакета tesseract-ocr-eng.
(Чтение базы данных … на данный момент установлено 416355 файлов и каталогов.)
Подготовка к распаковке …/tesseract-ocr-eng_1%3a4.00~git30-7274cfa-1_all.deb …
Распаковывается tesseract-ocr-eng (1:4.00~git30-7274cfa-1) …
Выбор ранее не выбранного пакета tesseract-ocr-rus.
Подготовка к распаковке …/tesseract-ocr-rus_1%3a4.00~git30-7274cfa-1_all.deb …
Распаковывается tesseract-ocr-rus (1:4.00~git30-7274cfa-1) …
Настраивается пакет tesseract-ocr-eng (1:4.00~git30-7274cfa-1) …
Настраивается пакет tesseract-ocr-rus (1:4.00~git30-7274cfa-1) …
И, на всякий случа, эксперимента ради ;-) :

Код: Выделить всё

olej@nvidia:~$ sudo apt install tesseract-ocr-ukr
Чтение списков пакетов… Готово
Построение дерева зависимостей       
Чтение информации о состоянии… Готово
Рекомендуемые пакеты:
  tesseract-ocr
Следующие НОВЫЕ пакеты будут установлены:
  tesseract-ocr-ukr
Обновлено 0 пакетов, установлено 1 новых пакетов, для удаления отмечено 0 пакетов, и 1 пакетов не обновлено.
Необходимо скачать 1 303 kB архивов.
После данной операции объём занятого дискового пространства возрастёт на 3 840 kB.
Пол:1 http://mirror.mirohost.net/ubuntu focal/universe amd64 tesseract-ocr-ukr all 1:4.00~git30-7274cfa-1 [1 303 kB]
Получено 1 303 kB за 0с (3 586 kB/s)            
Выбор ранее не выбранного пакета tesseract-ocr-ukr.
(Чтение базы данных … на данный момент установлено 416363 файла и каталога.)
Подготовка к распаковке …/tesseract-ocr-ukr_1%3a4.00~git30-7274cfa-1_all.deb …
Распаковывается tesseract-ocr-ukr (1:4.00~git30-7274cfa-1) …
Настраивается пакет tesseract-ocr-ukr (1:4.00~git30-7274cfa-1) …

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 29 авг 2020, 18:06

Olej писал(а):
29 авг 2020, 17:54
Старт...
И вот теперь:
Снимок экрана от 2020-08-29 18-05-18.png
(32.25 КБ) 146 скачиваний
Ему не нравится отсутствие украинского орфографического словаря ... но это дело второе, на потом...
Качество распознавания русского текста он фрагменте который я ему подсунул (сканированная странице, не чищенная от муаров и теней) - блестящее, на страницу текста 2 небольших помарки: слово (фамилия) с большой буквы написано с маленькой + в номере телефона цифра 7 превратилась в косую / (но он же не знает что это телефон ;-) ).

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 29 авг 2020, 18:21

Olej писал(а):
28 авг 2020, 18:45
OCRFeeder

Код: Выделить всё

olej@nvidia:~$ sudo apt install ocrfeeder
[sudo] пароль для olej:       
Чтение списков пакетов… Готово
Построение дерева зависимостей       
Чтение информации о состоянии… Готово
Будут установлены следующие дополнительные пакеты:
  gir1.2-goocanvas-2.0 gir1.2-gtkspell3-3.0 libgoocanvas-2.0-9 libgoocanvas-2.0-common python3-defusedxml python3-enchant
  python3-odf python3-sane
Предлагаемые пакеты:
  python-pil-doc python3-sane-dbg
Рекомендуемые пакеты:
  unpaper python-odf-doc python-odf-tools python3-tk
Следующие НОВЫЕ пакеты будут установлены:
  gir1.2-goocanvas-2.0 gir1.2-gtkspell3-3.0 libgoocanvas-2.0-9 libgoocanvas-2.0-common ocrfeeder python3-defusedxml
  python3-enchant python3-odf python3-sane
Обновлено 0 пакетов, установлено 9 новых пакетов, для удаления отмечено 0 пакетов, и 1 пакетов не обновлено.
Необходимо скачать 1 067 kB архивов.
После данной операции объём занятого дискового пространства возрастёт на 5 313 kB.
Хотите продолжить? [Д/н] y
Пол:1 http://mirror.mirohost.net/ubuntu focal/universe amd64 libgoocanvas-2.0-common all 2.0.4-1 [116 kB]
Пол:2 http://mirror.mirohost.net/ubuntu focal/universe amd64 libgoocanvas-2.0-9 amd64 2.0.4-1 [98,1 kB]
Пол:3 http://mirror.mirohost.net/ubuntu focal/universe amd64 gir1.2-goocanvas-2.0 amd64 2.0.4-1 [14,1 kB]
Пол:4 http://mirror.mirohost.net/ubuntu focal/universe amd64 gir1.2-gtkspell3-3.0 amd64 3.0.10-1 [2 968 B]
Пол:5 http://mirror.mirohost.net/ubuntu focal/universe amd64 python3-enchant all 2.0.0-4 [44,4 kB]
Пол:6 http://mirror.mirohost.net/ubuntu focal/main amd64 python3-defusedxml all 0.6.0-2 [37,0 kB]
Пол:7 http://mirror.mirohost.net/ubuntu focal/universe amd64 python3-odf all 1.4.0-3 [77,7 kB]
Пол:8 http://mirror.mirohost.net/ubuntu focal/universe amd64 python3-sane amd64 2.8.3-4build1 [17,5 kB]
Пол:9 http://mirror.mirohost.net/ubuntu focal/universe amd64 ocrfeeder all 0.8.1+git20200128.b945089-1 [660 kB]
Получено 1 067 kB за 1с (2 108 kB/s)       
Выбор ранее не выбранного пакета libgoocanvas-2.0-common.
(Чтение базы данных … на данный момент установлено 416367 файлов и каталогов.)
Подготовка к распаковке …/0-libgoocanvas-2.0-common_2.0.4-1_all.deb …
Распаковывается libgoocanvas-2.0-common (2.0.4-1) …
Выбор ранее не выбранного пакета libgoocanvas-2.0-9:amd64.
Подготовка к распаковке …/1-libgoocanvas-2.0-9_2.0.4-1_amd64.deb …
Распаковывается libgoocanvas-2.0-9:amd64 (2.0.4-1) …
Выбор ранее не выбранного пакета gir1.2-goocanvas-2.0:amd64.
Подготовка к распаковке …/2-gir1.2-goocanvas-2.0_2.0.4-1_amd64.deb …
Распаковывается gir1.2-goocanvas-2.0:amd64 (2.0.4-1) …
Выбор ранее не выбранного пакета gir1.2-gtkspell3-3.0:amd64.
Подготовка к распаковке …/3-gir1.2-gtkspell3-3.0_3.0.10-1_amd64.deb …
Распаковывается gir1.2-gtkspell3-3.0:amd64 (3.0.10-1) …
Выбор ранее не выбранного пакета python3-enchant.
Подготовка к распаковке …/4-python3-enchant_2.0.0-4_all.deb …
Распаковывается python3-enchant (2.0.0-4) …
Выбор ранее не выбранного пакета python3-defusedxml.
Подготовка к распаковке …/5-python3-defusedxml_0.6.0-2_all.deb …
Распаковывается python3-defusedxml (0.6.0-2) …
Выбор ранее не выбранного пакета python3-odf.
Подготовка к распаковке …/6-python3-odf_1.4.0-3_all.deb …
Распаковывается python3-odf (1.4.0-3) …
Выбор ранее не выбранного пакета python3-sane:amd64.
Подготовка к распаковке …/7-python3-sane_2.8.3-4build1_amd64.deb …
Распаковывается python3-sane:amd64 (2.8.3-4build1) …
Выбор ранее не выбранного пакета ocrfeeder.
Подготовка к распаковке …/8-ocrfeeder_0.8.1+git20200128.b945089-1_all.deb …
Распаковывается ocrfeeder (0.8.1+git20200128.b945089-1) …
Настраивается пакет python3-defusedxml (0.6.0-2) …
Настраивается пакет gir1.2-gtkspell3-3.0:amd64 (3.0.10-1) …
Настраивается пакет libgoocanvas-2.0-common (2.0.4-1) …
Настраивается пакет python3-enchant (2.0.0-4) …
Настраивается пакет python3-sane:amd64 (2.8.3-4build1) …
Настраивается пакет python3-odf (1.4.0-3) …
Настраивается пакет libgoocanvas-2.0-9:amd64 (2.0.4-1) …
Настраивается пакет gir1.2-goocanvas-2.0:amd64 (2.0.4-1) …
Настраивается пакет ocrfeeder (0.8.1+git20200128.b945089-1) …
Обрабатываются триггеры для mime-support (3.64ubuntu1) …
Обрабатываются триггеры для hicolor-icon-theme (0.17-2) …
Обрабатываются триггеры для doc-base (0.10.9) …
Обработка 1 добавленный файл doc-base...
Регистрация документа в scrollkeeper...
Обрабатываются триггеры для gnome-menus (3.36.0-1ubuntu1) …
Обрабатываются триггеры для libc-bin (2.31-0ubuntu9) …
Обрабатываются триггеры для man-db (2.9.1-1) …
Обрабатываются триггеры для desktop-file-utils (0.24+linuxmint1) …
При запуске установлен по умолчанию только OCR движок GOCR ... что нас совсем не устраивает (см. выше):
Снимок экрана от 2020-08-29 18-20-38.png
Снимок экрана от 2020-08-29 18-20-38.png (13.45 КБ) 1833 просмотра
Но по описаниям:
OCRFeeder использует «внешние» движки распознания текста. Это могут быть, например, Tesseract, Ocrad, GOCR, Cuneiform.
Так что это нужно как-то настраивать...

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 29 авг 2020, 18:55

Olej писал(а):
29 авг 2020, 18:21
Так что это нужно как-то настраивать...
Сами движки OCR у меня есть... Повторю с ними в командном режиме то, что проделывал 5 лет назад (см. пред. страницу темы):

Код: Выделить всё

olej@nvidia:~/2020_WORK/HISTORY/08/29$ which cuneiform
/usr/bin/cuneiform

olej@nvidia:~/2020_WORK/HISTORY/08/29$ cuneiform
Cuneiform for Linux 1.1.0
Usage: cuneiform [-l languagename -f format --dotmatrix --fax --singlecolumn -o result_file] imagefile
Распознавание:

Код: Выделить всё

olej@nvidia:~/2020_WORK/HISTORY/08/29$ cuneiform -l rus -f text -o ocr20_600c.txt ocr20_600.tif
Cuneiform for Linux 1.1.0

Код: Выделить всё

olej@nvidia:~/2020_WORK/HISTORY/08/29$ which tesseract
/usr/bin/tesseract

olej@nvidia:~/2020_WORK/HISTORY/08/29$ tesseract
Usage:
  tesseract --help | --help-extra | --version
  tesseract --list-langs
  tesseract imagename outputbase [options...] [configfile...]

OCR options:
  -l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.

Single options:
  --help                Show this help message.
  --help-extra          Show extra help for advanced users.
  --version             Show version information.
  --list-langs          List available languages for tesseract engine.
Распознавание:

Код: Выделить всё

olej@nvidia:~/2020_WORK/HISTORY/08/29$ tesseract ocr20_600.tif ocr20_600t -l rus
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Page 1
В итоге:

Код: Выделить всё

olej@nvidia:~/2020_WORK/HISTORY/08/29$ ls -l ocr20_600*
-rw-rw-r-- 1 olej olej   527 авг 29 18:50 ocr20_600c.txt
-rw-r--r-- 1 olej olej 67274 апр 14  2015 ocr20_600.tif
-rw-rw-r-- 1 olej olej   524 авг 29 18:51 ocr20_600t.txt
Разница длины распознанных файлов составляет 3 байта, визуально тексты идентичные и распознаны на 100% без ошибок, разница длины состоит в завершающих символах файла (переводы строки или ^L).
Теперь эти движки нужно прописать как-то в настройки OCRFeeder!

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 29 авг 2020, 19:31

Olej писал(а):
29 авг 2020, 18:21
При запуске установлен по умолчанию только OCR движок GOCR ... что нас совсем не устраивает (см. выше):
Изображение
Но!!!
Запустив в OCRFeeder, у которого якобы установлен только один OCR движок GOCR, не знающий русского языка, на распознавание тот же русскоязычный тестовый фрагмент ocr20_600.tif, получаем:
Снимок экрана от 2020-08-29 19-15-27.png
Как он сделал это я не понимаю...
- либо у него уже использованы cuneiform & tesseract, но не отражены в настройках...
- то ли GOCR, вопреки описаниям, научился работать с русским языком
P.S. Но это не так, потому что сам GOCR в консольном режиме восстанавливает ахинею, в которой можно узнать только отдельные верные буквы:

Код: Выделить всё

olej@nvidia:~/2020_WORK/HISTORY/08/29$ djpeg -pnm -gray ocr20_600.jpeg  | gocr -

#  ... found DOUBLE_LOW_9_QUOTATION_MARK
B 3TJM_x rpycTHbIx Kp_x Bce p_cc_ncT_Ho H_ 3MMy: cHbI,
cTeHbI THDpeM, r__JrbTo, Ty__eTbI HeBecT 6eJr_3HbI
HoBoroAHe_, H_JMTKM, ce_yHbIe cTpe JrKM.
Bopo6bJncHbIe ___TbI Jnc rp_3b r_o 4JnccJry weJro4e__
_ypnrT_Hc_e Hp_BbI. 6e Jrbe. M B pyK_x cKpJncr___e_ -
yep eB_HHbIe rp eJIKM.

% Mo c__ 6po_c__, __K_He4 r_peKp_cHo_ 3_oxJnc>> .

Аватара пользователя
Olej
Писатель
Сообщения: 21338
Зарегистрирован: 24 сен 2011, 14:22
Откуда: Харьков
Контактная информация:

Re: сканирование и распознавание текста

Непрочитанное сообщение Olej » 29 авг 2020, 19:32

Olej писал(а):
29 авг 2020, 18:06
Ему не нравится отсутствие украинского орфографического словаря ... но это дело второе, на потом...

Код: Выделить всё

olej@nvidia:~$ aptitude search aspell | wc -l
78

Код: Выделить всё

olej@nvidia:~$ sudo apt install aspell-ru aspell-uk
Чтение списков пакетов… Готово
Построение дерева зависимостей       
Чтение информации о состоянии… Готово
Следующие НОВЫЕ пакеты будут установлены:
  aspell-ru aspell-uk
Обновлено 0 пакетов, установлено 2 новых пакетов, для удаления отмечено 0 пакетов, и 1 пакетов не обновлено.
Необходимо скачать 753 kB архивов.
После данной операции объём занятого дискового пространства возрастёт на 1 031 kB.
Пол:1 http://mirror.mirohost.net/ubuntu focal/universe amd64 aspell-ru all 0.99g5-23 [338 kB]
Пол:2 http://mirror.mirohost.net/ubuntu focal/universe amd64 aspell-uk all 1.7.1-2 [415 kB]
Получено 753 kB за 0с (2 591 kB/s)
Выбор ранее не выбранного пакета aspell-ru.
(Чтение базы данных … на данный момент установлено 417170 файлов и каталогов.)
Подготовка к распаковке …/aspell-ru_0.99g5-23_all.deb …
Распаковывается aspell-ru (0.99g5-23) …
Выбор ранее не выбранного пакета aspell-uk.
Подготовка к распаковке …/aspell-uk_1.7.1-2_all.deb …
Распаковывается aspell-uk (1.7.1-2) …
Настраивается пакет aspell-ru (0.99g5-23) …
Настраивается пакет aspell-uk (1.7.1-2) …
Обрабатываются триггеры для dictionaries-common (1.28.1) …
aspell-autobuildhash: processing: ru [ru].
aspell-autobuildhash: processing: uk [uk].

Ответить

Вернуться в «Офисное ПО»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость