Что такое findslide.org?

FindSlide.org - это сайт презентаций, докладов, шаблонов в формате PowerPoint.


Для правообладателей

Обратная связь

Email: Нажмите что бы посмотреть 

Яндекс.Метрика

Презентация на тему Системы оптического распознавания информации

Содержание

Optical Character Recognition — OCR-системы предназначены для автоматического ввода печатных документов в компьютер.Системы оптического распознавания текста (OCR)
Системы оптического распознавания информации. Борисов В.А.КАСК – филиал ФГБОУ ВПО РАНХ и ГСКрасноармейск 2011 г. Optical Character Recognition — OCR-системы предназначены для автоматического ввода печатных документов в Современные программы распознавания текста обеспечивают проверку орфографии, автоматическое форматирование текста и массу других дополнительных удобств. ВОЗМОЖНОСТИ ПРОГРАММЫ FINEREADER FineReaderОмнифонтовая система оптического распознавания текстов. Позволяет распознавать тексты, набранные практически любыми шрифтами. Особенности программы FineReader Высокая точность распознавания и малая чувствительность к дефектам печати, Программа позволяет распознавать с высокой точностью тексты более чем на 175 языках, Программные продукты ABBYY FineReader FineReader Sprint, FineReader 6.0 Professional, FineReader 6.0 Corporate ТЕХНОЛОГИЯ РАСПОЗНАВАНИЯ Сложность машинного распознавания текстов заключается в том, что его невозможно построить по Принцип целостностиРаспознаваемое изображение рассматривается как единый объект, состоящий из частей, связанных между собой пространственными соотношениями. Принцип целенаправленностиРаспознавание строится как процесс выдвижения и целенаправленной проверки гипотез об объекте, Для выдвижения гипотез о том, что может представлять собой изображение, применяются так называемые признаковые классификаторы. Признаковые классификаторыИспользуют ряд признаков, на основе которых программа вычисляет степень близости распознаваемого Признаковые классификаторы применяются также и для повышения точности распознавания изображений с дефектами. Полученный набор классов последовательно проверяется структурным классификатором, анализирующим каждый символ. Структурный эталонОписывает символ как комбинацию структурных элементов (отрезок, дуга, кольцо, точка), находящихся Процесс распознаванияДелится на этапы выделения структурных элементов в изображении и сопоставлении их с эталоном. Если в окончательный список попало более одной гипотезы, они попарно сравниваются с помощью дифференциальных классификаторов. Если структурный классификатор при распознавании символов не может однозначно выбрать одну из С завершением работы дифференциального классификатора заканчивается распознавание и начинается этап проверки итогового списка гипотез. Окончательная стадия распознаванияОсуществляется системой контекста — при наличии некоторого количества распознанных букв ОРГАНИЗАЦИЯ РАБОТЫ В FINEREADER ПакетЯвляется основой работы FineReader. Содержит всю информацию о распознаваемом документе. Представляет собой В один пакет для удобства работы рекомендуется объединять изображения, логически связанные между В окне Пакет виден список страниц, входящих в открытый пакет. Для просмотра Страницы в окне Пакет могут быть представлены пиктограммами или уменьшенным изображением страницы. Если исходное изображение представляет собой негатив, оно может быть инвертировано, далее производится Если не нужна цветность, то цветные изображения сводятся к черно-белым, что экономит Анализ макета страниц пакетаFineReader анализирует ориентацию страницы и переворачивает изображение, если это Распознавание текста и таблицЯвляется «сердцем» FineReader и обеспечивает ее уникальность, однако этот процесс совершенно незаметен пользователю. Проверка правописания«На суд» пользователя выносятся слова, которых нет в словаре системы, а Сохранение и экспорт результатов распознаванияВся информация, включая распознанный текст и его форматирование, СКАНИРОВАНИЕ ИЗОБРАЖЕНИЙ Для сканирования изображения документа кладем на стекло сканера страницу с текстом или Качество распознаванияЗависит от того, насколько хорошее изображение получено при сканировании, что достигается Черно-белый тип изображения обеспечивает более высокую скорость сканирования, но при этом теряется Настройкиинвертирование изображения, очистку от «мусора», автоматическое определение ориентации текста на изображении. При распознавании изображение должно иметь стандартную ориентацию, т. е. текст должен читаться После завершения сканирования изображение окажется включенным в конец пакета, если не активна АНАЛИЗ МАКЕТА СТРАНИЦ Определение ориентации текста при установке соответствующей опции производится автоматически, хотя можно сделать отдельными блоками выделяются таблицы и рисунки, которые не подлежат распознаванию; четкое выделение БлокиЗаключенные в рамки участки изображения. Блоки выделяют для того, чтобы указать программе, Типы блоковзона распознавания, текст, таблица, картинка,штрих-код. Графики с подписями осей FineReader отдает предпочтение тексту и выделяет подписи как Сложные математические или химические формулы При работе с документами, содержащими формулы, их Плохой оригинал Подобные ошибки могут быть исправлены на этапе работы с макетом, Изменять размеры или форму существующих блоков можно, потянув мышью за их границы. Изменить тип блока позволяет «всплывающее» меню, появляющееся после щелчка мышью по пиктограмме РАСПОЗНАВАНИЕ ТЕКСТА Задача распознаванияПреобразовать отсканированное изображение в текст, сохранив при этом оформление страницы. Язык, на котором будет проводиться распознавание, выбирается на основной панели инструментов. Помимо языка оригинала, модуль распознавания учитывает и тип печати, который по умолчанию ПРОВЕРКА ПРАВОПИСАНИЯ И СОХРАНЕНИЕ РЕЗУЛЬТАТОВ РАБОТЫ Модуль распознавания анализирует не только отдельные символы, но и целые слова, используя Работа со словами, неизвестными системе, и с неуверенно распознанными символами осуществляется в модуле проверки правописания. После окончания проверки правописания следует определить, в каком формате сохранять полученные результаты. ДРУГИЕ OCR-СИСТЕМЫ Предварительное сканирование позволяетвыделить мышью область сканирования;выбрать режим сканирования;выставить параметры яркости, контраста или Подбор настроек сканера уменьшает количество неверно распознанных букв до вполне приемлемого качества сканирования и распознавания. Особенно важен подбор оптимальной яркости при сканировании достаточно большого объема текста низкого качества.
Слайды презентации

Слайд 2 Optical Character Recognition — OCR-системы предназначены для автоматического

Optical Character Recognition — OCR-системы предназначены для автоматического ввода печатных документов

ввода печатных документов в компьютер.

Системы оптического распознавания текста (OCR)


Слайд 3
Современные программы распознавания текста обеспечивают проверку орфографии, автоматическое

Современные программы распознавания текста обеспечивают проверку орфографии, автоматическое форматирование текста и массу других дополнительных удобств.

форматирование текста и массу других дополнительных удобств.


Слайд 4
ВОЗМОЖНОСТИ ПРОГРАММЫ FINEREADER

ВОЗМОЖНОСТИ ПРОГРАММЫ FINEREADER

Слайд 5 FineReader
Омнифонтовая система оптического распознавания текстов.
Позволяет распознавать тексты,

FineReaderОмнифонтовая система оптического распознавания текстов. Позволяет распознавать тексты, набранные практически любыми шрифтами.

набранные практически любыми шрифтами.


Слайд 6 Особенности программы FineReader
Высокая точность распознавания и малая

Особенности программы FineReader Высокая точность распознавания и малая чувствительность к дефектам

чувствительность к дефектам печати, что достигается благодаря применению технологии

«целостного целенаправленного адаптивного распознавания».

Слайд 7 Программа позволяет
распознавать с высокой точностью тексты более

Программа позволяет распознавать с высокой точностью тексты более чем на 175

чем на 175 языках,
выводить на печать исходное изображение

и распознанный текст,
сохранять отсканированное изображение в различных форматах,
настраивать панели инструментов программы.

Слайд 8 Программные продукты ABBYY FineReader
FineReader Sprint,
FineReader 6.0

Программные продукты ABBYY FineReader FineReader Sprint, FineReader 6.0 Professional, FineReader 6.0

Professional,
FineReader 6.0 Corporate Edition,
ABBYY FineReader 5.0 Pro for

Mac.


Слайд 9
ТЕХНОЛОГИЯ РАСПОЗНАВАНИЯ

ТЕХНОЛОГИЯ РАСПОЗНАВАНИЯ

Слайд 10
Сложность машинного распознавания текстов заключается в том, что

Сложность машинного распознавания текстов заключается в том, что его невозможно построить

его невозможно построить по жесткому алгоритму хотя бы потому,

что для написания одной и той же буквы существует множество вариантов написания.

Слайд 11 Принцип целостности
Распознаваемое изображение рассматривается как единый объект, состоящий

Принцип целостностиРаспознаваемое изображение рассматривается как единый объект, состоящий из частей, связанных между собой пространственными соотношениями.

из частей, связанных между собой пространственными соотношениями.


Слайд 12 Принцип целенаправленности
Распознавание строится как процесс выдвижения и целенаправленной

Принцип целенаправленностиРаспознавание строится как процесс выдвижения и целенаправленной проверки гипотез об

проверки гипотез об объекте, а принцип адаптивности подразумевает способность

системы к самообучению.


Слайд 13
Для выдвижения гипотез о том, что может представлять

Для выдвижения гипотез о том, что может представлять собой изображение, применяются так называемые признаковые классификаторы.

собой изображение, применяются так называемые признаковые классификаторы.


Слайд 14 Признаковые классификаторы
Используют ряд признаков, на основе которых программа

Признаковые классификаторыИспользуют ряд признаков, на основе которых программа вычисляет степень близости

вычисляет степень близости распознаваемого изображения и известных ей классов

изображений, после чего выдает список подходящих классов, т. е. гипотезу о принадлежности объекта к тому или иному классу.


Слайд 15
Признаковые классификаторы применяются также и для повышения точности

Признаковые классификаторы применяются также и для повышения точности распознавания изображений с дефектами.

распознавания изображений с дефектами.


Слайд 16
Полученный набор классов последовательно проверяется структурным классификатором, анализирующим

Полученный набор классов последовательно проверяется структурным классификатором, анализирующим каждый символ.

каждый символ.


Слайд 17 Структурный эталон
Описывает символ как комбинацию структурных элементов (отрезок,

Структурный эталонОписывает символ как комбинацию структурных элементов (отрезок, дуга, кольцо, точка),

дуга, кольцо, точка), находящихся в определенных отношениях между собой.




Слайд 18 Процесс распознавания
Делится на этапы выделения структурных элементов в

Процесс распознаванияДелится на этапы выделения структурных элементов в изображении и сопоставлении их с эталоном.

изображении и сопоставлении их с эталоном.


Слайд 19
Если в окончательный список попало более одной гипотезы,

Если в окончательный список попало более одной гипотезы, они попарно сравниваются с помощью дифференциальных классификаторов.

они попарно сравниваются с помощью дифференциальных классификаторов.


Слайд 20
Если структурный классификатор при распознавании символов не может

Если структурный классификатор при распознавании символов не может однозначно выбрать одну

однозначно выбрать одну из двух букв с похожим написанием,

то между этими конкурирующими гипотезами делается дифференциальный выбор.


Слайд 21
С завершением работы дифференциального классификатора заканчивается распознавание и

С завершением работы дифференциального классификатора заканчивается распознавание и начинается этап проверки итогового списка гипотез.

начинается этап проверки итогового списка гипотез.


Слайд 22 Окончательная стадия распознавания
Осуществляется системой контекста — при наличии

Окончательная стадия распознаванияОсуществляется системой контекста — при наличии некоторого количества распознанных

некоторого количества распознанных букв из слова программа, используя словарь,

может «догадаться», что это за слово.


Слайд 23
ОРГАНИЗАЦИЯ РАБОТЫ В FINEREADER

ОРГАНИЗАЦИЯ РАБОТЫ В FINEREADER

Слайд 24 Пакет
Является основой работы FineReader.
Содержит всю информацию о

ПакетЯвляется основой работы FineReader. Содержит всю информацию о распознаваемом документе. Представляет

распознаваемом документе.
Представляет собой набор страниц документа и может

содержать около тысячи страниц.


Слайд 25
В один пакет для удобства работы рекомендуется объединять

В один пакет для удобства работы рекомендуется объединять изображения, логически связанные

изображения, логически связанные между собой, например страницы одной книги.


Слайд 26
В окне Пакет виден список страниц, входящих в

В окне Пакет виден список страниц, входящих в открытый пакет. Для

открытый пакет.
Для просмотра страницы нужно щелкнуть мышью по

ее изображению или номеру, при этом откроются файлы, которыми данная страница представлена в пакете.


Слайд 27
Страницы в окне Пакет могут быть представлены пиктограммами

Страницы в окне Пакет могут быть представлены пиктограммами или уменьшенным изображением страницы.

или уменьшенным изображением страницы.


Слайд 28
Если исходное изображение представляет собой негатив, оно может

Если исходное изображение представляет собой негатив, оно может быть инвертировано, далее

быть инвертировано, далее производится очистка от «мусора» — мелких

дефектов изображения.


Слайд 29
Если не нужна цветность, то цветные изображения сводятся

Если не нужна цветность, то цветные изображения сводятся к черно-белым, что

к черно-белым, что экономит место на диске и ускоряет

процесс распознавания.


Слайд 30 Анализ макета страниц пакета
FineReader анализирует ориентацию страницы и

Анализ макета страниц пакетаFineReader анализирует ориентацию страницы и переворачивает изображение, если

переворачивает изображение, если это необходимо, а также выделяет блоки

- области, которые при дальнейшем анализе будут интерпретироваться как текст, таблицы или рисунки.


Слайд 31 Распознавание текста и таблиц
Является «сердцем» FineReader и обеспечивает

Распознавание текста и таблицЯвляется «сердцем» FineReader и обеспечивает ее уникальность, однако этот процесс совершенно незаметен пользователю.

ее уникальность, однако этот процесс совершенно незаметен пользователю.


Слайд 32 Проверка правописания
«На суд» пользователя выносятся слова, которых нет

Проверка правописания«На суд» пользователя выносятся слова, которых нет в словаре системы,

в словаре системы, а также символы, в точности распознавания

которых программа не уверена.

Слайд 33 Сохранение и экспорт результатов распознавания
Вся информация, включая распознанный

Сохранение и экспорт результатов распознаванияВся информация, включая распознанный текст и его

текст и его форматирование, автоматически сохраняются в пакете вместе

с исходным изображением и сведениями о макете страниц.

Слайд 34
СКАНИРОВАНИЕ ИЗОБРАЖЕНИЙ

СКАНИРОВАНИЕ ИЗОБРАЖЕНИЙ

Слайд 35
Для сканирования изображения документа кладем на стекло сканера

Для сканирования изображения документа кладем на стекло сканера страницу с текстом

страницу с текстом или книгу и нажимаем кнопку Сканировать

(Scan) или в меню Файл выберем пункт Сканировать.

Слайд 36 Качество распознавания
Зависит от того, насколько хорошее изображение получено

Качество распознаванияЗависит от того, насколько хорошее изображение получено при сканировании, что

при сканировании, что достигается установкой основных параметров сканирования —

типа изображения, разрешения и яркости.


Слайд 37
Черно-белый тип изображения обеспечивает более высокую скорость сканирования,

Черно-белый тип изображения обеспечивает более высокую скорость сканирования, но при этом

но при этом теряется часть информации о буквах, что

может привести к ухудшению качества распознавания на документах среднего и низкого качества печати.


Слайд 38 Настройки
инвертирование изображения,
очистку от «мусора»,
автоматическое определение ориентации

Настройкиинвертирование изображения, очистку от «мусора», автоматическое определение ориентации текста на изображении.

текста на изображении.


Слайд 39
При распознавании изображение должно иметь стандартную ориентацию, т.

При распознавании изображение должно иметь стандартную ориентацию, т. е. текст должен

е. текст должен читаться сверху вниз и строки должны

быть горизонтальными.

Слайд 40
После завершения сканирования изображение окажется включенным в конец

После завершения сканирования изображение окажется включенным в конец пакета, если не

пакета, если не активна опция Запрашивать номер страницы перед

добавлением в пакет, а его пиктограмма отобразится на панели пакета.

Слайд 41
АНАЛИЗ МАКЕТА СТРАНИЦ

АНАЛИЗ МАКЕТА СТРАНИЦ

Слайд 42
Определение ориентации текста при установке соответствующей опции производится

Определение ориентации текста при установке соответствующей опции производится автоматически, хотя можно

автоматически, хотя можно сделать это и вручную путем поворота

исходного изображения.


Слайд 43
отдельными блоками выделяются таблицы и рисунки, которые не

отдельными блоками выделяются таблицы и рисунки, которые не подлежат распознаванию; четкое

подлежат распознаванию;
четкое выделение блоков позволяет максимально корректно сохранить

макет исходной страницы при передаче распознанного документа во внешние приложения.

Слайд 44 Блоки
Заключенные в рамки участки изображения.
Блоки выделяют для

БлокиЗаключенные в рамки участки изображения. Блоки выделяют для того, чтобы указать

того, чтобы указать программе, какие участки отсканированной страницы надо

распознавать и в каком порядке.
Также по ним воспроизводится исходное оформление страницы.


Слайд 45 Типы блоков
зона распознавания,
текст,
таблица,
картинка,
штрих-код.

Типы блоковзона распознавания, текст, таблица, картинка,штрих-код.

Слайд 46 Графики с подписями осей
FineReader отдает предпочтение тексту

Графики с подписями осей FineReader отдает предпочтение тексту и выделяет подписи

и выделяет подписи как текстовый блок, оставляя сам график

без внимания или же выделяя как рисунок какую-либо его часть.

Слайд 47 Сложные математические или химические формулы
При работе с

Сложные математические или химические формулы При работе с документами, содержащими формулы,

документами, содержащими формулы, их приходится выделять как рисунки.


Слайд 48 Плохой оригинал
Подобные ошибки могут быть исправлены на

Плохой оригинал Подобные ошибки могут быть исправлены на этапе работы с

этапе работы с макетом, поскольку сделать это проще, чем

впоследствии редактировать готовый текст.

Слайд 49
Изменять размеры или форму существующих блоков можно, потянув

Изменять размеры или форму существующих блоков можно, потянув мышью за их границы.

мышью за их границы.


Слайд 50
Изменить тип блока позволяет «всплывающее» меню, появляющееся после

Изменить тип блока позволяет «всплывающее» меню, появляющееся после щелчка мышью по

щелчка мышью по пиктограмме в углу блока, обозначающего его

тип.

Слайд 51
РАСПОЗНАВАНИЕ ТЕКСТА

РАСПОЗНАВАНИЕ ТЕКСТА

Слайд 52 Задача распознавания
Преобразовать отсканированное изображение в текст, сохранив при

Задача распознаванияПреобразовать отсканированное изображение в текст, сохранив при этом оформление страницы.

этом оформление страницы.


Слайд 53
Язык, на котором будет проводиться распознавание, выбирается на

Язык, на котором будет проводиться распознавание, выбирается на основной панели инструментов.

основной панели инструментов.


Слайд 54
Помимо языка оригинала, модуль распознавания учитывает и тип

Помимо языка оригинала, модуль распознавания учитывает и тип печати, который по

печати, который по умолчанию определяется автоматически, но при необходимости

может быть установлен и вручную.

Слайд 55
ПРОВЕРКА ПРАВОПИСАНИЯ
И СОХРАНЕНИЕ РЕЗУЛЬТАТОВ РАБОТЫ

ПРОВЕРКА ПРАВОПИСАНИЯ И СОХРАНЕНИЕ РЕЗУЛЬТАТОВ РАБОТЫ

Слайд 56
Модуль распознавания анализирует не только отдельные символы, но

Модуль распознавания анализирует не только отдельные символы, но и целые слова,

и целые слова, используя при этом встроенный словарь.


Слайд 57
Работа со словами, неизвестными системе, и с неуверенно

Работа со словами, неизвестными системе, и с неуверенно распознанными символами осуществляется в модуле проверки правописания.

распознанными символами осуществляется в модуле проверки правописания.


Слайд 58
После окончания проверки правописания следует определить, в каком

После окончания проверки правописания следует определить, в каком формате сохранять полученные результаты.

формате сохранять полученные результаты.


Слайд 59
ДРУГИЕ
OCR-СИСТЕМЫ

ДРУГИЕ OCR-СИСТЕМЫ

Слайд 60 Предварительное сканирование позволяет
выделить мышью область сканирования;
выбрать режим сканирования;
выставить

Предварительное сканирование позволяетвыделить мышью область сканирования;выбрать режим сканирования;выставить параметры яркости, контраста

параметры яркости, контраста или выбрать автоматическое определение этих параметров;
запустить

основное сканирование.

Слайд 61
Подбор настроек сканера уменьшает количество неверно распознанных букв

Подбор настроек сканера уменьшает количество неверно распознанных букв до вполне приемлемого качества сканирования и распознавания.

до вполне приемлемого качества сканирования и распознавания.


  • Имя файла: sistemy-opticheskogo-raspoznavaniya-informatsii.pptx
  • Количество просмотров: 129
  • Количество скачиваний: 1