Оптическое распознавание символов

Оптическое распознавание символов (англ. optical character recognition, OCR) — процесс, который позволяет преобразовать изображения рукописного, машинописного или печатного текста в текстовые данные, используемые в компьютерах (например, в текстовых редакторах). Эта технология широко используется для представления книг и документов в цифровом формате, для автоматизации различных бизнес-процессов, а также для размещения текста на веб-ресурсах. OCR позволяет пользователям редактировать текст, выполнять поиск по словам и фразам, компактно сохранять данные, показывать или печатать материал без потери качества, осуществлять анализ текста и применять к нему различные способы обработки, такие как перевод, форматирование или озвучивание. Данная технология является важным направлением исследований в областях распознавания паттернов, алгоритмов ИИ и машинного зрения^[1].

В ранних версиях программы могли распознавать только один шрифт, впоследствии были созданы «умные» системы, способные с высокой точностью одновременно распознавать различные шрифты. Современные системы способны работать и с рукописным текстом, некоторые OCR-системы также могут восстанавливать оригинальное форматирование текста, включая изображения, колонки и другие графические элементы.

История

В 1929 году Густав Таушек (нем. Gustav Tauschek) зарегистрировал патент на метод оптического распознавания текста в Германии. Вскоре после этого, в 1933 году, в США патент на подобное изобретение получил Пол В. Гендель (англ. Paul W. Handel). Таушек также получил американский патент на свою методику в 1935 году. Его разработка включала механическое устройство, использующее шаблоны и фотодетектор для распознавания текста.

В 1950 году криптоаналитик из АНБ, Дэвид Х. Шепард (англ. David H. Shepard), изучая проблему конвертации печатных сообщений для их обработки компьютером, создал устройство для её решения. Получив патент в США, он опубликовал информацию об этом в «Вашингтон Дэйли Ньюз» (27 апреля 1951) и «Нью-Йорк Таймс» (26 декабря 1953). После этого Шепард основал компанию по разработке интеллектуальных машин и вскоре представил на рынок первые коммерческие OCR-системы.

Первая коммерчески доступная система была внедрена в «Ридерс дайджест» в 1955 году, а вторая — продана компании «Стандарт ойл» для обработки чеков с кредитных карт. К концу 1950-х годов другие системы Шепарда были проданы, включая устройство для американских ВВС для чтения и передачи машинописных сообщений через телетайп. Позднее IBM получила лицензию на использование патентов Шепарда^[2].

В 1965 году «Ридерс дайджест» и «Ар-Си-Эй» (англ. Radio Corporation of America) начали совместную разработку устройства для чтения документов, использующего OCR-технологию, для оцифровки серийных номеров купонов «Ридерс дайджест» из рекламных объявлений. Для этого использовался специальный барабанный принтер «Ар-Си-Эй» для печати на документах (шрифт OCR-A). Устройство для чтения документов напрямую взаимодействовало с компьютером RCA 301. С его помощью обрабатывалось до 1500 документов в минуту, причём каждый экземпляр тщательно проверялся, а неподдающиеся обработке документы отбраковывались.

Американская почтовая служба в 1965 году начала использовать машины с оптическими распознавателями текста, разработанные на базе исследований Якова Рабиновича. В Европе первопроходцем в использовании OCR-технологий стал британский почтовый сервис. В Канаде подобные системы начали эксплуатироваться почтовой службой в 1971 году. В пункте сортировки OCR-системы считывали имя и адрес адресата и наносили на конверт штрихкод особенными чернилами, светящимися под ультрафиолетом, чтобы избежать путаницы, вызванной человеческим фактором при заполнении адреса на конверте.

В 1974 году Рэймонд Курцвейл основал компанию «Курцвейл компьютер продактс», начав разработку первой системы OCR, способной распознавать печатный текст независимо от шрифта. Курцвейл также придавал большое значение созданию устройства для речевого воспроизводства текста, что открыло бы доступ к написанному незрячим людям. Разработка включала создание двух ключевых устройств — планшетного сканера на базе ПЗС-матрицы и синтезатора речи. Окончательный продукт был представлен 13 января 1976 года на пресс-конференции, проводимой Курцвейлом и лидерами Национальной федерации слепых.

В 1978 году компания «Курцвейл компьютер продактс» запустила в продажу первую коммерчески успешную OCR-программу интерпретирования символов. Через два года Курцвейл продал свою компанию гиганту «Ксерокс», заинтересованному в дальнейшем развитии технологий распознавания текста. «Курцвейл компьютер продактс» была реорганизована в дочернюю компанию под названием «Скансофт»^[3].

Первая российская программа для распознавания кириллицы называлась «AutoR» и была создана компанией «ОКРУС». Её распространение началось в 1992 году и она функционировала под управлением операционной системы DOS, предоставляя достаточно высокую скорость и качество распознавания на компьютерах семейства IBM PC/XT с процессором Intel 8088 и тактовой частотой 4,77 МГц. В начале 90-х годов компания Hewlett-Packard включала программу «AutoR» в комплект поставки своих сканеров для российского рынка. Алгоритм «AutoR» отличался компактностью, быстродействием и полной независимостью от применённого в тексте шрифта. Он был разработан и протестирован еще в 60-х годах двумя выпускниками МФТИ — Г. М. Зенкиным и А. П. Петровым. Их метод распознавания был опубликован в журнале «Биофизика» в номере 12, (вып. 3), за 1967 год. Сегодня алгоритм Зенкина-Петрова используется в нескольких приложениях для распознавания графических символов. В 1996 году компания Paragon Software Group разработала технологию PenReader на основе этого алгоритма.

Впоследствии Г. М. Зенкин продолжил свою работу над PenReader в компании Paragon Software Group^[4]. Его метод нашел свое воплощение в одноимённом товаре фирмы^[5]. В 1993 году российская компания ABBYY представила свою технологию для распознавания текстов, на базе которой разработаны различные корпоративные решения и программы для широкого круга пользователей. Среди них стоит отметить программу ABBYY FineReader, мобильные приложения для распознавания текстовой информации, а также систему ABBYY FlexiCapture для ввода документов и данных. Лицензию на использование технологий распознавания текстов ABBYY OCR приобрели международные технологические гиганты, включая Fujitsu, Panasonic, Xerox и Samsung, а также EMC и прочие^[6].

Современное состояние технологии оптического распознавания текста

Точное распознавание символов латинского алфавита в настоящее время возможно лишь при наличии чётких изображений, таких как сканы напечатанных документов. В таких случаях уровень точности превышает 99%, а абсолютная точность достигается только при последующей корректировке человеком. Трудности с распознаванием рукописного «печатного» текста и стандартного рукописного текста, а также текстов других форматов (особенно с большим числом символов) остаются объектом активных исследований.

Точность различных методов может существенно отличаться в зависимости от специфики написанного. Например, если в тексте встречается специализированное слово, не предусмотренное обработкой в соответствующей версии программного обеспечения (ПО), вероятность ошибки может возрасти.

Распознавание символов в режиме онлайн значительно сложнее оптического распознавания. Последний метод работает со статическим текстом, тогда как онлайн-распознавание должно учитывать движение при написании текста. К примеру, в системах онлайн-распознавания, таких как PenPoint OS или планшетных ПК, можно определить направление письма — справа налево или слева направо. Для изображений с рукописным «печатным» текстом можно достичь точности в 80% — 90%, однако изображение может быть преобразовано с ошибками. Подобная технология может найти применение лишь в ограниченных случаях^[7].

Более высокие показатели могут быть достигнуты при использовании контекстной информации. К примеру, распознавание целых слов из словаря является более простой задачей, чем сканирование и идентификация отдельных символов, в частности это позволяет определить, к какой части речи относится слово, является ли оно глаголом или существительным. Для более сложных задач в распознавании применяются интеллектуальные системы, такие как нейронные сети. Для калибровки таких систем разработана стандартная база данных MNIST, включающая изображения рукописных цифр.

См. также

CAPTCHA
Распознавание символов нейронной сетью
Распознавание образов
Распознавание речи
Распознавание нот^[en]
Распознавание музыки
Таблица сравнения программного обеспечения для распознавания текстов

Примечания

↑ Маслов И. А. Оптическое распознавание символов в информационных системах (неопр.). Дата обращения: 5 октября 2024.
↑ OCR — Оптическое распознавание символов (неопр.) (1 июня 2002). Дата обращения: 5 октября 2024. Архивировано 6 октября 2024 года.
↑ Kurzwail Computer Products (англ.). Kurzweil Technologies, Inc. Дата обращения: 5 октября 2024.
↑ Новый PenReader теперь доступен для iPhone, iPod touch и iPad (неопр.). apps4all.ru. Дата обращения: 5 октября 2024. Архивировано 13 августа 2016 года.
↑ Россияне выпустили приложение для рукописного ввода на iPhone и iPad - CNews (неопр.). CNews.ru. Дата обращения: 5 октября 2024. Архивировано 17 января 2016 года.
↑ ABBYY научила Samsung Galaxy S4 распознавать текст на изображениях (неопр.). Дата обращения: 5 октября 2024. Архивировано 27 января 2016 года.
↑ Виталий Мишин. OCR и OСV: распознавание и верификация символов для производств (неопр.). ООО «Малленом Системс» (25 ноября 2020). Дата обращения: 5 октября 2024.

Ссылки

Unicode OCR — Hex Range: 2440-245F Архивная копия от 27 июня 2010 на Wayback Machine Оптическое распознавание символов в Юникоде (англ.)
Оптическое распознавание символов в Linux Архивная копия от 2 апреля 2013 на Wayback Machine

[1] Маслов И. А. Оптическое распознавание символов в информационных системах (неопр.). Дата обращения: 5 октября 2024.

[2] OCR — Оптическое распознавание символов (неопр.) (1 июня 2002). Дата обращения: 5 октября 2024. Архивировано 6 октября 2024 года.

[3] Kurzwail Computer Products (англ.). Kurzweil Technologies, Inc. Дата обращения: 5 октября 2024.

[4] Новый PenReader теперь доступен для iPhone, iPod touch и iPad (неопр.). apps4all.ru. Дата обращения: 5 октября 2024. Архивировано 13 августа 2016 года.

[5] Россияне выпустили приложение для рукописного ввода на iPhone и iPad - CNews (неопр.). CNews.ru. Дата обращения: 5 октября 2024. Архивировано 17 января 2016 года.

[6] ABBYY научила Samsung Galaxy S4 распознавать текст на изображениях (неопр.). Дата обращения: 5 октября 2024. Архивировано 27 января 2016 года.

[7] Виталий Мишин. OCR и OСV: распознавание и верификация символов для производств (неопр.). ООО «Малленом Системс» (25 ноября 2020). Дата обращения: 5 октября 2024.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[en] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[en] Извлечение коллокаций^[en] Стемминг Лемматизация Распознавание именованных сущностей^[en] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[en] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[en] Извлечение информации Идентификация языка Определение регистра^[en]
Реферирование	Извлечение предложений^[en] Генерация реферата Многодокументное реферирование^[en] Упрощение текста^[en]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[en] На основе правил На основе примеров На основе словаря^[en] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[en] Конкордансер Предиктивный ввод текста Система проверки грамматики^[en] Система проверки правописания Угадывание синтаксиса^[en]
Интерфейс на естественном языке^[en]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Искусственный интеллект
История	История искусственного интеллекта Зима искусственного интеллекта Дартмутский семинар Регламент ЕС об искусственном интеллекте
Философия	Тест Тьюринга Китайская комната Сильный и слабый искусственные интеллекты Дружественный искусственный интеллект Этика искусственного интеллекта Проблема контроля
Направления	Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронная сеть Нечёткая логика Обработка естественного языка Персональный искусственный интеллект Распознавание образов Роевой интеллект Символический ИИ Эволюционные алгоритмы Экспертная система
Применение	Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ
Исследователи	Чарлз Бэббидж Владимир Вапник Джозеф Вейценбаум Норберт Винер Виктор Глушков Владимир Городецкий Ян Лекун Алексей Ляпунов Джон Маккарти Марвин Мински Аллен Ньюэлл Сеймур Пейперт Джуда Перл Гермоген Поспелов Дмитрий Поспелов Фрэнк Розенблатт Герберт Александер Саймон Алан Тьюринг Патрик Уинстон Виктор Финн Сергей Фомин Демис Хассабис Джеффри Хинтон Ноам Хомский Клод Шеннон Эндрю Ын Элиезер Юдковский