Оптическое распознавание символов

Материал из «Знание.Вики»
Iconocr.png

Оптическое распознавание символов (англ. optical character recognition, OCR) — это процесс, который позволяет преобразовать изображения рукописного, машинописного или печатного текста в текстовые данные, используемые в компьютерах (например, в текстовых редакторах). Эта технология широко используется для представления книг и документов в цифровом формате, для автоматизации различных бизнес-процессов, а также для размещения текста на веб-ресурсах. OCR позволяет пользователям редактировать текст, выполнять поиск по словам и фразам, компактно сохранять данные, показывать или печатать материал без потери качества, осуществлять анализ текста и применять к нему различные способы обработки, такие как перевод, форматирование или озвучивание. Данная технология является важным направлением исследований в областях распознавания паттернов, алгоритмов ИИ и машинного зрения[1].

В ранних версиях программы могли распознавать только один шрифт, впоследствии были созданы «умные» системы, способные с высокой точностью одновременно распознавать различные шрифты. Современные системы способны работать и с рукописным текстом, некоторые OCR-системы также могут восстанавливать оригинальное форматирование текста, включая изображения, колонки и другие графические элементы.

История

В 1929 году Густав Таушек (нем. Gustav Tauschek) зарегистрировал патент на метод оптического распознавания текста в Германии. Вскоре после этого, в 1933 году, в США патент на подобное изобретение получил Пол В. Гендель (англ. Paul W. Handel). Таушек также получил американский патент на свою методику в 1935 году. Его разработка включала механическое устройство, использующее шаблоны и фотодетектор для распознавания текста.

В 1950 году криптоаналитик из АНБ, Дэвид Х. Шепард (англ. David H. Shepard), изучая проблему конвертации печатных сообщений для их обработки компьютером, создал устройство для её решения. Получив патент в США, он опубликовал информацию об этом в «Вашингтон Дэйли Ньюз» (27 апреля 1951) и «Нью-Йорк Таймс» (26 декабря 1953). После этого Шепард основал компанию по разработке интеллектуальных машин и вскоре представил на рынок первые коммерческие OCR-системы.

Первая коммерчески доступная система была внедрена в «Ридерс дайджест» в 1955 году, а вторая — продана компании «Стандарт ойл» для обработки чеков с кредитных карт. К концу 1950-х годов другие системы Шепарда были проданы, включая устройство для американских ВВС для чтения и передачи машинописных сообщений через телетайп. Позднее IBM получила лицензию на использование патентов Шепарда[2].

В 1965 году «Ридерс дайджест» и «Ар-Си-Эй» (англ. Radio Corporation of America) начали совместную разработку устройства для чтения документов, использующего OCR-технологию, для оцифровки серийных номеров купонов «Ридерс дайджест» из рекламных объявлений. Для этого использовался специальный барабанный принтер «Ар-Си-Эй» для печати на документах (шрифт OCR-A). Устройство для чтения документов напрямую взаимодействовало с компьютером RCA 301. С его помощью обрабатывалось до 1500 документов в минуту, причём каждый экземпляр тщательно проверялся, а неподдающиеся обработке документы отбраковывались.

Американская почтовая служба в 1965 году начала использовать машины с оптическими распознавателями текста, разработанные на базе исследований Якова Рабиновича. В Европе первопроходцем в использовании OCR-технологий стал британский почтовый сервис. В Канаде подобные системы начали эксплуатироваться почтовой службой в 1971 году. В пункте сортировки OCR-системы считывали имя и адрес адресата и наносили на конверт штрихкод особенными чернилами, светящимися под ультрафиолетом, чтобы избежать путаницы, вызванной человеческим фактором при заполнении адреса на конверте.

В 1974 году Рэймонд Курцвейл основал компанию «Курцвейл компьютер продактс», начав разработку первой системы OCR, способной распознавать печатный текст независимо от шрифта. Курцвейл также придавал большое значение созданию устройства для речевого воспроизводства текста, что открыло бы доступ к написанному незрячим людям. Разработка включала создание двух ключевых устройств — планшетного сканера на базе ПЗС-матрицы и синтезатора речи. Окончательный продукт был представлен 13 января 1976 года на пресс-конференции, проводимой Курцвейлом и лидерами Национальной федерации слепых.

В 1978 году компания «Курцвейл компьютер продактс» запустила в продажу первую коммерчески успешную OCR-программу интерпретирования символов. Через два года Курцвейл продал свою компанию гиганту «Ксерокс», заинтересованному в дальнейшем развитии технологий распознавания текста. «Курцвейл компьютер продактс» была реорганизована в дочернюю компанию под названием «Скансофт»[3].

Первая российская программа для распознавания кириллицы называлась «AutoR» и была создана компанией «ОКРУС». Её распространение началось в 1992 году и она функционировала под управлением операционной системы DOS, предоставляя достаточно высокую скорость и качество распознавания на компьютерах семейства IBM PC/XT с процессором Intel 8088 и тактовой частотой 4,77 МГц. В начале 90-х годов компания Hewlett-Packard включала программу «AutoR» в комплект поставки своих сканеров для российского рынка. Алгоритм «AutoR» отличался компактностью, быстродействием и полной независимостью от применённого в тексте шрифта. Он был разработан и протестирован еще в 60-х годах двумя выпускниками МФТИ — Г. М. Зенкиным и А. П. Петровым. Их метод распознавания был опубликован в журнале «Биофизика» в номере 12, (вып. 3), за 1967 год. Сегодня алгоритм Зенкина-Петрова используется в нескольких приложениях для распознавания графических символов. В 1996 году компания Paragon Software Group разработала технологию PenReader на основе этого алгоритма.

Впоследствии Г. М. Зенкин продолжил свою работу над PenReader в компании Paragon Software Group[4]. Его метод нашел свое воплощение в одноимённом товаре фирмы[5]. В 1993 году российская компания ABBYY представила свою технологию для распознавания текстов, на базе которой разработаны различные корпоративные решения и программы для широкого круга пользователей. Среди них стоит отметить программу ABBYY FineReader, мобильные приложения для распознавания текстовой информации, а также систему ABBYY FlexiCapture для ввода документов и данных. Лицензию на использование технологий распознавания текстов ABBYY OCR приобрели международные технологические гиганты, включая Fujitsu, Panasonic, Xerox и Samsung, а также EMC и прочие[6].

Современное состояние технологии оптического распознавания текста

Точное распознавание символов латинского алфавита в настоящее время возможно лишь при наличии чётких изображений, таких как сканы напечатанных документов. В таких случаях уровень точности превышает 99%, а абсолютная точность достигается только при последующей корректировке человеком. Трудности с распознаванием рукописного «печатного» текста и стандартного рукописного текста, а также текстов других форматов (особенно с большим числом символов) остаются объектом активных исследований.

Точность различных методов может существенно отличаться в зависимости от специфики написанного. Например, если в тексте встречается специализированное слово, не предусмотренное обработкой в соответствующей версии программного обеспечения (ПО), вероятность ошибки может возрасти.

Распознавание символов в режиме онлайн значительно сложнее оптического распознавания. Последний метод работает со статическим текстом, тогда как онлайн-распознавание должно учитывать движение при написании текста. К примеру, в системах онлайн-распознавания, таких как PenPoint OS или планшетных ПК, можно определить направление письма — справа налево или слева направо. Для изображений с рукописным «печатным» текстом можно достичь точности в 80% — 90%, однако изображение может быть преобразовано с ошибками. Подобная технология может найти применение лишь в ограниченных случаях[7].

Более высокие показатели могут быть достигнуты при использовании контекстной информации. К примеру, распознавание целых слов из словаря является более простой задачей, чем сканирование и идентификация отдельных символов, в частности это позволяет определить, к какой части речи относится слово, является ли оно глаголом или существительным. Для более сложных задач в распознавании применяются интеллектуальные системы, такие как нейронные сети. Для калибровки таких систем разработана стандартная база данных MNIST, включающая изображения рукописных цифр.

См. также

Примечания

  1. Маслов И. А. Оптическое распознавание символов в информационных системах. Дата обращения: 5 октября 2024.
  2. OCR — Оптическое распознавание символов (1 июня 2002). Дата обращения: 5 октября 2024. Архивировано 6 октября 2024 года.
  3. Kurzwail Computer Products (англ.). Kurzweil Technologies, Inc. Дата обращения: 5 октября 2024.
  4. Новый PenReader теперь доступен для iPhone, iPod touch и iPad. apps4all.ru. Дата обращения: 5 октября 2024. Архивировано 13 августа 2016 года.
  5. Россияне выпустили приложение для рукописного ввода на iPhone и iPad - CNews. CNews.ru. Дата обращения: 5 октября 2024. Архивировано 17 января 2016 года.
  6. ABBYY научила Samsung Galaxy S4 распознавать текст на изображениях. Дата обращения: 5 октября 2024. Архивировано 27 января 2016 года.
  7. Виталий Мишин. OCR и OСV: распознавание и верификация символов для производств. ООО «Малленом Системс» (25 ноября 2020). Дата обращения: 5 октября 2024.

Ссылки

WLW Checked Off icon.svg Данная статья имеет статус «готовой». Это не говорит о качестве статьи, однако в ней уже в достаточной степени раскрыта основная тема. Если вы хотите улучшить статью — правьте смело!