Технологии ОСК для преобразования графической информации в текстовую

Современные способы, системы и библиотеки, направленные на преобразование графической информации в текстовую интерпретацию. Области применения данных технологий. Приложение, написанное на языке C#, направленное на считывание текста из графических файлов.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 21.02.2022
Размер файла 175,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Технологии ОСК для преобразования графической информации в текстовую

Н.А. Иванов, Д.А. Прокуров, В.С. Родионов, Р.Н. Федюнин, К.А. Щетинин, Пензенский государственный университет

Аннотация

Рассматриваются современные способы, системы и библиотеки, направленные на преобразование графической информации в текстовую интерпретацию. Выявляются области применения данных технологий, актуальные проблемы в этой области, а также предлагается удобное приложение, написанное на языке C#, которое направлено на считывание текста из графических файлов.

Ключевые слова: графическая информация, оптическое распознавание символов, технология, библиотека, исходный код

графический информация библиотека текст

В начале развития сети Интернет данные во «всемирной паутине» представляли собой в основном текстовую информацию, которая легко поддается интерпретации машиной, например, с целью создания поисковых систем [1].

Однако по мере процесса совершенствования протоколов передачи данных, а также аппаратных и программных средств их реализации стало возможно массово использовать не только текстовую, но и графическую информацию. Особенно широкое распространение последняя получила с появлением в сети Интернет большого числа социальных сетей и мессенджеров, где люди активно взаимодействуют друг с другом с использованием различного рода мультимедиа-контента.

Таким образом, для формирования, например, поисковых систем, экспертных систем, баз данных и аналитических алгоритмов остро встал вопрос распознавания информации в графических файлах.

На данный момент времени в этой области существуют два основных направления: распознавание образов в графической информации и распознавание символов в графической информации.

Для решения проблем во втором направлении, а именно: оптическом распознавании символов (OCR, Optical character recognition), в настоящее время создано огромное количество библиотек для различных сред программирования. Наиболее известными среди них являются Tesseract, Google Text Recognition API, Anyline [2]. Однако они так или иначе обладают рядом ограничений и недостатков, основным из которых является низкая точность считывания рукописного текста. Поэтому создание новых систем обработки графической информации является достаточно важной проблемой для развития современных информационных технологий.

Одним из примеров является API от компании Google, а именно: Google Text Recognition API. Данная библиотека позволяет обнаружить текст в изображениях и видеопотоках и распознать содержащийся в них текст. После обнаружения распознаватель определяет фактический текст в каждом блоке и разбивает его на слова и строки. К достоинствам можно отнести большое количество поддерживаемых языков, возможность распознания в режиме реального времени, высокую скорость распознания, а также небольшой размер библиотеки. Недостатком является большой размер файлов с обученными данными.

OCR библиотека Tesseract имеет открытый исходный код и распространяется бесплатно. Благодаря открытому коду достаточно легко обучить OCR распознавать нужные шрифты и повысить качество распознаваемой информации. После обучения библиотеки качество результатов распознавания стремительно возрастает. Также поддерживает большое количество языков. Недостатком является то, что для распознавания текста в реальном времени требуется дополнительная обработка полученного изображения.

Anyline - многоплатформенный SDK, который позволяет разработчикам легко интегрировать функции OCR в приложения. Данная OCR библиотека привлекательна тем, что имеет многочисленные возможности по настройке параметров распознавания и предоставляет модели для решения конкретных прикладных задач. Позволяет распознавать текст в реальном времени, а также, помимо текста, библиотека способна распознавать штрихкоды и QR-коды.

Iron OCR - это простая в установке, полная и хорошо документированная программная библиотека NET [3]. Выбор IronOCR позволяет достичь точности оптического распознавания текста более 99 % без использования каких-либо внешних веб-сервисов [4]. Iron OCR отлично подходит при работе с реальными изображениями и несовершенными документами, такими как фотографии или сканированные изображения с низким разрешением, которые могут иметь цифровой шум или дефекты.

На основе языка C# и библиотеки IronOCR, которая предоставляет функционал оптического распознавания текста, было разработано простое в использовании приложение с графическим интерфейсом, реализующее перевод графической информации в текстовую.

Интерфейс представляет из себя графическое окно с элементами взаимодействия в виде кнопок, переключателей и подменю, приведенное на рис. 1.

Рис. 1. Интерфейс программы

После выбора графического файла, установки необходимых параметров и нажатия кнопки обработки результат появляется в окне в правой части интерфейса. Среди дополнительных параметров можно установить выравнивание текста и сглаживание шумов на изображении.

Программа поддерживает распознавание текста на русском и английском языках. Пример обработки графической информации на английском языке представлен на рис. 2.

Как видно из приведенных рисунков, программа обладает достаточно лаконичным и простым в использовании интерфейсом. ИМЬ-диаграмма взаимодействия пользователя с приложением отображена на рис. 3.

Развитие сети Интернет не стоит на месте. Каждый день по каналам передачи данных передается все большее и большее количество информации. Поэтому проблематика развития алгоритмов и средств обработки информации, в том числе графической, еще долго будет актуальной [5].

Рис. 2. Обработка графической информации, содержащей английский текст

Рис. 3. ИМЬ-диаграмма взаимодействия

Использование технологий ОСИ существенно повышает производительность распознавания текстовой информации в различных документах и изображениях, однако все еще остается ряд проблем, например, распознавание рукописного текста.

Предложенный в данной статье инструмент по интерпретации графической информации в текстовый эквивалент может быть использован как платформа для совершенствования технологий OCR в данном направлении.

Список литературы

1. Что такое технология оптического распознавания символов, или OCR.

2. Evaluation of OCR Algorithms for Images with Different Spatial Resolutions and Noises by Qing Chen / / School of Information Technology and Engineering Faculty of Engineering University of Ottawa. 2003. 122 р.

3. Просиз Джеф. Программирование для Microsoft.NET. М.: Русская Редакция, 2003. 704 с.

4. C# OCR Library | Iron Ocr.

5. Требования к программному обеспечению / Материал из Википедии - свободной энциклопедии.

Размещено на Allbest.ru

...

Подобные документы

  • Представление графической информации в компьютере. Графические форматы и их преобразование. Информационные технологии обработки графической информации. Формирование и вывод изображений. Файлы векторного формата и растровый графический редактор.

    курсовая работа [1,0 M], добавлен 25.04.2013

  • Преобразование графической информации из аналоговой формы в цифровую. Количество цветов, отображаемых на экране монитора. Расчет объема видеопамяти для одного из графических режимов. Способы хранения информации в файле. Формирование векторной графики.

    презентация [2,1 M], добавлен 22.05.2012

  • Представление графической информации в компьютере. Графические форматы и их преобразование. Назначение и функции Corel Draw и Adobe Photoshop. Практическое построение таблиц в MS Excel о доходах и расходах семьи за квартал, общий вид гистограммы.

    контрольная работа [1,1 M], добавлен 27.04.2013

  • Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.

    дипломная работа [3,9 M], добавлен 06.03.2013

  • Технология обработки графической информации с помощью ПК, применение в научных и военных исследованиях: формы, кодирование информации, ее пространственная дискретизация. Создание и хранение графических объектов, средства обработки векторной графики.

    реферат [20,7 K], добавлен 28.11.2010

  • Исследование истории концепции электронного издания для образовательных целей. Характеристика требований к электронному изданию учебного назначения. Анализ технологии создания проекта "Обработка графической информации". Описание алгоритма решения задачи.

    курсовая работа [505,8 K], добавлен 13.01.2015

  • Стандартное устройство вывода графической информации в компьютере IBM - система из монитора и видеокарты. Основные компоненты видеокарты. Графическое и цветовое разрешение экрана. Виды мониторов и видеокарт. Мультимедиа-проекторы, плазменные панели.

    контрольная работа [38,7 K], добавлен 09.06.2010

  • Создание приложения для просмотра графических файлов. Компоненты, объекты и операторы для отображения графической информации в библиотеке Delphi. Канва как область компонента для рисования и отображения изображений. Рисование пером, закрашивание кистью.

    методичка [98,1 K], добавлен 19.06.2011

  • Устройства и этапы преобразования графической информации в цифровую: СУБД, MapInfo. Сканеры и их типы. Устройства отображения информации, принцип их работы. Преимущества и недостатки жидкокристаллических дисплеев. Системы управления базами данных.

    контрольная работа [25,8 K], добавлен 28.02.2011

  • Устройства ввода графической информации. Настольные барабанные сканеры. Планшетные сканеры. Технологии планшетного сканирования. Сканеры для обработки пленок и диапозитивов. Листовые и многоцелевые сканеры. Ручные сканеры. Беспленочные камеры.

    реферат [26,9 K], добавлен 02.10.2008

  • Формы и системы представления информации для ее машинной обработки. Аналоговая и дискретная информация, представление числовой, графической и символьной информации в компьютерных системах. Понятие и особенности файловых систем, их классификация и задачи.

    реферат [170,3 K], добавлен 14.11.2013

  • Технологические процессы обработки информации в информационных технологиях. Способы доступа к Internet. Информационные технологии в локальных и корпоративных компьютерных сетях. Средства обработки графической информации. Понятие информационной технологии.

    учебное пособие [1,4 M], добавлен 23.03.2010

  • Отображение текстовой или графической информации на компьютере. Ввод данных и управление различными объектами операционной системы. Внешние и внутренние устройства. Устройства записи-считывания информации на гибких магнитных и жёстких магнитных дисках.

    презентация [509,8 K], добавлен 23.02.2015

  • Информатизация образования и проблема наличия специфических средств обучения. Электронное издание учебного назначения "Технология обработки графической информации" для учащихся 6-7 классов средних школ: структура теоретического и практического материала.

    курсовая работа [889,0 K], добавлен 17.03.2011

  • Полуавтоматические и автоматические устройства ввода графической информации. Устройство указания, сенсорные панели, экраны, графические планшеты. Цифровые камеры и ТВ-тюнеры. Основные виды сканеров. Автоматизация поиска и выделения элементов изображения.

    презентация [1,6 M], добавлен 22.04.2015

  • Разработка программы, проверяющей уровень знаний по разделу стереометрии и позволяющей выбор один из нескольких вариантов и ввод ответа. Характеристика библиотеки MFC, тела, классов и файлов приложения, цикла сообщений и текстовых запусков программы.

    курсовая работа [1,5 M], добавлен 28.06.2011

  • Назначение, классификация и экономическая целесообразность использования устройств ввода текстовой и графической информации. Обзор и сравнительный анализ программ распознавания образов Acrobat Reader и ASDee. Охрана труда при работе на компьютере.

    дипломная работа [4,3 M], добавлен 23.07.2010

  • Общие подходы к компьютерному представлению графической и звуковой информации. Растровая и векторная графика: характеристика, отличительные особенности, условия использования. Представление цветов в компьютере, существующие модели и их сравнение.

    презентация [2,3 M], добавлен 02.03.2016

  • Представление информации в двоичной системе. Необходимость кодирования в программировании. Кодирование графической информации, чисел, текста, звука. Разница между кодированием и шифрованием. Двоичное кодирование символьной (текстовой) информации.

    реферат [31,7 K], добавлен 27.03.2010

  • Знакомство с идеей векторного способа представления изображений в цифровом виде. Разработка последовательности команд для кодирования графического объекта. Основные команды; двоичное кодирование графической информации, растровый и векторный варианты.

    презентация [128,5 K], добавлен 05.01.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.