Распознание текста с изображения с помощью Tesseract-OCR

Особенность обнаружения символов и распознания текста с изображения при помощи Tesseract-OCR. Характеристика создания и работы Tesseract. Взаимодействие Tesseract-OCR с языком программирования Python. Анализ последовательности оптического распознавания.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 14.09.2024
Размер файла 166,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Распознание текста с изображения с помощью tesseract-OCR

Куроченко Т.М.

Аннотация

В статье были рассмотрены вопросы обнаружения символов и распознания текста с изображения при помощи Tesseract-OCR. Определение, что такое Tesseract. История: когда был создан Tesseract, как работает и почему эта программа актуальна до сих пор. А также, каким образом Tesseract-OCR взаимодействует с языком программирования Python.

Ключевые слова: распознания, символов, текст, обработка, обнаружение, Tesseract, OVR, качество, изображение, алгоритм, Google, Python, PyTesseract, OpenCV.

Annotation

The article dealt with the issues of character detection and text recognition from an image using Tesseract-OCR. Definition of what is Tesseract. History: when Tesseract was created, how it works and why this program is still relevant today. And also how Tesseract-OCR interacts with the Python programming language.

Keywords: recognition, characters, text, processing, detection, Tesseract, OVR, quality, image, algorithm, Google, Python, PyTesseract, OpenCV.

Оптическое распознавание символов (англ. optical character recognition, OCR) -- механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе (Рисунок 1)). Распознавание широко применяется для преобразования книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание символов позволяет редактировать текст, осуществлять поиск слов или фраз, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения.

Рисунок 1. Процесс передачи данных с бумажного носителя в компьютер.

Системы оптического распознавания текста требуют калибровки для работы с конкретным шрифтом; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты [1]. символ распознание текст оптический

Tesseract - это программа, созданная для распознавания текста с изображений. С середины 1980-х до середины 1990-х годов было разработано ядро программы, компанией Hewlett-Packard (HP) [2], которая занимается информационными технологиями. Но разработка так и не была доведена до конца и проект заморозили на долгое время. И только в августе 2006 года программу выкупила компания Google, чтобы продолжить ее развивать, так как в Tesseract видели потенциал. На данный момент, программа работает с UTF-8 и поддерживает множество языков, включая в себя и пакеты, позволяющие распознавать символы и математические формулы [3].

Ранее оцифровка документов осуществлялась путем ручного набора текста на компьютере. Благодаря OCR этот процесс упрощается, поскольку документ можно сканировать, обрабатывать, а текст извлекать и сохранять в редактируемой форме, например в текстовом документе.

OCR (Optical Character Recognition - Оптическое Распознавание Символов) - это технология, которая обнаруживает и извлекает печатный или рукописный текст из двумерного изображения и преобразует его в текстовые данные.

Таким образом, Tesseract -- это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой.

OCR использует нейронные сети для поиска и распознавания текста на изображениях.

Работу OCR можно представить в виде структурной схемы, показанной на Рисунке 2.

Рисунок 2. Схема работы Tesseract-OCR.

Tesseract ищет шаблоны в пикселях, буквах, словах и предложениях, использует двухэтапный подход, называемый адаптивным распознаванием. Требуется один проход по данным для распознавания символов, затем второй проход, чтобы заполнить любые буквы, в которых он не был уверен, буквами, которые, скорее всего, соответствуют данному слову или контексту предложения[4].

Оптическое распознавание, как правило, состоит из последовательности определенных действий, которые необходимо выполнить, чтобы считывание с изображения было более точным:

Предварительная обработка изображения;

Обнаружение и локализация текста;

Сегментация символов;

Распознавание объектов;

Постобработка.

Перечисленные выше действия, в ряде случаев, могут дополняться другими, но именно эти являются базовыми и, как правило используются для автоматизирования распознания символов[5].

Tesseract-OCR может взаимодействовать со многими языками программирования. В число таких языков входит Python (Рисунок 2.).

Python, являющийся отличным языком общего назначения и языком высокого уровня, может использоваться для создания графических приложений, веб-приложений и веб-фреймворков.

Python -- это язык программирования с открытым исходным кодом, который доступен всем. Он также поддерживается растущей экосистемой пакетов и библиотек с открытым исходным кодом. Любой, кто заинтересован в работе с Python, может скачать и установить его бесплатно с официального сайта[6].

PyTesseract - это инструмент OCR, для Python, который создан для вызова Tesseract и работы с ним. Так же, подключается библиотека OpenCV, которая взаимодействует с Tesseract-OCR, помогают улучшить качество изображение, убрать шумы и т.д.

Рисунок 3. Python, как способ распознания символов с изображения.

Список литературы

1. Оптическое распознавание символов: материал из Википедии.

2. Обзор Tesseract-OCR: материал из Nevmenandr.

3. Tesseract: материал из Википедии.

4. Распознавание текста с помощью OCR: материал из Харб.

5. How to OCR with Tesseract, OpenCV and Python: материал из Nanonets.

6. What Is Python Programming language: материал из edureka.

Размещено на Allbest.ru

...

Подобные документы

  • Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.

    презентация [469,2 K], добавлен 15.03.2015

  • Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.

    презентация [855,2 K], добавлен 20.12.2011

  • Представление о системе оптического распознавания ABBYY FineReader и настройках BIOS. Виды систем управления вводом информации. Современные и перспективные носители энергии, особенности биоэнергетики. Преимущества и недостатки Li-Ion-аккумуляторов.

    контрольная работа [274,1 K], добавлен 10.06.2010

  • Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.

    курсовая работа [2,1 M], добавлен 20.09.2014

  • Форматирование текста с помощью HTML. Задание цвета на веб-странице. Задание размера шрифта. Физическое и логическое форматирование символов. Вставка специальных символов. Удобочитаемость, содержание и форма шрифта. Подбор шрифта и верстка текста.

    курсовая работа [1,3 M], добавлен 01.10.2014

  • Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.

    контрольная работа [15,6 K], добавлен 29.04.2011

  • Программное обеспечение Python и ее основные характеристики, как программной среды. Общие сведения о языке программирования Python. Особенности применения ППП Python (x,y) с использованием его различных вычислительных модулей в учебном процессе.

    дипломная работа [2,9 M], добавлен 07.04.2019

  • Программная реализация статической нейронной сети Хемминга, распознающей символы текста. Описание реализации алгоритма. Реализация и обучение сети, входные символы. Локализация и масштабирование изображения, его искажение. Алгоритм распознавания текста.

    контрольная работа [102,3 K], добавлен 29.06.2010

  • Разработка программы, аналога Paint системы Windows, с функциями открытия изображения в графическом редакторе и его сохранения, написания текста в любом указанном мышкой месте, изменения шрифта, размера и цвета текста на языке программирования Delphi.

    курсовая работа [278,5 K], добавлен 06.04.2014

  • Рассмотрение основ создания калькулятора на объектно–ориентированном языке программирования Java, который будет подсчитывать длину текста. Математическая модель и алгоритм работы программы. Описание файлов готовой программы расчета символов в тексте.

    курсовая работа [276,5 K], добавлен 28.11.2014

  • Классификация сканеров по способу формирования изображения. Ручные, настольные, комбинированные сканеры. Принцип действия планшетного сканера. Сенсорные технологии в сканерах: CCD, CIS. Программа Abbyy FineReader как пример системы распознавания символов.

    контрольная работа [10,1 K], добавлен 08.11.2010

  • Получение изображения объекта с помощью оптико-электронных систем, построенных на основе ПЗС-приемника. Методы обработки первичной измерительной информации. Реализация алгоритма обработки графической информации с помощью языка программирования Python.

    лабораторная работа [1,1 M], добавлен 30.05.2023

  • Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.

    курсовая работа [1,7 M], добавлен 12.06.2016

  • Обзор математических методов распознавания. Общая архитектура программы преобразования автомобильного номерного знака. Детальное описание алгоритмов: бинаризация изображения, удаление обрамления, сегментация символов и распознавание шаблонным методом.

    курсовая работа [4,8 M], добавлен 22.06.2011

  • Характеристика методов изображения графических элементов. Особенности вычерчивания прямой линии, прямоугольника, окружности, дуги. Порядок вывода текста на канву. Текст программы для построения электрической схемы на языке программирования C++Builder.

    контрольная работа [1,7 M], добавлен 25.10.2012

  • Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.

    дипломная работа [6,3 M], добавлен 17.06.2012

  • Специфические особенности распознавания лиц. Взаимодействие компьютер - человек. Создание новой нейросистемы, разработанной в программе разработчиков Borland Delphi, которая будет состоять из поля захвата изображения и дальнейшим обучением нейросети.

    презентация [212,5 K], добавлен 14.08.2013

  • Информация о графических форматах. Хранение изображения в программе. Очередь как вспомогательная структура данных. Загрузка изображения из двоичного файла. Операции с изображением. Уменьшение разрешающей способности. Увеличение размера изображения.

    курсовая работа [1,1 M], добавлен 29.06.2013

  • Отличительные особенности языка программирования Python: низкий порог вхождения, минималистичный язык, краткий код, поддержка математических вычислений, большое количество развитых web-фреймворков. Традиционная модель выполнения программ на языке Python.

    реферат [51,9 K], добавлен 18.01.2015

  • Описание этапов создания анимированного GIF изображения мультипликационного героя "Винни-Пуха" в программе Adobe Photoshop CS6. Создание дубликата слоя изображения и подготовка кадров для GIF анимации. Настройка эффектов анимации и результат GIF-файла.

    лабораторная работа [1,2 M], добавлен 05.03.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.