Распознание текста с изображения с помощью Tesseract-OCR
Особенность обнаружения символов и распознания текста с изображения при помощи Tesseract-OCR. Характеристика создания и работы Tesseract. Взаимодействие Tesseract-OCR с языком программирования Python. Анализ последовательности оптического распознавания.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 14.09.2024 |
Размер файла | 166,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Распознание текста с изображения с помощью tesseract-OCR
Куроченко Т.М.
Аннотация
В статье были рассмотрены вопросы обнаружения символов и распознания текста с изображения при помощи Tesseract-OCR. Определение, что такое Tesseract. История: когда был создан Tesseract, как работает и почему эта программа актуальна до сих пор. А также, каким образом Tesseract-OCR взаимодействует с языком программирования Python.
Ключевые слова: распознания, символов, текст, обработка, обнаружение, Tesseract, OVR, качество, изображение, алгоритм, Google, Python, PyTesseract, OpenCV.
Annotation
The article dealt with the issues of character detection and text recognition from an image using Tesseract-OCR. Definition of what is Tesseract. History: when Tesseract was created, how it works and why this program is still relevant today. And also how Tesseract-OCR interacts with the Python programming language.
Keywords: recognition, characters, text, processing, detection, Tesseract, OVR, quality, image, algorithm, Google, Python, PyTesseract, OpenCV.
Оптическое распознавание символов (англ. optical character recognition, OCR) -- механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе (Рисунок 1)). Распознавание широко применяется для преобразования книг и документов в электронный вид, для автоматизации систем учёта в бизнесе или для публикации текста на веб-странице. Оптическое распознавание символов позволяет редактировать текст, осуществлять поиск слов или фраз, хранить его в более компактной форме, демонстрировать или распечатывать материал, не теряя качества, анализировать информацию, а также применять к тексту электронный перевод, форматирование или преобразование в речь. Оптическое распознавание текста является исследуемой проблемой в областях распознавания образов, искусственного интеллекта и компьютерного зрения.
Рисунок 1. Процесс передачи данных с бумажного носителя в компьютер.
Системы оптического распознавания текста требуют калибровки для работы с конкретным шрифтом; в ранних версиях для программирования было необходимо изображение каждого символа, программа одновременно могла работать только с одним шрифтом. В настоящее время больше всего распространены так называемые «интеллектуальные» системы, с высокой степенью точности распознающие большинство шрифтов. Некоторые системы оптического распознавания текста способны восстанавливать исходное форматирование текста, включая изображения, колонки и другие нетекстовые компоненты [1]. символ распознание текст оптический
Tesseract - это программа, созданная для распознавания текста с изображений. С середины 1980-х до середины 1990-х годов было разработано ядро программы, компанией Hewlett-Packard (HP) [2], которая занимается информационными технологиями. Но разработка так и не была доведена до конца и проект заморозили на долгое время. И только в августе 2006 года программу выкупила компания Google, чтобы продолжить ее развивать, так как в Tesseract видели потенциал. На данный момент, программа работает с UTF-8 и поддерживает множество языков, включая в себя и пакеты, позволяющие распознавать символы и математические формулы [3].
Ранее оцифровка документов осуществлялась путем ручного набора текста на компьютере. Благодаря OCR этот процесс упрощается, поскольку документ можно сканировать, обрабатывать, а текст извлекать и сохранять в редактируемой форме, например в текстовом документе.
OCR (Optical Character Recognition - Оптическое Распознавание Символов) - это технология, которая обнаруживает и извлекает печатный или рукописный текст из двумерного изображения и преобразует его в текстовые данные.
Таким образом, Tesseract -- это движок оптического распознавания символов (OCR) с открытым исходным кодом, является самой популярной и качественной OCR-библиотекой.
OCR использует нейронные сети для поиска и распознавания текста на изображениях.
Работу OCR можно представить в виде структурной схемы, показанной на Рисунке 2.
Рисунок 2. Схема работы Tesseract-OCR.
Tesseract ищет шаблоны в пикселях, буквах, словах и предложениях, использует двухэтапный подход, называемый адаптивным распознаванием. Требуется один проход по данным для распознавания символов, затем второй проход, чтобы заполнить любые буквы, в которых он не был уверен, буквами, которые, скорее всего, соответствуют данному слову или контексту предложения[4].
Оптическое распознавание, как правило, состоит из последовательности определенных действий, которые необходимо выполнить, чтобы считывание с изображения было более точным:
Предварительная обработка изображения;
Обнаружение и локализация текста;
Сегментация символов;
Распознавание объектов;
Постобработка.
Перечисленные выше действия, в ряде случаев, могут дополняться другими, но именно эти являются базовыми и, как правило используются для автоматизирования распознания символов[5].
Tesseract-OCR может взаимодействовать со многими языками программирования. В число таких языков входит Python (Рисунок 2.).
Python, являющийся отличным языком общего назначения и языком высокого уровня, может использоваться для создания графических приложений, веб-приложений и веб-фреймворков.
Python -- это язык программирования с открытым исходным кодом, который доступен всем. Он также поддерживается растущей экосистемой пакетов и библиотек с открытым исходным кодом. Любой, кто заинтересован в работе с Python, может скачать и установить его бесплатно с официального сайта[6].
PyTesseract - это инструмент OCR, для Python, который создан для вызова Tesseract и работы с ним. Так же, подключается библиотека OpenCV, которая взаимодействует с Tesseract-OCR, помогают улучшить качество изображение, убрать шумы и т.д.
Рисунок 3. Python, как способ распознания символов с изображения.
Список литературы
1. Оптическое распознавание символов: материал из Википедии.
2. Обзор Tesseract-OCR: материал из Nevmenandr.
3. Tesseract: материал из Википедии.
4. Распознавание текста с помощью OCR: материал из Харб.
5. How to OCR with Tesseract, OpenCV and Python: материал из Nanonets.
6. What Is Python Programming language: материал из edureka.
Размещено на Allbest.ru
...Подобные документы
Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.
презентация [469,2 K], добавлен 15.03.2015Оптическое распознавание символов как механический или электронный перевод изображений рукописного, машинописного или печатного текста в последовательность кодов. Компьютерные программы для оптического распознавания символов и их характеристика.
презентация [855,2 K], добавлен 20.12.2011Представление о системе оптического распознавания ABBYY FineReader и настройках BIOS. Виды систем управления вводом информации. Современные и перспективные носители энергии, особенности биоэнергетики. Преимущества и недостатки Li-Ion-аккумуляторов.
контрольная работа [274,1 K], добавлен 10.06.2010Методы предобработки изображений текстовых символов. Статистические распределения точек. Интегральные преобразования и структурный анализ. Реализация алгоритма распознавания букв. Анализ алгоритмов оптического распознавания символов. Сравнение с эталоном.
курсовая работа [2,1 M], добавлен 20.09.2014Форматирование текста с помощью HTML. Задание цвета на веб-странице. Задание размера шрифта. Физическое и логическое форматирование символов. Вставка специальных символов. Удобочитаемость, содержание и форма шрифта. Подбор шрифта и верстка текста.
курсовая работа [1,3 M], добавлен 01.10.2014Как работает система оптического распознавания. Деление текста на символы. Образ страницы и распознавание по шаблонам, особенности коррекции ошибок. Увеличение скорости бесклавиатурного ввода документов в технологиях электронного документооборота.
контрольная работа [15,6 K], добавлен 29.04.2011Программное обеспечение Python и ее основные характеристики, как программной среды. Общие сведения о языке программирования Python. Особенности применения ППП Python (x,y) с использованием его различных вычислительных модулей в учебном процессе.
дипломная работа [2,9 M], добавлен 07.04.2019Программная реализация статической нейронной сети Хемминга, распознающей символы текста. Описание реализации алгоритма. Реализация и обучение сети, входные символы. Локализация и масштабирование изображения, его искажение. Алгоритм распознавания текста.
контрольная работа [102,3 K], добавлен 29.06.2010Разработка программы, аналога Paint системы Windows, с функциями открытия изображения в графическом редакторе и его сохранения, написания текста в любом указанном мышкой месте, изменения шрифта, размера и цвета текста на языке программирования Delphi.
курсовая работа [278,5 K], добавлен 06.04.2014Рассмотрение основ создания калькулятора на объектно–ориентированном языке программирования Java, который будет подсчитывать длину текста. Математическая модель и алгоритм работы программы. Описание файлов готовой программы расчета символов в тексте.
курсовая работа [276,5 K], добавлен 28.11.2014Классификация сканеров по способу формирования изображения. Ручные, настольные, комбинированные сканеры. Принцип действия планшетного сканера. Сенсорные технологии в сканерах: CCD, CIS. Программа Abbyy FineReader как пример системы распознавания символов.
контрольная работа [10,1 K], добавлен 08.11.2010Получение изображения объекта с помощью оптико-электронных систем, построенных на основе ПЗС-приемника. Методы обработки первичной измерительной информации. Реализация алгоритма обработки графической информации с помощью языка программирования Python.
лабораторная работа [1,1 M], добавлен 30.05.2023Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.
курсовая работа [1,7 M], добавлен 12.06.2016Обзор математических методов распознавания. Общая архитектура программы преобразования автомобильного номерного знака. Детальное описание алгоритмов: бинаризация изображения, удаление обрамления, сегментация символов и распознавание шаблонным методом.
курсовая работа [4,8 M], добавлен 22.06.2011Характеристика методов изображения графических элементов. Особенности вычерчивания прямой линии, прямоугольника, окружности, дуги. Порядок вывода текста на канву. Текст программы для построения электрической схемы на языке программирования C++Builder.
контрольная работа [1,7 M], добавлен 25.10.2012Разработка приложения, целью которого ставится преобразование черно-белых полутоновых изображений в цветные. Обзор методики обработки изображения, способов преобразования изображения с помощью нейронной сети. Описания кластеризации цветового пространства.
дипломная работа [6,3 M], добавлен 17.06.2012Специфические особенности распознавания лиц. Взаимодействие компьютер - человек. Создание новой нейросистемы, разработанной в программе разработчиков Borland Delphi, которая будет состоять из поля захвата изображения и дальнейшим обучением нейросети.
презентация [212,5 K], добавлен 14.08.2013Информация о графических форматах. Хранение изображения в программе. Очередь как вспомогательная структура данных. Загрузка изображения из двоичного файла. Операции с изображением. Уменьшение разрешающей способности. Увеличение размера изображения.
курсовая работа [1,1 M], добавлен 29.06.2013Отличительные особенности языка программирования Python: низкий порог вхождения, минималистичный язык, краткий код, поддержка математических вычислений, большое количество развитых web-фреймворков. Традиционная модель выполнения программ на языке Python.
реферат [51,9 K], добавлен 18.01.2015Описание этапов создания анимированного GIF изображения мультипликационного героя "Винни-Пуха" в программе Adobe Photoshop CS6. Создание дубликата слоя изображения и подготовка кадров для GIF анимации. Настройка эффектов анимации и результат GIF-файла.
лабораторная работа [1,2 M], добавлен 05.03.2015