Алгоритм извлечения текста из видео с использованием библиотеки компьютерного зрения OpenCV
Обоснование потребности в разработке новых эффективных методов быстрого извлечения и индексирования текстовой информации из видеопотоков. Разработка алгоритма, способного выполнять быструю локализацию и распознавание графического текста на видео.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 30.07.2020 |
Размер файла | 1,5 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
АЛГОРИТМ ИЗВЛЕЧЕНИЯ ТЕКСТА ИЗ ВИДЕО С ИСПОЛЬЗОВАНИЕМ БИБЛИОТЕКИ КОМПЬЮТЕРНОГО ЗРЕНИЯ OPENCV
Нанавова Татьяна Анатольевна
Магистрантка кафедры «Информационные технологии»
Донского государственного технического университета
Аннотация
видео извлечение тект алгоритм
В настоящее время возникает потребность в разработке новых эффективных методов быстрого извлечения и индексирования текстовой информации из видеопотоков.
Задаче распознавания текста посвящено много научных работ, однако они сконцентрированы на распознавании документов, содержащих чёрный текст на белом фоне, и не решают задачу локализации текста в полном объёме.
Данная работа посвящена разработке алгоритма, способного выполнять быструю локализацию и распознавание графического текста на видео. Задача данной работы состоит в разработке и реализации алгоритма начальной пространственной (”spatial”) локализации текста на кадре, разработке и реализации алгоритма временной (“temporal”) локализации текста на наборе кадров, применяя библиотеку компьютерного зрения OpenCV.
Ключевые слова: обнаружение и локализация текста на видео, распознавание символов, машинное обучение, компьютерное зрение, пространственная локализация, временная локализация, OpenCV.
Annotation
There is a need to develop new effective methods for rapid retrieval and indexing textual information from video streams.
The task of character recognition is a subject of many scientific papers, but they are focused on the recognition of documents containing black text on a white background, and do not solve the problem of localization of the text in full.
This work is devoted to the development of the algorithm that is capable of rapid detection and localization of graphic text in the video. The objective of this work consists in the development and implementation of the algorithm the initial spatial localization of text in the frame, the development and implementation of the temporal algorithm localization of the text in the several frames, using OpenCV computer vision library.
Keywords: text detection and text localization on video frames, character recognition, machine learning, computer vision, spatial localization, temporal localization, OpenCV.
Введение
В современном мире, в связи со стремительным развитием цифровых мультимедиа технологий и ростом их объемов, возникает необходимость в своевременном извлечении и индексировании информации, содержащейся на изображениях сложных графических сцен (как правило, видеороликах), с целью использования этой информации в различных областях человеческой деятельности. Наибольший интерес могут представлять различного рода описания на телевизионных программах (например, футбольные матчи, из которых можно извлекать информацию о списках команд, счете и т.д.) и встроенные в видео субтитры.
Текст на видео можно логически классифицировать на две категории: графический текст, который непосредственно наносится при видеообработке или монтаже и сценический текст (от англ. “scene text”), который содержится на предметах, захваченных на видео. Примером сценического текста могут служить, например, дорожные знаки, различные рекламные стенды, тексты на машинах и фургонах, надписи на одежде людей и т.д. Как правило, сценический текст появляется на видео случайно и его распознавание служит лишь для целей навигации, наблюдения и отслеживания конкретного объекта в пространстве, нежели индексации и извлечения информации. Примерами же графического текста могут служить различные заголовки, субтитры, время и отметка расположения, имена людей и спортивные результаты. Иными словами, можно сказать, что сценический текст - это естественный текст на видео (то, что непосредственно содержится на видео), а графический текст - это искусственный текст (тот, который наносится на видео для каких-либо целей), при распознавании которого можно извлечь определенную информацию. Расположение графического текста зачастую можно предугадать (например, при просмотре телевизионного интервью с человеком, имя и должность которого, как правило, появляется в нижней части экрана), а сам текст имеет простой стиль и ориентирован на прочтение человеком. На рисунках 1 и 2 соответственно представлены примеры графического и сценического текста на видео.
Рисунок 1 Пример графического текста на видеоролике футбольного матча
Рисунок 2 Пример сценического текста на видеоролике: различные вывески и надписи
Многие работы в компьютерном зрении в области детектирования текста ориентированы на распознавание и локализацию обоих видов текста на видео [1], что оказывается значительно сложнее, чем детектирование лишь графического текста. Основные сложности вызваны распознаванием именно сценического текста, поскольку здесь возникает ряд очень важных проблем: естественный текст на видео может быть наклоненным, частичным (например, когда другой объект перекрывает часть слова), расплывчатым, плохо освещенным и т.д. Все это выливается в низкую скорость работы имеющихся решений (около 1 кадра в секунду).
Обычно, извлечение текста из видео включает в себя локализацию (или детекцию), сегментацию и распознавание символов (от англ. “character recognition”). Задачей локализации является непосредственное определение наличия текстовых областей на кадре видеоролика и отметка на нем соответствующих регионов; сегментация служит для определения лишь текстовых пикселей из обнаруженных регионов и составления бинарного изображения для дальнейшего оптического распознавания символов.
Работы известных ученых в области компьютерного зрения Б. Эпштейна, В. Йонатана [2] и Ч. С. Жуна [3] показывают, что сдетектированный и локализованный регион текста с изображения может быть распознан с помощью “оптического распознавания символов” (англ. optical character recognition, OCR) с большей точностью. Причиной этого является тот факт, что локализованный регион текста менее сложен по текстурному признаку по сравнению со всем изображением и символы могут быть легко распознаны. Таким образом, здесь локализация текста ускоряет затратный процесс OCR.
Большинство работ по данной теме базируются лишь на так называемом пространственном (англ. “spatial”) анализе, когда локализация текста происходит для всех кадров независимо, что может оказаться не совсем эффективным. Более того, авторы многих методов изначально не имеют перед собой цели достичь приемлемых результатов в части скорости работы. Также хочется отметить, что почти во всех работах наборами тестовых данных (набор данных, который используется при экспериментах для проверки гипотез) являлись видео низких разрешений, что в нынешнее время бурного развития мультимедиа технологий не отражает реальной вычислительной эффективности предложенных алгоритмов. К тому же, авторы алгоритмов зачастую не предоставляли свои наработки для публичного использования, поскольку их работы носили не только исследовательский, но и закрытый, прикладной характер.
Постановка задачи
Цель работы: разработать алгоритм, способный выполнять быструю локализацию и распознавание графического текста на видео, и дальнейшее тестирование этого алгоритма.
При этом допускаются следующие ограничения на детектируемый текст:
1) Он должен быть ”машинно-написанным”, т.е. обладать высокой насыщенностью шрифта (и выраженным соединительным штрихом [4] или горизонтальным элементом [5]). Для большинства графического текста на видео это так.
2) Он должен достаточное время быть зафиксированным на кадре, чтобы человек имел возможность его прочитать. Выбрано минимальное время, в течение которого текст должен оставаться статичным, равное 0.6 сек. Поэтому различные переходы текста (англ. “text transitions”) локализованы не будут, а локализуется лишь уже стабилизированный текст.
3)Рассматривается только горизонтальный текст, так как он, как пишет Л. Райнер в [6], составляет более 99 процентов всего графического текста на видео, а рассмотрение и вертикального текста существенно ухудшает правильность локализации.
Цель, поставленная в работе, предполагает решение следующих задач:
1. Разработка и реализация алгоритма начальной пространственной (”spatial”) локализации текста на кадре.
2. Разработка и реализация алгоритма временной (“temporal”) локализации текста на наборе кадров.
3. Разработка и реализация алгоритма уточненной локализации текста на наборе кадров, где он оставался статичным.
4. Тестирование полученного алгоритма и отдельных его составляющих
Обзор известных решений
В настоящее время существует множество методов для решения поставленных задач. Их можно классифицировать на 3 основные категории, основываясь на особенностях, которые они используют.
Среди методов так называемой группы градиентов, границ и уголков можно выделить подход Л. Райнер, который предложил “интегрировать результаты, полученные с помощью многослойной нейронной сети с прямой связью, через которую пропускаются градиенты изображения разных масштабов, в единую карту признаков” [6].
Д. Чен предложил методы машинного обучения (SVM и MLP), который используют контрастно-независимые признаки, и двухэтапную модель локализации и верификации регионов [7].
С. Ш. Хуа Сян использовал детектор SUSAN, чтобы найти уголки и затем идентифицировать регионы с текстом [8]. Методы границ и уголков просты в реализации, но, как правило, испытывают большие трудности в случаях со сложным фоном. Также эти методы требуют подбора пороговых значений, что может оказаться недостаточным для всего разнообразия видео.
Еще один подход базируется на классификации так называемых структур (англ. “texture-based”). Эти методы основаны на предположении, что текст на изображении проявляет некие структурные особенности, благодаря чему можно легко отличить его от фона. Эта категория методов пытается решить проблему ложных срабатываний (англ. “False alarm”) и сложных фонов. Данный подход использует машинное обучение и менее зависим от эвристик. Обычно, чтобы извлечь структурные данные текста на изображении используются фильтр Габора, вейвлеты, быстрое преобразование Фурье и т.д.. Например, Л. Доерманн и О. Киа предложили использовать в качестве особых точек интереса (англ. “the features”) моменты вторых и третьих порядков в пространстве вейвлетов Хаара и нейронную сеть как классификатор [9].
А. Джейн предложил “использовать фильтр Габора в качестве особенностей”, поскольку преобразование Фурье дает лишь глобальную оценку частот на изображении, тогда как фильтр Габора “локализует” частоту на изображении [10]. Как правило, методы, основывающиеся на структурах, используют дорогостоящие особенности изображения (число таких необходимых особенностей велико), а также они чувствительны к типу шрифта, его размеру и похожим на текст особенностям фона.
Среди методов так называемых связанных компонент можно выделить подход Р. Джианга, при котором изображение сначала разбивается на компоненты связанности, используя кластеризацию по цвету [11]. Чтобы отделить текст от фона используется двухуровневая модель классификации, в которой все компоненты связанности по цвету проходят каскадный классификатор и оставшиеся после этого компоненты классифицируются SVM. Во всех методах, основанных на анализе цвета, используется кластеризация. Следовательно, метод связанных компонент хорош, как правило, для локализации однородного текста.
Все вышеперечисленные методы выполняют пространственный (“spatial”) анализ расположения текста на видео, определяя координаты текстовых блоков в рамках декартовой системы координат. Для графического текста на видео можно рассматривать также временные рамки, в пределах которых текстовые области на видео остаются статичными. Это разумно по двум причинам. Во-первых, если, например, рассматривать одночасовое видео с количеством кадров в секунду, равным 30, то придется выполнить обработку 108000 изображений, что является вычислительно дорогим процессом. Намного разумнее трудоемкие операции проводить уже не над каждым кадром, а лишь один раз для всех кадров, где текст остается статичным. Во-вторых, корреляция текста между кадрами позволяет более точно проводить работу на этапе локализации и сегментации текста, работа будет производиться с информацией, имеющейся сразу на нескольких кадрах.
Х. Ли предложил свой способ локализации и сегментации, который учитывает приведенные выше соображения [12]. Однако временная локализация там производится лишь основываясь на результатах уголкового детектора, что на практике не всегда дает точные результаты. Метод Х. Ли и В. Ванг основывается на предустановленном для каждого конкретного набора тестовых данных ожидаемом параметре шрифта [13]. Однако данный алгоритм несколько неэффективно работает на видео больших разрешений и проводит слишком “грубую” локализацию.
Разработка алгоритма. При разработке алгоритма за основу был взят подход, предложенный Х. Ли и В. Ванг [13]. По сравнению с их работой, данный алгоритм не потребует предварительного задания параметров для каждого отдельного набора тестовых данных. Предложенный ими метод был оптимизирован в части скорости на этапе детекции границ текста (нестатичные контуры текста отфильтровываются еще до вычислительно затратного этапа работы с подконтурами), предложена оптимизация применения детектора уголков Харриса для рассматриваемого случая, добавлен способ динамического определения размеров окна для поиска однонаправленных подконтуров(размеры окна устанавливались исходя из конкретного набора данных вручную), скорректирован способ определения временных границ расположения текста на видео, а также выбран более точный метод для построения границ строк с текстом (“bounding boxes”), базирующийся на основе проекционных данных. Важно отметить, что ключевым моментом, определяющими хорошую скорость алгоритма, является то, что шаг по локализации текста и, по необходимости, дальнейшая сегментация, осуществляется не на уровне конкретного кадра, а на уровне набора кадров, где текст остается статичным в течение определенного времени (как минимум 0,6 секунд). Также рассматривается всего 3 кадра в секунду, что намного снижает трудоемкость процесса и позволяет приблизить алгоритм по скорости к так называемому режиму реального времени (“real time”). Кроме того, оба детектора, используемые в алгоритме (Харриса и Канни), основаны на градиентах изображения, которые вычисляются всего один раз. Также предложена оптимизация применения детектора уголков Харриса.
Для реализации алгоритма был выбран язык C++ и библиотека OpenCV.
OpenCV (англ. Open Source Computer Vision Library) -- библиотека алгоритмов компьютерного зрения, обработки изображений и численных алгоритмов общего назначения с открытым кодом. Может свободно использоваться в академических и коммерческих целях [14].
Выбор связки C++ и OpenCV объясняется необходимостью в достаточной гибкости по работе с памятью, максимально эффективной работе отдельных частей алгоритма и наличием некоторых готовых оптимизированных решений.
На рисунке 3 проиллюстрирован подход, использованный в работе. Для каждого кадра, взятого с частотой 3 кадра в секунду, проводится “умная” детекция краев, после которой остаются контуры, которые, вероятнее всего, являются текстовыми. Затем проводится так называемая “грубая” локализацию на основе краев и уголков, получая информацию для каждого кадра, в каких регионах видео присутствует текст. Далее проводится временная локализация, позволяющая определить, в каких временных рамках текст остается статичным на видео (далее по тексту будем называть эти промежутки времени “клипом”). После этого происходит интеграция всей полученной информации, содержащейся на каждом кадре клипа, чтобы провести более точную пространственную локализацию на основе проекционных данных.
Рисунок 3 Модель разрабатываемого алгоритма работы информационной системы
Начальная пространственная локализация текста на кадре. Для того, чтобы многократно выиграть в скорости и использовать корреляцию фона на соседних кадрах, разумно рассматривать лишь 3 кадра в секунду (ведь частота изменения графического текста не так уж и велика). Разбиение на кадры производится равномерно по времени, т.е. новый кадр поступает на вход каждые 0.33 секунды. Далее, применяется фильтр Гаусса, чтобы избавиться от мелких шумов. Ядро фильтра выбрано независимо от размера видео -- (3 * 3). Применение линейного фильтра относительно быстрая операция. Затем, изображение переводится в оттенки серого (англ. “grayscale”) по формуле яркости, используемой в YUV: y = 0,587 * green + 0,299 * red + 0,114 * blue. Это позволит работать не с тремя каналами по отдельности, а только с одним. После применяется детектор границ Канни [15], который базируется на градиентах, вычисляемых оператором Собеля всего раз в ходе алгоритма. Оператор Собеля (1) применяется с ядром размера 3 в вертикальном и горизонтальных направлениях ко всему изображению.
Эти оценки производных в двух направлениях будут использоваться и в дальнейшем, так что они заранее вычисляются перед применением детектора Канни. Также заранее вычисляется модуль производной и направление градиента (2). Детектор Канни уточняет ранее вычисленные оператором Собеля границы. При этом, во-первых, применяется принцип подавления немаксимумов (рассматриваются соседи каждого пикселя и остаются лишь ”сильнейшие” граничные пиксели), дабы получить один отклик на границу. Это пригодится на дальнейших этапах. Во-вторых, применяется двухпороговая фильтрация (все пиксели, не превосходящие нижний порог отфильтровываются, превосходящие верхний -- называются ”сильными”, а остальные проверяются на связанность с сильными). Оба вышеназванных свойства детектора играют большую роль в дальнейшем. Пороговые значения для детектора выбраны таким образом, чтобы не потерять возможные границы текста даже при низкой его контрастности.
Время работы алгоритма напрямую зависит от количества граничных пикселей, например, 25000 граничных пикселей (с фрейма 1280*720) на машине Intel Core i5 при данных пороговых значениях алгоритм детектирует за 0.03 секунды.
Следующим шагом является получение контуров на основе двоичной карты (единицами отмечены граничные пиксели: E (x,y) = 1), полученной на предыдущем этапе с помощью детектора Канни. Для поиска контуров границ выбран алгоритм, предложенный С. Сатоши [16], который в итоге дает маршрут (в том смысле, что все его соседние точки являются 8-связными и в ходе обхода маршрута посещаются все точки границы). Данный алгоритм работает вполне эффективно даже при большом числе искомых контуров. Например, на набор из 200 контуров в среднем уходит 0.005 секунды.
Далее, применяется фильтр по всем контурам, целью которого является отсечение нестатических контуров, которые на видео присутствуют менее, чем 0.6 секунды, что соответствует поставленной задаче. Этот фильтр учитывает не только положение контура, но и направление градиента. Это значительно ускоряет метод, предложенный Х. Ли и В. Ванг [13] ввиду того, что дальнейшая работа с подконтурами (которых очень большое число) контуров уменьшится в несколько раз. Происходит округление направления градиента Ц (x,y) в одном из четырех направлений (отсчет углов начинается с направления 0Y по часовой стрелке). Например, направление 1 (север-юг) задается следующим образом:
4 основных направления Цi (i = 1..4) проиллюстрированы на рисунке 4:
Рисунок 4 Основные направления градиента
Далее, через обозначим для кадра t, аналогично
Удалим из набора , такие что
Затем применяется простой фильтр, целью которого является отсечение заведомо не соответствующих тексту по масштабу контуров (например, высота которых составляет более одной восьмой всего кадра). Константы задаются в зависимости от размера фрейма.
Следующий этап представляет собой “умный” фильтр контуров, который основывается на свойствах, соответствующих границам субтитров. В частности, для контура текста, каждая линия, оставляющая контур, содержит параллельную ей в некоторой окрестности. Таким образом, сначала происходить разбиение контура на 8-связные подконтуры, градиент каждой точки которых лежит в одном и том же диапазоне (как на рисунке 4) для всего подконтура (всего 4 основных направления). На рисунке 5 показано, как контур стал разбит на однонаправленные подконтуры.
Рисунок 5 Подконтуры контура
Далее, создаем окно для каждого из подконтура (причем пропорции окон для различных направлений подконтуров различны). Размер окна зависит от самого контура:
Здесь maxStrokeSize задается исходя из размеров фрейма. Величина basedOnStroke оценивает ширину горизонтального штриха контура, чтобы размеры окна была пропорциональны этому штриху. Величина basedOnHeight ограничивает размер окна исходя из высоты контура.
В отличие от алгоритма Х. Ли и В. Ванг [13], где размер окна задается для каждого набора данных вручную, в данном алгоритме он задается на основе свойств самого изначального контура.
Временная локализация текста на наборе кадров. Временная локализация устанавливает временные границы видео, в пределах которых текст остается статичным. Точность на данном этапе напрямую зависит от точности на предыдущем, так здесь будет использоваться полученная ранее информация о распределении контуров. Основная проблема заключается в том, что алгоритм должен допускать небольшие искажения контуров на тех кадрах, где текст остается статичным (например из-за смены яркости фона), но при этом реагировать на появление новых текстовых блоков, ведь иначе текст будет неправильно локализован на всех наборах кадров, где текст остается статичным.
Для достижения поставленной цели был выбран следующий подход. Происходит сравнение кадра с последним кадром последнего имеющегося ”клипа”. Если результат сравнения удовлетворяет определенному критерию, происходит добавление кадра в ”клип”, иначе создается новый ”клип” с этим кадром в начале. Блок отмечается, как изменившийся, если:
Тогда условием того, что фрейм не входит в прошлый ”клип” будет следующим:
Аналогично делаем симметричные проверки, меняя местами t и t -- 1 в формулах 5 и 6. Если условие в одну из сторон не выполняется -- кадр не входит в предыдущий ”клип” и образует новый.
Уточненная локализация текста на наборе кадров. На предыдущем этапе были получены временные границы, в которых текст оставался статичным. Для всех накопленных в буфере кадров, где текст оставался статичным, обобщается информация о текстовых контурах путем применения порога относительно количества кадров, на которых данный пиксель являлся граничным текстовым. Если число таких кадров больше порога (7), данный пиксель будет считаться текстовым на результирующем изображении (далее по тексту -- текстовый пиксель).
Аналогичная процедура проделывается с текстовыми блоками: преодолевшие порог блоки (8) также будут присутствовать на результирующем изображении (далее -- текстовые блоки).
В отличие от алгоритма Х. Ли и В. Ванг [13] здесь предлагается более точный способ локализации текста, основанный на проекционных данных ранее найденных текстовых пикселей.
Тестирование алгоритма и отдельных его составляющих. Для того, чтобы при тестировании соблюсти ограничения, накладываемые на текст исходя из задачи, вся выборка видео должна быть вручную размечена. Также стоит отметить, что тестирование проходит как по временным границам расположения текста на видео (так как этот этап влияет на все последующие), так и по пространственным. Кроме того, должна быть измерена вычислительная производительность локализации.
Начальное тестирование алгоритма проводилось на четырех видео в разрешении 1280х720 пикселей, чтобы лучше протестировать вычислительную эффективность метода, два из которых (1-е и 4-е) являются отрывками из фильмов с наложенными субтитрами, пояснительными надписями и титрами, а два (2-е и 3-е) -- новостные ролики с двух разных каналов. Вся разметка видео была сделано вручную, что, конечно, очень трудоемко. Результаты эксперимента приведены на рисунке 6, где указаны следующие величины для пространственной и временной локализации:
Рисунок 6 Результаты, полученные при использовании 4-х видеороликов
Можно заметить, что данный алгоритм порождает больше ложных срабатываний, однако чуть реже ”пропускает” истинно текстовые блоки. Это связано с динамическим определением размера окна поиска на этапе фильтрации контура. Размеры окна поиска для некоторых, похожих на текстовые, контуров слишком велики, что препятствует их фильтрации.
Заключение
В ходе работы были выполнены следующие задачи:
· проведен анализ известных решений в области локализации текста на основании изученной научной литературы;
· были разработаны и реализованы на языке C++ с использованием библиотеки компьютерного зрения OpenCV алгоритмы временной и пространственной локализации текста;
· алгоритм был протестирован на собственных наборах тестовых данных с высоким разрешением видео.
Помимо локализации текста, данный алгоритм дает возможность для дальнейшей более точной сегментации текста на видео, ведь в результате работы помимо точных пространственных границ текста, можно получить временные рамки появления текста, что в несколько раз может повысить точность сегментации путем использования корреляции текста на тех кадрах, где он остается статичным.
Данное решение обладает неплохой скоростью работы, что позволяет использовать его даже на видео высоких разрешений. Все это еще раз демонстрирует, что использование пространственно-временного анализа является основополагающим принципом достижения хорошей вычислительной эффективности для локализации графического текста на видео.
Список литературы
1. J. X. Palaiahnakote, S. Tong Lu-Trung Quy Phan-Chew Lim Tan. Graphics and Scene Text Classification in Video. Pattern Recognition (ICPR), 2014 22nd International Conference. 2014. IEEE Xplore Digital Library: http://goo.gl/SS6uNs.
2. Boris Epshtein Eyal Ofek, Wexler Yonatan. Detecting text in natural scenes with stroke width transform. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2010. 2010. IEEE Xplore Digital Library: http://goo.gl/IK4EeK.
3. Chen Xiangrong, Yuille Alan L. Detecting and reading text in natural scenes. 2004. Vol. 2 of IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. IEEE Xplore Digital Library: http://goo.gl/0QCkPv.
4. paratype.ru. Соединительный штрих (Hairline). URL: http://www.paratype.ru/help/term/terms.asp?code=155 (дата обращения: 21.12.2015).
5. paratype.ru. Горизонталь, Горизонтальный элемент (Arm). http://www.paratype.ru/help/term/terms.asp?code=20 (дата обращения: 21.12.2015).
6. Lienhart Rainer, Wernicke Axel. Localizing and Segmenting Text in Images and Videos. 2002. Vol. 12 (Issue 4) of EEE transactions on circuits and systems for video technology, 2002. IEEE Xplore Digital Library: http://goo.gl/bTxmnZ.
7. Datong Chen Jean-Marc Odobez Jean-Philippe Thiran. A localization/verification scheme for finding text in images and video frames based on contrast independent features and machine learning methods. 2004. Vol. 19 (Issue 3) of Signal Processing: Image Communication, 2004. Idiap Research Institute: http://goo.gl/K8wVEI.
8. Xian-Sheng Hua Xiang-Rong Chert Liu Wenyin Hong-Jiang Zhang. Automatic Location of Text in Video Frames. 1998. Vol. 2 of Pattern Recognition, 1998. Proceedings. Fourteenth International Conference. IEEE Xplore Digital Library: http://goo.gl/Pe9A1V.
9. Li H Doermann D, O Kia. Automatic text detection and tracking in digital video. 2002. Vol. 9 (Issue 1) of Image Processing, IEEE Transactions. IEEE Xplore Digital Library: http://goo.gl/Zo4DvL.
10. Jain A. K., Bhattacharjee S. Text segmentation using Gabor filters for automatic document processing. 1992. Vol. 5 (Issue 3) of Machine Vision and Applications -- Special issue: document image analysis techniques. http://goo.gl/tvOTaC.
11. Renjie Jiang Feihu Qi Li Xu, Wu Guorong. Detecting and segmenting text from natural scenes with 2-stage classification. 2006. Vol. 2 of ISDA '06: Proceedings of the Sixth International Conference on Intelligent Systems Design and Applications. IEEE Xplore Digital Library: http://goo.gl/ZUhHKq.
12. Xiaoqian Liu Weiqiang Wang. Extracting Captions from Videos Using Temporal Feature. 2010. Vol. 14 (Issue 2) of Multimedia, IEEE Transactions on (Volume:14, Issue: 2 ). IEEE Xplore Digital Library: http://goo.gl/4O8LQb.
13. Liu Xiaoqian, Wang Weiqiang. Robustly Extracting Captions in Videos Based on Stroke-Like Edges and Spatio-Temporal Analysis. 2012. Vol. 14 (Issue 2) of Multimedia, IEEE Transactions. IEEE Xplore Digital Library: http://goo.gl/SM3psv.
14. Сайт библиотеки OpenCV. URL: http://opencv.org (дата обращения: 21.12.2015).
15. Canny John. A Computational Approach to Edge Detection. 1986. Vol. PAMI-8 (Issue 6) of Pattern Analysis and Machine Intelligence, IEEE Transactions. IEEE Xplore Digital Library: http://goo.gl/4KfQAc.
16. Suzuki Satoshi. Topological Structural Analysis of Digitized Binary Images by Border Following. 1985. Vol. 30 (Issue 1) of Computer Vision, Graphics, and Image Processing. http://www.sciencedirect.com/science/article/pii/0734189X85900167.
Размещено на Allbest.ru
...Подобные документы
Ознакомление с правилами оформления презентации PowerPoint: выбор сочетания цвета фона и текста, составление содержания работы, проверка правописания. Принципы использования графического оформления, звуков, видео и анимации для улучшения презентации.
презентация [2,2 M], добавлен 28.12.2011Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.
курсовая работа [1,7 M], добавлен 12.06.2016История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.
реферат [371,0 K], добавлен 13.02.2011Создание титров с использованием видео-редактора Sony Vegas Pro 10.0 и графического редактора. Придание способности двигаться и видимости жизни объектам. Анимация в среде 3D Studio Max 2010. Воспроизведение визуализированной последовательности кадров.
курсовая работа [2,0 M], добавлен 17.01.2013Анализ основных аспектов технологии компьютерного зрения, необходимых для выполнения работы. Изучение характеристик библиотеки OpenCV, оценка актуальности работы по распознаванию жестов рук. Поэтапный отчет о работе над программным обеспечением.
курсовая работа [669,9 K], добавлен 20.05.2017Необходимость в системах распознавания символов. Виды сканеров и их характеристики. Оптимальное разрешение при сканировании. Программы распознавания текста. Получение электронного документа. FineReader - система оптического распознавания текстов.
презентация [469,2 K], добавлен 15.03.2015Разработка криптографического алгоритма программы ручного шифра по таблице Виженера. Разработка программы, выполняющей шифрование и расшифрование. Особенности использования в качестве ключа самого открытого текста. Алгоритмы решения "обратных" задач.
курсовая работа [45,0 K], добавлен 13.11.2009Порядок разработки информационной системы "Архив online-видео" для скачивания и добавления файлов, его структура и основные компоненты. Методика регистрации на сайте, просмотра, добавления и скачивания видео. Программирование администрирования сайта.
курсовая работа [1,9 M], добавлен 04.06.2009Форматы и характеристики цифрового видео: частота кадра, экранное разрешение, глубина цвета, качество изображения. Типовый технологический процесс производства видеокомпонентов для мультимедиа продуктов с использованием программы miroVIDEO Capture.
лекция [2,7 M], добавлен 30.04.2009Общая характеристика видео-аудио конференции, основные сферы ее использования, режимы и способы проведения. Характеристика средств групповой обработки информации. Системы передачи данных в сети Интернет. Проведение аудио-видео конференции и криптозащита.
дипломная работа [2,7 M], добавлен 17.07.2013Система помощи водителю на базе регистратора. Установка операционной системы Debian. Настройка системных служб и разработка серверного приложения. Создание локальной Wi-Fi сети. Распознавание знаков и библиотека OpenCV. Потоковое видео в Android.
дипломная работа [3,9 M], добавлен 13.09.2017Основные понятия цифрового фото и видео. Достоинства и недостатки графических редакторов. Анализ школьных учебников по информатике по изучению работы с цифровым фото и видео. Анализ методических разработок. Планирование кружка "Компьютерная графика".
курсовая работа [52,1 K], добавлен 16.07.2013Возможности для создания совершенно новых типов игр. Характеристики используемых при работе аппаратно-программных средств. Обоснование выбора среды программирования. Анализ входной и выходной информации, описание схемы алгоритма программы и схемы данных.
курсовая работа [353,1 K], добавлен 25.07.2012Алгоритм работы программы. Анализ предметной области. Структура таблиц БД "Библиотека". Инфологическое и даталогическое проектирование. Запросы для поиска и извлечения только требуемых данных. Формы для просмотра, добавления, изменения данных в таблицах.
курсовая работа [5,1 M], добавлен 14.06.2014Технические и пользовательские характеристики игры, требования к программному обеспечению и среде разработки C#. Составление блок-схемы алгоритма, uml-диаграммы и текста программы, тестирование корректности компьютерного кода и результатов его работы.
курсовая работа [1,8 M], добавлен 05.03.2013Создание информационной мультимедиа системы (медиа-плеера) для презентации аудио-видео информации о факультете КТАС, представленной в специально отснятых и смонтированных avi-файлах. Разработка модуля пользовательского интерфейса, выходные данные.
курсовая работа [41,5 K], добавлен 21.11.2014Понятие видео-лекции, возможности ее применения в учебно-педагогическом процессе. Положительные и отрицательные стороны самообучения. Содержание, методы, формы обучения компьютерной графике в рамках самообразования, путем использования интернет сообществ.
курсовая работа [1,1 M], добавлен 13.12.2014Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.
курсовая работа [35,0 K], добавлен 25.04.2013Основные допечатные процессы подготовки издания. Технологическая схема компьютерной подготовки текстовой информации. Выбор варианта оформления, формата, гарнитуры и кегля. Основные правила компьютерного набора. Верстка в программе Adobe InDesig.
курсовая работа [250,5 K], добавлен 22.01.2015Обзор рекламного ролика Vodafone "Bubbles". Слежение за точками и плоскостью в двухмерном трекинге. Трехмерный трекинг: захват движения и системы, основанные на принципе фотограмметрии. Методика создания ролика в условиях малобюджетной видео-студии.
дипломная работа [8,6 M], добавлен 25.01.2012