Классификация русскоязычных и англоязычных научных документов
Изучение методов получения и обработки статей из электронных научных журналов. Скачивание и обработка библиографических статей. Этапы обработки и анализа текстовых документов. Выбор средств разработки программного комплекса. Парсинг электронных журналов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 18.12.2016 |
Размер файла | 674,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Введение
В настоящее время высокоразвита область компьютерных технологий.
Информация стала доступна в разных форматах и количествах, бывает, как изобразительная, звуковая, видео, числовая так и текстовая. Так же существуют виды информации, для которых до сих пор не изобретено способов их кодирования и хранения. В результате накапливаются огромные количества данных которые надо где-то хранить. Хранение информации при использовании компьютеров осуществляется на магнитных дисках и лентах на лазерных дисках (CD и DVD), аналогично данные можно хранить в электронных библиотеках, банках знаний и пр. При таком объеме актуальной становится проблема обработки и анализа текстовой информации. К текстовой информации относятся, прежде всего, различные статьи - новостные, научные и т.д., объем которых растет с каждым днем. В связи с этим, возникает необходимость в структурировании подобной информации для снижения информационной нагрузки на конечного пользователя. Подобное структурирование разделяется на несколько подобластей: поиск интересующей информации, классификация и кластеризация текстовых документов, выявление дубликатов, нахождение плагиата, синтаксический анализ.
При этом большая часть информации представлена на английском языке, поскольку он имеет крайне широкое распространение в мире.
В связи с этим в рамках настоящей работы была рассмотрена задача классификации англоязычных текстовых документов, т.е. отнесение нового документа к одному из заранее заданных классов, а также рассмотрен способ увеличения точности классификации за счет перевода текста на второй язык.
В работе [8] авторами было показано, что применение двуязычных (русско-английских) выборок способно увеличить точность классификации текстовых документов по сравнению с только русскими или только английскими текстами. Однако авторы использовали «непараллельный» перевод текста, т.е. перевод, осуществленный самим автором или коллективом переводчиков. Подобный способ перевода более точный и информативный, и очевидно, сохраняет большее количество нюансов текста, однако является излишне сложным и не всегда есть возможность получить подобный перевод.
В данной работе исследована возможность увеличения точности классификации англоязычных текстов за счет «параллельного» перевода статьи с английского языка на русский с помощью автоматических переводчиков (Google Translate, Яндекс. Переводчик) и классификации статьи уже как двуязычной.
Для решения этой задачи были разработаны специальные программно-алгоритмические средства (ПАС), позволяющие проводить скачивание, перевод, анализ и непосредственно классификацию текстовых документов.
1. Методы получения и обработки статей из электронных научных журналов
1.1 Содержание научных статей из электронных журналов
Статистические методы показали, что через интернет доступно как минимум 114 млн научных документов на английском языке, из них через Google Scholar доступно около 100 млн. Как минимум 27 млн документов, а это 24%, лежат в открытом доступе для пользователей. Сегодня в журналах выходит большое количество научных статей. Научный журнал - периодическое издание (печатное или электронное), относящееся к научной литературе и являющееся одним из основных источников научной информации. Все статьи в таком журнале перед публикацией проверяются независимыми экспертами в областях, близких к тематике статей. Такой механизм позволяет публиковать только те научные тексты, которые не содержат методологических ошибок и недостоверной информации. Скачать любую статью гипотетически может каждый, но за некоторые требуется заплатить определенную сумму, что ограничивает доступ к материалу. Поэтому в каждом журнале есть библиографическое описание, которое включает в себя краткое описание публикации.
В данной работе я ориентируюсь на англоязычные научные журналы и статьи, поскольку, в связи со статусом английского языка как «международного», наиболее ценные и значимые статьи непременно издаются в английском варианте.
Библиографическое описание обычно состоит из заголовка статьи, аннотации, ключевых слов, авторов, литературы и др. Всегда в публикации имеются части, которые указаны на Рис. 1.1. на котором показана структура библиографического описания.
Рисунок 1.1. Библиографическое описание статьи.
Рисунок 1.2
На Рис. 1.2. приведен пример БО, используемый в данной работе.
1.2 Скачивание и обработка библиографических статей
Для обработки структурированных данных, содержащихся в статьях журналов требуется привести их к виду, удобному для использования в дальнейшем. Извлечение информации является разновидностью информационного поиска, связанного с работой над текстом на естественном языке. На практике эта задача является нетривиальной и требует индивидуального подхода в каждом конкретном случае. Главная цель такого преобразования - возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных.
Существует не мало видов лингвистического анализа, что позволяет всесторонне охарактеризовать основные единицы различных уровней языка. Любой язык - и естественный и искусственный - обладает набором определенных правил. Они могут быть явно и строго сформулированными (формализованными), а могут допускать различные варианты их использования. Формальные языки широко применяются в науке и технике. В процессе научного исследования и практической деятельности формальные языки обычно используются в тесной взаимосвязи с естественным языком, поскольку последний обладает гораздо большими выразительными возможностями. В то же время формальный язык является средством более точного представления знаний, чем естественный язык, а следовательно, средством более точного и объективного, обмена информацией между людьми.
Формальный язык используется в математической логике и информатике. В теории моделей язык строится из множеств символов, функций и отношений вместе с их арностью, а также множества переменных. Каждое из этих множеств может быть бесконечным. Из языка вместе с универсальными логическими символами составляются логические высказывания.
В настоящее время технологическая роль такой процедуры, как извлечение информации, всё больше возрастает - из-за стремительного увеличения количества неструктурированной информации, в частности, в интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму. На практике существует несколько основных видов анализа текстовой информации: лексический, латентно-семантический и синтаксический.
Разрабатываемые в рамках данной работы программно алгоритмические средства (ПАС) позволяют скачивать БО, проводить их дальнейшую обработку и анализ. Для реализации процесса скачивания статей из электронных журналов необходимо предварительно провести лексический и синтаксический анализ веб-страницы, на которой данная статья представлено. Рассмотрим более подробно процессы лексического и синтаксического анализа.
В информатике лексический анализ - процесс аналитического разбора входной последовательности символов с целью получения на выходе последовательности символов, называемых «токенами» (подобно группировке букв в словах). Относительно данной работы нас интересует лексический анализ текстовой информации. В лингвистике слово представляется как абстрактная единица морфологического анализа. Входной текст, состоящий из последовательности одиночных символов, разбивается на последовательность слов или лексем, т.е. выделяются эти слова из непрерывной последовательности символов. Все символы входной последовательности с этой точки зрения разделяются на символы, принадлежащие каким-либо лексемам и разделители [2].
Дальнейшим этапом является выделение отдельных лексем. Ключевые слова распознаются либо явным выделением непосредственно из текста, либо сначала выделяется идентификатор, а затем делается проверка на принадлежность его множеству ключевых слов.
С точки зрения обработки значений лексем, анализатор может либо просто выдавать значение каждой лексемы, и в этом случае построение строк переносится на более поздние фазы, либо он может самостоятельно строить таблицы объектов. Лексический анализатор может быть, как самостоятельной фазой трансляции получающим на выходе файл лексем, так и подпрограммной, выдавая лексемы при каждом обращении к анализатору (рис. 1.2).
Рис. 1.3. Подпрограммная фаза трансляции лексем.
Говоря в общем и целом, лексический анализатор подготавливает входную последовательность для синтаксического анализатора, путем разбивания токенов на лексемы. В нашем случае это выглядит как преобразование кода страницы со статьей на HTML-теги и информацией внутри них (рис. 1.4).
Синтаксический анализ в лингвистике и информатике - это процесс, который определяет, принадлежит ли некоторая последовательность лексем языку, порождаемому грамматикой. В принципе по любой грамматике можно построить синтаксический анализатор, но грамматики, используемые на практике, имеют специальную форму. В жаргонной лексике синтаксический анализ называют парсингом, а синтаксический анализатор - парсером [3].
Рис. 1.4. Результат работы лексического анализатора.
В ходе синтаксического анализа исходный текст преобразуется в структуру данных, обычно - в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки. В основу синтаксического анализа была положена модель дерева зависимостей (рис. 1.5).
Рис. 1.5. Пример разбора синтаксического анализатора
Вход анализатора - последовательность лексических и таблицы, например, таблица внешних представлений, которые являются выходом лексического анализатора. В рамках нашей работы на вход подаются HTML-теги.
Выход синтаксического анализатора - дерево разбора и таблицы, например, в нашем случае дерево тегов HTML-страницы. Данная структура хорошо подходит для дальнейшей обработки.
Область применения синтаксического анализа очень разнообразна. Всё что угодно, имеющее синтаксис, поддается автоматическому анализу.
1) Языки программирования -- разбор исходного кода языков программирования, в процессе трансляции (компиляции или интерпретации);
2) Структурированные данные -- данные, языки их описания, оформления и т.д. Например, XML, HTML, CSS, ini-файлы, специализированные конфигурационные файлы и т. п.;
3) Построение индекса в поисковой системе;
4) SQL-запросы (DSL-язык - Domain Specific language - Предметно-ориентированный язык - язык программирования, специализированный для конкретной области применения);
5) Математические выражения;
6) Регулярные выражения (которые, в свою очередь, могут использоваться для автоматизации лексического анализа);
7) Формальные грамматики;
8) Лингвистика -- человеческие языки. Например, машинный перевод и другие генераторы текстов.
Латентно-семантический анализ (ЛСА) - это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами в них встречающимися, сопоставляющий некоторые факторы (тематики) всем документам и терминам [4].
В основе метода латентно-семантического анализа лежат принципы факторного анализа, в частности выявление латентных связей изучаемых явлений или объектов. При классификации/кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов.
В нашей работе мы не пользуемся латентно-семантическим анализом, т.к. данный анализатор не имеет дело со структурными конструкциями языка.
1.3 Парсинг электронных журналов
Как мы сказали выше, парсинг - это линейное сопоставление последовательности слов с правилами языка. Понятие как «язык» рассматривается в очень широком контексте. Это может быть человеческий язык (например, русский), используемый для коммуникации людей. А может и формализованный язык, в частности, любой язык программирования [5].
Парсинг сайтов - последовательный анализ информации, размещенной на интернет-страницах. В общем случае интернет-страница представляет собой иерархичный набор данных, структурированный с помощью человеческих и компьютерных языков. На человеческом языке предоставлена информация, знания, ради которых, собственно, люди и пользуются интернетом. Компьютерные языки (html, JavaScript, css) определяют, как информация выглядит на мониторе.
В настоящее время парсинг сайтов является эффективным решением для автоматизации, сбора и изменения информации. Парсеры используются для поддержания информации в актуальном состоянии. Применимо в таких областях, где информация быстро теряет актуальность и уже неприменима спустя буквально несколько минут. В таких случаях ручное ее редактирование практически невозможно или требует колоссальных затрат человеческих ресурсов. Например, отображение погоды. Так же они используются для объединения потоков информации из разных источников в одном месте и ее постоянное обновление. Например, существуют агрегаторы, которые собирают все предложения с сайтов по предоставлению работы в одном месте. Они позволяют моментально отслеживать все предложения и быть одним из первых, откликнувшихся на предложения работодателя. Агрегирование новостных потоков из нескольких источников и так далее. Самые известные парсеры в сети - это поисковые роботы, которые анализируют страницы, сохраняют данные анализа у себя в базе и потом при поиске выдают релевантные и актуальные документы.
Парсеры как правило пишутся с использованием одного из скриптовых или серверных языков программирования (PHP, Perl, C# и другие). Результат парсинга чаще всего помещается в базу данных, в файл, в удобном для чтения или обработке формате. Существуют различные методы к разбору веб-страниц:
· Парсинг с помощью регулярных выражений
Регулярные выражения (РВ) - механизм, позволяющий задать «шаблон» для строки и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов. Их главная функция - это поиск в тексте данных, соответствующих «маске», описанной в синтаксисе регулярных выражений.
Сейчас РВ используются многими текстовыми редакторами и утилитами для поиска и изменения текста на основ выбранных правил. Многие языки программирования уже поддерживают РВ для работы со строками. Набор утилит, поставляемых в дистрибутивах Unix, одним из первых способствовал популяризации понятия РВ.
· Парсинг с помощью дерева тегов
Этот вид парсинга основан на построении полного дерева синтаксического разбора в оперативной памяти и удобной навигации по нему с помощью встроенных в библиотеку функций (рис. 1.6.).
Структуру и оформление древовидного облака позволяет осуществить DOM (Document Object Model) интерфейс. Он не зависит от платформы и языка программирования и позволяет программам и скриптам получить доступ к содержимому html, xhtml и xml-документов, а также изменять содержимое, структуру и оформление таких документов. Так как на построение полного дерева уходит достаточно большой объем оперативной памяти и ресурсов компьютера, то в сравнении с предыдущим методом требует больше ресурсов, но позволяет более точно задать критерии поиска необходимой информации, а также предоставляет удобный интерфейс для программиста.
В нашей бакалаврской работе разрабатываются программно-алгоритмические средства, позволяющие обрабатывать интернет-страницы, скачивать с них интересующую нас информацию. Результатом работы ПАС является файл определенной структуры, который прошел через обработку, заданную пользователем и пригодный для дальнейшей классификации.
На просторах интернета все веб-страницы создаются с помощью языка html. Этот язык позволяет создавать собственные страницы и сайты. Рассмотрим более подробно данный язык.
HTML (от англ. Hypertext Markup Language -- «язык разметки гипертекста») -- это стандартный язык разметки документов во Всемирной паутине. Большинство веб-страниц содержат описание разметки на языке HTML (или XHTML). Он отвечает за расположение на веб-страницах текстов, рисунков, таблиц, то есть за наполнение Интернет-ресурса соответствующим контентом [6].
Любой документ на языке html представляет собой набор элементов, причем начало и конец каждого элемента обозначается специальными пометками - тегами. Элементы могут быть пустыми, то есть не содержащими никакого текста и других данных. В общем виде html-теги выглядят так: <head>…</head>, <a…>…</a> и т.д. Элементы могут иметь атрибуты, определяющие какие-либо их свойства (например размер шрифта для элемента font). Атрибуты указываются в открывающем теге. В html регистр элементов и атрибутов роли не играет, в отличие от xhtml.
Кроме элементов в html-документах есть и сущности - специальные символы. Сущности начинаются с символа амперсанда и имеют вид: &имя; или &#NNNN; где NNNN - код символа в Юникоде в десятичной системе счисления.
Каждый html-документ, отвечающий спецификации html какой-либо версии, должен начинаться со строки объявления версии html: <!DOCTYPE…>. Если эта строка не указана, то добиться корректного отображения документа в браузере становится труднее. Далее обозначается начало и конец документа тегами <html> и </html> соответственно. Внутри этих тегов должны находиться теги заголовка (<head></head>) и тела (<body></body>) документа. Остальные теги являются необязательными для того, чтобы браузер прочитал интернет-страницу.
Из этой информации вытекает очень существенный вывод: использовать парсер для данных тегов на различных веб-страницах нецелесообразно, по причине того, что они есть на каждой страниц, то есть каждая страница будет искомой, т.к. содержит данные теги.
Для того, чтобы «облегчить» жизнь программистам, существуют веб-шаблоны, которые может использовать в своем сайте любой желающий. Количество шаблонов очень велико, их разнообразие не имеет границ.
Одним из типичных шаблонов является табличный. Табличный вид шаблона очень популярен в связи с легкостью написания, простотой добавления контента, а также наглядностью на HTML-странице. В выборке наших веб-ресурсов и веб-хранилищ нередко используется такой тип шаблонов.
Однако это не делает парсинг интернет-страниц тривиальной задачей, поскольку существует ряд проблем:
· наличие различных тегов, такие как: <div>, <strong>, <em>, <b>, <i> и другие, создает бесконечное количество вариаций html-структур сайтов.
· наличие тегов, которые равнозначны друг другу, такие как <b> равнозначен <strong> и означает жирный шрифт, а <em> имеет тоже самое значение, что и <i>, означающий курсивный шрифт.
Два вышестоящих аргумента подтверждают различие html-страниц между собой, что в значительной мере усложняет нашу задачу.
Наибольшей проблемой для написания программы-парсера является то, что на различных сайтах могут использоваться совершенно разные теги. Информация также может хранится в различных тегах. Все это затрудняет построение универсального шаблона, по которому будет возможно обрабатывать электронные публикации и получать желаемый результат.
Сделаем вывод, что разрабатываемые ПАС в рамках этой бакалаврской работы должны обрабатывать электронные журналы, скачивать и по результатам обработки присваивать метку класса в зависимости от контекста БО.
1.4 Уточнение постановки задачи
В нашей работе разрабатываются программно-алгоритмические средства, которые включают в себя не только парсинг электронных журналов и их перевод на другой язык, но и обработку текстовых статей и присвоение метки класса для дальнейшей классификации.
Обработка документов включает в себя:
· разделение документа на отдельные слова для последующего анализа
· удаление служебных символов (точки, запятые и т.д.).
· отсечение стоп-слов. Стоп-слова - слова, не несущие смысловой нагрузки (союзы, местоимения, предлоги и пр.).
· выделения основы слова для дополнительного сокращения размерности текстовой информации и удобства для дальнейшей классификации.
· использование программных средств для автоматического перевода исходных документов на русский язык для выявления наибольшей информативности БО.
Классификация осуществляется с использованием разнообразных методов и подходов, которые позволяют присваивать каждому слову некий рассчитанный заранее конкретно для него «вес». Более подробно задача классификации будет рассмотрена в главе 2.
2. Обработка и классификация текстовых данных
2.1 Этапы обработки и анализа текстовых документов
Текстовые документы, написанные на естественном языке, обладают рядом недостатков с точки зрения машинной технологии обработки текстовой информации [7]:
1) Многообразие средств передачи смысла. Несмотря на то, что основным средством передачи смысла сообщения является лексика естественного языка, в сообщениях на ЕЯ функцию передачи смысла выполняет и ряд других элементов: контекст, ссылки на слова, которые ранее упоминались в тексте.
2) Семантическая неоднозначность. Семантическая неоднозначность возникает в основном из-за синонимии и многозначности слов. Синонимия представляет собой тождественность или близость по значению слов, выражающих одно и то же понятие.
3) Высокая размерность задачи. Словарь использующихся терминов, как правило, очень большой, а количество терминов в одном документе мало по сравнению с размером словаря, поэтому хранение и обработка таких словарей стребует больших вычислительных затрат.
4) Субъективность оценки качества классификации. В каждой классификации имеются элементы как субъективного, так и объективного. Качество классификации, казалось бы, определяется объективно по тому достигается ли поставленная цель, однако выбор цели опять-таки субъективен, и для одной цели данная классификация будет хорошей, а для другой нет.
5) Различная длина документов. Каждый документ состоит из различного числа терминов, поэтому термины, встречающиеся в разных документах одинаковое количество раз, будут иметь разный вес.
Из-за этих недостатков обработка текстовой информации является нетривиальной и очень сложной. В данной работе будет рассмотрен комплексный подход к проблеме классификации текстовой информации. Задача заключается в формирования обучающих выборок, выборе модели представления текстовых документов, выявления информативных признаков, присвоение метки класса, оценки точности результатов классификации.
На рис. 2.1. показаны основные этапы, соответствующему проведению классификации.
Рис. 2.1. Этапы классификации
База данных статей формируется из публикаций научных журналов, по которым в дальнейшем формируются выборки. Поскольку мы проводим обучение классификатора на примерах, то нам необходимо сформировать обучающие и экзаменационные выборки. Присвоение меток класса проводится экспертным образом.
Далее идет выявление наиболее информативных признаков, путем использования одного из способов снижения размерности. Процедура снижения размерности заключается в отборе из исходных признаков наиболее информативных, обладающих наилучшими разделяющими свойствами. Более подробно данный этап рассмотрен ниже (параграф 2.3.).
Для решения задачи классификации существует ряд методов, основанных на статистическом (наивный байесовский метод, метод центроидов, профильные методы), графовом (алгоритм определения связных компонент (клик) графа, Роккио (Rocchio), ФОРЭЛ) и иерархическом подходах (агломеративная кластеризация). Некоторые методы в данной работе рассмотрены более подробно [7].
Каждый метод необходимо проверить на экзаменационной выборке и подсчитать среднюю ошибку профиля по классу. Так мы сможем проверить возможно ли увеличение точности классификации.
Рассмотрим каждый этап более подробно.
2.2 Модели представления текстовых документов
2.2.1 Модель «мешок слов»
В этой модели каждый термин рассматривается в качестве независимой случайной величины вне контекста и связи с другими словами текста. При этом «вес» термина определяется частотой его встречаемости [7].
2.2.2 Частично структурированные модели
В таких моделях мы учитываем дополнительную информацию о положении слова в текстовом документе (заголовок, аннотация, ключевые слова, первый абзац) или проводится выделение словосочетаний - устойчивых групп слов, которые образуют общее понятие для данной предметной области [7].
В данных моделях используются заранее сформированные базы знаний, содержащие ключевые термины, их словосочетания, а также иерархические связи, свойственные какой-либо предметной области.
Так же существует другой подход к разработке полностью структурированных моделей. Он реализован в онтологии. Онтология содержит определения понятий и их иерархическую организацию (отношения между понятиями: класс-вид, часть-целое). В отличие от обычной базы знаний, онтологии содержат неизменные знания (аксиомы), которые всегда истинны для данной предметной области [7].
Сравнительный анализ неструктурированных, частично структурированных, полностью структурированных моделей и их модификаций показал, что вид модели не оказывает значительного влияния на качество классификации различными методами. Несмотря на более высокую сложность, дополнительные вычисления, полностью структурированные модели не всегда позволяют полностью формализовать контекст, разрешить синонимию, ввести адекватную иерархию и показывают для ряда предметных областей более низкую точность, чем неструктурированные и частично структурированные модели.
В векторной модели любой документ описывается в виде точки в М-мерном пространстве, где М- количество терминов [7]:
, (2.1)
где - вес термина j в документе i
В качестве весов в векторной модели могут использоваться не только сами термины, но и последовательности слов или букв (n-граммы).
Выборка текстовых документов может быть представлена в виде матрицы:
. (2.2)
Такую матрицу принято называть матрицей “документ - термин”, т.к. ее строки представляют собой документы, а столбцы - термины, содержащиеся в этих документах. Для представления текстовых документов также могут быть использована матрица попарных расстояний (близостей):
. (2.3)
Элемент определяет результат сопоставления документов и в смысле некоторого заданного отношения (метрики расстояния или меры близости) [7].
В рамках данной работы в качестве математического описания документов была выбрана векторная модель.
2.3 Предварительная обработка данных
Для упрощения классификации требуется предварительная обработка данных. Она заключается в выявлении наиболее информативных признаков, сокращением числа терминов и их дальнейшем взвешивании (рис. 2.2.).
Рис. 2.2. Предварительная обработка данных
Одним из основных способов решения задачи сокращения числа терминов (задачи уменьшения размерности документа) является отсечение стоп-слов. Стоп-слова - слова, не несущие смысловой информации - местоимения, предлоги, артикли и т.д. Также в целях дополнительного сокращения размерности задачи и для улучшения качества классификации, проводится выделение корней слов (stemming).
После проведения предварительной обработки задача выявления классообразующих терминов по существу сводится к разделению их на две группы, состоящие из информативных и слабоинформативных признаков. Процедура снижения размерности заключается в отборе из Р исходных признаков M наиболее информативных, обладающих наилучшими разделяющими свойствами [7].
На рис. 2.3. показано, что все термины документа могут быть разделены на три группы: информативные, слабо информативные и неинформативные признаки. Неинформативные признаки удаляются на стадии предварительной обработки текстовых документов.
Для выявления информативных признаков в задаче классификации текстовых документов мы будем использовать подсчет частоты встречаемости термина в текстах выборки.
Рис. 2.3. Группы информативности.
Данный подход основывается на предположении, что смысловая составляющая любого документа может быть представлена в виде совокупности терминов, которые с разной частотой встречаются в тексте. При этом используются следующие эмпирические наблюдения (рис. 2.4.):
· чем чаще слово встречается в документе, тем в большей степени оно отражает тематику документа;
· чем чаще слово встречается во всей выборке документов, тем меньшей выделительной (дискриминирующей) способностью оно обладает, т.е. тем более оно (слово) присуще области науки, в которой проводятся исследования (например, Информационные Технологии), либо часто используемое слово при оформлении документов (например, термин) и тем менее отражает обобщенность конкретной тематики от других.
Рис. 2.4. Частота встречаемости терминов
Таким образом, все слова можно разделить на 3 категории по частоте встречаемости в тематике:
· Высокая частота. Сюда относятся термины, которые встречаются часто либо в нашей выбранной тематике, либо при оформлении текстовых документов, либо общепринятая лексика для исследуемой области науки;
· Средняя частота. В данную категорию можно отнести слова, в большей степени отражающие термины специфические для данной области науки;
· Низкая частота(шум). Слова, не относящиеся к данной тематике: слова общей лексики, связующие слова.
Для проведения классификации желательно отбирать среднечастотные термины, которые лучше всего описывают документ заданной тематики. Однако для документов небольшого объема, как например, библиографические описания, исключение высокочастотных составляющих может привести к потере информации, так как в этом случае часто встречающиеся термины не будут являться «общими словами», а в большей степени будут специальными терминами, описывающими тематику документа.
На практике решение задачи классификации усложняется следующими факторами:
· разбиение на классы неоднозначно, оно зависит от выбранного метода классификации, пространства признаков и критериев определения различия и сходства между текстами, а также настроечными параметрами алгоритма.
· оценка качества классификации существенно зависит от субъективных представлений о сходстве и различии документов, т.е. от личных предпочтений эксперта;
· не существует единых критериев оценки качества классификации.
2.4 Методы классификации текстовых документов
Методы классификации принято различать по следующим характеристикам:
по количеству используемой априорной информации (параметрические и непараметрические);
по структуре организации классов (иерархические и неиерархические);
по способу построения классов (пересекающиеся и непересекающиеся);
по наличию или отсутствию обучения.
Таким образом, главная цель классификации - отнесение нового объекта к одному из имеющихся, заранее определенных классов [7].
Постановка задачи классификации приведена на рис. 2.5.
Рис. 2.5. Классификация документов
Одними из первых в теории классификации были разработаны центроидные методы, в которых по выборке для каждого класса k (k=1,…,K) вычисляется центроид - вектор со средними значениями весов признаков объектов данного класса [7]:
, (2.4)
где Nk - количество наблюдений, принадлежащих классу Qk.
Для классификации нового объекта с помощью метода центроидов (МЦ, Nearest Mean Classifier) определяется расстояние, например по формуле евклидова расстояния, между ним и центроидами всех классов, относится к классу с наиболее близким центроидом.
Евклидово расстояние (L2-метрика). Это наиболее часто используемая метрика, соответствующая простому геометрическому расстоянию в многомерном пространстве. Евклидово расстояние определяется по формуле:
(2.5)
Центроидный метод является наиболее универсальным, быстрым и удобным в вычислительном отношении, обеспечивает малую ошибку при обработке больших массивов многомерных данных, которые имеют сферические классы.
В методе потенциальных функций для классификации определяются “относительные потенциалы” (аналогично тому, как это делается в электротехнике), которые наводятся в новой точке признакового пространства объектами, уже распределенными по классам, и относится к классу, чей наведенный совокупный потенциал выше [7].
Относительный потенциал в , который создается объектами k-го класса, рассчитывается по формуле:
. (2.6)
Здесь - некоторая известная положительная функция от метрики расстояния , стремящаяся к 0, при . Обычно или , > 0, >0.
Таким образом, согласно методу потенциальных функций новый объект относится к тому классу, который имеет наибольший относительный потенциал:
k() > g() новый объект относится к k-му классу (g,k=1,...,K, g?k).
В наивном байесовском методе (классификаторе) (Naive Bayes Classificator) используется вероятностная модель определения класса документов и оценка для P(Qk) рассчитывается по документам обучающей выборки:
, (2.7)
где Nk - число документов обучающей выборки, принадлежащих классу Qk.
Оценка для также может быть рассчитана по документам обучающей выборки:
, (2.8)
где Nik - частота встречаемости слова i в документах класса Qk в обучающей выборке; - общее количество терминов в документах класса Qk. Более часто используется уточненная формула:
, (2.9)
где М - общее количество терминов во всех документах выборки.
В методе к-ближайших соседей аналогично МБС (метод ближайших соседей) [7] для классификации нового наблюдения проводится упорядочивание исходных элементов выборки по какой-либо метрике (например, евклидову расстоянию). При этом определяется не один ближайший сосед, а группа соседей, наиболее близких к новому наблюдению. Число соседей к является настраиваемым на стадии обучения (или задаваемым экспертно) параметром метода. Решение об отнесении к классу (k=1,…,K) принимается путем голосования его к-ближайших соседей с помощью простого подсчета голосов. Если более половины к-БС принадлежат классу , то также относится к этому классу. Таким образом, в методе к-БС устраняется один из недостатков МБС, так как решение принимается на основе голосования не одного, а нескольких элементов исходной выборки.
Данные методы неплохо показывают себя при классификации текстовых документов. Но в работе [7] было доказано, что классические методы, в частности k-БС и байесовский показывают хуже точность классифицирования, чем профильные. Остановимся на профильных методах классификации.
2.5 Профильные методы классификации
Широкое использование на практике получили методы классификации, основанные на вычислении некоторого формального объекта, например центроида, который способен характеризовать все остальные элементы данного класса.
В качестве наиболее типичного представителя класса можно использовать не только центроид, но и профиль класса. При этом профили классов могут быть разделены на несколько категорий [8]:
1) Логический профиль, который состоит из признаков, представленных в классе: (вес признака в таком профиле равен “0” или “1”).
2) Центроидный профиль, в этом случае в качестве профиля используется центроид класса, т.е. вектор средневзвешенных признаков, встретившихся в классе.
3) Экспертный профиль, задаваемый пользователем на основе собственных знаний и опыта.
Один из профильных методов, рассмотренных ранее - метод центроидов.
Для расчета профилей в данной работе использовались специальные методы выявления информативных терминов. Такие как статистический поход, теоретико-информационный подход. Единственным настраиваемым параметром профильных методов является длина профиля L - количество терминов, отобранных в качестве классообразующих. В рамках бакалаврской работы были использованы следующие профили: РО-, НМИ-, J-, UNI5- и UNI6.
В НМИ-профиле используется другой подход - теоретико-информационный:
(2.11)
Также, в литературе известен ряд эвристических подходов к выявлению информативных признаков, среди них выделяют профиль Жаккара:
(2.12)
Кроме того, для исследования двуязычных выборок в работе были исследованы методы UNI5 и UNI6, которые особым образом комбинируют значимые термины, определенные РО-, НМИ- и J-профилями на двух языках
2.6 Формирование выборок
Для проведения исследований необходимо сформировать обучающие и экзаменационные выборки. На первых проходит обучение профильных методов - выявление наиболее информативных терминов, на вторых - непосредственно исследования точности классификации. Обучающие и экзаменационные выборки состоят из ряда тематик (классов), соответствующих разным предметным областям.
Выбирая тематики статей, мы ориентировались на запросы ученых и экспертов, для которых разрабатывается ПАС. В качестве научных направлений, по которым проводились исследования, выбраны следующие тематики, отражающие потребности сотрудников кафедры управления и информатики «МЭИ»:
1. Наукометрия
2. Информационная безопасность
3. Нейросетевой анализ и мягкие вычисления
4. Базы данных
5. Статистический анализ
6. Text mining
7. Программирование
В качестве обучающих выборок использовались «непараллельные» выборки двуязычных научных статей из ряда российских научных журналов, полученные в рамках исследований в работах [7,8]. Выборки доступны по адресу http://uii.mpei.ru/index.php?term=49.
Для формирования экзаменационных выборок были выбраны журналы издательства «Springer Science+Business Media», поскольку данное издательство является одним из крупнейших международных издательств, выпускающее свыше 1450 наименований журналов.
Были выбраны следующие научные журналы, из которых были скачаны англоязычные статьи за 2009 - 2016 годы:
1. Data Mining and Knowledge Discovery
2. Scientometrics
3. Machine Learning
4. Journal of Intelligent Information Systems
5. Programming and Computer Software
6. Mathematical Methods of Statistics
7. Mathematical Programming Computation
Всего было скачано 800 статей, из них экспертами было отобрано и обработано 154 статьи на английском языке, соответствующих выбранным тематикам. В результате к каждому из 7 классов экспертами было отнесено по 22 статьи.
Кроме того, каждая статья была переведена на русский язык с помощью API Google Translate и обработана через ПАС для увеличения набора информативных признаков документа.
Тем самым, в нашем распоряжении имеются 7 «смешанных» классов, состоящих из англоязычных статей, дополнительно переведенных на русский язык.
Из указанных 7 классов было сформировано 3 экзаменационные выборки, по 5 классов в каждой:
Первая выборка содержала классы: базы данных, информационная безопасность, наукометрия, программирование, мягкие вычисления.
Вторая выборка включала: базы данных, наукометрия, статистический анализ, мягкие вычисления, text mining.
Третья выборка содержала: информационная безопасность, наукометрия, программирование, статистический анализ, text mining.
3. Программные средства для обработки текстовых документов
3.1 Выбор средств разработки программного комплекса
Для написания программы в данной бакалаврской работе была выбрана среда разработки Visual Studio 2015 с использованием объектно-ориентированного языка программирования C#, разработанный компанией Microsoft. Данный ЯП (язык программирования) обеспечивает высокое качество кода на протяжении всей программы, её функционал удовлетворяет поставленной задаче для написания ПАС.
Среда разработки Visual Studio 2015 является на день написания этой работы самой актуальной версией, которая имеет множество особенностей. Студентам лицензионная версия этой среды предоставляется бесплатно, что делает её более доступной на ряду с другими компиляторами. В VS 2015 присутствует умный редактор кода, который предоставляет поддержку синтаксиса, также сюда включен интерфейс отладки, который включает удобный Debugger с возможностью пошаговой отладки и наличием точек останова.
Язык программирования C# относится к семье с C-подобным синтаксисом, который близок к языкам C++ и Java [11]. Он прост в использовании, имеет статистическую типизацию, поддерживает полиморфизм, перегрузку операторов (в том числе операторов явного и неявного приведения типа), атрибуты, события, свойства, обобщенные типы и методы, комментарии в формате XML и др.
3.2 Архитектура разработанных ПАС
В разработанных программно-алгоритмических средствах используется многоуровневая архитектура, состоящая из следующих звеньев:
· уровень данных - работает под управлением С#, предоставляет постоянное хранилище для статей;
· уровень бизнес-логики (пользовательские компоненты) - обрабатывает запросы пользователей, предоставляя данные, осуществляя их перевод, изменение и обработку;
· уровень бизнес-логики (исследовательские компоненты) - обрабатывает информацию, осуществляет выполнение процессов предварительной обработки, обучения и анализа данных;
· уровень клиента - отвечает за отображение данных, обрабатывает действия пользователей.
БАЗА СТАТЕЙ. Место на жестком диске, выделенное для хранения статей. Статьи хранятся в файле с расширением *.txt.
Компоненты доступа к данным. Компоненты доступа к данным обеспечивают доступ к БАЗЕ СТАТЕЙ. В настоящей работе использован язык C#, который имеет стандартные функции для получения необходимой информации. В нашем случае использовалась встроенная библиотека System.IO.File.
Пользовательские компоненты. Функциональные компоненты - классы, в которых разработаны специальные процедуры, исполняемые на рабочей станции пользователя. Данные компоненты классифицируются на:
· компоненты импорта в базу данных новых статей;
· компоненты классификации новых статей;
· компоненты просмотра хранящихся статей;
· компоненты обучения классификаторов;
· компоненты изменения параметров классификаторов;
· другие дополнительные системные функции и объекты.
Компоненты пользовательского интерфейса.
Компоненты пользовательского интерфейса обеспечивают текстовый интерфейс пользователя, позволяют организовать визуализацию данных, хранящихся в БД, и инициировать операции, выполняемые пользователем в процессе работы. К основным компонентам пользовательского интерфейса относятся:
· модуль обработки пользовательских сообщений (событий);
· модуль отображения результатов пользователю.
3.3 Описание работы ПАС
Ниже приведены скриншоты программы по скачиванию, обработке текста, выявлению наиболее информативных признаков, переводу и классификацией статьи.
1. Для начала пользователю требуется ввести адрес интересующей его статьи и нажать кнопку «Скачать статью
2. Затем пользователю необходимо присвоить метку класса в соответствующем всплывающем списке.
3. Появляются новые кнопки: «Сохранить», «Выявление информационных признаков» и «Перевод». Все действия будут выполняться над скачанной по ссылке статьей. Нажмем кнопку «Выявление информационных признаков».
4. Следующим этапом идет обработка текста. В результате представлены наиболее информативные признаки документа и обработанный текст. Если пользователь хочет классифицировать англоязычную статью, то следует нажать кнопку «Англоязычная классификация».
5. Под кнопкой классификации появится статус классификации. Если документ проклассифицирован правильно, будет написано соответствующее сообщение.
6. Для более точной классификации требуется перевести скачанную статью на русский язык, нажав на кнопку «Перевод». Переведенный текст отобразится в соответсвующем окне. Так же информативные признаки будут пересчитаны.
7. Для классификации смешанного документа пользователю требуется нажать на кнопку «Русско-Английская классификация». Под соответствующей кнопкой появится текстовое сообщение, информирующее о правильности присвоения метки класса.
Основные системные требования к аппаратному и программному обеспечению:
Настольный ПК с поддерживаемой архитектурой х64 или х86 и ОС Microsoft Windows XP или выше на борту. Аппаратные требования должны удовлетворять:
o Минимальные требования:
§ процессор с тактовой частотой 1,6 ГГц;
§ 512 МБ оперативной памяти;
§ жесткий диск с частотой вращения 5400 оборотов в минуту;
o Рекомендуемые требования:
§ процессор с тактовой частотой 2 ГГц или выше;
§ 1024 МБ оперативной памяти или больше;
§ жесткий диск с частотой вращения 7200 оборотов в минуту или больше;
Выводы
1. Разработаны программно-алгоритмические средства обработки и анализа англоязычной информации.
2. Разработаны программно-алгоритмические средства автоматизированного перевода англоязычных статей.
3. Разработанные программно-алгоритмические средства для решения задачи классификации библиографических английских и смешанных русско-английских выборок, полученных из научных журналов.
Заключение
В результате выполнения данной бакалаврской работы были получены следующие основные результаты:
1. Рассмотрены методы анализа текстовых данных.
2. Проведен анализ подходов к разбору электронных статей.
3. Выбран метод разбора для данной работы.
4. Рассмотрены и выбраны способы обработки информации.
5. Разработаны ПАС для обработки одно- и двуязычной информации.
6. Рассмотрены методы классификации текстовых документов.
7. Сформированы экзаменационные английские выборки, переведенные с помощью средств машинного перевода на русский язык.
8. Показано преимущество использования смешанных (русско- и англоязычных) выборок, полученных путем автоматического перевода с английского языка, в сравнении с одноязычными (англоязычными) выборками при классификации текстовых документов, что говорит о том, что можно увеличить точность классификации документов без существенных затрат на перевод текста людьми.
электронный журнал программный документ
9.
Список используемой литературы
1. Толчеев В.О. Основы теории классификации многомерных наблюдений. Учебное пособие. М.: МЭИ, 2012
2. Мохов А.С., Толчеев В.О. Разработка профильных методов классификации двуязычных текстовых документов // Материалы 6-й Всероссийской мультиконференции по проблемам управления (30 сентября - 5 октября 2013г.) Том 1. Ростов-на-Дону. 2013. С. 75-79.
3. Мохов А.С., Толчеев В.О. Разработка новых модификаций профильных методов классификации и построение коллективов решающих правил // Заводская лаборатория. Диагностика материалов, Москва: №3 (81), 2015. с 70-75.
4. Мохов А. С., Толчеев В. О. Разработка методов высокоточной классификации двуязычных текстовых библиографических документов // Информационные технологии, Москва: № 5, 2014. с. 8-13.
Размещено на Allbest.ru
...Подобные документы
Основные особенности нормативного и методического обеспечения архивного хранения электронных документов. Общие требования к организации и проведению учета электронных архивных документов. Рассмотрение инновационных методов учета в делопроизводстве.
курсовая работа [255,8 K], добавлен 31.08.2015Тематический план курса разработки цифрового образовательного ресурса по технологии создания электронных графических документов (электронных книг). Особенности сканирования, программное обеспечение. Основные возможности программы ABBYY Fine Reader.
дипломная работа [3,7 M], добавлен 07.07.2011Аналитический обзор видеосистем с элементами интеллектуальной обработки видеоконтента: FaceInspector, VideoInspector Xpress. Разработка алгоритма организации вычислительных средств комплекса, в структуру поэтапного решения задачи анализа видеообъекта.
дипломная работа [3,4 M], добавлен 14.06.2012Общее название программных средств, предназначенных для создания, редактирования и форматирования простых и комплексных текстовых документов - системы обработки текста. Текстовый редактор MS-DOS Editor. Текстовый процессор WordPad, Microsoft Word.
презентация [58,5 K], добавлен 06.01.2014Понятие электронного документа, отличие от иных видов документов. Юридическая сила и правовой режим электронного документа и документооборота. Процедуры разрешения конфликтов. Основные типы текстовых электронных документов и выбор средств их оформления.
реферат [24,5 K], добавлен 22.08.2010Классификация программ обработки текстовых документов. Общие принципы оформления издания. Правила набора текста. Системы распознавания текста (OCR). Комплекс программного обеспечения для настольных издательских систем. Примеры текстовых редакторов.
презентация [75,0 K], добавлен 13.08.2013История разработки узкоспециализированного устройства для чтения электронных документов. Плюсы и минусы электронных книг, их применение в образовании. Подъем рынка электронных книг подъем в связи с появлением экранов с технологией электронной бумаги.
презентация [601,3 K], добавлен 10.12.2016Создание и редактирование электронных баз данных. Обработка электронных таблиц. Операции изменения формата документа. Основные функции текстовых процессоров. Деловая графика. Построение рисунков, диаграмм, гистограмм различных типов в программе Excel.
презентация [773,1 K], добавлен 23.12.2013Программные средства выполнения, обращения и хранения электронных документов на предприятии. Правовое и методическое обеспечение сохранности информационных ресурсов в организациях Республики Беларусь. Создание электронной регистрационной карточки.
реферат [25,4 K], добавлен 17.04.2015Обзор средств создания электронных обучающих систем. Требования к системе проектирования "электронного учебника". Разработка теоретической части и интерактивных примеров. Классификация средств создания электронных учебников. Принципы изложения материала.
дипломная работа [7,8 M], добавлен 10.01.2013Информационное обеспечение научных исследований в университете. Разработка онтологии в области управления. Создание глоссария по менеджменту, списка персоналий. Семантическая разметка массива документов. Методика работы с базой научных публикаций.
дипломная работа [3,5 M], добавлен 13.01.2015Анализ ряда подходов к определению требований к обучающим системам, формулирование системы критериев их оценки. База данных для хранения и обработки параметров и подпараметров электронных учебников и результатов оценки тестируемых электронных учебников.
курсовая работа [1,5 M], добавлен 23.03.2012Анализ перспектив развития средств обработки текстовой и графической информации. Выбор программного обеспечения обработки информации, технических средств, периферийных устройств. Исследование особенностей работы с программой деловой графики MS Visio.
курсовая работа [616,2 K], добавлен 04.05.2013Разработка программного обеспечения для научных работ в области редактирования документов с математическими выражениями. Создание интерфейса приложения, подбор необходимых компонентов. Решение задач открытия и сохранения документов на диск компьютера.
дипломная работа [858,0 K], добавлен 16.07.2013Общие сведения об электронных комплексах. Выбор и обработка источников информации. Структурная организация электронного тестирующего комплекса. Выбор программных средств для его создания. Разработка структуры и дизайна электронного тестируемого комплекса.
курсовая работа [3,2 M], добавлен 08.11.2013Основные понятия справочников и их классификация. Анализ имеющихся электронных ресурсов. Теоретические понятия разработки электронных справочников. Выбор и обоснование средств разработки. Структура электронного справочника, его разработка и наполнение.
курсовая работа [1,5 M], добавлен 27.05.2015Обработка текстовых данных, хранящихся в файле. Задачи и алгоритмы обработки больших массивов действительных и натуральных чисел. Практические задачи по алгоритмам обработки данных. Решение задачи о пяти ферзях. Программа, которая реализует сортировку Шел
курсовая работа [29,2 K], добавлен 09.02.2011Логическое проектирование реляционной модели данных для службы качества предприятия. Перечень документов, их реквизиты, номер по классификатору, форма их составления. Определение атрибутов электронных документов для их идентификации. Выбор режима доступа.
курсовая работа [54,8 K], добавлен 13.09.2009Понятие, классификации и типы стандартных форм. Этапы ввода и обработки форматированных документов. Требования к системам массового ввода стандартных форм. Подходы к реализации систем обработки форм. Система ABBYY Fine Reader Form и Cognitive Forms.
курсовая работа [42,4 K], добавлен 20.10.2010Общее понятие об электронных таблицах Excel, использование формул, функций и диаграмм. Принципы обработки информации в электронныхх таблицах, общие требования к спискам. Экономико-математические приложения Excel, решение уравнений и задач оптимизации.
реферат [2,5 M], добавлен 10.11.2010