Использование методов машинного обучения для извлечения слов-терминов
Оценка особенности употребления терминологических слов и словосочетаний в предметной области текста. Признаки выявления прилагательных и существительных. Использование глобальной поисковой машины и методов машинного обучения в области естественных наук.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 18.01.2018 |
Размер файла | 25,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
Московский государственный университет имени М.В. Ломоносова
Использование методов машинного обучения для извлечения слов-терминов
Н.В. Лукашевич НИВЦ МГУ
Ю.М. Логачев, ВМиК МГУ,
Москва
Введение
Важным аспектом создания прикладных систем в конкретных предметных областях является учет терминологии предметной области. Поэтому одним из важных направлений исследований в области создания понятийных моделей предметных областей, прикладных онтологий являются технологии извлечения из текстов терминов предметной области.
При извлечении терминов предметной области большое внимание уделяется извлечению терминологических словосочетаний, и значительно меньшее исследований посвящено извлечению отдельных слов-терминов [Zhang et al., 2008].
Вместе с тем известно, что список самых частотных словосочетаний, извлеченных из текстов предметной области, содержит очень высокую долю терминологических словосочетаний. В то время как подавляющее число наиболее частотных слов, извлеченных из коллекции текстов предметной области, представляют собой слова литературного языка, и, следовательно, не являются терминами. Применение статистических мер, позволяющих оценить особенность употребления слов в данной коллекции по сравнению с некоторой контрастной коллекцией документов таких, как tf.idf или странность (weirdness) [Zhang et al., 2008] повышает долю слов-терминов, получивших высокие веса по этим мерам, однако все еще остается относительно низкой.
Другой мерой, которая может применяться для выделения терминологических слов, является мера, оценивающая их вхождение как фрагмента в объемлющие словосочетания [Ananiadou, 1994].
В данной работе мы рассмотрим различные признаки выявления терминологичности отдельного слова (прилагательных и существительных), оценим их качество на основе меры средней точности, заимствованной из информационного поиска. Используемые нами признаки могут быть разделены на три типа:
- признаки, построенные на основе текстовой коллекции предметной области;
- признаки, полученные на основе информации глобальной поисковой машины,
- признаки, полученные на основе заданного тезауруса предметной области. Здесь мы моделируем ситуацию развития существующего тезауруса и хотим выяснить, насколько знания, описанные в текущей версии тезауруса, могут улучшить качество автоматического извлечения следующих терминов.
Далее мы применяем методы машинного обучения для наилучшего комбинирования выделенных признаков с целью получения терминологических слов. Как показано в ряде публикаций, комбинирование признаков для выделения терминологических словосочетаний, устойчивых словосочетаний других видов позволяет значительно улучшить качество их извлечения [Pecina et al., 2006; Zhang et al., 2008].
Эксперименты проводятся в широкой области естественных наук. Качество методов определения терминологичности слов признаков оценивается на создаваемой вручную Онтологии по естественным наукам и технологиям ОЕНТ [Добров и др., 2005].
1. Текстовая коллекция и способ оценки качества извлечения терминов
В качестве базы для экспериментов по извлечению слов-терминов мы используем текстовую коллекцию, которая была собрана в начале работы над онтологией ОЕНТ [Добров и др., 2005].
Онтология ОЕНТ представляет собой, так называемую лингвистическую онтологию, то есть онтологию, понятия в которой основаны на значениях существующих языковых выражений - в данном случае естественнонаучных терминов.
Одновременно онтология ОЕНТ может рассматриваться как тезаурус, поскольку описывает формализованные отношения между терминами предметной области.
В настоящее время онтология ОЕНТ включает 56 тысяч понятий и 150 тысяч различных терминов математики, химии, физики, геологии, биологии. На первом шаге разработки онтологии ОЕНТ (в 2004 году) были собраны коллекции текстов по таким наукам как, математика, физика, химия, геология (от 3000 до 8000 документов, от 50 до 90 Мб по каждой из наук).
Автоматически извлеченные слова и словосочетания из собранных коллекций текстов можно использовать для тестирования различных методов извлечения и упорядочения терминов-кандидатов, поскольку за это время Онтология ОЕНТ выросла, и включенные в ее состав термины могут служить хорошей основой для оценки качества методов.
Эксперименты проводились на пяти тысячах наиболее частотных слов, извлеченных из этой коллекции. Задачей применения методов является переупорядочение исходного списка слов (первоначально упорядоченного по мере снижения частотности) так, чтобы в начало списка попало как можно больше слов-терминов.
Таким образом, наилучшее переупорядочение списка снизит трудозатраты эксперта по вводу терминов в онтологию - эксперт будет меньше просматривать слова, не являющиеся терминами.
Для оценки качества такого упорядочения используется мера, заимствованная из информационного поиска - так называемая средняя точность - AvP [Агеев и др., 2004]. Характеристика средней точности AvP в задаче извлечения слов-терминов вычисляется следующим образом. Пусть в упорядоченном списке слов имеется k терминов, и pos(i) - позиция i-го термина от начала списка.
Тогда точность на уровне i-го термина PrecTermi в упорядоченном списке равна PrecTerm(pos(i)), то есть величина точности PrecTermi подсчитывается в момент поступления в список i-го термина и равна доле терминов в списке от 1 до i позиции. Средняя точность для данного упорядочения списка слов равна среднему значению величины PrecTermi:
AvP = .
Данная мера позволяет оценить качество извлечения терминов с помощью одной числовой величины за счет того, что, чем большая доля терминов из списка сосредоточена в начале списка, тем эта мера выше.
2. Используемые признаки слов
Рассмотрим подробнее признаки, которые можно использовать для выявления терминологичности слова, встретившегося в коллекции текстов предметной области.
Частотность (Freq). Частотность употребления слова в коллекции.
Частотность с учетом частоты употребления в объемлющей коллекции (Tf*idf). Данный признак широко употребляется в информационно-поисковых системах и позволяет снижать вес употребительных слов. Tf - это просто частотность слова в текущей коллекции.
Tf*Idf (w) = ,
где n - размер контрастной коллекции, b - число документов, в которых употреблялось слово w в контрастной коллекции.
В качестве контрастной коллекции для данного признака была выбрана коллекция Интернет-страниц белорусского Интернета, которая распространяется в качестве базовой коллекции для экспериментов в Интернет-поиске в рамках семинара РОМИП [Некрестьянов и др., 2008].
Признак Странность (Weirdness). Данный признак учитывает пропорциональное соотношение частотности употребления слова в рабочей текстовой коллекции по сравнению с контрастной коллекцией [Ahmad et al., 1999]. Пусть - слово. Тогда
,
где частотность слова в коллекции предметной области; - совокупная частотность слов в коллекции предметной области; частотность слова в контрастной коллекции белорусского интернета; - совокупная частотность слов в контрастной коллекции белорусского интернета.
Признак С-Value. Данный признак основывает рейтинг терминологичности слов с учетом частотности объемлющих словосочетаний, в которое входит данное слово [Ananiadou, 1994]. Пусть w - слово. Тогда
C-Value(w)= ,
где Ta - множество всех словосочетаний в коллекции, содержащих слово w; P(Ta) - мощность множества Ta.
Наиболее частотное объемлющее словосочетание (Inside). Данный признак учитывает частотность наиболее частотного словосочетания, в состав которого входит данное слово.
Пусть w - слово. Среди всех словосочетаний, содержащих слово w, выберем наиболее частотное. Пусть Fmax - его частота. Тогда
.
Данный признак проверяет, не употребляется ли данное слово в составе одного и того же словосочетания. Чем выше значение признака, тем ниже вероятность того, что слово является самостоятельным значимым элементом предметной области, а, скорее, является компонентом более длинного устойчивого словосочетания.
Признаки употребления слова в наборе словосочетаний (Sum3, Sum10, Sum50). Данные признаки проверяют, насколько данное слово было продуктивным в образовании словосочетаний предметной области.
Пусть w - слово. Среди всех словосочетаний, содержащих слово w, выберем k наиболее частотных. Пусть Sum - cумма их частотностей. Тогда
.
Признаки, полученные на основе выдачи глобальной поисковой машины. Для вычисления следующих двух признаков были использованы контексты употребления слов. В качестве таких контекстов мы используем сниппеты (аннотации документов в выдаче), получаемые от поисковой машины Яндекс через xml-интерфейс.
Для вычисления признаков использовалось по 100 сниппетов из выдачи. Сниппеты, получаемые по одному запросу, соединяются в один документ и обрабатываются программой морфологического анализа. В результате для каждого набора сниппетов может быть определена совокупность лемм (слов в словарной форме) и их частотность встречаемости в данном наборе сниппетов.
Для терминов существенным является принадлежность к предметной области. Простейший способ учесть фактор принадлежности к предметной области является задание списка маркеров предметной области, включающих некую совокупность (от нескольких единиц до нескольких десятков) наиболее характерных слов предметной области.
Признак Markers учитывает количество таких слов, встретившихся в сниппетах, полученных для исходного слова. В данном случае в качестве маркеров мы использовали названия основных наук и образованных от них прилагательных: математика, математический, физика, физический, химия, химический и др.
Другим признаком, получаемым на основе сниппетов, является количество слов-определений в сниппете слова. Смысл признака Neardefwords (количество слов-определений в сниппетах) заключается в том, что если в сниппетах рядом с исходным словом встречаются слова, характерные для определения в терминологических словарях (это, тип, вид, класс и др.), то, скорее всего, это термин, для которого вводится определение. Признак Neardefwords равен количеству таких слов, появившихся непосредственно рядом (слева или справа) с исходным словом в сниппетах, полученных по запросу, совпадающему с исходным словом.
Признак встречаемости слова в терминах тезауруса. Предположим, что разработка тезауруса предметной области уже начата, и в тезаурус внесена некоторая совокупность терминов. Тогда как дополнительный признак для определения терминологичности слова можно использовать признак количества терминологических словосочетаний, в которые входит данное слово - признак FreqByThes.
В текущем эксперименте мы использовали полную совокупность многословных терминов онтологии ОЕНТ и, таким образом, пытались оценить, насколько можно предсказать терминологичность отдельного слова на этой основе.
3. Результаты эксперимента
Все эксперименты проводились с выборкой величиной 5 тысяч слов, для которых были обсчитаны все вышеперечисленные признаки. В качестве эталонного множества терминов использовались однословные термины, включенные в состав Онтологии ОЕНТ. Табл.1 представляет характеристику средней точности AvP для отдельных характеристик слов. Отметим, что в качестве базового уровня, в котором не было сделано реально никакого разумного упорядочения, для эксперимента можно взять простое упорядочение по алфавиту, для которого величина средней точности оказалась равной 22%.
Как видно в таблице 1, такие признаки как Tf*idf и Странность, которые учитывают контрастные коллекции, показали более хорошие значения средней точности по сравнению с простым признаком частотности, однако очевидно, что их использование не решает проблему определения терминологичности отдельных слов.
Табл.1
Признак |
AvP |
|
Частотность |
46% |
|
Tf*idf |
51% |
|
C-value |
46% |
|
Странность |
52% |
|
Наиболее частотное словосочетание Inside |
51% |
|
Sum3 |
52% |
|
Sum10 |
54% |
|
Sum50 |
54% |
|
Близкие слова-определения NearDefWords |
54% |
|
Ключевые слова Markers |
46% |
|
Частотность по терминам FreqByThes |
66% |
Предложенные нами признаки Sum10 и Sum50 показали самые высокие показатели средней точности среди признаков, полученных на коллекции документов. словосочетание поисковый терминологический
Самые высокие результаты по предсказанию однословных терминов показал признак частотности по многословным терминам FreqByThes. Поскольку можно предположить, что вычисленные признаки отражают разные особенности однословных терминов, то является важным подобрать оптимальную комбинацию этих признаков. Для поиска наилучшей комбинации были использованы алгоритмы машинного обучения. При этом выборка слов случайным образом разбивалась на две части (обучающая выборка и контрольная выборка) в соотношении 3 к 1.
Для подбора алгоритма комбинирования полученных признаков был использован программный пакет алгоритмов машинного обучения RapidMiner (www.rapidminer.com). Наилучшим методом по величине средней точности оказался метод логистической регрессии W-Logistic, на основе которого было достигнуто значение средней точности AvP=72%.
Таким образом, мы видим, что комбинация всех признаков дала результат по мере средней точности, почти на 40% превышающий наиболее известный способ упорядочения слов-кандидатов в термины tf*idf .
Заключение
В данной статье было предложено для извлечения однословных терминов использовать три различных типа признаков слов. Помимо наиболее известного способа формирования признаков слов на основе обработки текстовой коллекции предметной области используются также признаки, порожденные на основе выдачи глобальных поисковых машин, а также признак, вычисляемый на основе известных терминологических словосочетаний предметной области.
Кроме того, мы предложили новые признаки, основанные на коллекции текстов предметной области. Это признаки, которые учитывают частотность употребления данного слова в заданном числе наиболее частотных словосочетаний.
Наконец, было выполнено комбинирование всех собранных признаков посредством использования методов машинного обучения, и был получен результат средней точности по упорядочению слов-терминов в упорядоченном списке, который на 40% превышает результат по наиболее часто используемому признаку - tf*idf.
Список литературы
1. [Агеев и др., 2004] Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП'2004 // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004). - Пущино, 2004.
2. [Браславский и др., 2006] Браславский П.И., Соколов Е.А. Сравнение четырёх методов автоматического извлечения двусловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии Труды международной конференции «Диалог 2006». М.: Изд-во РГГУ, 2006.
3. [Добров и др., 2005] Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска. // Труды 7-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL-2005.
4. [Некрестьянов и др., 2008] Некрестьянов И., Некрестьянова М. Особенности организации и проведения РОМИП 2008. Код доступа: http://romip.ru/romip2008/2008_01_organizers.pdf.
5. [Ahmad et al., 1999] Ahmad K., Gillam L., Tostevin L. University of Surrey participation in Trec8: Weirdness indexing for logical documents extrapolation and retrieval // In the Proceedings of Eigth Text Retrieval Conference (Trec-8). 1999.
6. [Ananiadou, 1994] Ananiadou S. A methodology for automatic term recognition // In the Proceedings of COLING-1994, 1994.
7. [Pecina et al., 2006] Pecina P., Schlesinger P. Combining association measures for collocation extraction // Annual Meeting of the Association for Computational Linguistics, ACL 2006. ACM: 2006.
8. [Zhang et al., 2008] Zhang Z., Iria J., Brewster Ch., Ciravegna F. A Comparative Evaluation of Term Recognition Algorithms // In Proceedings of the Sixth International Language Resources and Evaluation (LREC'08). 2008.
Аннотация
Использование методов машинного обучения для извлечения слов-терминов. Н.В. Лукашевич (louk_nat@mail.ru), НИВЦ МГУ, Москва. Ю.М. Логачев (yulogachev@gmail.com), ВМиК МГУ, Москва
В статье описывается метод для автоматического извлечения однословных терминов. Отдельные признаки слов извлекаются на основе обработки текстовой коллекции и анализа поисковой выдачи на запросы глобальной поисковой машины. Полученные признаки комбинируются с помощью методов машинного обучения. Показано, что путем комбинирования признаков удается достичь наилучшего качества извлечения однословных терминов.
Ключевые слова: извлечение знаний из текстов, извлечение терминов, машинное обучение.
Размещено на Allbest.ru
...Подобные документы
Анализ особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Характеристика научно-технического языка. Анализ текста и выявление влияния контекста на перевод медицинских терминов.
дипломная работа [159,6 K], добавлен 28.10.2012Стилистическая классификация заимствованных слов. Стилистически не оправданное употребление заимствованных слов. Лексика, имеющая ограниченную сферу распространения. Термины как слова, заимствованные из других языков. Канцеляризмы и речевые штампы.
реферат [33,6 K], добавлен 09.11.2007Понятие исконно русской лексики, причины заимствования из других языков. Появление слов–интернационализмов, слов-калек, слов-экзотизмов и варваризмов. Приспособление иностранных слов к русским графическим и языковым нормам, орфоэпические нормы.
реферат [27,6 K], добавлен 25.10.2010Заимствование как языковое явление. Иноязычное происхождение слов, освоенных русским языком. Этапы процесса освоения иностранного слова. Роль и состав иноязычных заимствованных слов в современной прессе. Основные тенденции их употребления в печати.
курсовая работа [26,0 K], добавлен 01.12.2012Определение терминов "специальный", "специальная лексика". Разновидности специальных слов: термины, профессиональные слова. Примеры употребления узкоспециальных и общеупотребительных видов терминов. Влияние специальных слов на разнообразие лексики людей.
презентация [1,6 M], добавлен 14.04.2014Правила употребления артиклей: "a", "the" или нулевой артикль. Множественное число имен существительных в английском языке. Использование имен прилагательных в правильной форме. Правила употребления местоимений. Отрицание в английских предложениях.
контрольная работа [35,5 K], добавлен 04.03.2011Характеристика научно-технического языка. Общее понятие терминологических клише и устойчивых словосочетаний в теории перевода. Особенности перевода в научно-технической литературе. Влияния контекста на перевод медицинских терминов и международных заявок.
дипломная работа [76,0 K], добавлен 22.10.2012Теоретические аспекты рассмотрения особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Анализ конкретного текста и выявление влияния контекста на перевод специальных терминов.
курсовая работа [77,3 K], добавлен 09.11.2012Исключение языковых элементов, чуждых литературному языку и отвергаемых нормами нравственности. Ударения в словах, замена неверно употребленных в предложении слов. Использование синонимов, определение рода существительных, согласование в предложениях.
контрольная работа [20,1 K], добавлен 02.12.2010Ошибки в употреблении слов-паронимов. Различия между значением и употреблением форм множественного числа. Использование омонимов и паронимов и их стилистическая функция. Употребление иноязычных слов, источник их происхождения и уместность употребления.
контрольная работа [23,1 K], добавлен 23.09.2011Особенности употребления фразеологизмов. Стилистическое использование фразеологических средств языка. Функции фразеологических оборотов в различных стилях речи. Использование "крылатых слов", пословиц, поговорок. Фразеологическое новаторство писателей.
реферат [44,5 K], добавлен 13.01.2011Стилистические функции имён прилагательных. Стилистическое использование имён прилагательных в художественной речи. Употребление имён прилагательных в газетно-публицистическом стиле. Семантические ошибки при употреблении имён прилагательных в текстах СМИ.
реферат [28,1 K], добавлен 17.01.2011Проблема правильного и уместного употребления слов. Единицы языка как ячейки семантики. Морфемы полнозначных слов. Типы семантических отношений. Возможность соединения слов по смыслу в зависимости от реальной сочетаемости соответствующих понятий.
курсовая работа [40,2 K], добавлен 02.01.2017Нахождение синонимов к заданным словам. Примеры русских пословиц и поговорок об уме человека. Определение стиля текста. Правила написания слов слитно или через дефис. Образование существительных и прилагательных, в составе которых имеются числительные.
контрольная работа [28,6 K], добавлен 13.06.2012Современные тенденции развития речи средств массовой информации, использование жаргонных слов в речи. Негативные последствия употребления ненормативной лексики. Сравнение фразеологизмов и крылатых слов, функциональная специфика трех групп интертекстем.
реферат [27,3 K], добавлен 16.02.2012Рассмотрение проблемы обучения иностранным языкам в XXI веке. Характеристика интерактивных методов обучения. Сравнительный анализ двух методик - традиционной и интерактивной. Особенности применения методов проектов, кейса, кластера, "мозгового штурма".
курсовая работа [119,1 K], добавлен 06.08.2015Основные проблемы словосложения: идентификация сложного слова и отношения между его компонентами. Классификация сложных слов в английском и арабском языках. Порядок образования сложных имен существительных и прилагательных, а также сложных глаголов.
дипломная работа [144,0 K], добавлен 25.11.2011Определение стиля текста, его стилистический анализ. Расстановка ударений и определение значения слов в тексте, подбор прилагательных к словам в словосочетаниях. Составление списка слов, используемых в профессиональной речи, и подбор к ним синонимов.
контрольная работа [19,1 K], добавлен 16.10.2010Характеристика методов и приемов обучения аудирования на среднем этапе обучения. Теоретические основы обучение аудированию иноязычного текста. Отличительные черты этапов формирования и диагностики навыков и умений аудирования текста у учащихся в 6 классе.
дипломная работа [12,1 M], добавлен 17.09.2010Основные причины и условия лексического заимствования в русском языке. Типы иноязычных слов. Фонетические и морфологические признаки заимствованных слов. Использование иноязычной лексики в речи. Граница между заимствованными словами и экзотизмами.
реферат [31,2 K], добавлен 12.05.2014