Тематически-ориентированный подход в задаче поиска эксперта

Обзор проблемы "поиска эксперта". Применение модели LDA для решения различных прикладных задач. Латентное размещение Дирихле. "Поиск эксперта" используя LDA модель. Диверсификация экспериментальной выборки. Новый двухфакторный способ поиска экспертов.

Рубрика Математика
Вид дипломная работа
Язык русский
Дата добавления 13.11.2015
Размер файла 821,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Данные для исследования были представлены в ArchStudio, которые включали в себя 56 компонентов и 42 связующие части между ними. Данная система также включала в себя ссылки на всевозможные вспомогательные ресурсы (учебники, презентации, спецификации проектов, заархивированная переписка, страницы Wikipedia, записи разработчика и отчеты об ошибках).

Для того, чтобы проверить эффективность работы данной модели, авторы внедрили свои разработки в несколько инструментов, которые позволяют отслеживать артефакты, принадлежащие к разработке продукта - поиск среди артефактов (TRACE), система автоматического добавления ссылок между использованными артефактами (ACTS), инструмент визуализации трассируемости (TEAM).

Для более объективной оценки, результаты были сравнены с показателями модели LSI (Latent Semantic Indexing). Несмотря на то, что проведенные ранее исследования говорят о том, что модель LDA в принципе превосходит LSI, авторы еще раз убедились в данном факте на использованных данных.

Авторы убеждены в том, что сочетание ретроспективной трассируемости и тематического моделирования - одна из наиболее многообещающих сфер исследования, несмотря на то количество вопросов, на которые они так и не смогли ответить в ходе работы.

Статьи, приведенные для обзора ранее, говорят о том, что применение модели латентного размещения Дирихле возможно на совершенно разных данных: от записей в блогах до артефактов программного обеспечения. Кроме того, данный алгоритм хоть и выполняет общую задачу - тематическое моделирование, однако способы его применения не ограничены. Данное ретроспективное исследование областей применения LDA, позволяет выдвинуть гипотезу о том, что анализ новостей для тематического моделирования, а также поиска эксперта, может показать неплохие результаты также на новостных статьях.

Глава 2. Практическая часть

Цель практической работы заключалась в том, чтобы создать собственный русскоязычный алгоритм для «поиска эксперта». Этот алгоритм мог бы использоваться, как часть вспомогательного инструмента, например, для оценки и выражения мнения эксперта по той или иной новости, для рассылки релевантных новостей в области научных исследований эксперта. Кроме того, данный инструмент позволяет постоянно быть в курсе новых открытий или исследований в своей области, что позволяет сократить время поиска и улучшить эффективность научного сотрудника.

В качестве экспертов в данном исследовании представлены преподаватели Высшей Школы Экономики, Нижегородского филиала. Каждый из них имеет узкий профессиональный круг интересов и является экспертом в области своей научной деятельности. Это утверждение позволяет провести практический эксперимент по использованию тематического моделирования с использованием латентного размещения Дирихле.

Коллекция документов

Каждый преподаватель Высшей Школы Экономики (ВШЭ) является научным сотрудником и имеет свой профессиональный круг интересов. Сделаем утверждение о том, что публикации каждого преподавателя формируют список данных интересов, а также сферы владения информацией по той или иной тематике. Свободный доступ к списку и содержанию публикаций, статей делает возможным анализ на основе данной коллекции текстовых документов. Итак, в качестве обучающей выборки, будем использовать аннотации научных публикаций преподавателей НИУ ВШЭ. Каждый из преподавателей является представителем факультета и кафедры, а также имеет собственную узкую тематику, в которой является «экспертом».

Экспериментальная выборка

Для того, чтобы данный алгоритм работал эффективно, был проведен анализ обучающей выборки, который показал, что научные публикации представлены в следующих областях: лингвистика, право, политология, экономика, менеджмент, математика, бизнес-информатика. На основе полученных результатов, была сформирована экспериментальная выборка. В набор текстовых документов вошли научные статьи, представленные в областях обучающей выборки. Ресурсом для данного набора стали профессионально ориентированные научные онлайн журналы. Итак, экспериментальная выборка представлена 100 статьями из упомянутых ранее сфер научной деятельности.

Результаты

Как было упомянуто выше, в экспериментальную выборку вошло 100 статей из тематик: лингвистика, право, политология, экономика, менеджмент, математика, бизнес-информатика. Используя скрипт, позволяющий определять эксперта из сотрудников ВШЭ, была проведена оценка публикаций.

Как результат, программа оценивала вероятность, с которой тот или иной кандидат является экспертом в области статьи из экспериментальной выборки. Таким образом, каждая статья была оценена с помощью модели LDA. Результатом данной практики был список 11 кандидатов в эксперты и вероятность, с которой данный кандидат является экспертом и мог бы прокомментировать или оценить статью.

Таблица 1. Максимум и минимум результата оценки экспериментальной выборки.

MIN

0.00141271

MAX

0.01598002

MIN per cent

8.84045051

MAX per cent

100

В таблице 1 можем увидеть максимальные и минимальные оценки, которые мы получили используя LDA алгоритм. Как видим, даже максимальный уровень вероятности находится на очень низком уровне - чуть больше 1,5%. Для удобства проведения анализа полученных результатов, была проведена нормировка. Максимальную вероятность мы взяли как 100% вероятность, после чего рассчитали процентную вероятность для каждого вероятностного значения. После проведения нормировки, средний уровень %-ной вероятности составил 18%.

После того, как все статьи экспериментальной (тестовой) выборки были вероятностно оценены, необходимо было провести проверку работы данного алгоритма.

Для оценки полученных результатов необходимо было провести оценку кандидатов в эксперты для каждой статьи из экспериментальной выборки. Для этого каждый кандидат был определен профессиональными интересами и списком публикаций (ресурс - сайт Нижегородского филиала Высшей Школы Экономики, рубрика - «Преподаватели и сотрудники»), что в результате сопоставлялось с содержанием статьи. Каждый кандидат оценивался по шкале от 0 до 10, когда 0 - кандидат предположительно не имеет знаний в области публикации, 10 - кандидат предположительно является экспертом в области публикации.

После того, как был проведен процесс оценки кандидатов, мы получили оценку результатов, полученных при использовании модели LDA.

В таблице 2 можем увидеть пример того, как выглядит результат оценки статьи.

Стоит заметить, что не все результаты мы смогли оценить. Дело в том, что данный метод в качестве результата определяет фамилию кандидата. Однако, некоторые фамилии достаточно популярны и в этом случае, оценить уникального автора невозможно. Кроме того, невозможность оценки кандидата появлялась в том числе и тогда, где не был представлен список научных публикаций, либо профиль данного кандидата по той или иной причине отсутствовал на сайте. По этим причинам, оценки присвоены лишь 54% результатов, что существенно ухудшает качество оценки результатов.

Таблица 2. Пример результата эксперимента.

Название

Смена парадигмы мирового развития и становление сетевой экономики

Автор

Смородинская

Экономика

Оценка

Место в списке

Иванова

0.007251302

45.37729549

*

1

Романова

0.003760565

23.53291603

*

2

Ковтун

0.003052675

19.10307251

2

3

Вайсблат

0.002707936

16.94575631

7

4

Баранова

0.002243673

14.04048565

*

5

Коршунов

0.002037869

12.75260711

*

6

Смельцова

0.001920484

12.01803325

3

7

Савченко

0.001888228

11.81618077

0

8

Гапонова

0.00182515

11.42144602

1

9

Лапидус

0.001740378

10.89096007

2

10

Ефремова

0.001665497

10.42237219

*

11

Таким образом, мы получили, что средняя оценка 3,5 балла из 10. Однако, это не является критерием оценки работы данной модели. Для 91 из 100 статей был найден по крайней мере один эксперт (оценки 7, 8, 9, 10 баллов), который смог бы прокомментировать статью, обладая внушительными знаниями в конкретной тематике. Последующий анализ показал, что более 50% статей, для которых не был определен эксперт не включали в себя краткое содержание статьи, ключевых слов и имя автора, что предположительно и ухудшило результаты. Данные статьи представлены в следующих тематиках: философия, право, математика, информатика, политология.

Для того, чтобы более точно оценить работу данного алгоритма, был проведен анализ максимума значений оценок данного эксперимента.

В первую очередь, были рассмотрены позиции максимума, которые можно увидеть на графике 2.

График 2. Позиция максимума.

Данный график показывает, что не существует определенной зависимости между значением максимума оценки кандидата и его местом в списке. Однако, стоит заметить, что большинство неоцененных кандидатов присутствовали в начале списка. Возможно, в ситуации, если бы у нас была возможность оценить всех экспертов данный график выглядел бы иначе.

Кроме позиций максимумов, также была проанализирована взаимосвязь значений максимумов оценок, которые были присвоены мануально и значений вероятностей, которые были присвоены алгоритмом LDA.

Таблица 3. Максимум, минимум, среднее значение полученных результатов.

Среди значений максимумов

Среднее значение

0.002650695

16.58755694

MAX

0.006174552

38.63919567

MIN

0.001506141

9.425149339

Среди всех значений

Среднее значение

0.002938533

18.38879106

MAX

0.015980023

100

MIN

0.001412706

8.840450505

В таблице 3 приведены результаты значений максимумов, минимумов, а также средних, результатов работы алгоритма LDA. Наибольшее значение вероятности предположительно говорит о том, что данная статья с большой вероятностью относится к похожей тематике. Таким образом, значение максимумов должно было оказаться выше значений всех присутствующих результатов. Но данные в этой таблицы противоречат нашим предположениям. Видим, что как среднее значение, так и значение максимума гораздо выше по всей выборке, а не по значениям максимумов. Это может говорить о том, что значение вероятности не связано со значением максимумов. Это означает, что алгоритм не всегда точно оценивает вероятность «попадания» статьи в скрытую тематику.

Для того, чтобы более точно проследить зависимость оценки и самой работы алгоритма, была построена функция максимумов, которая представлена на графике 3.

График 3. Функция максимумов значений оценки.

На данном графике можем увидеть зависимость между оценкой и значением в рейтинге релевантности, созданным алгоритмом. Хотя существует большое количество кандидатов, которые не являются кандидатами, алгоритм также показывает эффективную работу - находится хотя бы один эксперт.

Кроме того, можем заметить, что появление эксперта не является зависимым от места в рейтинге, созданным моделью LDA.

Стоит отметить, что не смотря на то, что созданная нами программа неоднозначно ранжирует кандидатом, мы можем говорить о том, что данный алгоритм с точностью 90% в каждом случае «нашел» хотя бы одного эксперта для каждой статьи из экспериментальной выборке. Это говорит о достаточной продуктивности модели LDA даже на русскоязычных источниках (хотя экспериментальная выборка достаточно сильно отличается от обучающей).

Экспериментальная выборка. Часть 2

В данном эксперименте набор тестовых данных состоит из новостных статей, представленных в четырех тематиках: Экономика, Лингвистика, Технологии, Политика. Кроме того, в экспериментальную выборку также вошли статьи по Культуре, Обществу и Праву. Общее количество новостных статей - 250. На Графике 4 представлено разбиение всей выборки по тематикам.

График 4. Диверсификация экспериментальной выборки.

Важно отметить, что для чистоты эксперимента тестовые данные были взяты из разных СМИ, источников. Разбиение по источникам приведено на Графике 5. На данном графике видно, что такие источники, как Habrahabr и Вести Финансы имеют преимущественно большее количество новостных статей, использованных для эксперимента. Дело в том, что данные новостные порталы имеют определенную специфику - они используются как сообщество «специалистов», где они имеют возможность поделиться определенной новостью. Так как новостные статьи имеют разное авторство, данные эксперимента не искажаются.

График 5. Диверсификация по источникам.

Также, как и в первой части исследования, модель латентного размещения Дирихле обучалась на публикациях преподавателей Высшей Школы Экономики. Тем не менее, в данном случае меняется не только экспериментальная выборка, но и метод поиска. Для более точного и оптимизированного поиска наша модель определяет не только эксперта, но и тематику новостной статьи. Это позволяет сделать поиск эффективнее и более интуитивным. В приведенной ниже таблицы можно увидеть результат работы алгоритма для одной из новостных статей нашей тестовой выборки.

Таблица 4. Пример результата работы алгоритма.

Название статьи

«Все изменилось с приходом рок-н-ролла»

Кино/Культура

Тематика

Пушков

0

http://www.hse.ru/org/persons/201612

рынок

3

Исаков

5

http://www.hse.ru/org/persons/68850

пособие

3

Жалинский

5

http://www.hse.ru/org/persons/69011

речь

6

Анотов

0

http://www.hse.ru/org/persons/36554830

стилистика

6

Игнатьев

3

http://www.hse.ru/org/persons/46405939

коммуникативный

6

Пономарев

0

http://www.hse.ru/org/persons/202013

потребление

6

Кораблев

3

http://www.hse.ru/org/persons/4283454

имидж

6

Колоколов

5

http://www.hse.ru/org/persons/500464

юриспруденция

3

Пышкина

3

http://www.hse.ru/org/persons/201937

конференция

1

Жужома

1

http://www.hse.ru/org/persons/46579220

стоимость

1

В новом эксперименте, мы изменили выходные данные. Так, теперь вместо фамилии, мы получаем ссылку на профиль кандидата на главном сайте Высшей Школы Экономики. Тем самым, мы исключили проблему поиска экспертов с одинаковыми фамилиями. В настоящий момент, результат, который мы получаем в качестве кандидата является уникальным.

Так как в качестве тестовых данных, мы используем новостные статьи, а не научные (как на первом этапе эксперимента), была выдвинута гипотеза о том, что качественно результат будет хуже. Это касается, во-первых, размера новостных статей. Объем новостных статей: от 700 до 2500 символов; объем научных статей: от 6000 символов. В теоретической части мы рассмотрели несколько работ на основе модели LDA, убедившись, что качество результатов ухудшается при уменьшении текста. Во-вторых, научные статьи, на которых обучалась модель написаны в определенном стиле, который подразумевает использование терминологии, в то время как публицистический стиль не имеет данной специфики.

В зависимости от сферы применения языка, содержания высказывания, ситуации и целей общения выделяется несколько функционально-стилевых разновидностей, или стилей. У них есть определенная система отбора и организации в них языковых средств. В основе классификации стилей лежат: сфера применения языка, обусловленная ею тематика и цели общения. В соответствии с самыми важными функциями языка выделяются стили: 1. разговорный (общения); 2. научный и официально-деловой (сообщения); 3. публицистический и литературно-художественный (воздействия).

Научный стиль. Ему, как и другим книжным, присущи: предварительное обдумывание высказывания, его монологический характер, строгий отбор языковых средств, стремление к нормированной речи. Возник и развивается в связи с эволюцией различных областей научных знаний. В России язык науки сложился ко 2й половине 19 в. Научный стиль имеет свои разновидности: научно-популярный, научно-деловой, научно-технический, научно-публицистический, учебно-научный. Цели научного сообщения: точно объяснить факты действительности, показать причинно-следственные связи между явлениями, выявить закономерности исторического развития и т.д. Характеризуется логической последовательностью изложения, система связей между частями высказывания упорядочена, авторы стремятся к точности, сжатости, однозначности, сохраняя при этом насыщенность содержания. Иногда используются эмоционально-экспрессивные и изобразительные средства языка (например, в полемических научных работах). Характерные черты научного стиля: используется много терминов, абстрактная лексика (фактор, развитие, творчество - которые употребляются в прямом значении), имеется своя фразеология (к ней относятся составные термины - щитовидная железа, точка пересечения, звонкие согласные; также различного рода клише - состоит из…, применяется для… ), есть свои грамматические особенности (в области морфологии используются более кратные вариантные формы для экономии языковых средств (вместо «манжета» - «манжет»: т.е. формы мужского рода); часто употребляется единственное число в значении множественного: «Волк - хищное животное из рода собак» (называется целый класс предметов с указанием их характерных признаков); авторы стремятся употреблять меньше глаголов и больше существительных, часто используют глагольно-именную конструкцию, прилагательные, которые указывают на различные признаки понятия и так выполняют терминологическую функцию; в синтаксисе тенденция к сложным построениям (для этого используют предложения с однородными членами и обобщающим словом), в сложных предложениях часто составные подчинительные союзы).

Публицистический стиль связан с общественно-политической сферой. Это газетные и журнальные статьи на политические и другие общественно значимые темы, ораторские выступления на митингах и собраниях, по радио, телевидению и т.д. Важная особенность - сочетание функции сообщения (информативной) и функции воздействия (воздействующей, или экспрессивной). Говорящий использует этот стиль тогда, когда ему необходимо не только передать какую-то информацию (сообщение), но и произвести на адресата определенное воздействие. Автор, передавая факты, выражает свое отношение к ним. Этим и обусловлена яркая эмоционально-экспрессивная окраска публицистического стиля. Экспрессия чаще на первый план выдвигается в памфлетах, фельетонах. Стандарт - в газетной статье, хроникальной заметке. Стандарты могут стать речевыми штампами (плюрализм, коренной, радикальный - от очень частого повторения. Лексические средства стиля: лексемы, имеющие специфическую стилистическую окраску (посланец, созидание, свершения, мощь - имеют социально-оценочный характер). Много публицистической фразеологии: мирное наступление, сокращение вооружений, локальные споры, сила диктата). Много слов, публицистически окрашенных только в переносном значении (практические шаги, национальная стряпня, пакет мирных предложений). В переносном значении часто используются термины из области науки: позитивный (позитивные результаты). Характерная особенность публицистически окрашенных слов - их эмоционально-оценочный, экспрессивный характер, причем оценка асоциальна. Есть слова с положительной оценкой (процветание), с отрицательной (расизм). Употребляются варваризмы и экзотизмы из-за интенсивных международных контактов. Как и в других стилях, тут сочетаются стилистически окрашенные элементы с нейтральными. Характерно употребление единственного числа существительного в значении множественного; повелительных форм глагола; родительного падежа; отрицательных частиц не и ни. Много экспрессивных конструкций. Часто обратный порядок слов.

Но функции часто переплетаются: в публицистическом стиле, например, помимо воздействия ещё и функция сообщения (коммуникативно-информационная). В самых общих чертах функционально-стилевое расслоение лексики выглядит так: лексика, которая не закреплена в функционально-стилевом отношении (общеупотребительная) и лексика, которая закреплена в функционально-стилевом отношении (делится на разговорную и книжную (на научную, официально-деловую, публицистическую). Ещё нужно учитывать, что: 1. основа любого стиля - общеязыковые, межстилевые средства; 2. стили замкнуты лишь относительно, они взаимодействуют между собой, границы между ними подвижны.

Результаты. Часть 2

Так и мы пришли к результатам нашего исследования. Например, если сравнить средние оценки экспертов по научным статьям и новостным - данные отличаются не более, чем на 0,5. Результаты приведены в таблице ниже.

Таблица 5. Средние оценки эксперимента.

статьи

Средняя оценка эксперта

3.01

Средняя оценка тематики

3.77

новости

Средняя оценка эксперта

2.75

Средняя оценка тематики

3.33

Кроме того, для нового исследования интересно было также посмотреть, меняется ли результат эксперимента от темы тестовых данных.

Таблица 6. Средние оценки эксперимента по тематикам.

Культура, Общество, Право

Средняя оценка эксперта

2.97

Средняя оценка тематики

3.34

Лингвистика

Средняя оценка эксперта

1.70

Средняя оценка тематики

3.29

Политика

Средняя оценка эксперта

3.03

Средняя оценка тематики

3.18

Технологии

Средняя оценка эксперта

2.26

Средняя оценка тематики

3.21

Экономика

Средняя оценка эксперта

3.79

Средняя оценка тематики

3.60

Однако, средние оценки экспертов и ключевых слов не описывают всю ситуацию в целом. В первую очередь, было также интересно посмотреть, какая часть из предложенных кандидатов действительно является экспертами. Придерживаясь, 10-балльной шкалы оценки, мы считаем, что кандидата действительно можно считать экспертом, если его оценка достигает 6 и более баллов. Ниже в таблице можно увидеть результаты по общему объему выборке и разделам.

Таблица 7. Вероятность нахождения эксперта по тематике.

Раздел

Попадание эксперта

Попадание тематики

КОП

25.60%

33.00%

Лингвистика

13.20%

34.60%

Политика

34.80%

34.20%

Технологии

17.00%

32.80%

Экономика

37.00%

35.40%

Среднее

25.52%

34.00%

Очевидно, что наибольшая часть экспертов определяется в разделе Экономики и Политики. На мой взгляд, это связано с тем, что достаточно большая часть исследований, на которых обучалась модель, принадлежит преподавателям факультета Экономики и Права. Поэтому наша модель ведет себя чувствительнее относительно данных разделов.

Кроме того, можно заметить, что процент фактически «правильных» ключевых слов не зависит от раздела новостной статьи.

Регрессионный анализ позволяет также в очередной раз подтвердить гипотезу о том, что применение латентного размещения Дирихле гораздо более эффективно на текстах большого размера. На рисунке ниже видим, что зависимая Y имеет положительную связь с X Variable 1 (длина новостной статьи).

Таблица 8. Результат регрессионного анализа.

Мы также проанализировали, какие ключевые слова являются наиболее популярными (наибольшее количество раз выдвигались моделью в TOP-10), а также наиболее точными. В таблицах ниже приведены результаты 20 самых популярных и точных ключевых слов.

Таблица 9. Самые вероятные «ключевые слова».

Самые точные

Попадение

Использование

Точность

1

язык

9

9

100%

2

бизнес-процесс

2

2

100%

3

комментарий

38

44

86%

4

преюдиция

11

13

85%

5

специализация

31

43

72%

6

коммуникативный

90

132

68%

7

функция

12

21

57%

8

предприятие

5

9

56%

9

речь

79

157

50%

10

ес

2

4

50%

11

суд

13

28

46%

12

область

66

145

46%

13

цена

3

7

43%

14

правосознание

9

21

43%

15

стилистика

60

150

40%

16

отрасль

28

74

38%

17

технология

3

9

33%

18

стоимость

19

59

32%

19

развитие

3

10

30%

20

риск-менеджмент

36

124

29%

Таблица 10. Самые популярные «ключевые слова».

Самые популярные

Попадение

Использование

Точность

1

рынок

65

250

26%

2

пособие

64

236

27%

3

юриспруденция

38

173

22%

4

конференция

29

171

17%

5

речь

79

157

50%

6

стилистика

60

150

40%

7

область

66

145

46%

8

коммуникативный

90

132

68%

9

риск-менеджмент

36

124

29%

10

образ

19

113

17%

11

дисциплина

26

94

28%

12

отрасль

28

74

38%

13

производство

14

72

19%

14

стоимость

19

59

32%

15

промышленность

15

58

26%

16

потребление

14

51

27%

17

поставка

11

48

23%

18

комментарий

38

44

86%

19

безопасность

0

44

0%

20

специализация

31

43

72%

Для сравнения результатов, мы рассчитали их точность (новости и научные статьи). Несмотря на то, что средние оценки новостей немного хуже оценок научных статей, результаты вычисления точности достаточно отличаются от них.

Таблицы, приведенные ниже содержат результаты оценки точности как эксперта, так и ключевых слов.

Таблица 11. Точность результатов (оценки 6 и выше).

Порог = 6 и больше

Старые данные

Все новые данные

Эксперты

Ключевые слова

Эксперты

Ключевые слова

P(1) = 17

P(1) = 37

P(1) = 19

P(1) = 26

P(2) = 24

P(2) = 41

P(2) = 34

P(2) = 59

P(3) = 44

P(3) = 41

P(3) = 46

P(3) = 81

P(4) = 55

P(4) = 48

P(4) = 55

P(4) = 87

P(5) = 62

P(5) = 48

P(5) = 63

P(5) = 92

P(6) = 65

P(6) = 48

P(6) = 70

P(6) = 94

P(7) = 65

P(7) = 55

P(7) = 78

P(7) = 97

P(8) = 75

P(8) = 62

P(8) = 83

P(8) = 98

P(9) = 82

P(9) = 65

P(9) = 89

P(9) = 98

P(10) = 86

P(10) = 72

P(10) = 92

P(10) = 99

MAP(10) = 57

MAP(10) = 51

MAP(10) = 62

MAP(10) = 83

Таблица 12. Точность результатов (оценки 8 и выше).

Порог = 8 и больше

Эксперты

Ключевые слова

Эксперты

Ключевые слова

P(1) = 10

P(1) = 24

P(1) = 10

P(1) = 20

P(2) = 10

P(2) = 27

P(2) = 18

P(2) = 43

P(3) = 24

P(3) = 27

P(3) = 26

P(3) = 53

P(4) = 27

P(4) = 31

P(4) = 33

P(4) = 56

P(5) = 34

P(5) = 31

P(5) = 40

P(5) = 58

P(6) = 48

P(6) = 31

P(6) = 47

P(6) = 61

P(7) = 48

P(7) = 37

P(7) = 54

P(7) = 63

P(8) = 58

P(8) = 44

P(8) = 60

P(8) = 66

P(9) = 68

P(9) = 48

P(9) = 64

P(9) = 66

P(10) = 75

P(10) = 51

P(10) = 70

P(10) = 68

MAP(10) = 40

MAP(10) = 35

MAP(10) = 42

MAP(10) = 55

Очевидно, что результаты оценки точности экспертов отличаются не так сильно, как оценки точности ключевых слов. Стоит отметить, что скорее всего это связано с характерной чертой публицистического стиля. Дело в том, что чаще всего новостные статьи представляют собой комбинацию нескольких тематик. Так, например, политическая новость чаще всего содержит в себе юридические термины; экономические новости также имеют отношение к политике, так как данные понятия достаточно сильно связаны. Таким образом, данные стилевые характеристики помогают наиболее точно определить ключевые слова текста.

Выводы

Латентное размещение Дирихле является в настоящее время одним из самых популярных способов «поиска эксперта». В сравнении с другими рассмотренными в работе подходами, данная модель значительно улучшает качество поиска и кроме того, определяет скрытые темы, концепты. Именно это делает LDA модель наиболее эффективной в сфере «поиска эксперта». Выявление скрытых концептов помогает установить связи не только между словами, но и связь между кандидатом и сгенерированным поисковым запросом. Таким образом, данная модель является одним из лучших решений для выявления эксперта в различных областях. Это позволяет использовать данную модель для решения прикладных задач, связанных с поиском человека, обладающего заданными навыками.

Нашей задачей было рассмотреть и проанализировать, как действует данный алгоритм, его альтернативы и практическое применение. В качестве практической части было интересно посмотреть, как произведенный на основе LDA модели скрипт будет работать на русском языке. Для чего было проведено исследование с последующим анализом.

Результаты использования модели LDA даже на русском языке показали эффективную работу в задаче нахождения эксперта с помощью «выявления» скрытых тематик. В более чем 90% случаев данный алгоритм находил хотя бы одного эксперта, способного проанализировать статью.

Действие алгоритма впервые было применено не только для тематического моделирования, но и для поиска эксперта одновременно. На наш взгляд, такой двухфакторный поиск эксперта может дать более эффективные результаты, так как данная система имеет пользовательскую направленность.

Стоит отметить, что сам эксперимент представлял собой две части: исследование модели LDA на выборке научных статей, а также на новостных статьях. Данный вариант эксперимента позволил нам сравнить имеющиеся результаты. Несмотря на невысокие ожидания, модель, трестирующаяся на новостных статьях также доказала эффективность алгоритма, в некоторых случаях даже превышая результаты первого эксперимента. В этом случае необходимо упомянуть, что новостные статьи (подобранные нами) представляют собой комбинацию как тематик, так и стилей. Если научная статья чаще всего представляет собой узконаправленное исследование, то новостная статья, чаще всего сочетает в себе несколько направлений. В нашем случае модель LDA, представляя вероятностное распределение тематик, показала лучшие результаты.

Кроме того, что мы доказали эффективность латентного размещения Дирихле в поиске эксперта на русском языке, данные, полученные в ходе эксперимента говорят о том, что модель может быть использована не только на научных статьях, но и других данных. Это доказательство расширяет границы и способы применения модели. Фактически, модель может быть использована для автоматической рассылки новостей (тематики которых построены на интересах пользователя), для поиска собеседника на том или ином портале, для анализа текстов на вопрос популярности автора и т.д. Все ранее проведенные исследования, а также результаты нашего исследования говорят о том, что, возможно, грани применения данной модели исследованы не полностью. Именно поэтому модель LDA остается популярной среди исследователей в области информационного поиска уже более 10 лет.

Список литературы

1. Маслов Ю. С. Введение в языкознание: Учеб. для филол. спец. вузов.--2-е изд., перераб. и доп.--М.: Высш. шк., 1987.--272 с: ил.

2. Реформатский А. А. Введение в языковедение/Под ред. В.А. Виноградова. - М.: Аспект Пресс, 1996.- 536 с.

3. David M. Blei Latent Dirichlet Allocation / David M. Blei, Andrew Y. Ng, Michael I. Jordan - Journal of Machine Learning Research 993-1022, 2003.

4. David M. Blei A correlated topic model of Science / D. Blei, J. Lafferty. Annals of Applied Statistics. 1:1 17-35, 2007.

5. Minghui Qiu It is not just what we say, but how we say them: LDA-based Behavior-Topic Model / Minghui Qiu, Feida Zhu, Jing Jiang - Research Collection School Of Information Systems, 2013.

6. J. Park Keyword extraction for blogs based on content richness / J. Park, J. Kim, J. Lee. Journal of Information Science, 38-49, 2013.

7. T. Yano Predicting Response to Political Blog Posts with Topic Models / T. Yano, William W. Cohen, Noah A. Smith. NAACL '09 Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, 477-485, 2009.

8. R. Mehrotra Improving LDA topic models for microblogs via Tweet pooling and automatic labeling / R. Mehrotra, S. Sanner, W. Buntine, L. Xie. SIGIR '13 Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval, 889-892, 2013.

9. R. Nallapati Link-PLSA-LDA: A New Unsupervised Model for Topics and Influence of Blogs / R. Nallapati, W. Cohen In Proceedings of the International Conference on Weblogs and Social Media (ICWSM), 2009.

10. K. Christidis Using latent topics to enhance search and recommendation in Enterprise Social Software / Konstantinos Christidis, Gregoris Mentzas, Dimitris Apostolou Expert Systems with Applications, 9297-9307, 2012.

11. Jose S. Pedro Multiple Outcome Supervised Latent Dirichlet Allocation for Expert Discovery in Online Forums / Jose S. Pedro, Alexandros Karatzoglou In AAAI (Late-Breaking Developments), 2013.

12. Ramesh Nallapati LeadLag LDA: Estimating Topic Specific Leads and Lags of Information Outlets / Proceedings of the Fifth International Conference on Weblogs and Social Media, 2011.

13. A. U. Asuncion Software Traceability with Topic Modeling / Asuncion, A.U. ; Taylor, R.N. Software Engineering, 2010 ACM/IEEE 32nd International Conference on (Volume:1 ), 95-104, 2010.

14. S. Momtazi Topic modeling for expert finding using latent Dirichlet allocation / Saeedeh Momtazi, Felix Naumann Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery Volume 3, Issue 5, pages 346-353, 2013.

15. M. Rosen-Zvi The Author-Topic Model for Authors and Documents / M. Rosen-Zvi, T. Griffits, M Steyvers, P. Smyth In Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence, 2004.

Размещено на Allbest.ru

...

Подобные документы

  • Законы алгебры Буля и их применение для преобразования логических выражений. Расчет информационной емкости документов предметной области. Построение инфологической, реляционной и даталогической моделей. Применение методов поиска и сортировки данных.

    курсовая работа [261,7 K], добавлен 05.01.2013

  • Понятие "задача" и процесс ее решения. Технология обучения приемам восприятия и осмысления, поиска и составления плана решения. Методика обучения решению задач различными методами. Сущность, смысл и обозначение дробей, практические способы их сравнения.

    методичка [242,5 K], добавлен 03.04.2011

  • Поиск оптимального решения. Простейший способ исключения ограничений. Многомерные методы оптимизации, основанные на вычислении целевой функции. Метод покоординатного спуска. Модифицированный метод Хука-Дживса. Исследование на минимум функции Розенброка.

    курсовая работа [697,6 K], добавлен 21.11.2012

  • Сущность понятия "дифференциальное уравнение". Главные этапы математического моделирования. Задачи, приводящие к решению дифференциальных уравнений. Решение задач поиска. Точность маятниковых часов. Решение задачи на определение закона движения шара.

    курсовая работа [918,7 K], добавлен 06.12.2013

  • Поиск оптимальных значений некоторых параметров в процессе решения задачи оптимизации. Сравнение двух альтернативных решений с помощью целевой функции. Теорема Вейерштрасса. Численные методы поиска экстремальных значений функций. Погрешность решения.

    презентация [80,6 K], добавлен 18.04.2013

  • Разработка простого метода для решения сложных задач вычислительной и прикладной математики. Построение гибкого сеточного аппарата для решения практических задач. Квазирешетки в прикладных задачах течения жидкости, а также применение полиномов Бернштейна.

    дипломная работа [1,9 M], добавлен 25.06.2011

  • Рассмотрение эффективности применения методов штрафов, безусловной оптимизации, сопряженных направлений и наискорейшего градиентного спуска для решения задачи поиска экстремума (максимума) функции нескольких переменных при наличии ограничения равенства.

    контрольная работа [1,4 M], добавлен 16.08.2010

  • Математическое программирование - область математики, в которой изучаются методы решения задач условной оптимизации. Основные понятия и определения в задачах оптимизации. Динамическое программирование – математический метод поиска оптимального управления.

    презентация [112,6 K], добавлен 23.06.2013

  • Изучение численно-аналитического метода решения краевых задач математической физики на примере неоднородной задачи Дирихле для уравнения Лапласа. Численная реализация вычислительного метода и вычислительного эксперимента, особенности их оформления.

    практическая работа [332,7 K], добавлен 28.01.2014

  • Развитие численных линейных методов решения задач линейного программирования. Знакомство с методами поиска целевой функции: равномерный симплекс, методы Коши, Ньютона, сопряжённого градиенты, квазиньютоновский метод. Алгоритмы нахождения экстремума.

    курсовая работа [716,1 K], добавлен 12.07.2012

  • Понятие Диофантовых уравнений, их сущность и особенности, методика и этапы решения. Великая теорема Ферма и порядок ее доказательства. Алгоритм решения иррациональных уравнений. Метод поиска Пифагоровых троек. особенности решения уравнения Каталана.

    учебное пособие [330,2 K], добавлен 23.04.2009

  • Граф как совокупность объектов со связями между ними. Характеристики ориентированного и смешанного графов. Алгоритм поиска кратчайшего пути между вершинами, алгоритм дейкстры. Алгебраическое построение матрицы смежности, фундаментальных резервов и циклов.

    методичка [29,4 M], добавлен 07.06.2009

  • Вычисление интеграла, выполнение интегрирования по частям. Применение метода неопределенных коэффициентов, приведение уравнения к системе. Введение вспомогательных функций в процессе поиска решения уравнения и вычисления интеграла, разделение переменных.

    контрольная работа [617,2 K], добавлен 08.07.2011

  • Порядок и процедура поиска решения дифференциального уравнения. Теорема существования и единственности решения задачи Коши. Задачи, приводящие к дифференциальным уравнениям. Дифференциальные уравнения первого порядка, с разделяющими переменными.

    лекция [744,1 K], добавлен 24.11.2010

  • Структура текстовой задачи. Условия и требования задач и отношения между ними. Методы и способы решения задач. Основные этапы решения задач. Поиск и составление плана решения. Осуществление плана решения. Моделирование в процессе решения задачи.

    презентация [247,7 K], добавлен 20.02.2015

  • Формулировки и доказательства китайской теоремы об остатках. Доказательство с помощью метода математической индукции. Конструктивный метод доказательства. Основные алгоритмы поиска решения. Применение китайской теоремы об остатках к открытию сейфа.

    курсовая работа [1,0 M], добавлен 08.01.2022

  • Характеры и L-функции Дирихле, функциональное уравнение. Аналитическое продолжение L-функции Дирихле на комплексную плоскость; тривиальные и нетривиальные нули. Теорема Вейерштрасса о разложении в произведение целых функций. Обобщенная гипотеза Римана.

    реферат [573,1 K], добавлен 15.06.2011

  • Численные методы поиска безусловного экстремума. Задачи безусловной минимизации. Расчет минимума функции методом покоординатного спуска. Решение задач линейного программирования графическим и симплексным методом. Работа с программой MathCAD.

    курсовая работа [517,9 K], добавлен 30.04.2011

  • Применение способа решета Эратосфена для поиска из заданного ряда простых чисел до некоторого целого значения. Рассмотрение проблемы простых чисел-близнецов. Доказательство бесконечности простых чисел-близнецов в исходном многочлене первой степени.

    контрольная работа [66,0 K], добавлен 05.10.2010

  • Обыкновенные и модифицированные жордановы исключения. Последовательность решения задач линейного программирования симплекс-методом применительно к задаче максимизации: составлении опорного плана решения, различные преобразования в симплекс-таблице.

    курсовая работа [37,2 K], добавлен 01.05.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.