Тематически-ориентированный подход в задаче поиска эксперта
Обзор проблемы "поиска эксперта". Применение модели LDA для решения различных прикладных задач. Латентное размещение Дирихле. "Поиск эксперта" используя LDA модель. Диверсификация экспериментальной выборки. Новый двухфакторный способ поиска экспертов.
Рубрика | Математика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 13.11.2015 |
Размер файла | 821,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Содержание
Введение
Глава 1. Теоретическая часть
Обзор проблемы «поиска эксперта»
Латентное размещение Дирихле
«Поиск эксперта» используя LDA модель
Применение модели LDA для решения различных прикладных задач
It is not just what we say, but how we say them: LDA-based Behavior-Topic Model (2013)
Keyword extraction for blogs based on content richness (2013)
Predicting Response to Political Blog Posts with Topic Models (2009)
Improving LDA topic models for microblogs via Tweet pooling and automatic labeling (2013)
Link-PLSA-LDA: A New Unsupervised Model for Topics and Influence of Blogs (2009)
Using latent topics to enhance search and recommendation in Enterprise Social Software (2010)
Multiple Outcome Supervised Latent Dirichlet Allocation for Expert Discovery in Online Forums (2012)
LeadLag LDA: Estimating Topic Specific Leads and Lags of Information Outlets (2011)
Software Traceability with Topic Modeling (2010)
Глава 2. Практическая часть
Коллекция документов
Экспериментальная выборка
Результаты
Экспериментальная выборка. Часть 2.
Выводы
Список литературы
Введение
Большие коллекции документов различных тематик в настоящее время широко доступны в Интернете. Начиная от публикации научной статьи в электронном журнале, до ежедневных новостей и оцифрованных архивов. Огромное количество (в значительной степени) неструктурированной информации в Сети приводит к неизбежной потребности в сортировке текста, а именно - в автоматизированном анализе.
Тем не менее, разработка новых инструментов для просмотра и поиска необходимой информации, которые и позволяют продуктивно использовать такие архивы, чаще всего является серьезным технологическим вызовом, однако, открывает новые возможности для статистического моделирования.
Для наиболее точного и детального поиска часто применяется способ тематического моделирование, который позволяет определять возможные и наиболее вероятные тематики документов, таким образом, выполняя задачу сортировки текстов по определенным критериям.
Характеристика содержания документов - одна из стандартных проблем, которая рассматривается в области информационного поиска, статистической обработке естественного языка и машинного обучения. Однако, решение данной проблемы предоставляет возможности организации, классификации, или поиска среди коллекции документов.
Не так давно были созданы генеративные модели для документов, которые представляют тематическое содержимое документа на основе моделирования каждого текста как набора вероятностных тем (например, Blei, Ng, и Jordan, 2003; Hofmann, 1999).
Однако в этой работе мы рассмотрим, как эти подходы могут быть использованы для решения другой фундаментальной проблемы больших коллекций документов: моделирование интересов авторов.
Путем моделирования интересов автора, можно ответить на ряд важных запросов о содержании коллекций документов. При подходящей модели можно установить:
1. наиболее интересующие автора вопросы;
2. определить авторов, которые, вероятно, имеют работы, подобные наблюдаемому документу;
3. авторов, которые ведут подобные исследования.
Однако, наиболее интересно, широкое практическое применение такого рода моделей. Тематическое моделирование, моделирование интересов автора может быть использовано в задаче поиска эксперта. Благодаря тому, что мы имеем огромное количество данных в открытом доступе, например, публикации, лекции, мы можем не обладая достаточными знаниями по узким направлениям исследований определить сферу интересов/знаний человека и наоборот, найти эксперта в какой-либо конкретной области знаний.
Итак, если упростить задачу поиска кандидата, то это выглядит так: найти эксперта в определенной области, например, разработчик поискового робота. Кроме сферы HR, решение данной проблемы может быть использовано и в других сферах. Поиск научного руководителя по специфике интересующего его вопроса, автоматическая рассылка информации о конференциях потенциально релевантным участникам, - все это сводится к задаче поиска наиболее подходящего эксперта в определенной области знаний для последующих коммуникаций. Таким образом, решение этой проблемы очень актуально в настоящее время и может быть применено как для совершенствования Questions & Answers сообществ, так и для таргетированной рекламной рассылки.
Несмотря на популярность данной темы, на сегодняшний день существует относительно небольшое количество исследований по задаче поиска эксперта на русскоязычных данных. Поэтому, исследование данного метода на русскоязычных коллекциях документов представляет большой научный интерес и, возможно, эффективное применение в будущем для решения практических проблем.
В данной работе мы рассмотрим работу одной из самых популярных в настоящее время модели - латентного размещения Дирихле для «поиска экспертов». Более того, наиболее интересно оценить работу данной модели не на научных публикациях, блогах или социальных сетях, а новостях. Данный способ «поиска эксперта» не использовался ранее для комментирования новостей или иных событий, происходящих в данный момент времени. Мы предполагаем, что точность работы алгоритма будет меньше, так как научная лексика (на которой обучен алгоритм латентного размещения Дирихле) в значительной степени отличается от газетно-публицистической.
Для того, чтобы сделать работу алгоритма наиболее удобной для пользования, предлагаем новый - двухфакторный способ поиска экспертов, который предлагает не только экспертов (персоны) для комментирования события, но и возможные тематики, к которым относятся та или иная новость. Такой интерфейс не только сделает работу алгоритма эффективнее, но и гораздо удобнее для пользователя. Интерактивный интерфейс позволяет расширить результаты поиска в зависимости от потребностей пользователя.
Оценка работы данного способа поиска экспертов (эффективность, релевантность выдачи, интерфейс, удобство) производится с помощью опроса всех пользователей. С этой целью были заданы открытые и закрытые вопросы, оцененные с помощью шкалы Лайкерта.
Таким образом, цель данной работы: оценить и проанализировать новый двухфакторный способ поиска экспертов.
Задачи курсовой работы:
1. Рассмотреть основные понятия, касающиеся проблемы исследования: проблемы «поиска эксперта», алгоритм латентного размещения Дирихле, тематическое моделирование.
2. Исследовать эволюцию научных подходов к решению задачи «поиска экспертов» в различных сферах.
3. Проанализировать эффективность методов, алгоритмов, применявшихся ранее для тематического моделирования.
4. Разработать новый способ практического решения задачи «поиска эксперта» на русскоязычных источниках для комментирования новостей.
5. Оценить и проанализировать результаты, полученные с помощью проведенного исследования.
Глава 1. Теоретическая часть
В данной главе проведен обзор наиболее значимых исследований в области решения задачи «поиска эксперта». Это позволяет определить направление нашего исследования и сделать выбор в пользу наиболее современных и эффективных методов и алгоритмов, которые будут использованы в практической части работы.
Обзор проблемы «поиска эксперта»
«Поиск эксперта» - одна из самых популярных тем исследований в последние годы. Популярность данной темы обусловлена как актуальностью исследования, так и вниманием экспертов в области компьютерной лингвистики к данной теме на известной международной конференции TREC (Text REtrieval Conference). Задача поставлена таким образом: ранжирование кандидатов (из списка) на основе анализа коллекции документов.
Главная цель системы «поиска эксперта» состоит в том, чтобы определить с какой вероятностью кандидат C может быть экспертом в области, представленной запросом Q. Вычислив вероятность для каждого из кандидатов, далее система ранжирует их в порядке возрастания, что позволяет определить наиболее подходящего эксперта. В результате, чтобы решить задачу, необходимо найти вероятность P(C|Q). Используя теорему Байеса, получаем:
где P(C|Q) - это вероятность того, что сгенерированный запрос Q отражает всю доступную информацию о кандидате C. P(C) - априорная вероятность кандидата C, P(Q) - вероятность запроса Q. А так как P(Q) представляет собой константу для сгенерированного запроса, то может быть опущена. В следствие чего, получаем:
Исходя из данной формулы, главным фактором ранжирования кандидатов является вероятность поискового запроса для кандидата. Но и априорная вероятность кандидата также должна повлиять на ранжирование.
Большинство исследователей данной темы используют походы на основе профиля или базы документов для вычисления P(C|Q). Подход на основе профиля кандидата, в первую очередь создает профили для каждого кандидата, а затем ранжирует, вычисляя вероятность запроса для каждого из профилей. Другими словами, этот подход называют независимым от запроса, так как в первую очередь создается профиль участника C, используя документы, которые с ним связаны. А уже после этого, оценивается вероятность совпадения поискового запроса с профилем каждого участника.
В следующем, подходе на основе базы документов, система не создает профили кандидатам, а использует документы базы данных для того, чтобы связать поисковой запрос с кандидатом. Данный метод, напротив называют запросо-зависимым, так как в первую очередь определяется релевантность каждого документа введенному поисковому запросу. После этого, вычисляется ассоциативная связь каждого документа и кандидата на основе количества упоминаний автора в тексте. Исследования, проведенные учеными Фанг и Цай, Балог показывают, что результаты данного подхода превосходят результаты предыдущего метода.
Кроме того, существуют и другие подходы, например, гибридный, описанный Сердюковым и Химестра, а Балог в своей работе рассматривает метод тематического моделирование. Метод LDA также можно рассматривать как тематическое моделирование. Однако, Балог, в своем исследовании давал несколько иную интерпретацию термину «тематика». В своей работе он относил данный термин к сгенерированному поисковому запросу, тогда как в данной работе, мы рассматривает тематику, как набор концептов, извлеченных из коллекции документов, используя алгоритм тематического моделирования. В предложенным им методе вместо моделирования профилей кандидатов, строится модель для каждого запроса и, эти модели используются для вычисления вероятности. Исходя из результатов, которые были получены, данный метод превосходит вышеупомянутые. И главная причина плохой результативности - разреженность моделей, построенных на запросах.
Кроме это, существуют и другие подходы к ранжированию кандидатов. Например, графический подход или на основе данных социальных сетей.
Латентное размещение Дирихле
Модель латентного размещения Дирихле (LDA) позволяет реализовать тематическое моделирование коллекции текстов. Идея тематического моделирования состоит в том, чтобы определить, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему. Извлекая набор тем из корпуса текстов, каждый документ представляется как набор вероятностей тем. В дополнении к этому, темы также представляют собой вероятностное распределение через слова.
Модель LDA впервые была представлена Дэвидом Блей в 2003 году и с тех пор стала одной из самых популярных техник тематического моделирования. Данная модель была использована в многих приложениях по машинному обучению, обработке естественного языка и информационному поиску.
Ученые Вай и Крофт использовали LDA в языковой модели информационного поиска и сравнивали эту модель с другими информационно-поисковыми. Грифитс и Стейверс применяли LDA для выделения научных тематик из коллекций текстовых документов. Также модель была использована Розен-Цви для определения моделей «автор - тема». В этой модели в дополнении к вероятностной статистике по распределению слов, была представлена также модель, которая рассматривала каждого автора, как вероятностный набор тематик.
LDA - это генеративная, вероятностная, иерархическая Байесовская модель, которая индуцирует темы из коллекции текстовых документов в три шага:
1. Каждый документ в коллекции распределяется по темам, которые отбираются для этого документа на основе распределения Дирихле.
2. Каждое слово в документе, связано с одной из тем на основе этого Дирихле распределения.
3. Каждая тема представлена ??в виде полиномиального распределения над словами, которые назначены в выборку темы.
Рисунок 1. Графическая модель LDA.
В модели LDA ц - это матрица, которая показывает распределение T тем через W слов из словаря от Дирихле с параметром в. и - это матрица, которая представляет собой смесь распределений D документов через T тем от Дирихле с параметром б. Чтобы сгенерировать каждое слово w в документе d
Для генерации каждое слово маркер w в документе d, тема z взята из распределения тем соответствующего документа иd, тогда как слово w взято из распределения слов выбранной тему цz. Чтобы извлечь темы, используя LDA, нам нужно оценить ц и и, которые обеспечивают информацию о распределении документов по темам и тем по словам.
«Поиск эксперта» используя LDA модель
поиск эксперт латентный дирихле
В предыдущих исследованиях «поиска эксперта» было показано, что подход на основе документов превосходит подход на основе профиля кандидата, из-за «шумных» документов, включенных в профиль кандидата. То есть, при использовании «профильного» подхода, все документы, в которых хоть раз встречается упоминание автора, включаются в его профиль. «Документарный» подход наиболее реалистичен и поддерживает связь между запросом и кандидатом. Однако, данный подход, который основан на типичных техниках информационного поиска, также страдает от упрощения предпосылок: связи между кандидатами и запросами основаны только лишь на упоминании в документе. В результате, данная модель не может показать скрытые связи между кандидатом и запросом, так как ранжирование экспертов зависит только от ключевых слов и не предполагает нахождение семантических концептов, которые скрыты в тексте.
Эта проблема может быть решена извлечением скрытых переменных, представляющих собой набор тем. Мы будем рассматривать данный феномен с помощью тематического моделирования LDA. В этом «тематическом» подходе мы будем использовать набор слов, называя его темой, чтобы связать кандидата и запрос. Это поможет избежать проблемы учета лишь прямого употребления ключевых слов в тексте, что является главным недостатком «документарного» подхода.
Как было замечено ранее, в тематическом моделировании на основе LDA модели, каждая тема представляет собой вероятностное распределение слов, которое может быть использовано для нахождения скрытых связей между ними. В данной модели мы делаем предположение о том, что набор слов, который имеет наибольший вес в представлении темы, концептуально связаны между собой и «рассказывают» об одном концепте. Таким образом, вместо прямого использования документов для того, чтобы связать запрос и кандидата, мы выполним процесс поиска эксперта в два шага:
1. Извлечение скрытых тем из коллекции документов;
2. Использование данных тем, как связей между кандидатами и запросами.
Процесс извлечения скрытых тем на первом этапе будет реализован с помощью LDA. Коллекция текстовых документов будет использоваться только на первом этапе. На втором этапе, извлеченные темы будут использоваться для расчёта вероятности запроса Q кандидату C. Таким образом, P(C|Q) рассчитывается на основе тем, которые распределены через слова и кандидатов:
где P(Q|t, C) - это вероятность того, что сгенерированный запрос Q будет относиться к теме t и кандидату C. Предполагая условную независимость Q, C, P(Q|t,C) упрощаем до P(Q|t). Считая введённый запрос набором слов, вычисляем P(Q|t).
где q поисковое слово, а #Q - количество раз q появляется в запросе Q.
Используя теорему Байеса для расчета вероятности темы t для кандидата C, получаем:
где P(t) - вероятность темы t. А так как в нашей модели мы не делаем различий для тем, эта вероятность будет универсальной. Подставляя вычисления (5) и (4) в (3), получаем следующее:
Так как мы сделали предположение о том, что вероятности возникновения той или иной темы равны, нам остается рассчитать вероятность появления слов из запроса в теме и вероятность, с которой кандидат будет отнесен к теме.
Как мы отмечали ранее, каждая из извлеченных тем представляет собой полиномиальное распределение слов. Это распределение показывает связь между словами, которые находятся в одной теме. Мы используем это распределение для расчета P(q|t) и P(C|t), так как оба - слово из запроса и имя кандидата доступны в нашем словаре. В результате, P(q|t) и P(C|t) будут оценены цqt и цCt, соответственно.
Как и в любом другом статистическом моделировании, мы имеем нулевую вероятность в данной модели. Во избежание нулевых вероятностей, применим сглаживание Jelinek-Mercer. При использовании этого метода сглаживания, мы можем интерполировать исходную вероятность с оригинальной вероятностью. В результате, даже если исходная вероятность равна нулю, то исходная вероятность содержит общую оценку больше нуля. Далее применим данный метод.
где P(q) - исходная вероятность употребления слова из запроса q, оцененная на основе частоты использования слова в корпусе.
Сравнивая нашу модель с тематическим информационным поиском, используя LDA, извлеченные темы используются для того, чтобы связать запрос и документ. В данной модели, LDA обучается на внешнем корпусе. После этой процедуры обучения, темы используются для информационного поиска, когда найденные документы используются на шаге поиска.
То есть, распределение тем через слова (ц) используется для оценки P(q|t), и распределение документов через темы (и) используется для оценки P(t|d).
В данной модели найденные документы не используются на шаге поиска (параметр d не используется в формулах). Вместо этого, мы будем использовать эти документы только для обучения LDA. То есть найденные документы используются как корпус для извлечения тем. После этого, на шаге поиска, мы будем использовать распределение тем через слова (ц) для оценки P(q|t) и P(C|t), без запроса распределения документов через темы.
Мы утверждаем, что использование найденных документов для обучения LDA не будет противоречить реальным предпосылкам, так как модели документов не используются на шаге поиска и обучение LDA - единственный раз, когда используется содержание документов.
Таким образом, по сравнению с «документированным» запросом, модель LDA помогает найти скрытые концепты, которые связывают кандидата с поисковым запросом.
Применение модели LDA для решения различных прикладных задач
С тех пор как LDA модель была представлена в 2003 году, она широко используется в задаче тематического моделирования во всевозможных интерпретациях. Варианты модели были предложены для того чтобы повысить эффективность и решить те или иные проблемы. Существующие варианты модели LDA в большей степени сфокусированы на текстовом контенте. Это могут быть новости, статьи, блоги, микро-блоги, и так далее. Таким образом, определяя тему текста, мы можем также определить интересы пользователя. Именно поэтому, исходя из поставленной задачи, латентное размещение Дирихле применяется с некоторыми улучшениями.
В данной части будут рассмотрены работы, в которых LDA модель применяется в различных вариантах для решения тех или иных задач. Необходимо рассмотреть и проанализировать опыт других исследователей, чтобы учесть все нюансы практического применения модели в задаче тематического моделирования и поиска эксперта, для того чтобы наиболее эффективно решить раннее поставленную нами задачу.
It is not just what we say, but how we say them: LDA-based Behavior-Topic Model (2013)
В данной работе авторы предлагают усовершенствованную бихевиористскую модель LDA (B-LDA), которая способна моделировать не только тематические интересы, но и поведенческие шаблоны пользователя. Данные для исследования были получены из социальной сети Twitter, где текстовый контент сообщений достаточно короток, но существует довольно много способов взаимодействия с ним. Данный эксперимент был проведен на реальны данных Twitter, для того чтобы продемонстрировать, что тематики модели информативные и проницательные. Как приложение к данной модели, авторы также создали приложение - Who To Follow, для рекомендации релевантного подписчика (комбинация B-LDA и LDA).
Как известно, Twitter представляет собой глобальную социальную сеть, которая многими пользователями используется в различных целях. Например, кто-то использует Twitter как медиа площадку, а кто-то как новостной портал. Таким образом, интересы пользователя варьируются в зависимости, как от интересов, так и от функции применения. Всего существуют четыре способа взаимодействия в рамках данной социальной сети: «пост», «ретвит», «ответ», «упоминание». В данной работе авторы называют данные операции - бихевиористской информацией. Текстовый контент указывает тематики, интересные пользователю, но и бихевиористская информация может рассказать о том, как пользователь использует данную площадку для общения.
Таким образом, в результате данной модели могут быть определены следующие аспекты:
1. Могут быть идентифицированы группы пользователей с похожими интересами, но различными вариантами поведения, что является важным при построении различных моделей для онлайн профилирования пользователей.
2. Кластеры пользователей с некоторыми отдельными поведенческими шаблонами, которые обычно представляют собой различных пользователей, могут быть идентифицированы достаточно просто.
3. Кластеризация пользователей в зависимости от их поведения в Сети может помочь при усовершенствовании сервиса Who To Follow, для более точной и релевантной рекомендации подписчиков.
Для того, чтобы использовать бихевиористскую информацию, в LDA модель вводится «поведенческий индекс», который учитывает те или иные шаблоны, при выборе подписчика. Так можно разделить пользователей как минимум на две группы: те, кто использует сеть как новостной портал (интересны оригинальные «твиты»), те, кто использует как площадку для общения (интересны активные «ретвиты»).
Для проведения эксперимента были взяты данные 151055 пользователей из Сингапура. Для практики сервиса рекомендаций случайным образом были выбраны 1000 из них. Результаты применения B-LDA сравнили с LDA и T-LDA моделями. Эксперимент показал, что данная модель может определять тематики с доминирующим вариантом поведения, а также она превосходит показатели других моделей в случае сервиса рекомендаций для социальной сети Twitter.
Keyword extraction for blogs based on content richness (2013)
В данной работе авторы преследуют цель нахождения ключевых слов в записях блогов, исходя из «богатства» контента. Если блог содержит большое количество слов, относящееся к ключевому слову, данное слово может быть ключевым для всего блога.
Так как блоги в настоящее время представляют собой большой источник постоянно обновляющейся информации, для того чтобы найти необходимую - нужна систематизация. Прежде всего, для решения этой задачи используются ключевые слова, облако тегов - тем не менее, они не всегда работают достаточно полно и точно. Для того, чтобы наиболее эффективно выделить ключевые слова блога (тематики), авторы предлагают введение такой величины, как «богатство». Она указывает, насколько полно блог охватывает трендовые тематики ключевого слова.
Ключевые слова для каждого блогера выбираются из тех, что появляются в самом блоге. В первую очередь, рассчитываются и оцениваются все слова в блоге, в зависимости от того, какой вклад в контент несет каждое слово. Так как ключевые слова достаточно сильно связаны с важными тематиками блога, авторы применяют модель LDA для каждой записи. Данная модель тематически кластеризует записи в блоге, оценивая вероятность появления каждого слова в том или ином кластере. Кластер представляет собой некоторую тематику, а значит слово с наибольшей вероятностью принадлежности к кластеру дает больший вклад в содержание блога.
После того, как вычислены ключевые слова для каждого пользователя, авторы идентифицируют трендовые тематики каждого ключевого слова пользователя, используя вне тематический контент. Вне тематический контент добывается с помощью поисковых систем в Веб (используя ключевые слова полученные раннее). Затем рассчитывается величина «богатство»: насколько обширно представлена тема по сравнению с тем контентом, который получили из Сети. После этого, ключевые слова ранжируются в зависимости от полноты раскрытия той или иной темы, которая представлена ключевым словом.
Для практического применения были выбраны 14 пользователей (блогеров) с площадки Technorati, а также собраны по 1000 записей каждого из них. Результаты, полученные в ходе эксперимента были позже сравнены с результатами моделей LDA, TF-IDF и тремя наиболее известными методами на основе графов (TextRank, HITShub, HITSauth). Для того, чтобы оценить эффективность моделей были применены разные шкалы оценивания, такие как NDCG, hit counts, trendiness, consistency. Предложенный авторами метод, на основе LDA превзошел результаты других моделей по всем показателям.
Predicting Response to Political Blog Posts with Topic Models (2009)
В данной работе авторы моделируют дискуссии в онлайн политических блогах. Для этого используется модель LDA в различных вариациях (использование разных характеристик данных) для достижения наиболее эффективного результата. Данная модель описывает образование как записей, так и авторства, а также комментариев (реакцией) различных пользователей.
Одними из первых, авторы данной статьи применили модель LDA на данных блогов. Они считают, что спонтанная, реакционная, информативная речь, используемая в блогах игнорирует и провоцирует обычные аналитические подходы в сфере обработки естественного языка. Кроме того, модель поможет структурировать политические блоги, а также проанализировать личность каждого из блогеров в политическом сообществе.
Авторский подход состоит в том, чтобы сгенерировать дискуссию в политической сфере, используя улучшенную модель LDA. Например, используя ранние данные о том, какие записи комментировал пользователь, спрогнозировать, что он будет комментировать в будущем.
Авторы данной статьи собрали данные 40 блогерских площадок об американской политике (одновременно с выборами) с 2007 по 2008 год. Данные записи содержат информацию о политических выборах: кандидатах из демократической и республиканской партиях, фальсификациях, различных аспектах международной и государственной политики. После этого были выбраны 5 наиболее репрезентативных блогов, которые позднее нормализовали.
Для анализа данных были применены две модели, основанные на LDA: Link LDA (прогнозирует наиболее вероятного пользователя для комментария) и Comment LDA (прогнозирует наиболее вероятный комментарий). В результате, данные были оценены с помощью 5 экспертов, которые также попытались предсказать наличие и содержание комментария того или иного пользователя под новой записью. Данный эксперимент показал, что модель Link LDA гораздо более эффективна (около 40%) в случае предсказывания пользователя для комментария. Модель Comment LDA показывает результат от 16% до 27% в случае прогнозирования комментария.
Также стоит отметить, что данная модель не учитывает поведенческих факторов пользователей: модель поведения меняется не только в зависимости от пользователя, но и от площадки общения. Однако, модель все же показала достаточно информативные результаты, что говорит о том, что тематическое моделирование все же может быть использовано для прогноза высказываний пользователей в Интернете.
Improving LDA topic models for microblogs via Tweet pooling and automatic labeling (2013)
В этой статье, авторы исследуют методы совершенствования определения тем содержания Twitter записей без изменения базовой машины LDA. Авторы пытаются достичь этого с помощью различных схем объединения, которые агрегируют «твиты» на предварительном этапе данные для модели LDA. Стараясь опытным путем установить, что новый метод «твит» объединения по «хэштегам» приводит к огромному улучшению в различных мерах по согласованности тем через три различных наборов данных, в сравнении с неизмененной LDA и различных схем объединения. Дополнительный вклад автоматического маркировки «хэштегом» еще больше улучшает. Эти две новые схемы приводят к значительному улучшению тематической модели LDA о содержании социальной сети Twitter.
Модель LDA представляет собой один из лучших подходов поиска информации в неструктурированном массиве. Именно поэтому данная модель так популярна в сфере информационного поиска. Однако Twitter представляет собой социальную сеть в виде микро-блога, так как максимальная запись не превышает 140 символов. В данном случае, модель LDA не способна эффективно работать, так как случайный порядок коротких записей не позволяет создать верное поли-распределение слов по темам. Для решения данной проблемы авторы предлагают агрегировать несколько «твитов» в отдельный документ, которые могут быть объединены по «хэштегам» (объединение по теме).
Таким образом, авторы предлагают несколько подходов к агрегированию записей:
1. Не агрегированный подход: каждая запись представляет собой отдельный документ для модели LDA.
2. Авторский подход: агрегирование записей исходя из авторства «твита».
3. «Взрывной» подход: агрегирование записей исходя из трендов на настоящий момент (автоматически определяется социальной сетью).
4. Временное агрегирование: агрегирование записей за определенный момент времени.
5. «Хэштег» агрегирование: агрегирование «твитов» по ключевым словам.
6. Другое агрегирование: агрегирование записей, комбинируя сразу несколько подходов.
В качестве данных, авторы собрали 359478 записей в качестве общей выборки, 214580 записей по определенным ключевым словам, а также 207128 записей, собранных согласно тем или иным событиям. В данной работе авторы сравнили практическое применение всех вышеперечисленных подходов на собранных данных.
Результаты показали, что агрегирование записей в такой социальной сети, как Twitter позволяет применить LDA модель для качественного тематического моделирования. Показатели значительно превосходят обычное использование модели на необобщенных данных. Кроме того, агрегирование «твитов» по «хэштегам» и авторству приводит к наиболее эффективным результатам. Комбинирование «хэштегов» и также модели TF-IDF также улучшает работу модели LDA.
Link-PLSA-LDA: A New Unsupervised Model for Topics and Influence of Blogs (2009)
В этой работе авторы рассматривают две проблемы информационного поиска: ненаблюдаемое выявление тематик текста, и оценка тем специфического влияния блогов. Для решения этих проблем используется модель LDA, которая наиболее эффективна в выявлении тематик. Кроме того, авторы усовершенствовали модель, комбинируя две уже представленные ранее модели: Link-LDA (тематическая связь и влияние документов) и PLSA. Представленная модель Link-PLSA-LDA, таким образом, моделирует тематические отношения между документами.
Выходные данные новой модели достаточно интересно визуализируют связи между блогами и темами, которые имеют на них влияние. Авторы также проводят количественную оценку вероятности модели, используя log-likelihood не видимых данных, а также предсказание связей. Оба эксперимента показывают, что, что новая модель работает лучше, предлагая свое превосходство над Link-LDA в сфере тематического моделирования и теме специфического влияния блогов.
Так как блоги становятся с каждым днем все более и более популярными, задача выбора тех блогов, которые соответствуют интересам пользователя становится необходимой. Проведенные эксперименты показывают, что, что новая модель работает лучше, предлагая свое превосходство над Link-LDA в тематическом моделировании и теме специфического влияния блогов.
В данной работе авторы нацелены на решение двух проблем одновременно, то есть, обнаружение темы, а также моделирование тем определенного влияние блогов, в совершенно ненаблюдаемом режиме. Для достижения этой цели используется вероятностная структура скрытых тем, например, латентное размещение Дирихле и предлагается новая модель в этом контексте.
Несмотря на то, что работа основана на комбинировании моделей Link-LDA и Link-PLSA, генеративный процесс для контента и цитатам полностью работает по алгоритму Link-LDA. Однако, чтобы как можно точнее смоделировать информационный поток из цитирующего документа в цитируемый, авторы определили явный генеративный процесс для контента цитированных документов, в котором используется то же распределение. Таким образом, цитаты моделируются в качестве образцов из полиномиального распределения по цитируемым документам. В данном процессе авторы рассматривают цитированные документы как «пустые корзины», которые должны быть «заполнены» словами.
В качестве данных было использовано более восьми миллионов блог записей за 2005 год. После того, как были отсортированы записи, более 7 миллионов из них были использованы для построения графа, используя ссылки и цитаты. После этого, были оставлены только те записи, которые были связаны двумя или больше гиперссылками - таким образом, анализ проводился на 1777 документах.
Данные документы были проанализированы на выявление тематической зависимости между блогами. Таким образом, модель Link-PLSA-LDA выделила 4 скрытых темы, которые были описаны наиболее вероятными словами. Кроме того, модель также определила наиболее влиятельные блоги, в которых упоминалась данная тема. Кроме того, были определены наиболее вероятные блоги для возможной тематической связи (Link Prediction).
После обработки результатов, была проведена оценка работы системы, которая показала, что по двум количественным тестам, результаты модели Link-PLSA-LDA превосходят модель Link-LDA. В качестве будущих направлений, авторы планируют ввести поиск по ключевым словам, для того, чтобы пользователю удобнее было находить блоги по соответствующим интересам.
Одним из недостатков данной модели является то, что Link-PLSA-LDA не полностью генеративная модель. Другими словами, объем связанных между собой документов фиксирован, что не позволяет добавить в модель новый документ. Кроме того, данная модель не позволяет представить один документ с двусторонней связью, что авторы статьи планируют в будущем исправить.
Using latent topics to enhance search and recommendation in Enterprise Social Software (2010)
Социальное программное обеспечение в организации относиться открытым гибким организационным системам и инструментам, которые используют технологию Web 2.0 для стимулирования участия с помощью неформального общения. Самым большим вызовом для таких систем является - обнаружить и поддержать с течением времени структуру тех тем, которые релевантны в той или иной организации. Структура знаний поддерживает пользовательскую активность позволяя им категорировать, извлекать информационные ресурсы. В данной работе авторы стараются улучшить поиск и рекомендационный сервис в социальной корпоративной сети расширяя структуру знаний с помощью скрытых тем, которые находятся используя вероятностные тематические модели. Исследователи применяют латентное размещение Дирихле для извлечения скрытых тем, после чего использования их как для оценки подобия ресурсов, так и для расширения поисковых результатов. В качестве приложения, авторы использовали программное обеспечение в открытом доступе для малых и средних организаций, чтобы увеличить эффективность его поиска и рекомендательного сервиса.
В данной работе авторы сфокусированы на структуре знаний в социальном программном обеспечении (ПО), который включает в себя поиск и рекомендательный сервис. Они уверены в том, что использование прогрессивных технологий информационного поиска может увеличить эффективность поиска и рекомендаций, а, следовательно, эффективность самой корпоративной сети. В частности, исследуется подходы, которые используют вероятностные тематические модели чтобы найти скрытые темы. В 2006 году было доказано, что существование данных систем улучшает качество работы организации.
Важнейшая цель систем управления информацией (knowledge management) - факт того, что нужная информация доступна или доставлена нужным людям в нужное время.
Для улучшения сервисов поиска и рекомендаций, авторы предлагают расширить подходы к структурированию знаний, таких как таксономия и фолскономия. Использование вероятностных тематических моделей, а именно латентного размещения Дирихле приведет к извлечению скрытых тем, использованию их для распознавания сходства. Все это используется для расширения поисковых результатов.
В качестве улучшения поиска авторами используется вероятностная тематическая модель, как ненаблюдаемый метод для категорирования документов и база для расширения запроса. В данном подходе проблемы синонимов и других словарных отношений решаются с помощью статистического вычисления отношений между словами. Таким образом, результат на поисковой запрос пользователя расширяется, включая также выражения, наиболее связанные с запросом (учитываются не только совпадения слов).
После обучения модель LDA представляет два вероятностных распределения: темы через слова, документы через темы. Второе распределение является базой для рекомендации ресурса. В случае добавления нового ресурса, модель делает вывод о том, какие скрытые темы связаны с ним. Кроме того, авторы разработали систему рекомендации «тегов» - «тегирование» (присвоение ресурсу ключевых слов). Были разработаны две техники, которые могут быть комбинированы: основано на степени сходства в системе рекомендации ресурса или основано на распределении слов по темам. Такой «гибридный» поход позволяет добавлять не только уже существующие «теги», но и новые, полученные в результате модели.
В качестве эксперимента, данные разработки были внедрены в социальную корпоративную сеть OrganiK. Она использовалась пятью организациями (малый и средний бизнес) на протяжении шести месяцев. Перед началом внедрения системы, работники организаций были привлечены для процесса развития и улучшения системы, после чего работали с ней ежедневно.
После окончания испытательного срока все пользователи были проанкетированы с целью оценки работы системы. Для этого, были разработаны два вида анкет: состоящая из специальных вопросов (проанализировать те или иные функции системы по шкале Лайкерта), открытые вопросы о полезности и эффективности системы. Функция поиска была оценена удовлетворительна (70-80%), функция рекомендаций «тегов» была оценена положительно (74%), также, как и рекомендация ресурсов. В качестве ответов на открытые вопросы, работники организаций отметили, что «данная система нуждается в постоянном использовании среди всех сотрудников, что позволяет быть более открытыми и продуктивными». Однако, некоторые отзывы также говорили о том, что данная система определенно полезна, но не настолько необходима, особенно для маленьких организаций. Тем не менее, все отметили, что данная платформа является отличным средством сотрудничества внутри компании.
Авторы отметили, что довольны результатами, полученными в ходе применения модели LDA, так как разработанная система позволяет увеличить эффективность работы сотрудников, не прибегая к большим усилиям и временным затратам.
В качестве дальнейшего исследования, предлагается провести эксперименты с другими вероятностными моделями для оценки альтернативного метода. Также возможно рассмотрение альтернативных информационных ресурсов, генерируемых пользователями (записи в блоге, микро-блоге, статьи) в качестве ресурсов для создания другого рода рекомендаций.
Multiple Outcome Supervised Latent Dirichlet Allocation for Expert Discovery in Online Forums (2012)
В данной работе представлен еще один метод применения латентного размещения Дирихле (наблюдаемый байесовский подход) для моделирования экспертизы в онлайн форумах. Предложенный метод улучшает модель sLDA для использования ее в ситуации многозадачности. В ходе исследования поведения данной модели на реальных данных, исследователи выявили несколько интересных случаев, которые в дальнейшем могут помочь усовершенствованию данного рода сообществ.
Онлайн форумы в настоящее время продолжают быть активным способом обмена информацией в Сети. В большинстве случаев они узко квалифицированные, что позволяет привлечь целые сообщества людей, заинтересованных в той или иной теме. Достаточно большая часть общения происходит в виде «вопрос-ответ»: пользователи задают друг другу вопросы с целью определения уровня знания человека, который является участником форума. Целью данной работы является исследование поведения пользователей, стратегии ответа на вопросы. Способ, который применяется в данной работе - улучшенная модель LDA, учитывает авторство вопросов и ответов как рейтинг пользователя. Авторы также строят модель прогнозирования, исследующую скрытые темы в вопросах и ответах. Авторы используют наблюдаемую обучаемую парадигму, где тема задания и параметры прогнозирования определяются одновременно с помощью байесовского вывода. Используя этот метод, возможно совместное использование текстовых функций и качества ответов метрики.
Проблема поиска эксперта в данном исследовании позиционируется как регрессионная, то есть задавая вопрос - мы хотим спрогнозировать результат (присвоение очков пользователю), который описывает возможность пользователя полно и правильно ответить на вопрос. А именно, используется улучшенная модель наблюдаемого латентного размещения Дирихле, которая выводит зависимую переменную на основе тем документа. Улучшение было проведено для того, чтобы была возможность рассчитать вероятность ответа не для одного пользователя, а сразу для нескольких.
Эксперимент был проведен на данных, взятых с форума GiffGaff (доставка мобильных телефонов в Англии), раздел «Помощь и поддержка». Для поддержки активности пользователей, форум использует систему награждения - пользователь, ответивший на вопрос, получает денежный приз. Пользователи также имеют возможность оценить полезность ответа, используя кнопку «Поддерживаю». Авторы статьи использовали данный рейтинг ответов для обучения модели, так как по их мнению, это серьезный показатель релевантности. Данные были собраны за два года (2010, 2011), что представляет собой более 78000 вопросов и ответов.
Результаты, полученные авторами данного исследования также подтверждают эффективность латентного размещения Дирихле в задаче тематического моделирования и поиска эксперта, в данном случае - для онлайн форума. Кроме того, данная модель была улучшена, что позволяет не только получать результаты исследования, но и взаимодействовать для наиболее точных выводов. sLDA анализирует не только релевантность ответов, но также оценивает пользователя. Несмотря на то, что авторы статьи используют данную модель только для онлайн форумах, применение модели может быть в будущем уместно также для других целей, например, таргетированной рекламы.
LeadLag LDA: Estimating Topic Specific Leads and Lags of Information Outlets (2011)
Еще одна интересная модель была представлена американскими учеными на основе латентного размещения Дирихле.
Одной из самых интересных и трудных задач в настоящее время является выявление лидирующего медийного ресурса, который первый распространяет новаторскую информацию на определенную тему. В этой работе авторы выдвигают гипотезу о том, что новые идеи распространяются через введение и пропагандирование новых ключевых слов, а значит лидеры и последователи могут быть определены с помощью отслеживания этих слов.
В первую очередь авторы демонстрируют подтверждение этой гипотезы с помощью TF-IDF модели с простейшим алгоритмом ближайшего соседа, которая доказывает это на примере научных журналов и конференций. После этого, строится LeadLag LDA модель, которая оценивает лидерство и последователей в определенных тематиках. И, наконец, обе модели тестируются на данных блогов и новостей, а также научных публикациях и предложениях грантов.
Определение лидирующих источников новых идей (новостей) - достаточно интересная проблема, особенно для ученых социальных наук. Например, один и тот же источник может быть первым в указании новых методов расчёта бухгалтерии и в то же время, отставать в публикации новых законов учета средств. Исследование данной проблемы и решение может быть использовано сразу несколькими способами: знание тематик, где блогеры опережают новости может быть использовано для публикации новостей лучше и быстрее. Кроме того, возможно, данное исследование поможет понять структуру распространения той или иной информации.
В первую очередь, авторы тестируют предложенную гипотезу на данных публикаций в сфере компьютерных наук. Принято думать, что все новаторские идеи в данной области в первую очередь появляются в программах всевозможных научных конференций, а в журналах уже позже появляются более детальные исследования по этим темам. Более того, авторы предположили, что примерная задержка между ними должна достигать примерно года (5 месяцев на распространение публикаций с конференции, 7 месяцев на публикацию в журнале).
В качестве корпуса были собраны данные с 1952 по 2005 года - статьи из наиболее популярного в этой сфере журнала ACM, а также публикации с конференций (были использованы только абстракты научных статей). Для проверки гипотезы была использована простейшая модель TF-IDF для определения ближайшего сходства публикаций с конференции и из журнала. Результаты по одному и тому же автору показали, что публикации из журнала отстают примерно на 1 год, что в большей мере подтверждает выдвинутую авторами статьи гипотезу. В целом же, отставание согласно данной модели составило примерно 4 месяца, что также вписывается в модель - так как один из ученых может подхватить тему и развить ее быстрее, таким образом, этот период отставания сокращается.
Несмотря на то, что TF-IDF предоставила некоторые доказательства гипотезы на реальных данных, авторы подумали о том, что интереснее было бы посмотреть о том, как распространяется узко тематическая информация. Именно для этого необходимо использование латентного размещения Дирихле: для определения статей по тематикам. Новая модель представляет собой тематическую модель, как аналог модели ближайших соседей, включает в себя три шага:
1. Обучение: стандартная модель LDA обучается на всех документах корпуса для определения скрытых тем.
2. Ближайшие соседи: для каждого документа из одного рода источника определяется ближайший сосед из другого рода источника.
3. LeadLag LDA: Используя дынные метода ближайших соседей и LDA, применяется модель LeadLag LDA.
Как и стандартная модель LDA, LeadLag LDA также оценивает вероятность принадлежности слова в документе теме, однако в отличие от нее, не образует слово из тематического распределения, а бросает жребий. Таким образом, модель поощряет документу заимствовать тематически специфический язык из документа - ближайшего соседа.
За неимением больших результатов, авторы сравнивают показатели модели LeadLag LDA с показателями TF-IDF (сравнивают с общими показателями), где LeadLag LDA несомненно лидирует.
1. Журналы vs Конференции
Несмотря на то, что модель определила около 200 тем, авторы предпочли использовать 50 из них, так как они наиболее вероятны для собранного корпуса. Результаты говорят о том, что вне зависимости от темы публикации, разрыв между ними составляет 1 год в среднем.
2. Гранты vs Научные статьи
Для новостей и грантов были выбраны также 50 самых распространенных тем. Оказалось, что временной разрыв между ними составляет примерно около 1 года для таких популярных тем, как «Информационный поиск».
3. Новости vs Блоги
Для анализа отставания новостей от блогов был взят уже раннее собранный корпус записей из блогов и социальных сетей. После этого, было выделено 25 тем с помощью модели LDA. Данное исследование показало: новостные издания несомненно лидируют в публикации новостей по темам «Спорт», «Политика», а блоги и другие источники лидируют в сфере «Бизнеса».
Результаты по группам приведены на графике 1.
В целом, результаты данной модели говорят о том, что направление исследования лидирующих источников новой информации достаточно интересное направление. Кроме того, авторы сумели добиться выявления некоторых закономерностей в тематическом разрезе.
График 1. Результаты модели LeadLag LDA.
Software Traceability with Topic Modeling (2010)
Данная статья также представляет особый интерес для нашего исследования. Прежде всего модель LDA использовалась для анализа тематического моделирования в сфере научных исследований. Здесь же, метода предложенный авторами определяет трассируемость артефактов программного обеспечения. Этот фат доказывает, что сферы применения латентного размещения Дирихле не ограничены.
Чаще всего, если программное обеспечение представляет собой приложение, например, в индустриальной среде, это означает, что его разработка сопряжена с большим количеством сопровождающих артефактов, таких как документы с необходимыми требованиями, код программы, отчет об ошибках, тестирование. В этом случае, сама цель трассируемости программного обеспечения состоит в том, чтобы исследовать связи между этими артефактами для получения наиболее полной информации о ходе разработки инструмента, что особенно важно для инженеров/разработчиков. Трассируемость может быть ретроспективной (связь артефактов, использованных для разработки продукта) и перспективной (исследование артефактов, которые только будут использованы при разработке).
В данной статье рассматривается применение модели латентного размещения Дирихле для ретроспективной трассируемости для добычи семантических тем, тесно связанных с кодом программы. Фактически эта модель используется для того, чтобы категорировать код.
Несмотря на то, что модель LDA способна быть применена для решения различных задач (что показывают проанализированные ранее статьи), она все-таки имеет некоторые существенные ограничения. Первое ограничение заключается в том, что исследователю необходимо задать конечное число тем, которые генерирует модель. В случае задания слишком малого количества тем, модель обобщает темы и тем самым, возможно упущение. Если же количество тем большое, тогда появляется большая детализация, что может привести к перекрытию тем друг с другом. Следующее ограничение - это визуализация тем ограничена определенным количеством наиболее вероятных слов в теме. Таким образом, определение названия тем оказывается за самим исследователем.
Тематическое моделирование в решении задачи трассируемости поможет определить взаимосвязь и семантические отношения между артефактами и кодом программного обеспечения. Например, если разработчик хочет посмотреть все артефакты, привязанные к инструменту, он сможет отсортировать их согласно тематике, что делает его работу значительно проще и быстрее.
...Подобные документы
Законы алгебры Буля и их применение для преобразования логических выражений. Расчет информационной емкости документов предметной области. Построение инфологической, реляционной и даталогической моделей. Применение методов поиска и сортировки данных.
курсовая работа [261,7 K], добавлен 05.01.2013Понятие "задача" и процесс ее решения. Технология обучения приемам восприятия и осмысления, поиска и составления плана решения. Методика обучения решению задач различными методами. Сущность, смысл и обозначение дробей, практические способы их сравнения.
методичка [242,5 K], добавлен 03.04.2011Поиск оптимального решения. Простейший способ исключения ограничений. Многомерные методы оптимизации, основанные на вычислении целевой функции. Метод покоординатного спуска. Модифицированный метод Хука-Дживса. Исследование на минимум функции Розенброка.
курсовая работа [697,6 K], добавлен 21.11.2012Сущность понятия "дифференциальное уравнение". Главные этапы математического моделирования. Задачи, приводящие к решению дифференциальных уравнений. Решение задач поиска. Точность маятниковых часов. Решение задачи на определение закона движения шара.
курсовая работа [918,7 K], добавлен 06.12.2013Поиск оптимальных значений некоторых параметров в процессе решения задачи оптимизации. Сравнение двух альтернативных решений с помощью целевой функции. Теорема Вейерштрасса. Численные методы поиска экстремальных значений функций. Погрешность решения.
презентация [80,6 K], добавлен 18.04.2013Разработка простого метода для решения сложных задач вычислительной и прикладной математики. Построение гибкого сеточного аппарата для решения практических задач. Квазирешетки в прикладных задачах течения жидкости, а также применение полиномов Бернштейна.
дипломная работа [1,9 M], добавлен 25.06.2011Рассмотрение эффективности применения методов штрафов, безусловной оптимизации, сопряженных направлений и наискорейшего градиентного спуска для решения задачи поиска экстремума (максимума) функции нескольких переменных при наличии ограничения равенства.
контрольная работа [1,4 M], добавлен 16.08.2010Математическое программирование - область математики, в которой изучаются методы решения задач условной оптимизации. Основные понятия и определения в задачах оптимизации. Динамическое программирование – математический метод поиска оптимального управления.
презентация [112,6 K], добавлен 23.06.2013Изучение численно-аналитического метода решения краевых задач математической физики на примере неоднородной задачи Дирихле для уравнения Лапласа. Численная реализация вычислительного метода и вычислительного эксперимента, особенности их оформления.
практическая работа [332,7 K], добавлен 28.01.2014Развитие численных линейных методов решения задач линейного программирования. Знакомство с методами поиска целевой функции: равномерный симплекс, методы Коши, Ньютона, сопряжённого градиенты, квазиньютоновский метод. Алгоритмы нахождения экстремума.
курсовая работа [716,1 K], добавлен 12.07.2012Понятие Диофантовых уравнений, их сущность и особенности, методика и этапы решения. Великая теорема Ферма и порядок ее доказательства. Алгоритм решения иррациональных уравнений. Метод поиска Пифагоровых троек. особенности решения уравнения Каталана.
учебное пособие [330,2 K], добавлен 23.04.2009Граф как совокупность объектов со связями между ними. Характеристики ориентированного и смешанного графов. Алгоритм поиска кратчайшего пути между вершинами, алгоритм дейкстры. Алгебраическое построение матрицы смежности, фундаментальных резервов и циклов.
методичка [29,4 M], добавлен 07.06.2009Вычисление интеграла, выполнение интегрирования по частям. Применение метода неопределенных коэффициентов, приведение уравнения к системе. Введение вспомогательных функций в процессе поиска решения уравнения и вычисления интеграла, разделение переменных.
контрольная работа [617,2 K], добавлен 08.07.2011Порядок и процедура поиска решения дифференциального уравнения. Теорема существования и единственности решения задачи Коши. Задачи, приводящие к дифференциальным уравнениям. Дифференциальные уравнения первого порядка, с разделяющими переменными.
лекция [744,1 K], добавлен 24.11.2010Структура текстовой задачи. Условия и требования задач и отношения между ними. Методы и способы решения задач. Основные этапы решения задач. Поиск и составление плана решения. Осуществление плана решения. Моделирование в процессе решения задачи.
презентация [247,7 K], добавлен 20.02.2015Формулировки и доказательства китайской теоремы об остатках. Доказательство с помощью метода математической индукции. Конструктивный метод доказательства. Основные алгоритмы поиска решения. Применение китайской теоремы об остатках к открытию сейфа.
курсовая работа [1,0 M], добавлен 08.01.2022Характеры и L-функции Дирихле, функциональное уравнение. Аналитическое продолжение L-функции Дирихле на комплексную плоскость; тривиальные и нетривиальные нули. Теорема Вейерштрасса о разложении в произведение целых функций. Обобщенная гипотеза Римана.
реферат [573,1 K], добавлен 15.06.2011Численные методы поиска безусловного экстремума. Задачи безусловной минимизации. Расчет минимума функции методом покоординатного спуска. Решение задач линейного программирования графическим и симплексным методом. Работа с программой MathCAD.
курсовая работа [517,9 K], добавлен 30.04.2011Применение способа решета Эратосфена для поиска из заданного ряда простых чисел до некоторого целого значения. Рассмотрение проблемы простых чисел-близнецов. Доказательство бесконечности простых чисел-близнецов в исходном многочлене первой степени.
контрольная работа [66,0 K], добавлен 05.10.2010Обыкновенные и модифицированные жордановы исключения. Последовательность решения задач линейного программирования симплекс-методом применительно к задаче максимизации: составлении опорного плана решения, различные преобразования в симплекс-таблице.
курсовая работа [37,2 K], добавлен 01.05.2011