Кластеризация информационных ресурсов на основе генетического алгоритма
Анализ структурно-функционального решения интеллектуального хранилища. Индексирование документов как важная операция, обеспечивающая возможности информационного поиска. Особенность адаптации стандартного генетического алгоритма к задаче кластеризации.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 18.01.2018 |
Размер файла | 20,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Ульяновский государственный технический университет
КЛАСТЕРИЗАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ НА ОСНОВЕ ГЕНЕТИЧЕСКОГО АЛГОРИТМА
Н.Г. Ярушкина
А.В. Чекина
Ульяновск
В данной статье предложен метод решения задачи кластеризации информационных ресурсов, основанный на генетическом алгоритме. Все документы информационного хранилища описаны частотными распределениями встречающихся терминов.
Большинство крупных проектных организаций с давней историей обладает значительным архивом успешных проектов. Новые проекты должны использовать ранее разработанные решения, так как повторность использования позволяет сократить сроки проектирования. Современный проектный репозитарий представляет собой интеллектуальное хранилище информационных ресурсов, обеспечивающий поиск необходимого ресурса на основе гибкого запроса [Ярушкина, 2004]. Основу индексирования информационных ресурсов традиционно составляет лексический портрет текстового дескриптора ресурса.
Описание объектов кластеризации
Единицей обработки и хранения в репозитарии является электронный информационный ресурс (ЭИР). Информационный ресурс - это файл или совокупность файлов, объединенных общей семантикой и имеющих текстовую аннотацию. В частном случае, информационный ресурс - это один или несколько текстовых файлов. Текст аннотации (или текст самого ресурса) однозначно отражает смысловое содержание данного ресурса. При кластеризации мы полагаемся на гипотезу о том, что смысловое содержание текста кодируется статистическим распределением слов. Следовательно, предполагаем, что по частотному распределению слов, составляющих текст ресурса (или аннотации), мы можем определить его категорию.
Структурно-функциональное решение интеллектуального хранилища
Программная система, реализующая идеи интеллектуального хранилища, состоит из следующих подсистем: подсистема индексирования ЭИР (индексатор), подсистема кластеризации, которая использует три метода: fuzzy-c-means метод (fcm-кластеризатор), нейронную сеть и генетический алгоритм; подсистема поиска ЭИР.
На подсистему индексации возложены задачи предобработки текстовых документов или аннотаций к ЭИР и построение частотных словарей встречающихся терминов. В рамках функций подсистемы кластеризации и классификации, на основе значений относительных частот должны создаваться предметно-ориентированные кластеры, которые организуются в виде иерархии. В процессе классификации выполняется задача соотнесения вновь заносимого ЭИР с определенным кластером.
Индексирование документов
Индексирование документов является важнейшей операцией, обеспечивающей возможности информационного поиска. Сам процесс индексирования документа заключается в определении его центральной темы или предмета на информационно-поисковом языке.
Для оценки значимости слов в индексаторе используется методы определения частот слов каждого документа и частот, рассчитанных по формуле Шеннона (сигнал-шум):
, где - шум термина,
,
где - частота -го термина
в -м документе, - частота -го термина по всем документам,
- сигнал термина
.
Подсистема генетической кластеризации
Представим задачу кластеризации ЭИС в терминах эволюционных вычислений. Рассмотрим стандартный генетический алгоритм. Генетические алгоритмы работают с популяцией, каждая их хромосом которой представляет собой возможное решение данной задачи. В нашем случае решение - это разбиение неупорядоченного набора информационных ресурсов на кластеры
Адаптация стандартного генетического алгоритма к задаче кластеризации ЭИР
Для того чтобы применить стандартный генетический алгоритм в качестве метода решения задачи кластеризации, должны быть определены следующие элементы алгоритма [Ярушкина, 2004], [Батыршин и др., 2007]:
способ кодировки решения (хромосомы);
функция оптимальности (оценки) каждой хромосомы;
содержание операторов отбора (селекции), рекомбинации и мутации;
условие завершения эволюции;
вероятностные параметры управления сходимостью эволюции.
Структура хромосомы
Хромосома представляет собой массив пар (документ, кластер). Длина такого массива всегда будет равна количеству документов, на которое требуется множество ЭИР. Эта информация может быть представлена идентификатором информационного ресурса (документа) и номером кластера. Соответственно, если стоит задача разбить информационные ресурсы на N кластеров, то значения номера кластера варьируются от 1 до N.
Документ |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
… |
M |
|
Кластер |
3 |
5 |
n |
n-1 |
n-3 |
n-7 |
… |
N … |
… |
Селекция
Каждая хромосома оценивается мерой ее «приспособленности» (fitness-function). Наиболее приспособленные особи получают большую возможность участвовать в воспроизводстве потомства. Пропорциональный отбор назначает каждой i-ой хромосоме вероятность , равную отношению ее приспособленности к суммарной приспособленности популяции.
Кроссовер
Многоточечный кроссовер в данном случае работает следующим образом. Точка разрыва представляет собой границу между соседними элементами массива (т.е. случайным образом выбирается номер документа). Количество их будет на единицу меньше, чем количество генов в хромосоме или количество кластеризуемых документов. При выборе, от какого же родителя потомок возьмет следующий ген, предпочтение отдается наиболее приспособленному представителю популяции. Номера документов, для которых значения кластеров меняются местами, выбираются случайным образом.
Оценка приспособленности (Fitness-function)
В результате применения генетических операторов получается хромосома, представляющая собой возможный вариант решения. Для принятия решения об остановке алгоритма необходимо ее оценить.
Представим информационный ресурс точкой в n-мерном пространстве терминов. интеллектуальный индексирование генетический кластеризация
Индексатор формирует список слов документа по принципу «каждое слово отделяется от другого пробелом». Для каждого термина рассчитывается его вес в данном информационном ресурсе. Для каждого документа мы можем определить его координату, состоящую из частот встречаемости терминов в ЭИР. Координатными осями в данном случае выступают термины. Число их определяется числом терминов, по которым проводилось взвешивание, то есть каждому дескриптору в документе D ставился в соответствие некоторый неотрицательный вес . Документ представлялся точкой в n-мерном пространстве D.
В каждый кластер входит какое-то количество информационных ресурсов. Для определения центра кластера №1, предполагаем, что центр -это первый ЭИР. Рассчитываем сумму расстояний от него до всех остальных информационных ресурсов (документов), входящих в кластер №1. Сохранив полученную величину, предполагаем, что второй ЭИР из кластера №1 - это центр. Рассчитываем сумму расстояний для него. Сохраняем результат. Проделываем то же самое для каждого ЭИР, представленного в хромосоме и входящего в кластер №1. Тот документ, для которого сумма расстояний до всех остальных ЭИР выборки будет минимальной, признается центром кластера №1. Аналогично находятся центры остальных кластеров.
Фитнесс-функция для каждой хромосомы определяется суммой евклидовых расстояний от каждого ИР до центра соответствующего кластера.
,
где xЦ - координата центра i-го кластера, xИР - координата i-го информационного ресурса, m - количество информационных ресурсов, которое одновременно определяет и длину хромосомы, n - количество координатных осей, по которым формируется общая координата информационного ресурса.
Реализация подсистемы генетической кластеризации
Генетический кластеризатор представляет собой отдельный модуль программы «Интерактивный сетевой архив электронных информационных ресурсов», [Наместников и др., 2007] предназначенный для классификации электронных информационных ресурсов, с целью формирования данных для проведения информационного поиска. В качестве среды реализации использована Java. - MS SQL Server.
Благодарности. Работа выполнена при финансовой поддержке ФЦП (проект № 02.740.11.5021)
Список литературы
1. [Батыршин и др., 2007] Батыршин И. З., Недосекин А. О., Стецко А. А., Тарасов В. Б., Язенин А. В.,Ярушкина Н. Г. Нечеткие гибридные системы. Теория и практика // Под ред. Н. Г. Ярушкиной. - М.: ФИЗМАТЛИТ, 2007.
2. [Наместников и др., 2007] Наместников А.М., Чекина А.В., Корунова Н.В. Интеллектуальный сетевой архив электронных информационных ресурсов // Программные продукты и системы, №4, 2007.
3. [Ярушкина, 2004] Ярушкина Н. Г. Основы теории нечетких и гибридных систем.- М.: Финансы и статистика, 2004.
Размещено на Allbest.ru
...Подобные документы
Описание принципа работы генетического алгоритма, проверка его работы на функции согласно варианту на основе готовой программы. Основные параметры генетического алгоритма, его структура и содержание. Способы реализации алгоритма и его компонентов.
лабораторная работа [20,2 K], добавлен 03.12.2014Характеристика методов нечеткого моделирования и изучение системы кластеризации в пакетах прикладных программ. Разработка и реализация алгоритма для оптимизации базы правил нечеткого классификатора с помощью генетического алгоритма аппроксимации функции.
дипломная работа [1,9 M], добавлен 21.06.2014Этапы работы генетического алгоритма, область его применения. Структура данных, генерация первоначальной популяции. Алгоритм кроссинговера - поиск локальных оптимумов. Селекция особей в популяции. Техническое описание программы и руководство пользователя.
реферат [1014,2 K], добавлен 14.01.2016Оптимизация показателей эффективности функционирования технологического контура системы управления космическим аппаратом, исследование свойств его показателей. Настройка нейронной сети, гибридизация генетического алгоритма с алгоритмами локального поиска.
дипломная работа [4,5 M], добавлен 02.06.2011Определение и описание "генетического алгоритма", идея которого состоит в организации эволюционного процесса, конечной целью которого является получение оптимального решения в сложной комбинаторной задаче. Пример его тривиальной реализации на C++.
контрольная работа [172,1 K], добавлен 24.05.2010Содержание фундаментальной теории гена. Описание простого генетического алгоритма поиска оптимальных решений. Сущность понятий "кроссинговер", "сайт", "иллегальная рекомбинация". Этапы реализации алгоритма Девиса по перераспределению участков хромосом.
контрольная работа [23,7 K], добавлен 17.09.2010Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Обзор методов и подходов решения поставленной задачи аппроксимации логического вывода экспертной системы. Разработка и описание метода сетевого оператора для решения данной задачи. Разработка алгоритма решения. Проведение вычислительного эксперимента.
дипломная работа [1,5 M], добавлен 23.02.2015Комплексное исследование истории развития, основных понятий, области применения и особенностей генетических алгоритмов. Анализ преимуществ генетических алгоритмов. Построение генетического алгоритма, позволяющего находить максимум целочисленной функции.
курсовая работа [27,9 K], добавлен 23.07.2011Сравнение результатов работы генетического алгоритма по решению "несимметричной незамкнутой задачи коммивояжера" с результатами работы алгоритма динамического программирования по параметрам - время работы, точность результата и объем используемой памяти.
курсовая работа [65,3 K], добавлен 16.04.2014Сущность интеллектуальных систем. Запись математического выражения в виде ориентированного графа. Особенности разработки генетического алгоритма для решения задачи аппроксимации логического вывода экспертной системы на основе метода сетевого оператора.
дипломная работа [1,0 M], добавлен 17.09.2013Создание программы для поиска минимума функции двух вещественных переменных в заданной области с помощью генетического алгоритма. Генетические алгоритмы и операторы. Создание начальной популяции. Размножение. Мутация и селекция. Тестирование программы.
курсовая работа [131,6 K], добавлен 22.02.2015Исследование нечеткой модели управления. Создание нейронной сети, выполняющей различные функции. Исследование генетического алгоритма поиска экстремума целевой функции. Сравнительный анализ нечеткой логики и нейронной сети на примере печи кипящего слоя.
лабораторная работа [2,3 M], добавлен 25.03.2014Разработка алгоритма, выполняющего поиск наилучшего решения на каждый ход в игре "крестики-нолики" (используя минимальный алгоритм). Обоснование выбора программных средств для решения задачи. Блок-схема интеллектуального алгоритма реализации программы.
контрольная работа [380,0 K], добавлен 28.04.2014Методы решения систем линейных уравнений трехдигонального вида: прогонки, встречных прогонок, циклической редукции. Параллельные алгоритмы решения. Метод декомпозиции области. Основные возможности и особенности технологии CUDA. Анализ ускорения алгоритма.
дипломная работа [1,4 M], добавлен 21.06.2013Описание генетических алгоритмов. Применение генетического алгоритма для решения задачи коммивояжера. Постановка задачи безусловной оптимизации. Изучение распространения генетических алгоритмов на модель с несколькими взаимодействующими популяциями.
дипломная работа [979,1 K], добавлен 30.05.2015Проект экспериментального программного комплекса индексирования и поиска неструктурированной текстовой информации в многоязычной среде, состоящего из математических моделей, алгоритмов и программных средств. Исследование характеристик его эффективности.
автореферат [296,5 K], добавлен 31.01.2012Понятие алгоритма как набора инструкций, описывающего порядок действий. Поиск в ширину - метод обхода графа и поиска пути в нем. Пример работы алгоритма поиска в ширину, его неформальное и формальное описание. Реализация с помощью структуры "очередь".
курсовая работа [684,8 K], добавлен 05.04.2015Анализ алгоритмов, оценка параметров алгоритма (эффективности, сложности, правильности). Комплексный анализ эффективности алгоритма на основе комплексной оценки ресурсов формальной системы. Верификация при коллективной разработке программных систем.
презентация [234,9 K], добавлен 22.10.2013Математические методы решения задачи расчета химического равновесия. Структура программного средства. Схема отношений базы данных химических элементов и соединений. Программная реализация Генетического Алгоритма для расчета химического равновесия.
дипломная работа [6,6 M], добавлен 07.07.2012