Создание компьютерной системы интеллектуального анализа фармакологических данных
Разработка архитектуры интегрированной системы интеллектуального анализа гибридных данных. Исследование возможных путей учёта числовых характеристик в рамках логико-комбинаторного анализа. Рассмотрение числовых характеристик химических соединений.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | русский |
Дата добавления | 27.09.2018 |
Размер файла | 65,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Всероссийский институт научной и технической информации РАН
На правах рукописи
Автореферат
диссертации на соискание ученой степени кандидата технических наук
Создание компьютерной системы интеллектуального анализа фармакологических данных
Специальность 05.25.05 информационные системы и процессы, правовые аспекты информатики
Максин Михаил Владиславович
Москва 2006
Работа выполнена во Всероссийском институте научной и технической информации РАН
Научный руководитель: доктор технических наук, профессор Финн Виктор Константинович
Официальные оппоненты:
доктор технических наук, профессор Еремеев Александр Павлович
кандидат технических наук Шапкин Александр Владимирович
Ведущая организация: Институт системного анализа РАН
Защита состоится 2006 г. на заседании диссертационного совета Д 002.026.01 при Всероссийском институте научной и технической информации РАН по адресу: 125190, Москва, ул. Усиевича, д. 20.
С диссертацией можно ознакомиться в библиотеке Всероссийского института научной и технической информации РАН.
Автореферат разослан 2006 г.
Ученый секретарь диссертационного совета доктор биологических наук, профессор М.А. Каменская.
Общая характеристика работы
По данным Национальной токсикологической программы США (U.S. National Toxicology Program, NTP), в настоящее время зарегистрировано около 100,000 химических веществ, используемых в производстве, и ежегодно в этот список добавляется около 1,000 соединений. Влияние на человеческий организм известно лишь для 15% из них, хотя человек может быть подвержен их воздействию во время производства, использования продуктов и утилизации отходов, и все они, так или иначе, становятся частью окружающей нас среды - воздуха, воды и почвы. Ещё меньше известно о канцерогенности этих веществ, так как экспериментальные исследования в данной области являются весьма дорогостоящими и времяёмкими: стандартный тест на канцерогенность одного химического вещества в рамках NTP включает в себя 2 года биопроб на грызунах и стоит около 2 миллионов долларов. Компьютерные системы анализа контрпродуктивных свойств химических соединений, предоставляющие прогноз этих свойств, позволили бы значительно сократить время и стоимость таких исследований. Особое место среди этих систем занимают системы интеллектуального анализа данных (ИАД), характеризующиеся способностью использовать существующие знания и приводить обоснование сделанного прогноза.
В настоящее время повышенный интерес вызывают методы ИАД, интегрирующие познавательные (логико-комбинаторные) процедуры со статистическими (вычислительными) процедурами. Такие интегрированные методы позволяют учитывать в анализе как структурные, так и числовые характеристики изучаемых объектов (т.е. проводить анализ гибридных данных), а также подкрепить сравнительно молодой, но чрезвычайно перспективный аппарат формального логического анализа многолетним опытом разработок в области статистического анализа. При этом числовые характеристики и числовые модели, отражающие «физику» изучаемых явлений и процессов (как, например, энергия активации в задаче «структура химического соединения - проявляемая активность») могут являться важным элементом настройки интеллектуальной системы анализа на конкретную предметную область.
Целью диссертационных исследований являлось создание интегрированной системы интеллектуального анализа гибридных данных, и её апробация в прогнозировании контрпродуктивных свойств некоторых классов химических соединений.
Выбор данной цели привёл к постановке следующих задач:
1. Разработка архитектуры интегрированной системы интеллектуального анализа гибридных данных, с учётом следующих технических требований:
· возможность распараллеливания вычислительно-сложных этапов работы системы с целью снижения времени работы и требований к аппаратному обеспечению
· возможность работы в условиях, когда не все данные могут быть размещены в оперативной памяти - для масштабируемости системы в зависимости от объёма анализируемых данных
· возможность сохранения результатов работы системы (в том числе и промежуточных)
2. Исследование возможных путей учёта числовых характеристик в рамках логико-комбинаторного анализа
3. Систематизация числовых характеристик химических соединений, релевантных решаемым задачам прогноза, а также методов вычислений этих характеристик
4. Апробация системы в решении задач прогнозирования контрпродуктивных свойств выделенного класса химических соединений
Актуальность работы определяется тем, что для изучения объекта необходимо использование содержательных его моделей и моделей процессов, в которых он участвует, а численные модели исторически являются наиболее широким классом таких моделей. Гибридное (структурно-числовое) описание объекта является более информативным, а интегрированные методы должны сделать анализ более полным и точным. Разработанная интеллектуальная система позволяет обогащать имеющиеся данные о контрпродуктивных свойствах химических соединений числовыми характеристиками этих соединений (которые вычисляются автоматически или предоставляются экспертом), а затем проводить анализ с целью выявления причин наличия таких свойств и прогнозирования. Архитектура же, в которой выполнена система, делают её легко расширяемой в смысле используемых методов анализа и легко масштабируемой в смысле применимости для решения практических задач разного объёма данных.
Разработанная в диссертации система прогнозирования контрпродуктивных свойств химических соединений является интеллектуальной системой типа ДСМ (ИнтС-ДСМ) [1].
Интеллектуальные системы типа ДСМ основаны на ДСМ-методе автоматического порождения гипотез (АПГ), реализующим автоматизированные правдоподобные рассуждения (порождение гипотез о причинах свойств, вывод по аналогии, процедуры объяснения начального состояния БД) [2].
ИнтС-ДСМ представляет собой интерактивную систему, в которой на базе развитого логико-комбинаторного обеспечения, реализующего ДСМ-метод АПГ, осуществляется интеллектуальный анализ данных из БД с неполной информацией (БДНИ). ИнтС-ДСМ применяются для прогнозирования свойств структурированных объектов в БДНИ для задач фармакологии, медицины, технической диагностики и социологии.
В процессе работы над диссертацией автором получены следующие научные результаты:
1. Разработана архитектура интегрированной (совместно использующей вычислительные и когнитивные процедуры) системы типа ДСМ интеллектуального анализа гибридных (структурно-числовых) данных
2. Предложенная архитектура реализована в экспериментальной версии интеллектуальной системы прогнозирования контрпродуктивных свойств химических соединений
3. Задачи анализа гибридных данных сведены к классу задач, решаемых ДСМ-методом
4. Спроектирована и реализована расширяемая, масштабируемая и распараллеливаемая версия ДСМ-решателя, включая модель данных и алгоритмы работы на разных этапах.
5. Реализован модуль для квантовомеханического расчёта числовых характеристик класса химических соединений
При разработке ИнтС-ДСМ использовались:
- принципы гибридного представления химических соединений, предложенные в статьях Маневича С.И. [3,4];
- модель канцерогенности полиароматических углеводородов (ПАУ), разработанная в НИИ экологии человека и гигиены окружающей среды [3];
- версия решателя задач для ИнтС-ДСМ, представленная в диссертации Панкратова Д.В. [5];
- версия ФКСП-кодировщика структур химических соединений, разработанная в ходе диссертационных исследований Добрыниным Д.А. [6];
Следующие особенности работы определяют ее научную новизну:
1. Разработана архитектура интегрированной системы интеллектуального анализа гибридных данных, которая делает возможным расширение новыми методами и стратегиями анализа
2. Разработан распараллеливаемый алгоритм поуровневого построения решётки ДСМ-гипотез, оптимизированный для применения в задачах с трудоёмкими операциями нахождения сходства
3. Создана интеллектуальная система прогнозирования контрпродуктивных свойств химических соединений, совместно использующая логико-комбинаторные и численные методы для анализа структурно-числовых данных
Практическая значимость работы заключается в создании интеллектуальной партнерской системы для анализа экспериментальных данных, которая:
1. Позволяет осуществлять внеэкспериментальный прогноз контрпродуктивных свойств химических соединений с учётом их структурных и числовых характеристик
2. Реализует важные элементы ДСМ-рассуждения - итерационное применение правил правдоподобного вывода (шага ДСМ-рассуждения) и стратегии ДСМ-рассуждения
3. Позволяет использовать статистический (вычислительный) анализ в сочетании с ДСМ-анализом
4. Предоставляет интерфейс доступа к данным, позволяющий работать с данными безотносительно того, где эти данные фактически находятся (в оперативной памяти, на диске, в базе данных и т.д.)
5. Является основой для создания ДСМ-систем ИАД промышленного масштаба
По теме диссертации в настоящее время опубликовано 7 статей и 2 тезисов докладов.
Апробация работы
Результаты диссертационной работы были доложены на следующих конференциях:
1. Международный форум "Информационные технологии и общество - 2003", Турция, Кемер, 20 - 27 сентября 2003г.
2. II съезд токсикологов России. Москва 10-13 ноября 2003 г.
Структура работы. Диссертация состоит из введения, трёх глав, заключения, списка литературы и приложения.
Краткое содержание работы
Во Введении обосновывается актуальность темы диссертации, определяется цель и предмет работы, формулируются основные результаты исследований и их практическая значимость, и даётся краткая характеристика содержания.
Глава I содержит обзор существующих методов и инструментов интеллектуального анализа данных в области прогнозирования канцерогенности химических соединений. Раздел 1.1 даёт определения основным терминам, используемым в задачах анализа данных.
Извлечение знаний из баз данных (Knowledge Discovery in Databases, KDD), как определяется основателями этого подхода [7], есть нетривиальный процесс обнаружения обоснованных, ранее неизвестных, потенциально полезных и объяснимых закономерностей в данных. Поиск закономерностей в данных (Data Mining, DM) - например, в виде дерева решений, кластеров данных или параметров регрессии - является ключевым этапом процесса KDD. Под методами интеллектуального анализа данных (Intelligent Data Analysis, IDA) [8] понимают методы, способные использовать существующие знания о предметной области или знания о собственно принципах анализа данных. Это определение можно назвать определением интеллектуальности метода ИАД в слабом смысле, по сравнению с определением, данным в [1].
Раздел 1.2 характеризует задачи, цели и инструменты интеллектуального анализа данных. Среди задач ИАД выделяют следующие:
· Классифицирование - отнесение объекта (элемента данных) к одной из заранее определённых категорий. Автоматизация этого вида анализа состоит в использовании машиной запрограммированного алгоритма классифицирования, а «интеллектуализация» - в автоматическом порождении классификатора на основе примеров объектов из различных категорий.
· Регрессия - определение значения некоторой числовой характеристики объекта.
· Кластеризация - выделение группы категорий, или кластеров, для описания данных - относится к направлению неконтролируемого обучения (unsupervised learning).
· Характеризация - нахождение минимального описания группы объектов
· Моделирование зависимостей - нахождение моделей, отражающих зависимости между данными об одном объекте
Помимо задачи анализа, важным фактором при выборе инструмента является цель анализа. Выделяют две цели анализа данных - прогноз и описание. В первом случае речь идёт о необходимости предсказать будущие или неизвестные значения на основе имеющихся, во втором - о нахождении закономерностей, характеризующих данные в форме, поддающейся интерпретации. В научных исследованиях целью анализа данных является описание данных. числовой комбинаторный химический
Конкретные инструменты, а точнее, программы для ИАД рассматриваются в свете 3х аспектов - структуры входных данных (язык примеров и язык существующих знаний), структура искомой модели данных (язык гипотез) и собственно алгоритм анализа (обучения).
Язык примеров - это форма представления обучающих примеров (данных), существенно используемая алгоритмом обучения. Раздел 1.2.1 приводит описание различных языков примеров, среди которых есть числовые векторы, пропозициональные и языки логических фактов. Язык гипотез служит для представления результатов обучения - модели данных. В разделе 1.2.2 приводится краткий обзор используемых языков гипотез, таких как числовые функции, деревья решений, решающие правила, языки различных сужений логики 1го порядка, а также языки ДСМ-логик [9], расширяющие логику 1го порядка. Раздел 1.2.3 содержит классификацию алгоритмов машинного обучения, в рамках концепции «обучение как поиск» (learning as search) [10]. В задачах MO пространство поиска (гипотез) задаётся не явным перечислением возможных состояний, а через начальное состояние (начальную гипотезу) и оператор перехода (порождения гипотез), определяемого текущим множеством обучающих примеров и имеющимися на данный момент знаниями. Конечное же состояние считается достигнутым, когда все возможные гипотезы рассмотрены и сформирован набор гипотез, удовлетворяющих некоторому критерию отбора гипотез.
Раздел 1.2.3.1 проводит классификацию по способу формирования текущего набора обучающих примеров. Фактически наличие такого отбора делает алгоритм эвристическим, так как при этом некоторое число гипотез «насильно» исключается из рассмотрения. Стратегия «разделяй и властвуй» лежит в основе почти всех методов построения деревьев решений (ID3 [11], SRT [12]). Стратегия «покрытие» используется во многих методах построения решающих правил (CN2 [13], AQ [14], GOLEM [15]).
Раздел 1.2.3.2 классифицирует алгоритмы по способам порождения гипотез, среди которых можно выделить 4 основных подхода. Наиболее часто встречается подход «сверху вниз» (top-down), или «от общего - к частному» (general-to-specific), при котором в качестве начальной гипотезы выбирается наиболее общая гипотеза, покрывающая как положительные, так и отрицательные примеры (решающие правила - FOIL [16], деревья решений - ID3 [11], SRT [12]). Двойственным к подходу «сверху вниз» является подход «снизу-вверх» (bottom-up) - AQ [14], GOLEM [15], PROGOL [17]. Подход, комбинирующий два вышеупомянутых, реализован в алгоритме CANDIDATE-ELIMINATION [17] обучения понятиям в рамках концепции Version Space [10]. И, наконец, возможен вариант (как, например, в CN2 [13]) порождения гипотез не на базе конкретных примеров, а на основе предопределённой их структуры (например, каждый объект описывается кортежем 4х атрибутов с заданным доменом для каждого из атрибутов) - в этом случае примеры служат исключительно для проверки критерия отбора гипотез, например, статистической значимости.
Раздел 1.2.3.3 приводит некоторые критерии отбора гипотез, которые выражают некие «субъективные» представления о природе задачи или об искомом решении, и, по сути, являются элементом индуктивной склонности (inductive bias) [18] алгоритма. Наиболее часто встречается критерии, следующие принципу «бритвы Оккама» (Occam's razor) , т.е. простоты гипотезы. Более содержательными примерами являются различные условия, расширяющие прямой метод сходства в ДСМ-системах [19].
Раздел 1.3 рассматривает некоторые задачи интеллектуального анализа данных в науках о жизни, удовлетворяющие условиям применимости систем типа ДСМ [20].
Раздел 1.3.1 посвящен задаче исследования канцерогенности веществ (токсикологии). Целая галерея методов машинного обучения в применении к этой задаче была представлена в рамках открытых проектов Predictive-Toxicology Evaluation (PTE) [21] 1993-1997 гг. и 1998-1999 гг. Массив содержал около 400 веществ, как органического, так и неорганического происхождения. Для каждого из соединений, помимо структурной формулы, имелись дополнительные экспериментальные данные, представленные значениями 189 атрибутов. Для обучающих соединений был также известен уровень канцерогенности.
Алгоритм SRT (Structural Regression Tree) [12] был создан как попытка соединить подходы статистического построения регрессионных деревьев и индуктивного логического программирования (ИЛП), и тем самым научиться решать задачу «реляционной регрессии» - построение теории для прогнозирования численных величин на основе реляционных данных и, возможно, существующих знаний в данной предметной области. Метод TIPT (Tree Induction for Predictive Toxicology) [22] является приложением известного алгоритма построения деревьев решений C4.5 [23] к предложенной задаче. ИЛП алгоритм PROGOL [17] реализует принцип обратного следования (inverse entailment) для генерализации множества положительных примеров относительно теории. Обучающие примеры задаются в виде дефинитных дизъюнктов.
Прогноз LRD выполнен с помощью алгоритма Distill [24], который представляет собой объединение метода DiVS (Disjunctive Version Space) со стохастическим согласованием. Прогноз OUCL-2 сделан с помощью дерева, построенного системой C4.5. Каждое вещество было описано значениями 417 атрибутов, причём некоторые наборы атрибутов основаны на правилах, построенных ИЛП-системами PROGOL и WARMR (W. Association Rules over Multiple Relations) [25]. Прогноз OAI построен на независимом прогнозе двумя методами - C4.5rules и неким простым байесовским классификатором - и последующем голосовании. Прогноз LEU3 сделан при помощи алгоритма ICL (Inductive Constraint Logic) [26] с использованием теории для мутагенеза, построенной ранее системой PROGOL. Прогноз LEU2 выполнен системой MACCENT (MAximum ENTropy modeling with Clausal Constraints) [27] с использованием ассоциативных правил, найденных методом WARMR.
В целом, анализ построенных моделей показывает, что они скорее выделяют наиболее значимые сопутствующие признаки (в виде результатов краткосрочных тестов, как, например, результат теста на мутагенез бактерий Salmonella, которому придаётся большой вес практически в каждой модели), чем выявляют структурные причины канцерогенеза. Принимая это во внимание, организаторы конкурса PTC 2000-2001 предложили использовать в качестве обучающих только данные, касающиеся химической структуры веществ непосредственно.
Модель VINITI [28] была получена ДСМ-системой исследования задач «структура-активность» с использованием представления химических соединений в виде ФКСП (фрагментарный код суперпозиции подструктур) [30]. ДСМ-метод автоматического порождения гипотез (АПГ) [29] является логико-комбинаторным методом, основанным на формализации важного класса правдоподобных рассуждений [19] и реализующим синтез познавательных процедур - индукции, аналогии и абдукции. Модели LEU* получены с помощью алгоритма Tilde [31] построения логических деревьев решений, основанного на алгоритме C4.5. Модель WAI1 [32] представляет собой набор семи независимых линейных классификаторов, каждый из которых использует свой набор атрибутов - один из семи, предоставленных различными группами исследователей, принимавшими участие в конкурсе. Соединение считалось канцерогенным, если хотя бы один из классификаторов голосовал за это. Модель GONS для прогноза MR была построена с помощью системы обучения понятиям SubdueCL [33], основанной на системе обнаружения подструктур в структурных данных Subdue. Обе системы используют представление реляционных данных в виде графа для нахождения повторяющихся образцов (в виде подграфов).
Раздел 1.3.2 посвящён задачам ИАД в медицине. Эта область стала одним из главных полигонов испытания и применения методов ИАД с самых ранних этапов их развития. Можно выделить два класса методов ИАД, отвечающих главным аспектам применения таких методов в медицине [34]:
1. Методы абстракции данных (data abstraction), призванные поддерживать принятие решений посредством извлечения полезных абстракций (обобщений) из «сырых», по большей части числовых, данных.
2. Методы собственно анализа данных (data mining), предназначенные для извлечения знаний, сокрытых в массивах данных, в понятной «символической» форме.
Основными особенностями применения ИАД в медицине являются следующие:
· «Добытые» закономерности должны быть выражены в терминах, понятных медицинскому эксперту, и подкреплены конкретными примерами - только при этих условиях они могут быть взяты на вооружение и использоваться в повседневной практике.
· Цена неправильных прогнозов очень высока, что требует повышенной надежности результатов классифицирования.
· Наличие неполных и зашумлённых данных, снижающих надёжность прогноза.
· Для принятия ответственных решений требуется очень детальное описание объектов анализа (состояния пациента и наблюдаемых симптомов), гораздо более детальное, чем обычно предоставляют деревья решений - традиционный инструмент диагностики - после «прореживания» с целью получения дерева большей общности и меньшего размера.
· Для увеличения шансов получения значимых результатов, такие методы должны уметь взаимодействовать с экспертом, который может «поделиться» существующими знаниями, предоставить необходимые данные и оценить результаты работы [34] (т.е. быть человеко-машинными [29]).
Раздел 1.3.3 подводит итоги сделанного обзора. Отмечаются следующие тенденции в развитии методов анализа данных:
· Всё более активное использование представления данных в виде отношений - «естественного» представления для реляционных БД - для работы в рамках систем извлечения знаний из баз данных.
· «Повышение» уровня языка моделей (гипотез), как следствие повышения уровня языка данных (примеров), так и с целью получения более содержательных моделей.
· Наряду с разработкой чисто «реляционных» алгоритмов, делаются попытки адаптации существующих наработок в области «пропозиционального» анализа к анализу реляционных данных.
· Возрастает интерес к системам, строящим избыточные модели, которые позволяют эффективно работать в условиях неполных и зашумлённых данных.
Проведённый анализ предъявляемых требований и используемых методов ИАД позволяет описать системы типа ДСМ в терминах их отличительных особенностей.
· ДСМ-системы являются интеллектуальными в сильном смысле.
· Системы типа ДСМ выходят за рамки систем анализа данных; реализуя предварительное преобразование данных, они являются системами извлечения знаний.
· Кроме того, ДСМ-системы обладают способностью подсказывать исследователю вид объектов, которыми необходимо пополнить исходную базу фактов - способность уникальная, не упоминаемая в литературе.
· Логическая корректность ДСМ-гипотез выступает как альтернатива статистической доверительности, и, в отличие от последней, требовательна не к объему имеющихся данных, а именно к составу.
· Наличие 4х типов истинностных оценок гипотез позволяет отказаться от правила «исключённого третьего» и увеличить точность и надёжность результатов за счёт распознавания ситуаций противоречивости или недостаточности имеющихся знаний или данных.
· Модели данных, создаваемые ДСМ-методом, избыточны в том смысле, что один объект-пример может попадать под действие нескольких результирующих гипотез (во многих системах это невозможно из-за требования минимальности описания). Эта избыточность позволяет выполнить последующий прогноз с большей полнотой и надёжностью.
· ДСМ-системы предоставляют чёткое обоснование сделанного прогноза в терминах подобъектов-«структурных причин», что роднит их с системами обучения, основанными на анализе ситуаций - case-based learning [35].
Проделанный анализ позволяет также наметить некоторые пути развития систем типа ДСМ как средства интеллектуального анализа данных и извлечения знаний из баз данных:
· Соединение логико-комбинаторного ДСМ-метода и численных статистических методов позволило бы учитывать как структурные, так числовые характеристики исследуемых объектов.
· ДСМ-метод, не использующий статистических критериев, может быть «введён в заблуждение» шумовыми данными (единичными «выбросами» неправильных данных) и в случае его применения для анализа данных в промышленных масштабах эта проблема должна быть адресована.
· Необходима интеграция с системами управления базами данных для хранения данных и знаний, а также реализация алгоритмов, способная работать с данными, находящимися не в оперативной памяти компьютера, а во внешней базе данных.
· Другой аспект систем извлечения знаний из баз данных - распараллеливание алгоритмов - также должен быть изучен (в применении к алгоритмам ДСМ-метода, например, алгоритму нахождения глобальных сходств).
В главе II предлагается подход к проблеме интеллектуального анализа гибридных (структурно-числовых) данных на примере ДСМ-системы прогнозирования контрпродуктивных свойств химических соединений. В разделе 2.1 приводится краткое описание логико-комбинаторного ядра системы - ДСМ-метода автоматического порождения гипотез, и используемых им аппарата квазиаксиоматических теорий (КАТ) [38] и бесконечнозначной логики [37]. Раздел 2.2 описывает специализированную ДСМ-систему прогнозирования контрпродуктивных свойств химических соединений, реализованную в отделении интеллектуальных систем ВИНИТИ и ставшую лауреатом международного конкурса Predictive Toxicology Challenge 2000 в трёх из четырёх категорий. В этой системе для представления химических соединений применялся язык ФКСП (фрагментарный код суперпозиции подструктур) [30], специально разработанный для задачи «структура-активность».
Однако большинство моделей в данной задаче являются числовыми. В качестве примера, Раздел 2.3 приводит числовую модель канцерогенности полиароматических углеводородов (ПАУ), разработанную в НИИ экологии человека и гигиены окружающей среды им. А. Н. Сысина. В этой модели полагается, что контрпродуктивная - канцерогенная или мутагенная - активность ПАУ будет тем выше, чем ниже энергия образования соответствующего ему метаболита, т.е. вещества, получающегося в результате превращений, которые претерпевает исходное вещество в организме. В процессе эксплуатации этой модели были обнаружены соединения, выпадающие из общего ряда. Оказалось, что такие соединения имеют специфическую структуру, и качество результатов значительно повышается, если произвести предварительный отбор соединений по структуре, а уж затем применять регрессионный анализ. Таким образом, возникает задача анализа гибридных - структурно-числовых - данных. Первым шагом в этом направлении становится разработка квантовомеханического модуля, реализующего вышеупомянутую модель. Он использует метод Хюккеля [39] для извлечения из структуры ПАУ числовых характеристик, составляющих числовую компоненту описания объекта.
Раздел 2.4 посвящен следующей проблеме - адаптация ДСМ-метода к анализу многокомпонентных объектов. Описываемый здесь подход является первым приближением (в рамках ДСМ-метода) к проблеме анализа гибридных данных и состоит в попытке использования в анализе так называемых мульти-ДСМ-объектов, т.е. ДСМ-объектов, представляющих собой упорядоченный набор компонентов, каждый из которых в свою очередь представляет собой ДСМ-объект. Операции вложения и нахождения сходства для мульти-ДСМ-объекта определяются естественным образом через соответствующие операции для каждого из компонентов.
Раздел 2.5 посвящен проблеме формализации числовой величины как ДСМ-объекта. Здесь в качестве решения было выбрано введение алгебры интервалов [40].
В разделе 2.6 описываются эксперименты, проведенные с модернизированной ДСМ-системой прогнозирования контрпродуктивных свойств соединений. Первым отличительным результатом применения этой системы явилось то, что полученная система гипотез объясняла все обучающие примеры из тестового массива (т.е. выполнялся критерий достаточности оснований принятия этих гипотез), чего не удавалось достичь, рассматривая только структуру соединений. Кроме того, учёт числовой характеристики соединений сделал прогноз 3-х соединений более полным по числу доопределённых свойств и, таким образом, более точным по описанию свойств соединения в целом. В другой серии экспериментов была сделана попытка доопределить свойства 14-ти ещё не изученных соединений. Для 9-ти из них были получены прогнозы, причём они совпали с прогнозами, сделанными с помощью группы правил, предложенной экспертами в [41].
Раздел 2.7 подводит итоги данного этапа исследований. Наряду с преимуществами выявляется ряд недостатков данного подхода. Среди них отмечается значительное увеличение числа порождаемых гипотез, связанное с тем, что фактически сходство двух числовых ДСМ-объектов не бывает пусто. Указывается также, что система, в которой можно переопределить лишь операцию нахождения сходства (т.е. сходство 2-х объектов), не позволяет использовать статистические методы в полной мере и, таким образом, не вполне отвечает поставленной задаче совместного использования логико-комбинаторных и статистических методов в анализе данных. Дальнейшее развитие системы видится в изменении ее архитектуры в соответствии с новыми требованиями.
Глава III посвящена разработке новой архитектуры ДСМ-систем, предназначенных для анализа гибридных данных, а также реализации на основе этой архитектуры новой версии ДСМ-системы прогнозирования контрпродуктивных свойств химических соединений.
Попытка расширения существующей программной реализации ДСМ-метода [4] - интеллектуальной системы типа ДСМ (ИнтС-ДСМ) прогнозирования контрпродуктивных свойств химических соединений - выявила некоторые архитектурные недостатки данной реализации, которые стали препятствием для развития системы. Главными из них являются следующие:
· Структуры объектов и их сходств считаются одинаковыми. Однако это не так в случае статистического анализа, где объектами являются числовые векторы, а в качестве их сходства могут выступать всевозможные статистические модели - от кластеров до регрессии и факторов.
· Отсутствие возможности переопределения процедуры нахождения локального сходства нескольких объектов. Сейчас, при настройке ДСМ-системы на конкретную предметную область, происходит переопределение операции (попарного) сходства, т.е. предоставляется доступ к информации о не более чем двух объектах одновременно. В случае же применения статистических методов, для нахождения существенного сходства часто требуется иметь одновременный доступ к информации обо всех объектах-"родителях" сходства.
· Необходимость хранить в оперативной памяти компьютера все порождаемые гипотезы. Используемый алгоритм построения решётки понятий следует подходу "добавляй по одному" [36], в котором новые гипотезы порождаются пересечением всех существующих гипотез с новым объектом. При таком построении на каждом шаге необходимо иметь доступ ко всем порождённым гипотезам и нет возможности отложить "законченные" гипотезы в сторону (на диск) и освободить занимаемую ими память для новых гипотез. Как упоминалось, значительное увеличение числа порождаемых гипотез является одной из проблем интегрированной ДСМ-системы (в её текущей реализации), и необходимость экономить оперативную памяти становится актуальной.
· Программа останавливает свою работу после первого шага применения правил правдоподобного вывода (п.п.в.). В [42] были сформулированы необходимые и достаточные условия появления новых гипотез при добавлении к множеству исходных объектов данного класса нового объекта, приписанного к этому классу. (Этот объект может быть добавлен в систему экспертом или являться результатом классификации на предыдущем шаге). Тем самым была показана целесообразность перехода к последующим шагам применения п.п.в., и дело лишь за его реализацией.
· Программа не поддерживает дополнительные эмпирические зависимости (ЭЗ) и их комбинации (стратегии) как подключаемые модули, хотя это является важным элементом настройки ДСМ-системы. Ядро системы монолитно, что не позволяет использовать отдельные его элементы для реализации вариаций ДСМ-метода.
Предлагаемая архитектура призвана устранить эти недостатки и максимально облегчить модернизацию построенных на её основе ДСМ-систем. Это должно способствовать быстрому воплощению в программных системах достижений ДСМ-науки и тем самым способствовать её развитию, а также заложить основу для создания ДСМ-систем промышленного масштаба.
Раздел 3.1 посвящен вопросу обобщения понятия сходства для случая, когда структуры изучаемого объекта и искомых гипотез не совпадают. В этом случае предлагается использовать набор функций сходства ч={чss, чsc, чcc}, областью значений которых является C (множество сходств), а областями определения - SЧS, SЧC и CЧC соответственно (где S - множество объектов). При этом функция чcc обладает свойствами операции сходства на множестве объектов C, а функции чss и чsc - свойствами (квази)коммутативности и (квази)ассоциативности:
(1) чss(si, sj) = чss(sj, si), чsc(si, сj) = чsc(сj, si),
(2) чsc(si, чss (sj, sk)) = чsc(чss (si, sj), sk).
Проверка на сходства на пустоту («неинформативность») осуществляется не сравнением с эталонным «пустым» сходством, а более абстрактным образом - посредством специального предиката E(c). При этом должны выполняться следующие условия:
(3) ,
(4) ,
т.е. сходство с пустым сходством всегда пусто.
Отношение вложимости на множестве объектов обобщается до соответствия вложимости сходства в объект I(c, s) такого, что выполняются следующие условия:
(5) ,
т.е. сходство всегда вложимо в породившие его объекты;
(6) ,
т.е. пустое сходство вложимо в любой объект.
Раздел 3.2 подробно описывает архитектуру системы, её компоненты и взаимодействие между ними. Все компоненты архитектуры разделяются на структуры данных и алгоритмы. Это отражает то обстоятельство, что ядро системы (т.е. основные алгоритмы) не зависит от деталей данной конкретной предметной области (т.е. основных структур данных). При этом настройка на предметную область происходит с помощью вспомогательных алгоритмов, специфичных для предметной области.
На уровне языка программирования (C++), в качестве механизма настройки и расширения программной системы используется механизм шаблонов (templates), а не более часто употребляемый для этих целей механизм наследования классов (subclassing). Механизм шаблонов является более общим по сравнению с механизмом подклассов: достаточно объединить все методы, требуемые контрактом для некоторого шаблона, в один (абстрактный) класс, и создать экземпляр шаблона с использованием этого класса - и мы получаем класс, обладающий функциональностью исходного шаблона и поддерживающего механизм подклассов.
В целом, для настройки «быстроменяющихся» частей системы (т.е. тех, что могут меняться от запуска к запуску, например, набор искомых эмпирических зависимостей), следует использовать механизм наследования - в противном случае незначительное изменение параметров эксперимента потребует новой версии системы. Настройку же на конкретную предметную область (т.е. подключение структур данных для изучаемых объектов, искомых гипотез, а также вспомогательных алгоритмов) имеет смысл производить с помощью механизма шаблонов - для устранения недостатков механизма наследования, преимущества которого в данном случае всё равно не пользуются.
В разделе 3.2.1 обсуждаются структуры данных. Фундаментальными являются объект и сходство. Система позволяет, во-первых, использовать многокомпонентные описания объектов и сходств и, во-вторых, иметь независимые описания для объектов и для сходств. Всё это возможно, конечно, при условии, что операции нахождения сходства, предикат вхождения сходства в объект и критерий «пустоты» сходства (реализованные во вспомогательных алгоритмах) определены корректно.
К вспомогательным структурам данных относятся структуры представления множеств свойств и множеств идентификаторов объектов. Эти структуры независимы от предметной области и система предоставляет «стандартные решения» для них, но они могут быть легко заменены любым альтернативным решением. Такая необходимость может возникнуть при настройке системы на конкретную задачу в данной предметной области.
Наконец, при разработке библиотеки делались минимальные предположения о контейнерах данных, т.е. о способах хранения данных и доступа к ним. В экспериментальной системе используются контейнеры STL, которые хранят все данные в оперативной памяти. Однако, интерфейс (контракт) между ядром системы и контейнерами, а главное, разработанный алгоритм «поуровневого» построения решетки понятий, который исключает необходимость оперативного доступа одновременно ко всем порождённым гипотезам, позволяют применять контейнеры, использующие оперативную память лишь для кэширования, и хранящие основную массу данных на диске или в базе данных. К разряду контейнеров относится структура, используемая для хранения элементов отношений и , порождаемых в процессе работы системы. Её особенностью является «поуровневое» разбиение, при которой все элементы уровня k (т.е. порождённые с участием ровно k объектов) сгруппированы в отдельный контейнер. Это упрощает организацию эффективного кэширования данных.
Раздел 3.2.2 посвящен описанию программных компонентов ядра системы.
Обобщатель (Inductor) реализует этап порождения гипотез IIго рода (о причинах наличия свойств в объектах). Процесс состоит в (параллельном) применении Генератора Iго рода для построения отношений, соответствующих решающим предикатам сходства и , с последующим вызовом Управителя Iго рода, который порождает гипотезы, применяя п.п.в. Iго рода к элементам полученных отношений.
Генератор Iго рода (Generator I) строит отношение для решающего предиката сходства (для указанных шага n применения п.п.в., знака у и Усилителя x).
Фильтр (Rejecter) выполняет проверку наличия определённой ЭЗ для пары (сходство, свойства). В настоящее время реализованы фильтры (a) простого метода сходства и (4) «запрета на контрпримеры».
Усилитель (Enhancer) представляет собой набор Фильтров, соответствующих искомым эмпирическим зависимостям (ЭЗ). Расширение тривиального набора (включающего лишь ЭЗ простого метода сходства (a)) фактически приводит к усилению п.п.в. Iго рода, отсюда и название.
Управитель I-го рода (Ruler I) доопределяет отношение посредством применения п.п.в. Iго рода к элементам отношений и . Используемый в экспериментальной системе Управитель соответствует методу «ДСМ-АПГ без отношения порядка», но так как, во-первых, Генератор и Управитель разделены, и, во-вторых, Генератор уже поддерживает механизм усилителей, то для создания системы типа «ДСМ-АПГ с отношением порядка» достаточно модернизировать лишь логику Управителя.
Уточнитель (Analoger) реализует этап порождения гипотез Iго рода (о наличии свойств в объектах).
Контролёр (Abductor) реализует этап проверки выполнимости критерия достаточного основания принятия гипотез (к.д.о.п.г.) в полученной БЗ. Процесс состоит в попытке «доопределить» все фактические свойства объектов с помощью результирующего отношения .
Рассуждатель (Reasoner) объединяет все вышеописанные процедуры в итерационную процедуру ДСМ-рассуждения: Обобщатель и Уточнитель поочередно доопределяют соответствующие отношения, пока это возможно, а затем Контролер проводит проверку качества результатов работы.
Раздел 3.2.3 посвящен описанию программных компонентов настройки системы.
Помощник предметной области (DomainHelper) предоставляет следующие процедуры:
· Нахождение локального сходства объектов (collate). Для этого процедуре передаётся два итератора - один по объектам-родителям, а другой - по «соседям снизу» искомого сходства (в смысле частично упорядоченного множества, образовываемого множествами объектов-родителей). Итератор по объектам-родителям универсален (например, итератор по «соседям снизу» пуст для уровня 2) и предоставляет непосредственный доступ к данным об объектах. С помощью же итератора по «соседям снизу» в некоторых случаях можно значительно ускорить процедуру (например, если объекты представлены множеством дескрипторов, то для нахождения сходства достаточно «пересечь» любые два «соседа снизу»). Ядро передаёт оба итератора, и тем самым даёт возможность использовать тот, который в данном конкретном случае более удобен.
· Нахождение сходства между объектом и сходством (collate_sc). Этот частный случай процедуры нахождения локального сходства объектов реализуется отдельно - из практических соображений (в силу потенциальной простоты его реализации). Кроме того, эту процедуру часто бывает удобно использовать в реализации предыдущей.
· Определение эквивалентности сходств (equal). Тривиальный в случае множеств, этот предикат может становиться довольно сложным в случае числовых моделей. Например, прямое сравнение действительных чисел чаще всего не имеет смысла - как минимум, нужно учитывать неточности, вносимые бинарным представлением чисел с плавающей точкой.
· Определение «пустоты» сходства (empty). В простых случаях «пустоту» можно определить как эквивалентность эталонному «пустому» сходству (например, пустому множеству дескрипторов), но в общем случае реализация этого предиката может включать вычисления (как, например, в случае со статистическими моделями, где мерой «неинтересности» может служить дисперсия).
· Определение вложимости сходства в объект (include). Хотя формально этот предикат можно было бы (неявно) реализовать через предикат эквивалентности сходств и операцию нахождения сходства между сходством и объектом, он реализуется явно - с тем, чтобы была возможность оптимизации.
Помощник для работы с множествами свойств (PropertiesHelper) уже реализован как часть библиотеки, но должен пересматриваться тогда, когда меняется внутреннее представление для множеств свойств. Существующая реализация - для представления в виде 32-битных полей, где каждому биту соответствует свойство и наличие/отсутствие бита означает наличие/отсутствие свойства. Это позволяет выполнять теоретико-множественные операции со скоростью побитовых операций, но накладывает ограничение на число свойств - не более 32 (что должно быть более чем достаточно для большинства практических задач). Этот помощник должен предоставлять процедуры для пересечения, объединения и разности множеств, а также определения равенства множеств и пустого множества.
В случае же множества идентификаторов (порядковых номеров) объектов ограничение на их число может быть существенным. Включенная в библиотеку реализация (основанная на представлении в виде 64-битного поля) поддерживает до 64 объектов, что может быть недостаточно для решения практических задач. Альтернативное решение может содержать либо фиксированное число 64-битных полей, либо их переменное число. Первый вариант гораздо проще и производительней второго, но такая реализация лишь смягчает ограничение (n полей позволяют анализировать до 64n объектов), а не устраняет его. Помощник для работы с множествами идентификаторов объектов (ExtentHelper), помимо теоретико-множественных операций и предикатов, позволяет преобразовывать идентификатор объекта во множество, состоящее из одного этого идентификатора, а также множество - в итератор по идентификаторам.
Раздел 3.2.4 подробно описывает алгоритм работы Обобщателя. Его распараллеливаемой частью является алгоритм построения решетки сходств. Сразу поясним, что рассматриваемые множества подмножеств (некоторого множества ) чаще всего не являются решетками в строгом смысле слова. Они представляют собой частично упорядоченные множества, которые становятся решетками, если к ним добавить элементы и . Тем не менее, для краткости мы будем называть их решетками.
Элементом множества порождаемых гипотез является тройка (E, С, P), где E - множество идентификаторов объектов-родителей гипотезы, С - их локальное сходство, P - структура, описывающая множество свойств, причиной наличия (или отсутствия) которых данное сходство является. В любой момент времени это множество является решеткой как множество всех подмножеств множества рассматриваемых объектов (т.е. в части E), и это его свойство используется для порождения новых элементов. В процессе работы множество «прореживается» с тем, чтобы в конечном итоге остались только элементы, в которых локальное сходство является также глобальным, и тогда эта решётка становится также решёткой понятий, как определяется в рамках анализа формальных понятий. При этом E исполняет роль объёма формального понятия, а (С, P) - его содержания [42].
Структура P, описывающая множество свойств, представляет массив структур, приписывающих истинностные значения на каждом шаге применения п.п.в. То есть, n-ный элемент массива P есть набор множеств свойств A<н,n> таких, что формула CA<н,n> имеет истинностное значение , где . Это позволяет хранить данные, необходимые обоим решающим предикатам - и - без дублирования общих данных, и обрабатывать положительные и отрицательные примеры единым образом.
Предоставляемое библиотекой «стандартное» представление данных видится разумным компромиссом между гибкостью и эффективностью: есть возможность изменить те его части, которые должны настраиваться на конкретную предметную область (а именно, сходство), а те части, которые являются исключительно деталями реализации ядра системы, выполнены в манере, обеспечивающей максимальную производительность.
Тот же подход применялся при разработке алгоритма - делая минимум предположений относительно предметной области, перенести как можно больше вычислений на внутренние структуры данных - те, которые мы можем оптимизировать независимо от "пользовательских" структур данных, и тем самым контролировать эффективность алгоритма в смысле времени работы и требуемой памяти. Основным является предположение, что операция сходства является дорогой (в смысле времени выполнения), гораздо дороже операции пересечения множеств (тем более что множества могут быть представлены посредством битовых масок со всеми вытекающими преимуществами). Поэтому, прежде чем вычислять сходство для некоторой гипотезы, проверяется необходимое условие того, что оно не пусто, а именно, то, что все её соседи снизу не пусты. (Соседи снизу/сверху определяются посредством отношения частичного порядка на множествах E, естественным образом связанным с операциями объединения и пересечения; именно здесь используются решеточные свойства множества множеств E). Точнее, на уровне l алгоритм пытается найти l+1 элементов, которые являются соседями снизу некоторого элемента (по построению, уровень содержит только непустые элементы, т.е. фактически ищутся l+1 непустых соседей снизу); в случае успеха вычисляется сходство соответствующих l+1 объектов, и если оно не пусто, на уровень l+1 помещается новая гипотеза. При этом перебираются все возможные сочетания (числом , где nl - число элементов на уровне l) и тем самым гарантируется, что все непустые элементы уровня l+1 будут рассмотрены. Как видно, при таком подходе достаточно иметь оперативный доступ лишь к элементам уровней l и l+1.
Эксперименты показали, что гораздо эффективнее разделять построение (+) и (-) решеток, чем пытаться формировать конечную решетку за один проход. Возможное дублирование выполнения операции сходства с лихвой окупается возможностью немедленного исключения неверных гипотез из дальнейшего рассмотрения (в случае же одного прохода гипотеза будет исключена, только если она «неверна» сразу по обоим знакам). Кроме того, разделение этих двух шагов позволяет выполнять их параллельно.
Раздел 3.2.5 подробно описывает алгоритм работы Уточнителя. В этом алгоритме также существенно используется частичная упорядоченность множества гипотез II-го рода. А именно, поиск сходств-кандидатов осуществляется поуровнево, начиная с самого верхнего уровня, и перед проверкой вложения сходства в объект проверяется, не было ли неудачных проверок для «соседей сверху» данного сходства. Отсутствие таких неудачных проверок является необходимым условием успешной проверки для текущего сходства: каждое сходство из «соседних сверху» вкладывается в текущее сходство, и если хотя бы одно из них не вложилось в данный объект, то и текущее сходство не вложимо в него. С целью выполнения этой проверки, для каждого объекта хранится список сходств (с предыдущего уровня), которые в него не вкладываются. Каждое сходство идентифицируется множеством идентификаторов объектов-родителей. В итоге, проверка состоит в поиске среди элементов этого списка сходств, являющихся «соседями сверху» данного (в смысле множества идентификаторов объектов).
Таким образом, операция определения вложимости сходства в объект (вычислительная сложность которой в общем случае может превышать сложность процедуры нахождения сходства между сходством и объектом) заменяется несколькими (до n-k на уровне k) операциями пересечения множеств идентификаторов объектов. Эта замена имеет смысл в случае, когда операция определения вложимости существенно дороже операции пересечения множеств. Это и было основополагающим предположением при разработке данного алгоритма. Оно должно быть подкреплено эффективной программной реализацией операции пересечения множеств. Множество идентификаторов объектов, являющихся родителями сходства и однозначно идентифицирующих элемент решетки сходств, называется координатами сходства.
...Подобные документы
Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.
презентация [2,6 M], добавлен 09.10.2013Исследование характеристик и функциональных возможностей системы управления базами данных Microsoft Office Access. Определение основных классов объектов. Разработка базы данных "Делопроизводство". Создание таблиц, форм, запросов, отчетов и схем данных.
реферат [1,3 M], добавлен 05.12.2014Анализ предметной области, касающийся вопросов учёта и анализа музейных экспонатов, работы музея. Анализ информационных потребностей пользователя. Разработка семантической модели данных. Реализация информационной системы. Создание таблиц и схемы данных.
курсовая работа [3,1 M], добавлен 21.02.2014Разработка подсистем анализа веб-сайта с помощью Microsoft Access и Olap-технологий. Теоретические аспекты разработки подсистемы анализа данных в информационной системе музыкального портала. Olap-технологии в подсистеме анализа объекта исследования.
курсовая работа [864,8 K], добавлен 06.11.2009Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.
контрольная работа [2,0 M], добавлен 13.06.2014Создание web-сайта для сбора статистических данных, прогнозирования возможностей системы общего образования и анализа демографического состояния региона в динамике. Проектирование базы данных, разработка компонентов, алгоритмов и программного обеспечения.
дипломная работа [3,1 M], добавлен 15.04.2013Разработка программного обеспечения для анализа полученных из хранилища данных. Система SAS Enterprise Miner и система Weka. Расчёт капитальных затрат на создание ПМК для анализа полученных из хранилища данных с использованием библиотеки XELOPES.
дипломная работа [1,4 M], добавлен 07.06.2012Метод вероятностно-алгебраического моделирования. Примеры определения вероятностных характеристик функционально-сложной системы в символьном виде. Получение и добавление данных с сервера "Всемирной организации здравоохранения". Структура базы данных.
курсовая работа [353,4 K], добавлен 22.06.2014Создание автоматизированной системы для упрощения работы с данными, расчётами и отчётами, анализа и хранения поступающих в лабораторию хроматографических исследований данных. Функциональные требования к системе. Проектирование программного обеспечения.
курсовая работа [1,9 M], добавлен 23.01.2013Понятие, виды и структура интеллектуальных поисковых систем. Российская интеллектуальная поисковая система Нигма: интерфейс и главные особенности. Математическая и химическая система Нигма. Понятие кластеризации как интеллектуального анализа данных.
презентация [291,0 K], добавлен 21.08.2011Определение доменов для схем отношений. Уточнение типов данных для атрибутов. Реализация ссылочной целостности. Описание разработанного программного обеспечения. Исследование операционных характеристик ИСС. Описание базы данных контрольного примера.
курсовая работа [395,9 K], добавлен 01.09.2010Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Основы теории классификаторов. Идентификация, четкая и нечеткая классификация. Обучающие и тестовые последовательности наборов данных. Популярные метрики (меры) оценки расстояния между образами. Дискриминантный анализ. Деревья решений. Логический вывод.
лекция [596,5 K], добавлен 28.12.2013Освоение методов манипуляции параметрами SVG изображений при помощи JavaScript и возможности по анимации в современных браузерах. Интерфейс и структура модуля визуализации данных. Определение аномальных данных и их определение, реализованные типы.
курсовая работа [1,7 M], добавлен 20.05.2014Разработка и описание программы анализа параметров и характеристик реализации случайного процесса: оценка статистических характеристик и плотности распределения реализации, корреляционных и спектральных характеристик реализации случайного процесса.
курсовая работа [708,8 K], добавлен 25.12.2008Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.
дипломная работа [3,9 M], добавлен 06.03.2013Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Анализ характеристик объекта компьютеризации. Разработка структур данных, алгоритмов и программного обеспечения системы управления базой данных. Особенности синтеза структур данных. Разработка алгоритмов системы и оценка результатов тестирования.
курсовая работа [37,0 K], добавлен 07.12.2010