Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях
Рассмотрение возможности применения методов многомерного шкалирования и кластеризации к лингвистическим задачам. Анализ базы данных "Языки мира". Обоснование адекватности применяемого аппарата для типологических и компаративистских исследований.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | доклад |
Язык | русский |
Дата добавления | 17.01.2018 |
Размер файла | 161,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях
(на материале созданной в ИЯ РАН БД “ЯЗЫКИ МИРА”)** Работа выполнена при финансовой поддержке Минобрнауки РФ (госконтракт № 02.438.11.7015)
В.Н.Поляков 11 125009, г. Москва, Б. Кисловский пер., д. 1/12, стр. 1, polyakovvn@misis.ru , А.А.Савельев22 420008, Казань, ул. Кремлевская, д.18, КГУ, solovyev@mi.ru, В.Д.Соловьев2
В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета R. Обоснована адекватность применяемого аппарата для типологических и компаративистских исследований.
Введение
На протяжении многих лет в ИЯ РАН ведется разработка уникального информационного ресурса - БД «Языки Мира». Разработка концепции базы данных была начата практически одновременно с реализацией проекта по созданию энциклопедии «Языки мира», осуществляемого под руководством члена-корреспондента РАН В.Н.Ярцевой.
В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. За время выполнения этого проекта было создано три версии программного обеспечения (для DOS, для Windows и для Web). При этом информационное содержание БД сохранило в целом первоначально заложенную концепцию.
В настоящее время работы над БД ведутся в рамках Российского научно-образовательного центра по лингвистике им. Бодуэна де Куртенэ при Казанском государственном университете. База данных размещена в Интернете по адресу: www.dblang.ru и доступна в тестовом режиме.
По состоянию на 26.03.06 БД «Языки Мира» характеризуется следующими количественными параметрами: количество языков: 315 языков Евразии, количество признаков: 3821, формат представления данных: бинарный, общий размер информационного пространства БД составляет свыше 1,2 млн. бинарных состояний.
Эта база данных является уникальной по объему и широте охвата языков. Как правило, типологические базы данных содержат описания языков по очень ограниченному списку параметров, относящихся к определенной сфере языка, часто даже по одному единственному параметру. Единственной, кроме нашей, базой данных, содержащей широкое описания языков является The World Atlas of Language Structures, созданная под руководством Бернара Комри (Лейпциг) и др. Однако и в ней языки описаны всего по 131 признаку.
В последующих разделах статьи будут описаны результаты первых статистических исследований, выполненных с использованием БД “Языки мира”.
шкалирование лингвистический типологический компаративистский
1. Структура базы данных
БД содержит описание следующих языковым семьям и группам языков: Австронезийские - 1 яз., Алтайские - 74 яз., Аустроазиатские - 2 яз., Афразийские - 9 яз., Кавказские - 39 яз., Индоевропейские - 145 яз., Китайско-тибетские - 2 яз., Палеоазиатские -17 яз., Уральские - 15 яз., Хуррито-урартские - 2 яз., Эламодравидские - 1 яз., Языки-изоляты - 7 яз. (айнский, бурушаски, гуннов, нивхский, шумерский, юкагирский).
При кодировке признаков было принято следующее решение - использовать двоичную логику, либо язык обладает данным признаком, либо нет. Этот подход ориентирован на дальнейшие статистические исследования языков. Он радикально отличается от принятого в The World Atlas of Language Structures. Рассмотрим этот вопрос на примере падежей. The World Atlas of Language Structures содержит единственный признак, относящийся к падежам - `падежный синкретизм'. Под синкретизмом понимается возможность выражения одним падежом нескольких значений. По этому параметру любой язык может принять одно из следующих 4 значений: `нет падежей', `только ядерные падежи', `ядерные и неядерные падежи', `нет синкретизма'. В нашей базе данных информация о падежах представлена в 103 признаках. Для каждого из существующих в языках мира падежей и возможных синкретических комбинаций введен отдельный параметр. Это хорошо характеризует степень подробности описания языков в нашей базе данных.
2. Первый этап статистических исследований
Одной из задач анализа всей совокупности языков является внешнее представление их взаимосвязей, основанное на наборах признаков. Наиболее распространенным методом такого сопоставления является вычисление некоторой меры сходства или различия. Результаты сопоставления, представленные в виде матриц сходства, в свою очередь служат исходными данными для выявления структуры, образуемой языками как объектами пространства признаков. Под структурой здесь понимается в первую очередь выявление и представление близости языков и наличие градиентов - постепенных переходов от одних языков к другим в пространстве признаков, которые могут содержать важную информацию для их сопоставительного анализа.
Интересно, что использование двоичных признаков для описания языков с точки зрения возникающих при этом задач имеет сходство с исследованием видового состава растительных сообществ с использованием флористических списков. В этом случае аналогом площадки описания является язык, а аналогом списка присутствующих видов - список имеющихся у него признаков. Для каждого языка доля присутствующих признаков составляет лишь небольшую часть от всей совокупности признаков, также как и доля видов растений, встретившихся на данной площадке, составляет лишь небольшую часть от всех возможных видов. Одним из авторов подобные методы активно применялись при анализе растительных сообществ [Савельев, 2004].
Существует аналогия между языками и описаниями растительных сообществ, а так же общие проблему с вычислением мер сходства: относительно небольшое количество признаков (со значением `true') у каждого языка, разная степень информативности признаков, которая может быть обусловлена как их слишком большой распространенностью, так и уникальностью, разная степень подробности описания для различных языков, и т. д., которые создают дополнительные трудности при их сопоставлении. Кроме того, априорно неизвестно какую информацию несет каждый конкретный совпадающий признак в паре языков: информацию о непосредственном генетическом родстве этой пары, информацию о дальнем родстве (имеют общего родственника), или информацию о контактах между языками и заимствовании. Для преодоления этих трудностей были предложены различные меры сходства, в том числе ориентированные на использование именно двоичных признаков. Кроме того, для выявления и представления структуры объектов в пространстве признаков здесь разработаны и используются различные методы ординации, т.е. представления объектов в пространстве низкой размерности, обычно на плоскости.
Табл.1.
2 |
ВЕНГЕРСКИЙ |
26 |
МОНГОРСКИЙ |
|
3 |
ФИНСКИЙ |
27 |
ЭСТОНСКИЙ |
|
4 |
АССАМСКИЙ |
28 |
МАКЕДОНСКИЙ |
|
5 |
ДАРИ |
29 |
НЕМЕЦКИЙ |
|
6 |
ИТЕЛЬМЕНСКИЙ |
30 |
БЕНГАЛЬСКИЙ |
|
7 |
ПОРТУГАЛЬСКИЙ |
31 |
РУМЫНСКИЙ |
|
8 |
ГРУЗИНСКИЙ |
32 |
ЛЕЗГИНСКИЙ |
|
9 |
БУРУШАСКИ |
33 |
РУССКИЙ |
|
10 |
АККАДСКИЙ |
34 |
КОРЯКСКИЙ |
|
11 |
НОРВЕЖСКИЙ |
35 |
ПЕРСИДСКИЙ |
|
12 |
АНГЛИЙСКИЙ |
36 |
ТАДЖИКСКИЙ |
|
13 |
ИСЛАНДСКИЙ |
37 |
ЧУКОТСКИЙ |
|
14 |
БУРЯТСКИЙ |
38 |
ТУРКМЕНСКИЙ |
|
15 |
АЗЕРБАЙДЖАНСКИЙ |
39 |
ТАТАРСКИЙ |
|
16 |
ВЕПССКИЙ |
40 |
ИСПАНСКИЙ |
|
17 |
ХАНТЫЙСКИЙ |
41 |
ИТАЛЬЯНСКИЙ |
|
18 |
ТУРЕЦКИЙ |
42 |
ГАЛИСИЙСКИЙ |
|
19 |
БИРМАНСКИЙ |
43 |
АБХАЗСКИЙ |
|
20 |
АРМЯНСКИЙ |
44 |
БЕЛОРУССКИЙ |
|
21 |
БАГВАЛИНСКИЙ |
45 |
БОЛГАРСКИЙ |
|
22 |
АГУЛЬСКИЙ |
46 |
ДАТСКИЙ |
|
23 |
МОГОЛЬСКИЙ |
47 |
НИВХСКИЙ |
|
24 |
КАЛМЫЦКИЙ |
48 |
ШУГНАНСКИЙ |
|
25 |
БАШКИРСКИЙ |
49 |
ПОЛЬСКИЙ |
Наиболее известным способом ординации, основанным на использовании матрицы расстояний, является неметрическое многомерное шкалирование, отображающее объекты в пространство низкой размерности таким образом, что в нем Евклидовы расстояния между образами объектов пропорциональны расстояниям в исходной матрице. Это позволяет представить на плоскость «взаимоположение» объектов. Такие методы ординации основаны на вычислительных процедурах линейной алгебры, и известны достаточно давно. Кроме использования расстояний, существуют и другие методы ординации, объединяемые общим названием анализ соответствия, и позволяющие анализировать таблицы признаков с большим количеством нулей. Кроме представления структуры самих объектов, такой анализ позволяет выявлять структуру признаков и связь признаков с объектами [Legendre, 1998].
На первом этапе было отобрано 48 языков, таб.1. По техническим причинам нумерация, используемая на последующих рисунках, начата с № 2. Для них были рассчитаны расстояния, выполнена ординация и рассчитаны ошибки ординации. Все вычисления осуществлялись с помощью профессионального статистического пакета R [R, 2006], являющего, фактически, международным стандартом для проведения статистических исследований.
Рис.1. Пример ординации
Для оценки качества полученной ординации, т.е. соответствия расстояний в матрице и Евклидовых расстояний на ординационной плоскости, используются как методы визуализации, так и численные характеристики. Наиболее распространенной численной характеристикой является STRESS, вычисляемая по формуле:
,
где суммирование ведется по всем парам объектов, есть исходная мера различия (расстояние) между i-м и j-м объектами (языками), а - Евклидово расстояние между i-м и j-м объектами на ординационной плоскости. Результаты вычисления STRESS для различных методов вычисления расстояния показали, что ни один из методов вычисления расстояний не дает существенно лучших результатов. В нижеследующей таблице для каждого метода слева указывается его STRESS. Рассматривались различные метрики - включенные в систему R (начиная с manhattan) и предложенные авторами статьи.
Рис.2. График Шепарда для ординации рисунка 1
Для визуальной оценки качества ординации используется график Шепарда, в котором по горизонтали откладывается расстояние в исходноей матрице, а по вертикали - монотонная регрессия на него Евклидовых расстояний на ординационной плоскости. Если все точки лежат на ломаной, представляющей монотонную (неубывающую) регрессию, то ординаци сохранияет отношение «не больше» для расстояний: если , то и .
Табл.2
Additiv-all-all-all |
18,0 |
horn |
14,3 |
|
Additiv-all-True-all |
20,3 |
mountford |
20,0 |
|
Additiv-Fact-all-all |
19,4 |
jaccard |
14,3 |
|
Additiv-Fact-True-all |
22,6 |
Binomial |
20,1 |
|
Additiv-Klass-all-All |
19,7 |
morisita |
36,2 |
|
Additiv-Klass-False-All |
24,2 |
raup |
36,2 |
|
Additiv-Klass-True-All |
18,5 |
bray |
14,3 |
|
manhattan |
20,3 |
euclidean |
19,8 |
|
kulczynski |
18,2 |
canberra |
14,3 |
|
gower |
19,8 |
Для содержательной оценки полученных ординаций предложен следующий подход. Языки, относящиеся к одной близкородственной группе языков (в данной выборке это славянские, германские, романские, иранские, тюркские, монгольские, уральские, северокавказские, палеоазиатские) должны располагаться на ординационной плоскости компактно. По этому критерию наилучшие результаты дает мера близости Additive-Fact-all-all. На рисунке 1 как раз и представлена ординация по этой мере.
Можно обратить внимание на следующие явно выделяющиеся данные на рис.1. На периферии оказались следующие языки: №19 - бирманский язык - принадлежит далеко отстоящему семейству языков (сино-тибетских), №47 - нивхский язык - изолят, его происхождение не известно, №46 - датский язык, как оказалось, его описание содержит ошибки (это, в частности указывает на одно из возможных применений данного метода - поиск ошибок), №33 - русский язык оказался описан слишком подробно - “переописан”.
Другим методом, совмещающим кластеризацию и ординацию, является использование непараметрических методов, относящихся к так называемым топографическим отображениям, и основанным на самоорганизации. Сюда относятся нейронные сети Кохонена (саморганизующиеся карты свойств), совмещающие классификацию методом к-средних с ординацией на плоскости [Kohonen, 1997], и генеративные топографические отображения, совмещающие нечеткую классификацию на основе Гауссовых смесей распределений с отображением классов в подпространство низкой размерности (например, на плоскость) [Bishop, 1998].
В результате применения метода нейронных сетей Кохонена с использованием всех признаков и Евклидового расстояния, был получен результат самоорганизации, представленный на рисунке 3. Для обучения использовалась нейронная сеть Кохонена SOM, топологически организованная в виде прямоугольной решетки из 7х7=49 классов. Для более полного представления о структуре классов при выводе использовалось отображение Сэммона центров классов, кроме того, вместо топологического соседства на рисунке показано минимальное остовое дерево классов. Отсутствие «перекрещиваний» в отображении Сэммона для минимального остового дерева интерпретируется как результат хорошей ординации, т.е. положения классов на ординационной плоскости соответствуют расстояниям в пространстве признаков.
Рис.3. Кластеризация языков нейронной сетью Кохонена
Размеры классов показывают результаты калибровки полученной ординации с использованием 48 выделенных языков (калибровка осуществляется классификацией языков методом ближайшего соседа). Размер символа класса пропорционален числу отнесенных к нему языков; классы, к которым не отнесен ни один язык, показаны черными точками.
Нейронная сеть правильно объединила уральские языки (34 класс), алтайские (близкорасположенные классы 40 и 41), имеется хорошая корреляция германских языков с классом 49 и некоторые другие. В то же время ряд решений, например, помещение лезгинского языка в одну группу с германскими явно ошибочно. Требуется дальнейшая работа по настройке сети.
Заключение
Создание базы данных “Языки мира” позволяет применить к лингвистическим задачам совершенно новый класс методов - многомерное шкалирование, кластеризация, в том числе, с использованием нейронных сетей и др. Анализ результатов первых статистических исследований показывает, что, в целом, они хорошо улавливают близость языков. Наилучшие результаты получаются при применении ординации методом нелинейного многомерного шкалирования.
Данные методы могут быть использованы в компаративистских и типологических исследованиях, в частности, для уточнения генетической близости языков. Требуются дальнейшие исследования по тонкой калибровке применяемых методов.
Список литературы
[Савельев, 2004] Савельев А.А. Моделирование пространственной структуры растительного покрова (геоинфомационный подход) / Казань: Казанский государственный университет, 2004.-247с.
[Bishop, 1998] Bishop C.M. GTM: the Generative Topographic Mapping / C.M.Bishop, M. Svensen, C.K.I.Williams // Neural Computation. - 1998. - №10 (1). - P.215-234.
[Kohonen, 1997] Kohonen T. Self-organization and Associative Memory / T. Kohonen. - New York: Springer-Verlag, 1997, 428 p.
[Legendre, 1998] Legendre L. Numerical ecology / L.Legendre, P.Legendre. - Amsterdam: Elsevier Science, 1998. - 853 p.
[R, 2006] R Development Core Team (2006). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
Размещено на Allbest.ru
...Подобные документы
Применение методов многомерного анализа для визуализации взаимосвязей web и социальных сетей в социологических исследованиях. Системы интеллектуального поиска данных Nigma.ru, Wolfram Alpha и Quintura. Социологическая информация и эмпирические данные.
презентация [2,6 M], добавлен 09.10.2013Основы для проведения кластеризации. Использование Data Mining как способа "обнаружения знаний в базах данных". Выбор алгоритмов кластеризации. Получение данных из хранилища базы данных дистанционного практикума. Кластеризация студентов и задач.
курсовая работа [728,4 K], добавлен 10.07.2017Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Краткая характеристика, главные преимущества и область применения MS Access. Базы данных и системы управления базами данных. Описание пошагового создания базы данных, таблиц, форм, запроса и отчета. Особенности и функциональные возможности MS Access.
курсовая работа [3,4 M], добавлен 23.09.2010Исследование производительности труда методом компонентного и кластерного анализов. Выбор значащих главных компонент. Формирование кластеров. Построение дендрограммы и диаграммы рассеивания. Правила кластеризации в пространстве исходных признаков.
лабораторная работа [998,9 K], добавлен 25.11.2014Организация работы БД в корпоративной локальной сети. Проектирование основных процедур созданной базы данных. Оценка методов учета затрат на предприятии и разработка новых подходов и методов управления затратами. Шифрование и дешифрование базы данных.
курсовая работа [1004,3 K], добавлен 26.06.2012Разработка комплекса интеллектуального анализа данных, получаемых в процессе работы коммерческого предприятия розничной торговли. Исследование стационарности ассоциаций, выявление частоты появления ассоциаций. Скрипты для создания баз данных и таблиц.
курсовая работа [706,3 K], добавлен 07.08.2013Рассмотрение основных этапов проектирования базы данных "Расписание": создание информационных таблиц, определение схем для связи данных в реестрах. Изучение методов организации форм (режимы автоматический, Мастер, конструктор), запросов и отчетов.
курсовая работа [1,7 M], добавлен 06.02.2010Проблемы внедрения информационных технологий. Автоматизация работы пользователя. Основные этапы проектирования базы данных. Функционирование предметной области. Специализированные языки обработки данных. Обоснование выбора основных технических средств.
курсовая работа [61,9 K], добавлен 08.02.2012Разработка прикладной программы, организующей работу с базой данных флагов мира, осуществляющей просмотр и редактирование базы данных, поиск по категориям, сортировку данных с использованием базы данных Paradox 7. Системные требования к программе.
курсовая работа [200,4 K], добавлен 02.03.2009Интеллектуальный анализ данных как метод поддержки принятия решений, основанный на анализе зависимостей между данными, его роль, цели и условия применения. Сущность основных задач интеллектуального анализа: классификации, регрессии, прогнозирования.
контрольная работа [25,8 K], добавлен 08.08.2013Технология деятельности техника-программиста на предприятии. Анализ предметной области. Обоснование выбора среды разработки. Сравнительный анализ методов сортировки данных. Проектирование базы данных. Методы, алгоритм и средства обработки данных.
отчет по практике [498,2 K], добавлен 03.05.2015Сущность и понятие кластеризации, ее цель, задачи, алгоритмы; использование искусственных нейронных сетей для кластеризации данных. Сеть Кохонена, самоорганизующиеся нейронные сети: структура, архитектура; моделирование кластеризации данных в MATLAB NNT.
дипломная работа [3,1 M], добавлен 21.03.2011Возможности извлечения информации из баз данных. Программы для создания и обработки базы данных и создания пользовательского интерфейса. Обоснование выбора программных средств для реализации. Создание базы данных, интерфейса и базы данных к интерфейсу.
курсовая работа [2,9 M], добавлен 24.03.2023Проектирование логической структуры базы данных методом нормальных форм, сущность связь. Сравнительный анализ спроектированной базы данных и базы данных существующих информационных систем. Выбор и обоснование состава технических и программных средств.
курсовая работа [3,0 M], добавлен 22.12.2014Проблема применения методов прогнозирования кадровой работы на основе использования компьютерных технологий. Концепция банка данных, сущность и функции. Отличие реляционных и объектно-ориентированных баз данных. Организация и технология обработки данных.
реферат [1,0 M], добавлен 23.09.2014Определение, свойства базы данных. Рассмотрение применения баз данных в малом и среднем бизнесе. Описание приложения для отслеживания заказов клиентов магазина лабораторного оборудования, наличия товаров, менеджеров, которые продали оборудование клиенту.
контрольная работа [970,1 K], добавлен 25.06.2015Типы изображений (черно-белые, полутоновые, цветные) и их форматы. Устройства, создающие цифровые изображения, и их параметры. Применение и характеристики методов сжатия изображений. Поиск по содержимому в базах данных изображений. Структуры баз данных.
презентация [360,4 K], добавлен 11.10.2013Понятие и структура реляционной базы данных, ее основные элементы и их взаимодействие. Методика и основные этапы создания базы данных, ее назначение и сферы применения. Правила ввода данных в таблицы. Создание запроса к базе данных, отчетов и диаграмм.
учебное пособие [3,6 M], добавлен 19.12.2009Базы данных и системы управления базами данных. Структура простейшей базы данных, свойства полей. Понятие языка SQL. Проектирование баз данных, режимы работы, объекты. СУБД Microsoft Access. Создание базы данных "Электротовары" средствами Visual FoxPro.
курсовая работа [5,7 M], добавлен 29.04.2014