Кластерный анализ и его применение в лингвистике
Коллекция слов и выражений, что ассоциативно связаны и не обязательно должны иметь общие семантические отношения, которые могут быть формализованы. Совокупность лексем, различной частеречной принадлежности, которые репрезентируют фрагмент картины мира.
Рубрика | Иностранные языки и языкознание |
Вид | реферат |
Язык | русский |
Дата добавления | 23.01.2017 |
Размер файла | 14,7 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Кластерный анализ и его применение в лингвистике
Дефиниция термина "кластер"
Для определения понятия "кластерный анализ" сначала необходимо разобраться с дефиницией термина "кластер". В библиотечном деле существует следующее определение "кластера": "коллекция слов и выражений, которые ассоциативно связаны и не обязательно должны иметь общие семантические отношения, которые могут быть формализованы" (Informationsordbogen) С точки зрения статистики под "кластерами" следует понимать "однородные подгруппы, формируемые методом, который минимизирует дисперсию внутри групп (кластеров) и максимизирует дисперсию между группами" (Браун, 2003) Существует и экономическое определение "кластера", понимающее термин как некоторую политико-экономическую агломерацию, но в контексте данного исследования это малорелевантно. семантический лексема слово
Кластером в лингвистике называют "совокупность лексем, различной частеречной принадлежности", которые репрезентируют фрагмент картины мира. (Хроленко 1995, с.73) Также "кластер" - это "сегмент информационного поля" и "лексикографическое описание всех входящих в кластер лексем с параллельным установлением всех связей каждого слова с остальными словами, представляющими один и тот же фрагмент фольклорной картины мира" (там же). Н.Г. Комлев в "Словаре иностранных слов" так толкует термин "кластер": "лингв. последовательность, цепочка языковых элементов, которыми могут быть звуки <…> или части речи <…>" (Комлев, с.57)
Регулярно используется термин в лингвокультурологии и фольклористике: см. "Кластер "пища" в русской эпической традиции с точки зрения территориальной специфики" (Праведников). Термин "кластер" используют как "часть языка": "Статья посвящена рассмотрению проблем перевода звукоизобразительной лексики турецкого языка средствами английского языка и освещает основные способы перевода данного кластера лексики" (Краснова, с.1)
Исследователи отмечают, что в современной литературе сосуществует синонимичное использование терминов "кластер" и "класс" и их дифференцирование. Датский ученый Birger Hjшrland, который специализируется в библиотечном деле и организации информации, отмечает, что точка зрения о необходимости разделения терминов "класс" и "кластер" восходит еще к Людвигу Витгенштейну (Hjшrland), который и предложил термин "кластер" в "Философских исследованиях". Его идея "кластера" или "семейного сходства" заключалась в следующем: "признании особого вида обобщения группы предметов, сходных в одном, но не сходных в другом отношении, что не позволяет обобщать их через род и видовое отличие согласно канонам логики" (Микишина, 2006). Витгенштейн приводит в пример идею игры: чем больше человек думает, тем яснее становится тот факт, что составить список характеристик, которые необходимы и достаточны для того, чтобы описать "игру", очень сложно. Так, после нескольких неуспешных попыток, он оставил идею описать "язык" и ввел термин "семейное сходство".
Еще один термин, функционирующий параллельно с термином "кластер" - термин "поле". Александр Хроленко так объясняет разницу между этими двумя понятиями: поле является проявлением системного характера языка, тогда как кластер является сегментом информационного пространства. (Хроленко 1995, 74)
Кластерный анализ и его задачи
Термин "кластерный анализ" впервые был использован американским психологом Робертом Трионом в одноименной работе еще в 1930 году. Несмотря на это, термины "кластер" и "кластерный анализ" воспринимаются носителями языка как новые, что отмечает Александр Хроленко, который провел корпусный анализ употребления лексемы "кластер": "большинство авторов, использующих этот термин, обращает внимание на его новизну" (Хроленко, 2016, с. 106)
Кластерный анализ включает в себя множество различных алгоритмов классификаций, цель которых, организовать информацию в кластеры. Важно помнить, что кластерный анализ не является сам по себе определенным алгоритмом, а есть задача, которую нужно решить. В своей работе "Скудность линейной иерархии" Марк Эрешефски отмечает, что кластерный анализ есть один из трех видов классификации объектов окружающего мира, наряду с эссенциализмом и исторической классификацией.
В лингвистике кластерный принцип описания подразумевает помимо анализа входящих в этот кластер единиц, еще и анализ отношений внутри них. Это могут быть связи разных уровней: от логического (парадигматического и синтагматического, например) до словообразовательных и фонетических связей.
Ф. Браун выделяет следующие шаги кластерного анализа(Браун):
1. Выбор меры и произведение необходимых измерений, критериев или сущностей, подлежащих классификации
2. Задание меры сходства
3. Формулирование правил для определения порядка формирования кластеров
4. Применение правил для формирования кластеров
Следует отметить, что третий пункт вызывает вопросы, так как отличительной чертой кластеризации как метода классификации является отсутствие заданных классов. Кластеризация документов - это задача информационного поиска. В отличие от категоризации текстов, он не включает в себя заранее определённых категорий или обучающей выборки. Кластеры и отношения между ними "автоматически извлекаются из документов, и документы последовательно прикрепляются к этим кластерам" (Голуб, с. 52-53) Марк Эрешефски представляет кластерный анализ как метод классификации. Он считает, что "все формы кластерного анализа строятся на двух допущениях: члены таксономической группы должны иметь кластер общих черт, и эти черты не могут появляться во всех или только в одном члене этой группы". (Ereshefsky, с. 15)
В своей работе "Кластерный подход в лингвистическом анализе" (Нургалиева, 2013) Н.Х. Нургалиева выделяет четыре основные задачи кластерного анализа:
1. Разработка типологии или классификации
2. Исследование полезных концептуальных схем группирования объектов
3. Представление гипотез на основе исследованных данных
4. Проверка гипотез или исследований для определения того, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных
Все методы кластерного анализа можно разделить на "жесткий", четкий кластерный анализ, когда каждый объект либо принадлежит кластеру, либо нет, и на "мягкий", нечеткий кластерный анализ, когда каждый объект принадлежит какой-то группе с определенной степенью вероятности.
Методы кластерного анализа также делятся на иерархические и неиерархические. Иерархические методы подразумевают наличие вложенных групп, в отличие от методов неиерархических. Нургалиева отмечает, что иерархический метод "представляется наиболее подходящим для решения лингвистических задач"(Нургалиева, с.1), так как он позволяет увидеть и проанализировать структуру изучаемого явления.
Ход кластерного анализа
Алгоритмы кластерного анализа требуют на вход матрицу n*m, где n - рассматриваемые объекты, а m - признаки. Пошагово кластерный анализ можно описать следующим образом:
1) Все существующие объекты разделяются на отдельные кластеры, таким образом, в каждом кластере есть только один элемент
2) Заданный алгоритм объединяет в кластер элементы, с наименьшим расстоянием
Последний шаг итерируется до тех пор, пока не останется один кластер, который содержит все элементы. Результатом такого анализа становится дендрограмма.
Дендрограмма - ветвящаяся диаграмма, которая отражает отношения сходства между группами сущностей.
Размещено на Allbest.ru
...Подобные документы
Омонимы в русском языке, их виды. Различия в отражении омонимов и многозначных слов в словарях. Случаи различного толкования значения слов как омонимов или многозначных лексем, их анализ с точки зрения частеречной принадлежности и лексического значения.
курсовая работа [87,3 K], добавлен 26.05.2009Работа с текстом, повторение правил пунктуации и грамматики русского языка. Порядок определения и доказательства частеречной принадлежности слов. Морфологический анализ данных словоформ. Анализ и доказательство частеречной омонимии исследуемых слов.
контрольная работа [12,1 K], добавлен 13.05.2010Тоталитарный язык и его особенности, определение понятия "идеология". Лексико-семантические средства создания идеологем, роль метафор в их создании. Общие принципы кластерного анализа в лингвистике. Кластерный анализ экономических терминов – идеологем.
дипломная работа [277,8 K], добавлен 31.10.2016Наименования лиц по профессии как большой в количественном отношении и многообразный по структуре и семантическим особенностям фрагмент лексики языка. Ассоциативный эксперимент как источник изучения языковой картины мира. Ассоциативное поле слов-стимулов.
дипломная работа [132,7 K], добавлен 11.10.2014Понятие языковая картина мира. Языковая картина мира в лингвокультурологии и этнопсихолингвистике. Различия в научной и наивной картинах мира. История рассмотрения языковой картины мира в науке и лингвистике. Изучение языковой картины мира в лингвистике.
реферат [31,0 K], добавлен 01.12.2008Исследование влияния культуры и образа жизни на семантические особенности языка. Выявление лингвокультурных особенностей картины мира Великобритании. Научно-теоретические основы отражения социально-культурных факторов русской языковой картины мира.
курсовая работа [32,4 K], добавлен 28.06.2010Исследование истории возникновения SMS языка, основных особенностей нового языкового явления. Описания построения писем официального и личного характера. Изучение символов и сокращения слов, которые используют абоненты сотовой связи в своем общении.
реферат [23,7 K], добавлен 29.04.2012Трактовка лексического значения слова в языке и художественной речи. Семантическая структура слов "звон" и "звук" в современном русском языке. Образные осмысления лексем "звенеть" и "звучать" и их роль в отражении авторской картины мира Сергея Есенина.
курсовая работа [49,9 K], добавлен 03.10.2014Феномен понятия "картина мира". Функциональные, образные и дискурсивные, номинативные средства языка как элементы языковой картины мира. Анализ фрагмента языковой картины мира лексико-семантического поля "Pleasure" в современном английском языке.
реферат [15,6 K], добавлен 06.09.2009Коммуникативная функция языка. Особенность лексической системы языка. Характеристика лексико-семантической системы русского языка. Группы слов в названиях точек обслуживания г. Тольятти: видовые отношения слов; тематические; лексико-семантические.
курсовая работа [24,5 K], добавлен 21.04.2010Природа возникновения и этимология некоторых слов русского языка. История заимствования слов и выражений из других культур и языков. Структура фразеологизма как устойчивого, лексически неделимого словосочетания. История жизни некоторых фразеологизмов.
реферат [55,7 K], добавлен 07.12.2013Основные этапы становления когнитивной лингвистики как науки. Концепт, как ментальная единица описания картины мира, содержащая языковые и культурные знания, представления, оценки. Понятие "язык" и "мышление", их использование в современной лингвистике.
курсовая работа [69,1 K], добавлен 25.05.2014Определение перифразы в современной лингвистике. Семантические признаки в основе перифрастических выражений. Особенности функционирования перифразы в тексте. Главные особенности интродуктивной, экспрессивной, оценочной и рекламно-вербующей функции.
дипломная работа [97,1 K], добавлен 15.06.2012Лексико-семантические группы (ЛСГ) глаголов с суффиксом "-ирова-" в русском языке и их роль в формировании языковой картины мира. ЛСГ как явления лексической парадигматики. Новые перспективы выявления семантико-словообразовательных особенностей ЛСГ.
курсовая работа [52,4 K], добавлен 05.06.2009Изучение фразеологии – материала, наиболее ментально содержательного с точки зрения воспроизведения языковой картины, и который ярко отражает национальную культуру народа. Влияние на фразеосемантическое поле психического, физического состояния человека.
статья [21,9 K], добавлен 14.04.2010Картина мира как базовое понятие концепции человека, ее отражение в языке. Образ человека в лингвистике. Роль словообразования в формировании языковой картины мира. Человек в древнерусской словесности. Соотношение производной и непроизводной лексики.
дипломная работа [79,6 K], добавлен 04.02.2016Радость как один из базовых концептов англоязычной и русскоязычной языковой картины мира. Анализ его структуры и семантики. Основные и периферийные значения ядерных лексем "радость" и "joy" и их синонимов. Концептуальные признаки лексемы-доминанты.
статья [14,6 K], добавлен 18.05.2016Теоретические положения процесса заимствования в английском языке. Понятие "заимствование" и классификация заимствованных единиц в отечественной и зарубежной лингвистике. Лексикографическое описание русицизмов, ассимиляция в современном английском языке.
дипломная работа [100,8 K], добавлен 25.07.2017Соматизмы как особый класс слов в лексической системе языка. Особенности языковых картин мира в английской культуре. Понятие фразеологического сочетания слов. Семантические особенности соматической фразеологии. Классификации фразеологических единиц.
курсовая работа [110,0 K], добавлен 18.08.2012Развитие морской терминологии в английском языке. Исследование этимологии слов, связанных с морем. Изучение функционирования морских терминов в современном английском языке на примере художественной литературы, публицистических, информационных статей.
дипломная работа [1,1 M], добавлен 25.07.2017