Программная автогенерация и анализ частотного словаря
Ускорение и облегчение статистических исследований в языкознании и литературоведении. Обработка различных массивов текстовой информации посредством разбиения ее на лингвистические единицы, для создания словарных баз данных, построения частотных словарей.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 04.12.2018 |
Размер файла | 26,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ПРОГРАММНАЯ АВТОГЕНЕРАЦИЯ И АНАЛИЗ ЧАСТОТНОГО СЛОВАРЯ
М.П. Концевой
Брестский государственный университет имени А.С. Пушкина
Современное языкознание все более широко использует математический инструментарий и компьютерные технологии в контексте перехода от описательных к аналитическим методам исследований. В соответствии с этим современное филологическое образование немыслимо без опоры на вычислительную лингвистику как в части полученных научных результатов, так и в части проведения самостоятельного лингвистического эксперимента с использованием численных методов.
Самым распространенным и доступным количественным методом анализа текста является статистический анализ, который заключается в подсчете количества встречающихся в лексическом составе заданного текста отдельных слов. Статистический анализ широко используется для:
· математически точного различения литературных стилей и жанров (статистическая стилистика);
· установления авторства анонимных или подложных текстов (атрибуция текста);
· описания поведения различных языковых единиц (букв, морфем, слов) в тексте (их распределение, сочетаемость, частота употребления);
· измерения информативности текстов (количество информации, содержащейся в тексте и в его составных частях);
· восстановления текстов и языков по их фрагментам;
· определения уровня родства, скорости языковых изменений и времени разделения различных языков.
Основой проведения любого статистического анализа текста являются частотные словари. Частотный словарь можно определить, как пронумерованный список слов (словоформ, словосочетаний) текста (множества текстов) с указанием абсолютной частоты употребления каждого слова в тексте. Частотные словари составляются по текстам отдельных авторов, произведений, предметных областей.
Они дают возможность сравнить численные закономерности в структуре словаря и текста. Частотные словари представляют большую ценность для преподавателей, методистов и лексикографов. Сведения о наиболее частотных и коммуникативно важных словах того или иного языка значительно расширяют возможности как успешного преподавания иностранного языка, так и более глубокого овладения родным языком.
Частотные словари являются также основой для создания электронных словарей, компьютерных переводчиков, систем семантического поиска, автореферирования и автоаннотирования текстов и т.п.
Сегодня для ускорения и облегчения статистических исследований в языкознании и литературоведении широко применяются электронные частотные словари. Однако, как правило, они являются дорогостоящим программным продуктом, а потому не всегда доступны. Поэтому в учебном процессе целесообразно использовать частотные словари, созданные на основе отдельных текстов с использованием общедоступных программных средств.
Одним из таких средств является утилита Unique Record Set Management utility (URS), работающая в среде Windows 95/98/NT/2000/XP. Утилита URS предназначена для обработки различных массивов текстовой информации посредством разбиения ее на лингвистические единицы, для создания словарных баз данных, построения частотных словарей и операций с ними. Одной из главных функций утилиты является выделение из текстов (на русском или английском языке) их лексического состава с подсчетом частоты встречаемости каждого слова.
URS занимает всего около 700 Кбайт, легка в использовании, является продуктом класса FreeWare и может быть получена с сайта по адресу http://www.noolab.ru
URS обладает следующими функциональными возможностями:
· импорт текстовой информации из файлов следующих форматов: текстовые файлы, документы Word, документы HTML. Это позволяет любой текст, предназначенный для исследования, сначала импортировать, а затем производить необходимые операции над ним;
· экспорт словарной и частотной информации в текстовые файлы, документы Word, таблицы Excel. Экспорт текстовой и других видов информации в документы Word необходим для дальнейшего описания или использования результатов проведенного исследования. Как итог проведения частотного анализа получается своего рода частотная таблица данных. После ее экспортирования в электронные таблицы Excel средствами приложения строятся графики или спектры в соответствии с правилом, описанным выше;
· сравнение двух множеств на предмет выявления пересечений, т.е. наличие одинаковых текстовых единиц. Иногда лучше выполнить сравнение, используя полученные в Excel спектры;
· сложение (объединение) множеств;
· отбор записей по частотным параметрам;
· отбор записей по результатам сравнения множеств;
· отбор записей по соответствию заданной маске;
· добавление информации в уже имеющиеся множества с корректировкой частот записей;
· сортировка множеств по содержимому записей либо по частоте;
· «ручное» манипулирование частотой элементов множества и добавление элементов;
· возможности копирования, удаления, вырезания в буфер и вставки из буфера выделенных элементов с коррекцией частоты записей.
Существует подобная URS (также весьма удобная для построения частотных словарей) программа Words Utils. Однако в ней (сетевой адрес: http://www.myriadsoftware.com/) отсутствует возможность сопоставительного анализа двух множеств и подсчитываются некоторые служебные символы (пробелы, кавычки и т.п.), замедляя работу программы.
Наиболее эффективно работа с URS может быть организована в форме выполнения учебного проекта по решению специальной лингвистической задачи. Такие проекты являются более полезными в дидактическом плане и заслуживающими наивысших оценок студентов в сравнении с заданиями, не мотивированными никакой внешней лингвистической проблемой, и, фактически, сводящимися к последовательному использованию возможностей программы статистического анализа. Приведем конкретные примеры предлагаемых проектных заданий.
Рассмотрение учебных текстов осуществляется по двум статистическим показателям: общему количеству слов в данных текстах и объёму частотных словарей, показывающих количество слов, которые должен знать учащийся, чтобы понимать эти тексты. Выполнение задания предусматривает составление частотного словаря для заданного текста и его анализ, который может приводить к очень любопытным выводам. Так, соответствующий сравнительный анализ букварей показывает, что за последние 20 лет объем их частотного словаря вырос приблизительно вдвое. Рост этот, как правило, не является оправданным, потому что 85 процентов слов частотного словаря в букваре Н.А. Сторожевой и 80,4 процента в букваре А.К. Клышко встречаются 1-3 раза, причём среди указанных слов очень много архаизмов, с трудом понимаемых детьми. Получение подобных результатов является лучшим доказательством практической значимости статистических методов текстового анализа и эффективности соответствующего компьютерного инструментария.
Эмпирический закон Дж. Ципфа, сформулированнный на основе огромного статистического материала, гласит, что если к какому-либо достаточно большому тексту составить список всех встретившихся в нем слов, затем расположить эти слова в порядке убывания частоты их встречаемости в данном тексте и пронумеровать в порядке от 1 (порядковый номер наиболее часто встречающегося слова) до R, то для любого слова произведение его порядкового номера (ранга) в таком списке и частоты его встречаемости в тексте будет величиной постоянной, имеющей примерно одинаковое значение для любого слова из этого списка. Аналитически закон Ципфа может быть выражен в виде fr = c, где f - частота встречаемости слова в тексте; r - ранг (порядковый номер) слова в списке; с - эмпирическая постоянная величина.
Полученная зависимость графически выражается гиперболой. Позднее Бенуа Мандельброт предложил его теоретическое обоснование. Он полагал, что можно сравнивать письменный язык с кодированием, причем все знаки должны иметь определенную «стоимость». Исходя из требований минимальной стоимости сообщений, Б. Мандельброт математическим путем пришел к аналогичной закону Ципфа зависимости fr г = c, где г - величина (близкая к единице), которая может изменяться в зависимости от свойств текста. Постоянство коэффициента г сохраняется только на среднем участке графика распределения. Этот участок принимает форму прямой, если график вышеприведенной закономерности построить в логарифмических координатах. Участок распределения с г = const называется центральной зоной рангового распределения и содержит термины, наиболее характерные для данной области знаний, которые в совокупности выражают ее специфичность, отличие от других наук. В зоне усечения же сосредоточены термины, сравнительно редко употребляющиеся в данной области знаний.
Таким образом, основа лексики какой-либо области знаний сосредоточена в центральной зоне рангового распределения. При помощи терминов ядерной зоны эта область знаний «стыкуется с более общими областями знаний», а зона усечения играет роль авангарда, как бы «нащупывающего» связи с другими отраслями науки.
По относительной величине той или иной зоны на графике можно судить о характеристиках всей области знаний. График с обширной ядерной зоной и малой зоной усечения относится к достаточно широкой и скорее всего консервативной области знаний. Для динамичных отраслей науки характерна увеличенная зона усечения. Малая величина ядерной зоны может говорить об оригинальности области знаний, к которой относится построенное ранговое распределение и т.д. Так, на основании его анализа возможно дать качественные оценки информационным потокам в соответствии с теми отраслями науки, где они формировались.
Для анализа художественных текстов на предмет оригинальности их тематики или, напротив, ее связанности с тематикой других произведений используется ранговый корреляционный анализ по Спирмену. Он основан на попарном сравнении между собой частотных словарей соответствующих текстов (текстовых массивов). Коэффициент корреляции между двумя случайными (в математическом смысле слова) величинами вычисляется по формуле
,
где d есть разность порядковых номеров одного и того же слова в двух сравниваемых словарях, а n - количество сравниваемых слов (обычно 20 или 30). При вычислении коэффициента ранговой корреляции R возможны следующие пять случаев:
· R=1 (зависимость положительная (прямая) функциональная; словари двух текстов полностью совпадают);
· R=-1 (зависимость отрицательная (обратная) функциональная; слова, наиболее частотные в одном словаре, наименее частотны в другом);
· R=0 (зависимость отсутствует; два сравниваемых словаря не совпадают ни в одном элементе);
· 1>R>0 (зависимость положительная (прямая) вероятностная);
· -1<R<0 (зависимость отрицательная (обратная) вероятностная).
Положительная зависимость обозначает близость частотных словарей (рангов, которые в двух частотных словарях занимают одни и те же слова); отрицательная зависимость обозначает отталкивание, в некотором смысле противостояние двух частотных словарей. Однако и в случаях 1 > R > 0 и -1 < R < 0 не любые значения R позволяют с уверенностью говорить о наличии корреляции (связи, зависимости). Для этого надо, чтобы значение R попало в критическую область. Границы её определяются по формуле
,
причём мы всюду принимаем доверительный уровень =0.03. Значение функции ? табличная величина. При n = 30 и = 0.03 R в = 0.33. Только в случае R в >0.33мы в праве уверенно говорить о наличии корреляции (связи, зависимости) между двумя частотными словарями (между тематикой двух текстов). языкознание лингвистический словарь текстовый
Непосредственное выполнение проекта обязательно предваряется историко-теоретическим экскурсом в области лингвостатистики. Здесь целесообразно обратить особое внимание на то, что использование количественных методов в языкознании не только позволяет решать традиционные задачи, но коренным образом меняет наши представления о самом предмете изучения, открывает его новые аспекты и ракурсы, генерирует целый ряд новых проблем, создает новые направления исследований. Рассмотрение достигнутых наукой результатов важно увязывать с инструментарием и методикой их получения при непременной оценке роли личности исследователя.
На основании такой подготовки осуществляется подбор средств, необходимых для выполнения поставленной учебной задачи в условиях ограниченного времени и малочисленности рабочей группы (два или три студента). Он с неизбежностью приводит к выводу о необходимости использования средств вычислительной техники. Следует отметить, что успешность использования URS при выполнении проекта напрямую зависит от того, насколько ясно и глубоко студенты представляют себе все этапы его выполнения и возможности используемой программы.
Проектный подход к использованию URS в учебном процессе позволяет не только успешно решать дидактические задачи по знакомству студентов-филологов с современными методами вычислительной лингвистики, но и получить нетривиальные научные результаты в рамках курсового и дипломного проектирования.
Достаточно интересным может оказаться применение частотных словарей в образовательном процессе с диагностическими и мониторинговыми целями. Если авторские тексты учащихся собрать в единый текстовый массив и построить его частотный словарь, то по ранжированию словоупотребления можно получить нетривиальную диагностическую информацию.
Например, для выявления ценностного отношения студентов к информационным технологиям им предлагается составить список из десяти слов, которые отражают их личные, субъективные ассоциации с компьютером (Интернетом, сетевым общением и т.п.). Ассоциации могут иметь произвольный характер (эмоциональные, цветовые, вкусовые, тактильные, правовые, математические…).
При анализе всего текстового массива, полученного на основе опроса нескольких десятков студентов, вскрываются интересные статистически значимые закономерности, которые могут оказаться полезными и для рефлексии над собственной преподавательской деятельностью, и для повышающей эффективность педагогической системы курса коррекции его технологического инструментария.
В электронной образовательной среде «ЭОС» частотные словари строятся на основе отзывов студентов на каждую лабораторную работу (оценка по критериям полезности, новизны, трудности, сложности, интереса). Это позволяет преподавателю быстро и безболезненно получать объективную оценку предлагаемых студентам заданий с их стороны, не отвлекая внимания на случайные девиантные отзывы.
Библиографический список
1. Ван дер Варден, Б. Л. Математическая статистика / Б. Л. Ван дер Варден. - М., 1960. - С. 384.
2. Баевский, В. С. Стих и поэзия / В. С. Баевский // Проблемы структурной лингвистики. М.: Наука, 1982.
3. Грузберг, А. А. Частотный словарь русского языка второй половины XVI - начала XVII века / А. А. Грузберг. Пермь, 1974.
4. Частотный словарь русского языка: 40000 слов; под ред. Л. Н. Засориной. М., 1977.
5. Денисов, П. Н. Комплексный частотный словарь русской научной и технической лексики / П. Н. Денисов [и др.]. М., 1978.
6. Сводный словарь современной русской лексики; в 2 т.; под ред. Р. П. Рогожниковой. Л., 1991.
7. Концевой, М. П. Электронная образовательная среда «ЭОС» / М. П. Концевой // Информационные технологии в науке и образовании: материалы Международной научно-практической Интернет-конференция, июнь-октябрь 2005г. - Шахты: Изд-во ЮРГУЭС, 2005. - С. 51-53.
Размещено на Allbest.ru
...Подобные документы
История русского словарного дела. Функции словарей и параметры их классификации. Значения слов, их толкования и примеры употребления как первичные функции словаря. Разделение словарных изданий на лингвистические (филологические) словари и энциклопедии.
реферат [31,8 K], добавлен 06.04.2011Рассмотрение положений лексикографии, функций словарей и проблемы их типологии. Референциальные, синонимические и описательные виды словарных дефиниций. Анализ способов лексикографического представления слов на примере многозначного существительного leg.
курсовая работа [52,4 K], добавлен 27.10.2011Русская лексикография и составление словарей. Классификация словарей: этимологические, толковые, синонимические, фразеологические, орфографические и словари трудностей русского языка. Исследование известных словарных изданий. Издание словарей-библиотек.
дипломная работа [31,7 K], добавлен 07.05.2009Лексикографическая компетенция и проблемы её формирования. Анализ существующих русскоязычных культурологических словарей и их применения в работе со студентами, изучающими русский язык как иностранный. Структура и содержание словарей различных типов.
дипломная работа [329,7 K], добавлен 27.07.2017Понятие и место словарей в духовной жизни общества, особенности выполняемых ими функций. Количество и многообразие слов в русском языке. История происхождения словаря в Европе и России, отличительные черты основных этапов. Специфика видов словарей.
реферат [35,5 K], добавлен 18.04.2012Основные тенденции в развитии лексикографии английского языка. Анализ британских, американских и отечественных словарей, особенностей их композиции и способов представления лексических единиц. Классификация, типы и структура словарей и словарных статей.
методичка [642,4 K], добавлен 26.04.2011Типы и строение словарей, их характеристика, особенности, преимущества и недостатки. Использование словарей в процессе перевода, алгоритм работы переводчика; проблемы отражения семантики слов при помощи контекстуально-ограниченных иноязычных соответствий.
презентация [43,0 K], добавлен 29.07.2013Цели контент-анализа, его относительная дешевизна, технологичность и использование для систематического мониторинга больших информационных потоков. Формальные элементы текста. Типы информационных массивов и единицы. Частотные и системные характеристики.
курсовая работа [32,2 K], добавлен 20.01.2010- Эвристическая ценность прикладного корпуса в работе переводчика: теоретико-практическое исследование
Определение и типологизация словарей, их роль в переводе. Предпосылки появления этих электронных средств их классификация. Прагматическая ценность электронных словарей в парадигме переводческой деятельности. Сопоставительный анализ переводных словарей.
курсовая работа [373,4 K], добавлен 26.06.2011 Основные типы словарей. Лексико-семантический класс с общим значением времени и его классификация. Значение категории времени. Анализ наличия заголовочного слова и способов расположения словарных статей (на материале описания темпоральной лексики).
курсовая работа [76,8 K], добавлен 15.06.2015Факторы речевой организации текста. Характеристика текста как особой речевой единицы. Основные типы текстов. Построение текстов различных стилей. Особенности построения текстов в научном, публицистическом, официально-деловом и художественном стилях.
курсовая работа [46,9 K], добавлен 22.05.2015Терминологические единицы в рекламном тексте на автомобильную тематику и особенности их перевода. Понятие "рекламный текст" и его лингвистические особенности. Термин как объект изучения и его лингвистические особенности. Виды переводческих трансформаций.
дипломная работа [458,4 K], добавлен 08.11.2017Термин в современной лингвистике, его специфика как лексической единицы профессиональных подъязыков. Понятийный аппарат терминоведения. Проблемы лексикографирования лингвистической терминологии. Принципы создания двуязычного лингвистического словаря.
дипломная работа [84,6 K], добавлен 22.05.2012Адресат переводных словарей. Развитие англо-русской лексикографии. Переводной словарь как словарь, представляющий планомерное сопоставление словарных составов двух и более языков. Основные способы семантизации в нем. Переводные фразеологические словари.
презентация [2,7 M], добавлен 22.11.2013Выделение единиц перевода на уровне фонем, графем, морфем, слов, словосочетаний, предложений и текста. Выявление текстовой функции исходной единицы перевода. Пространственно-временные и причинно-следственные характеристики словесного состава текста.
презентация [38,7 K], добавлен 29.07.2013Причины формирования и процесс становления науки о переводе. Развитие сопоставительных контрастивных исследований в языкознании. Положение современного переводоведения. Изучение перевода с позиций различных дисциплин. Его лингвистическая направленность.
презентация [50,0 K], добавлен 30.10.2013История словарей, их функции. Сущность толкового и терминологического их видов. Систематизация неологизмов, иностранных слов, переводческих терминов, фразеологизмов. Анализ нового в русской лексике. Использование словарей для проверки орфографии.
презентация [581,0 K], добавлен 26.10.2014Англоязычный телевизионный дискурс. Основные информационные жанры телевидения. Критерии, позволяющие отличить телесообщения различных жанров. Грамматические конструкции и единицы. Лингвистические характеристики англоязычного телевизионного сообщения.
контрольная работа [24,1 K], добавлен 20.12.2013Выполнение высококвалифицированных переводов. Правильное и полное понимание текста и его значение для перевода. Особенности двуязычных словарей. Сочетания слов в словарях. Переводы однозначного слова при помощи двух или более слов, близких по значению.
лекция [42,9 K], добавлен 30.10.2013Понятие и специфические черты новостного дискурса, требования к нему. Лингвистические приемы выдвижения актуальной информации. Сходства и различия в использовании данных средств в англоязычных и русскоязычных интернет-публикациях, языковые особенности.
дипломная работа [88,1 K], добавлен 23.02.2015