Анализ текстов для формирования электронных частотных словарей

Характеристика важнейших лингвостатистических особенностей, которые возникают при проведении анализа закономерностей функционирования лексики в объемных текстах. Учет статистических свойств текста как одно из основных назначений частотных словарей.

Рубрика Иностранные языки и языкознание
Вид статья
Язык русский
Дата добавления 29.04.2018
Размер файла 14,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Размещено на http://www.allbest.ru

Формирование информационно-терминологического базиса (ИТБ) для определенной области знаний происходит на основе частотных словарей, относящихся к этой области. Поэтому важным этапом перед формированием ИТБ является подбор определенного количества языкового материала (текстов), посвященного рассматриваемой области знаний и составление на его основе частотных словарей. Для решения этой задачи широко применяются различные статистические методы.

Статистические методы все шире и глубже проникают в самые различные области научной деятельности, в том числе и в такие, традиционно считавшиеся “неточными”, как языкознание. Совокупность этих методов, используемых в науке о языке, позволяет определить, какие языковые явления встречаются в речи или тексте чаще, а какие реже. Наиболее интенсивно статистическими методами изучается словарный состав языка. Сведения об употребительной лексике дают частотные словари. Частотный словарь регистрирует слова, словоформы или словосочетания, которые встретились в исследованном для его составления тексте (выборке). Для этих единиц (т.е. слов, словоформ или словосочетаний) в словаре указываются их частоты, т.е. числа, показывающие, сколько раз каждая словарная единица встретилась в данном тексте.

Составление частотного словаря требует значительных затрат времени и знакомства со статистической методикой наблюдений. В докомпьютерную эпоху составление частотного словаря происходило вручную. Например, создатели частотного англо-русского словаря-минимума газетной лексики придерживались следующей методики. Словарь составлялся на основе лингвостатистического анализа языка газет и журналов Великобритании и США. Были отобраны тексты общей длиной 200000 словоупотреблений (под словоупотреблением в лингвостатистике принято понимать слово как единицу длины текста) из разных газет и журналов. Из этих текстов вручную выписывались слова и словосочетания с различной степенью устойчивости, и анализировалась частота их употребления. В наше же время создание частотных словарей можно автоматизировать с помощью компьютера. Таким образом, значительно сокращается время, необходимое на составление частотного словаря, а также повышается его точность.

Текст по своей природе обладает статистической структурой. Сущность ее состоит, с одной стороны, в том, что все слова и выражения, составляющие словарь текстов для данной области знаний, а также грамматические формы и синтаксические конструкции, обладают определенной вероятностью появления в текстах этой области знаний.

С другой стороны, если разбить рассматриваемый текст на малые порции, то одна часть лингвистических единиц будет давать в этих текстах примерно одни и те же частоты, таким образом, показывая, устойчивость и равномерность употребления. Другая группа лингвистических единиц дает неустойчивое и неравномерно употребление в отдельных порциях текста. Первую группу обычно составляют служебные слова и общеупотребительные словосочетания. Вторую группу образуют чаще всего слова и словосочетания, непосредственно связанные с содержанием текста данной области знаний (эти слова и словосочетания часто называют ключевыми).

Структура текстов разных областей знаний неодинакова: в них заметно отличаются вероятности и распределения ключевых слов и словосочетаний, статистика же служебных слов и некоторых общеупотребительных слов и словосочетаний остается практически неизменной.

Если исследовать текст достаточно большого объема, можно обнаружить закономерности функционирования лексики данного языка и получить представление о ее количественной структуре. При таком анализе выявляются, например, две важнейшие лингвостатистические закономерности.

Первая закономерность состоит в том, что, в любом тексте, каким большим бы он не был, используется лишь незначительная часть словарного богатства языка.

Например, специальные научно-технические и публицистические тексты весьма отличаются по объему словаря. Анализ текстов на английском, румынском и молдавском языках показал, что словарь текстов публицистического характера примерно в 2,5 раза больше, чем словарь специальных текстов.

Эти цифры свидетельствуют о том, что в разных сферах речевого общения используются и разные количества слов.

Вторая лингвостатистическая закономерность состоит в том, что даже и ограниченная часть лексики языка используется в речи (тексте) неравномерно. Одни слова употребляются чаще, другие реже, причем большая часть всего текста приходится на незначительное количество самых частых слов. Например, при записи и анализе телефонных разговоров были получены следующие результаты: 737 самых частых слов занимают свыше 95% всех словоупотреблений.

Как уже отмечалось, в частотном словаре указывается количество случаев употребления слова в тех текстах, которые были проанализированы для составления словаря. Частотные словари различаются в зависимости от принципа размещения материала. Слова или словосочетания могут быть расположены по алфавиту - как в обычном словаре, с проставлением рядом со словом его частоты. Также слова и словосочетания могут быть расположены по убыванию частот, начиная от самого употребительного слова. Первый вариант частотного словаря предназначен для обучаемого, второй - обучающему. Обучаемый может также работать со вторым вариантом словаря при самостоятельном изучении иностранного языка, например, при заучивании слов и словосочетаний порциями в зависимости от их частоты или при проверке владения словарными единицами, начиная с самых частых.

При автоматизации общего статистического анализа могут быть выделены следующие этапы:

­ определение статистических элементов (слово, фраза, предложение);

­ определение абсолютной частоты элементов по единичной выборочной пробе и общей выборочной пробе;

­ расчет относительной частоты и вероятности для основной совокупности терминов определенной области знаний;

­ проверка достоверности полученных частотных характеристик путем вычисления стандартных отклонений и относительной ошибки;

­ формализация результатов в виде списков, таблиц или графиков;

­ интерпретация и обобщение результатов, вплоть до формулирования закономерностей.

Так как практически невозможно охватить всю общность предметно-языковой коммуникации даже только для одного языка и одной области, предметно-языковая статистика должна опираться на наиболее репрезентативные выборочные пробы, т.е. на письменные или устные предметно-типичные тексты. Каждый языково-статистический анализ начинается с выбора и подготовки соответствующей текстовой базы. При специфических постановках задач в рамках прикладного языкознания, например, при определении словарного запаса для заучивания на занятии по иностранному языку или при составлении вокабуляра для внутрипроизводственной документации, объем текстовой базы может быть сильно ограничен.

Необходимо также обращать внимание на вид текстов. Особенно пригодны для определения научно-технического основного словарного запаса учебники высшей и профессиональной школы обзорного характера. Они гарантируют систематический, пропорциональный и полный охват материала и необходимые языковые средства для его изложения, кроме того, они в меньшей степени подвержены влиянию со стороны индивидуального языкового употребления отдельных представителей профессии. Дальнейшее формирование текстовой базы основывается на использовании новых журналов не специального характера.

Первым результатом статистической обработки текста является абсолютная частотность. Она показывает, как часто возникает соответствующее явление в исследуемом тексте. Однако, она имеет малую ценность для дальнейших исследований при практическом использовании результатов или вообще для обобщенных высказываний, так как она напрямую зависит от объема выбранного текста. Она служит исключительно как исходная величина, например, для расчета относительной частотности.

Относительная частотность - процентная величина, которая выражает долю языковой единицы в целом тексте. Она получается из деления абсолютной частотности на длину выборочной пробы (1).

, (1)

где - относительная частотность, - абсолютная частотность, N - длина выборочной пробы.

Например, для слова с абсолютной частотностью 173 в одной выборочной пробе из N=60000 языковых единиц, относительная частотность будет вычисляться как 173/60000=0,00288.

Другими словами, относительная частотность явления - отношение числа его действительного возникновения к числу его теоретически возможного появления. Если выборка по величине репрезентативна для предметного языка, тогда можно приравнять относительную частотность к вероятности языкового явления. Тогда она дает основание для выводов о статистической структуре соответствующего субъязыка или о важности отдельных элементов для организации текста.

Особенно важным шагом при статистическом анализе языка является контроль достоверности определяемых данных. Для этого в распоряжении имеются различные способы контроля. В предметно_языковой статистике учитываются, прежде всего, стандартные отклонения (погрешности), относительная ошибка и конфиденциальные границы.

Стандартная погрешность (средняя квадратная погрешность) - мера изменчивости средней частотности языкового явления в частичных выборочных пробах. Она рассчитывается по формуле:

, (2)

где S - стандартная погрешность, SAQ - сумма квадратов погрешностей, n - число контрольных проб.

Относительная ошибка вычисляется, прежде всего, для определенных лексических единиц в частотных словарях, чтобы определить достоверность этих словарей. Общепринятая формула определения относительной ошибки:

, (3)

где _ относительная ошибка, Zp - коэффициент для данного уровня доверия p, n - объем выборки (выборочной пробы), f - относительная частотность.

Расчет интервала доверия - это уточненный вариант расчета относительной ошибки, с которой определяется нижняя и верхняя граница (p1 и p2) колебаний и средняя частотность. Существуют разные способы расчета интервала доверия, например:

, (4)

. (5)

лингвостатистический словарь текст

При отображении результатов исследований обычно используются различные списки, таблицы, графики и т.п. С помощью кругового изображения и ленточных диаграмм изображаются части в процентных величинах. Для графического изображения количественных признаков, таких как длина слова или предложения, пригодны гистограммы и цепь многоугольников. Графики-кривые с более или менее типичным течением по качественным и количественным признакам превышают это простое сочетание частотностей. Они позволяют распознавать функциональные связи между признаками и их частотностью, и частотность языковых явлений сама может стать признаком того, что характеризуется другими данными.

Таким образом, частотные словари позволяют учитывать статистические свойства текстов, что в свою очередь приводит к построению на их основе более качественных и полных информационно-терминологических базисов. Но успешное составление частотных словарей очень сильно зависит от этапа подбора репрезентативной выборки текстов по определенной области знаний. Этот процесс относительно плохо автоматизируется. Зато, уровень развития современных информационных технологий позволяет выполнять составление частотных словарей и последующее формирование ИТБ на их основе, практически полностью автоматизировано. Что позволяет существенно сократить затраты времени и человеческих ресурсов на их составление. А это, в свою очередь, ведет к ускорению и удешевлению процесса разработки систем компьютерного обучения языкам.

Размещено на Allbest.ru

...

Подобные документы

  • Определение и типологизация словарей, их роль в переводе. Предпосылки появления этих электронных средств их классификация. Прагматическая ценность электронных словарей в парадигме переводческой деятельности. Сопоставительный анализ переводных словарей.

    курсовая работа [373,4 K], добавлен 26.06.2011

  • Русская лексикография и составление словарей. Классификация словарей: этимологические, толковые, синонимические, фразеологические, орфографические и словари трудностей русского языка. Исследование известных словарных изданий. Издание словарей-библиотек.

    дипломная работа [31,7 K], добавлен 07.05.2009

  • Понятие и место словарей в духовной жизни общества, особенности выполняемых ими функций. Количество и многообразие слов в русском языке. История происхождения словаря в Европе и России, отличительные черты основных этапов. Специфика видов словарей.

    реферат [35,5 K], добавлен 18.04.2012

  • Лексикографическая компетенция и проблемы её формирования. Анализ существующих русскоязычных культурологических словарей и их применения в работе со студентами, изучающими русский язык как иностранный. Структура и содержание словарей различных типов.

    дипломная работа [329,7 K], добавлен 27.07.2017

  • Описание характерных особенностей нонсенса и его отличий от родственных понятий: абсурд, сарказм. Поэзия нонсенса в творчестве Э. Лира и С. Миллигана. Анализ основных проблем, которые возникают при переводе поэзии нонсенса с английского языка на русский.

    дипломная работа [173,3 K], добавлен 19.10.2013

  • Основные тенденции в развитии лексикографии английского языка. Анализ британских, американских и отечественных словарей, особенностей их композиции и способов представления лексических единиц. Классификация, типы и структура словарей и словарных статей.

    методичка [642,4 K], добавлен 26.04.2011

  • Исследование основных подходов к определению текста и дискурса. Дискурсивное пространство рекламного текста и его особенности. Языковые средства выражения коммуникативно-прагматической направленности в рекламных текстах. Употребление паремий в текстах.

    дипломная работа [119,7 K], добавлен 03.02.2015

  • История словарей, их функции. Сущность толкового и терминологического их видов. Систематизация неологизмов, иностранных слов, переводческих терминов, фразеологизмов. Анализ нового в русской лексике. Использование словарей для проверки орфографии.

    презентация [581,0 K], добавлен 26.10.2014

  • Типы и строение словарей, их характеристика, особенности, преимущества и недостатки. Использование словарей в процессе перевода, алгоритм работы переводчика; проблемы отражения семантики слов при помощи контекстуально-ограниченных иноязычных соответствий.

    презентация [43,0 K], добавлен 29.07.2013

  • Рассмотрение положений лексикографии, функций словарей и проблемы их типологии. Референциальные, синонимические и описательные виды словарных дефиниций. Анализ способов лексикографического представления слов на примере многозначного существительного leg.

    курсовая работа [52,4 K], добавлен 27.10.2011

  • Социальные функции, значение и принципы классификации словарей современного английского языка. Виды специальных словарей: фразеологизмов, языка писателей, цитат. Понятие мифологем и их примеры. Формирование библейской лексикографии, ее основные тенденции.

    реферат [33,0 K], добавлен 16.06.2013

  • Оцифровка германских документов в архивах России. Издание специальных немецких терминологических справочников, словарей и тезаурусов. Классификация жанров и специфики военных текстов. Анализ особенностей перевода на примере боевых документов бундесвера.

    дипломная работа [5,4 M], добавлен 16.09.2017

  • История русского словарного дела. Функции словарей и параметры их классификации. Значения слов, их толкования и примеры употребления как первичные функции словаря. Разделение словарных изданий на лингвистические (филологические) словари и энциклопедии.

    реферат [31,8 K], добавлен 06.04.2011

  • Рассмотрение основных приемов перевода научного текста. Описание понятия, сущности и значимости предпереводческого анализа. Экстраллингвистическое определение особенностей специального текста. Анализ параллельных текстов в терминологическом плане.

    дипломная работа [53,9 K], добавлен 25.04.2015

  • Основные типы словарей. Лексико-семантический класс с общим значением времени и его классификация. Значение категории времени. Анализ наличия заголовочного слова и способов расположения словарных статей (на материале описания темпоральной лексики).

    курсовая работа [76,8 K], добавлен 15.06.2015

  • Рассмотрение и анализ популярных в Интернете он-лайн переводчиков, сравнение их возможностей и функций. Технологии, на которых работают он-лайн транслейторы. Сравнительная характеристика перевода английских шуточных текстов с помощью он-лайн словарей.

    курсовая работа [452,6 K], добавлен 06.06.2012

  • Исследование свойств публицистического текста, его структура, лингвистические и когнитивные особенности. Комплексное изучение особенностей создания и функционирования метафорических моделей в структуре публицистических текстов и газетных заголовках.

    дипломная работа [79,8 K], добавлен 05.06.2019

  • Анализ сложностей перевода китайских текстов на демографическую тему. Перевод текста с китайского языка на литературный русский язык, проведение грамматического и лексического анализа переведенного текста. Особенности специальной демографической лексики.

    курсовая работа [69,4 K], добавлен 21.09.2015

  • Понятие "перевод". Основные типы переводческих ошибок. Характеристика концепций предпереводческого анализа, различные точки зрения на выполнение и технику перевода. Применение предпереводческого анализа текста на практике (в ходе анализа текстов).

    научная работа [172,9 K], добавлен 11.09.2012

  • Понятие о синонимах. Функции, значение синонимов в языке. Группировка слов и словосочетаний, носящая системный характер. Выявление значения синонимических средств. Принципы составления синонимических словарей английского языка. Активность. Двуязычность.

    научная работа [18,5 K], добавлен 25.02.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.