Научно-исследовательский комплекс предобработки текстов и постобработки результатов в системе sketchengine

Развитие программно-лингвистического инструментария. Изучение грамматического и коллокационного поведения слов, на основе данных веб-корпусов. Подробное описание слабостей системы SketchEngine. Этапы становления и развития корпусной лингвистики.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 26.12.2019
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

1. учитывать цели и значения до начала работы над дизайном;

2. налаживать четкую связь между всеми членами команды с разными навыками (для нас не имеет значения);

3. делать так, чтобы визуализируемые признаки соответствовали целям и дизайну программы.

Визуализация расширенного тезауруса

Проблема визуализации особенно остро стоит для построения расширенного тезауруса. "Нативная" визуализация простых тезаурусов в SketchEngine представляет собой довольно примитивное "облако слов"; его минусом, в свою очередь, является то, что несмотря на внешне приятный вид, выражать какие-то величины облако может только размером составляющих его слов, из-за чего больше одной переменной они показать не могут. Тезаурус по типу Thinkmap, представляющий собой граф, вполне адекватен для тезауруса-сети, однако мы должны учитывать, что SketchEngine дает нам не только отношения между словами, но еще и силу этой связи. Кроме того, важно выделить "центр" и "периферию" тезауруса.

В результате мы пришли к двум вариантам рисования графа. В первом варианте позиции узлы и ребра графа расставлены согласно силовому алгоритму Фрухтермана-Рейнгольда и представляют собой несколько пучков близко связанных с собой слов. Так мы можем легче выделять семантические поля внутри текста.

Рис. 8. Расширенный тезаурус от слова "человек". Первый вариант графа.

Второй же вариант графа представляет собой нечто среднее между, собственно, графом и пресловутым "облаком слов". Он представляет собой группу увеличивающихся колец овальной формы: слова, имеющие много семантических связей, находятся в центре; имеющие только одну или две - на периферии. Помимо этого, эти слова еще и выражают с помощью своего суммарную силу связи со всеми своими соседями. В первом варианте эта же величина выражается только цветом - от синей периферии через фиолетовый к красному центру.

Рис. 9. Расширенный тезаурус от слова "человек". Второй вариант графа.

Второй вид графа выглядит куда более эффектно и в некоторой степени более наглядно, зато первый лучше показывает отношения между конкретными словами.

Во время исследования расширенного тезауруса обнаружилось несколько интересных фактов. Во-первых, зачастую реальным центром расширенного тезауруса становится даже не то слово, с которого началось построение графа, а один из его соседей, выражающий более общее понятие и имеющий за счет этого больше сильных семантических связей.

В частности, при попытке построения расширенного тезауруса от слова "медицина" мы пришли к ситуации, где ярко-красным центром стало слово "наука", а ее ближайшими соседями - "религия" и "философия". Медицине же были назначены темно-синий цвет и место рядом с другими науками вроде логики и психологи, близкое к центру, но все же не непосредственно в нем.

Рис. 10. Расширенный тезаурус от слова "медицина".

Другие визуализации

Хотя создание тезаурусов было основной визуализационной задачей в пределах этого корпуса, в процессе работы - часто просто для упрощения понимания получаемых результатов самим автором. В частности, во время работы над взвешенным извлечением терминов использовались такие диаграммы, которые выражали количество терминологии среди ключевых слов и их характер.

Рис. 11. Диаграмма терминов "китайского" корпуса".

Рис. 12. Диаграмма терминов "медицинского" корпуса".

Рис. 12. Диаграмма ключевых слов "медицинского" корпуса". Оранжевая часть - термины, синяя - обычные слова.

Заключение

В ходе данной работы было проведено исследование разных сторон системы SketchEngine, были сделаны попытки улучшить и расширить ее функционал и справиться с имеющимися у нее проблемами. Хотя итоговый результат далек от совершенства, все же созданный инструментарий позволяет исследователю работать со SketchEngine так, как этого раньше не происходило, с учетом большего количества факторов и новыми, ранее не использованными способами.

Помимо практической пользы от собственно инструментария был также исследован процесс лемматизации языковых данных, которые в итоге приводят к созданию корпуса SketchEngine. Из собранных теоретических данных можно сделать вывод, что лемматизатор чаще всего "спотыкается" в двух случаях.

Во-первых, неправильно лемматизируются слова, которые не включаются в обычные словари, либо по причине их просторечности, либо из-за того, что они являются производными от более распространенных слов. Такие слова при этом могут встречаться весьма и весьма часто, из-за чего их неверная лемматизация и является большой проблемой. К системе можно подключать сторонние лемматизаторы, способные служить подспорьем для ограниченных возможностей самого SketchEngine.

Второй частой ошибкой для лемматизатора являются составные слова. Здесь решение проблемы не столь однозначно. Хотя расширение словаря может помочь с более устойчивыми составными словами ("диван-кровать"), все возможные составные слова учесть невозможно, так как сложение слов с помощью дефиса является продуктивным способом словообразования. Усугубляет проблему также то, что такие слова могут склоняться по-разному (иногда склоняются обе части, иногда - только последняя). Потенциальным решением может служить разделение составных слов надвое: в отдельности их части легче лемматизировать, при этом во многих случаях их семантическое значение примерно сохранится. "Диван-кровать" - примерно то же самое, что диван и кровать вместе, "Ростов-на-Дону" - действительно Ростов на Дону: во всяком случае, было бы вполне логично, если бы эти слова появлялись при поиске коллокаций по леммам "диван" и "дон".

Автор надеется, что эта работа продолжит развиваться и в будущем затронет и эти проблемы.

Литература

1. В.П. Захаров, С.Ю. Богданова, Корпусная лингвистика, СПб, 2013

2. Копотев М. Введение в корпусную лингвистику: Учебное пособие для студентов, Прага, 2014

3. Д.В. Сеченова. К задаче создания корпусов русского языка, Москва

4. Хохлова М.В., Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов, СПбГУ, Санкт-Петербург, 2010

5. Allan, Keith, the Oxford Handbook of the History of Linguistics (History of Corpus Linguistics), 2013

6. Allen, William. Making Corpus Data Visible: Visualising Text With Research Intermediaries, University of Oxford, Оксфорд, 2015

7. Barrs, Keith: Using the Sketch Engine Corpus Query Tool for Language Teaching : The Language Teacher - Issue 40.2; March 2016, Хиросима, Hiroshima Shudo University, 2016

8. Few S, Information Dashboard Design: The Effective Visual Communication of Data, Sebastopol, 2006

9. Gabrielatos, C. (2007). Representation of refugees and asylum seekers in UK newspapers, 1996-2005: Report on the corpus-based analysis. Joint meeting of the Corpus Research Group (CRG) and the Language Ideology and Power Research Group (LIP), Department of Linguistics and English Language, Lancaster University, 15 January 2007.

10. Gatto, Maristella, Web As Corpus: Theory and Practice, Bloomsbury Academic, London, 2014

11. Golik, Bossy, Ratkovic and Nйdellec, Improving term extraction with linguistic analysis in the biomedical domain

12. Kantner, Cathleen; Kutter, Amelie, How to get rid of the Noise in the Corpus: Cleaning Large Samples of Digital Newspaper Texts, Stuttgart, 2011

13. Kilgarriff, Marcowitz, Smith, Thomas: Corpora and Language Learning with the Sketch Engine and SKELL

14. Kilgariff, Adam; Baroni, Marco, WebBootCaT: a web tool for instant corpora, Brighton, 2006

15. Adam Kilgarriff, VнtBaisa, Jan Buљta, MiloљJakubниek, VojtмchKovvбш, Jan Michelfeit, PavelRychlэ, VнtSuchomel. TheSketchEngine: tenyearson. Lexicography, 1: 7-36, 2014.

16. Adam Kilgarriff, PavelRychlэ, PavelSmrћ, David Tugwell. Itri-04-08 the sketch engine. Information Technology, 2004.

17. Kilgarriff, Finding Terms in Corpora for Many Languages with the Sketch Engine, Lexical Computing Ltd., United Kingdom

18. Meunier F., Gilquin Gaлtanelle, Paquot Magali, A Taste for Corpora: In Honour of Sylviane Granger, John Benjamins Publishing Company

19. Nesselhauf, Nadja, Corpus Linguistics: A Practical Introduction, Гейдельберг, 2005

20. Talianovб, Dominika. Visualization of Corpus Data, Брно, 2014

21. Sophie Aubin, Thierry Hamon. Improving Term Extraction with Terminological Resources. Tapio Salakoski, Filip Ginter, Sampo Pyysalo, Tapio Pahikkala. 2006, Springer, pp.380, 2006, LNAI 4139. <hal-00091444>

22. Statistics used in Sketch Engine, https://www.sketchengine.co.uk/documentation/statistics-used-in-sketch-engine/

23. Zakharov V.P, Automatic Collocation Extraction: Association Measures Evaluation and Integration, Saint-Petersburg State University, Saint-Petersburg, Russia

24. Computational Linguistics and Intellectual Technologies, Papers from the Annual International Conference, "Dialogue" (2010) Issue 9 (16)

Размещено на Allbest.ru

...

Подобные документы

  • Введение основных понятий корпусной лингвистики. Понятие учебного корпуса и лингвистической разметки. Обзор разработок мультимодальных корпусов и изучение их структуры. Создание русско-немецкого подкорпуса. Разметка текстов и аннотирование данных.

    курсовая работа [2,0 M], добавлен 20.06.2014

  • Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.

    дипломная работа [95,5 K], добавлен 07.11.2013

  • Культурологические характеристики общения. Национально-культурная специфика речевого общения. Страноведческий текст в системе лингвистического знания. Комплекс ценностей как основа лингвокультурологии. Классификация ценностей как норм и правил поведения.

    реферат [45,6 K], добавлен 22.08.2010

  • Современная лингвистика как продукт длительного исторического развития лингвистического знания. Характеристика основных этапов развития и методология лингвистики. Философия языка XIX и ХХ вв. Становление психолингвистики как науки, ее методология.

    курсовая работа [52,7 K], добавлен 26.08.2011

  • История формирования нейро-лингвистического программирования как отрасли прикладной лингвистики. Методы запоминания слов: заучивание "столбиком"; двадцать пятый кадр; записки; расширение синонимического ряда; погоня за словами; тематические карточки.

    курсовая работа [52,6 K], добавлен 18.07.2014

  • Вопросы гендерного описания и исследования в российской и зарубежной лингвистике. Разграничение понятий пол и гендер. Развитие феминистской лингвистики, изучение языкового поведения мужчин и женщин и ассиметрии в языковой системе обозначения лиц.

    реферат [27,3 K], добавлен 14.08.2010

  • Необходимость сближения и диалога культур и углубления взаимопонимания между обществами, нациями. Культурологические характеристики общения. Страноведческий текст в системе лингвистического знания. Комплекс ценностей как основа лингвокультурологии.

    реферат [46,5 K], добавлен 15.08.2010

  • Характеристика научно-технического текста на лексическом, стилистическом, грамматическом и синтаксическом уровнях. Анализ терминологии английских научно-технических текстов. Основные трудности перевода свободных и устойчивых словосочетаний данных текстов.

    курсовая работа [50,2 K], добавлен 08.06.2013

  • Лексико-грамматические особенности перевода научно-технических текстов. Понятие "стиль" и требования, предъявляемые к научно–техническому стилю русского языка в англо–русском переводе. Эквивалентность и адекватность перевода научно–технических текстов.

    дипломная работа [189,2 K], добавлен 26.02.2011

  • Что такое молчание с точки зрения лингвистики. Изучение вопроса молчания в научно-исследовательской литературе. Молчание в коммуникативном, эстетическом, культурологическом аспекте, религиозно-мистическом, психологическом, ритуальном аспекте.

    курсовая работа [27,4 K], добавлен 07.11.2007

  • Категория побудительности в языковедении. Анализ особенностей предписывающих немецких текстов на примере рекламы. Изучение текстов директивно-регулятивного типа, их места в системе речевой коммуникации. Немецко-русский перевод предписывающих текстов.

    курсовая работа [33,0 K], добавлен 10.04.2013

  • Демократизация общества как причина появления прикладной лингвистики. Возникновение и основные принципы правовой лингвистики, темы исследований и тенденции дисциплины. Сферы соприкосновения языка и права. Переводы юридических текстов и лексикографии.

    реферат [22,2 K], добавлен 09.12.2010

  • Обучение чтению и переводу англоязычной литературы, а также развитие навыков устной речи на этой основе. Изучение грамматического строя английского языка. Тексты на данном языке, задания к ним, упражнения, ориентированные на его изучение социологами.

    методичка [230,4 K], добавлен 19.11.2014

  • Признаки и характерные особенности перевода текстов научного стиля. Лексические особенности и трудности перевода. Специфика морфологии и основные проблемы перевода, синтаксические особенности текстов научного стиля и научно-популярного подстиля.

    дипломная работа [137,5 K], добавлен 19.02.2015

  • Значение диалектизмов, профессионализмов, жаргонизмов, слов с книжной и разговорной окраской. Анализ текстов разных стилей. Библиографическое описание книги, статьи, документа. Составление аннотации и рецензии. Примеры употребления фразеологизмов.

    контрольная работа [39,1 K], добавлен 25.10.2013

  • Развитие теории де Соссюра: фонологические и морфонологические исследования (Н.С. Трубецкой), грамматические исследования Пражского лингвистического кружка, проблема речи и языка. Значение исследований пражский языковедов для современной лингвистики.

    курсовая работа [44,8 K], добавлен 19.06.2019

  • Лексические и грамматические проблемы перевода научно-технических текстов, насыщенных специальными терминами и словосочетаниями. Атрибутивные конструкции как один из распространенных типов свободных словосочетаний в английских научно-технических текстах.

    курсовая работа [78,0 K], добавлен 23.07.2015

  • Декларативные методы машинной морфологии. Создание базы данных английских словоформ, содержащей полную морфологическую информацию каждой формы. Описание функциональных возможностей системы и взаимодействия ее модулей. Формат входных и выходных данных.

    курсовая работа [346,8 K], добавлен 13.05.2015

  • Характеристика и классификация рекламных текстов, их лексические и синтаксические особенности. Сравнительный анализ англоязычных и русскоязычных рекламных текстов. Разработка урока в рамках темы "Mass Media" на основе проанализированных рекламных текстов.

    дипломная работа [4,4 M], добавлен 14.02.2013

  • Теоретическое исследование вопроса перевода многозначных слов на примере газетных текстов. Многозначные слова в русском и английском языках. Особенности газетно-информационных текстов. Изучение закономерных соответствий между конкретными парами языков.

    дипломная работа [142,1 K], добавлен 06.06.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.