Автоматическое составление словарного минимума для обучения математике

Сравнение методов для извлечения коллокаций. Характеристика методики составления словарного минимума для определенной предметной области на примере математических текстов. Структурирование терминологических выражений. Анализ частотных списков глаголов.

Рубрика Иностранные языки и языкознание
Вид дипломная работа
Язык русский
Дата добавления 10.12.2019
Размер файла 4,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Получившийся список для метрики t-score можно использовать как основу для составления лексических листов для изучающих РКИ.

Для составления списка терминологических выражений лучше свего подойдут результаты работы LogLikelihood Ratio. Он показал самый маленький процент вхождения выражений математического языка.

Значения для n-грамм с n = 4, 5 оказались слишком мусорными из-за специфики корпуса. Совершенствование методов для оптимальной работы на таких выражениях требует еще более тщательной очистки текстов и отдельного исследования.

Наше исследование показало, что эти методы скорее могут ранжировать лексику и терминологический минимум, а также помочь экспертам в определении выражений, составляющих язык математики.

Литература

Artstein and Poesio 2008 -- R. Artstein and M. Poesio. Inter-coder agreement for computational linguistics.' Computational Linguistics, 34 (4). 555 - 596. 2008. ISSN 0891-2017

Bordea 2013 -- G. Bordea, P. Buitelaar, T. Polajnar. Domain-independent term extraction through domain modelling, 2013.

Church 1990 -- K. Church and P. Hanks. Word association norms, mutual information, and lexicography. Computational Linguistics, 16(1):22-29, 1990.

Church 1991 -- K. Church, W. Gale, P. Hanks, and D. Hindle. Using statistics in lexical analysis. In Uri Zernik, editor, Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon, pages 115-164, 1991.

Frantzi 2000 -- K. Frantzi, S, Ananiadou, and H. Mima. Automatic recognition of multi-word terms: the C-value/NC-value method. International Journal on Digital Libraries, 3(2):115-130, 2000.

Manning and Schьtze 1999 -- C. D. Manning and H. Schьtze. Foundations of statistical natural language processing. MIT Press, Cambridge, USA, 1999. ISBN 0-262-13360-1.

Sag et al. 2002 -- I. Sag, T. Baldwin, F. Bond, A. Copestake, and D. Flickinger. Multiword expressions: A pain in the neck for NLP. In Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2002), pages 1-15, 2002. Springer.

Pearce 2002 -- D. Pearce. A comparative evaluation of collocation extraction techniques. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002), 2002. European Language Resources Association.

Ramisch 2008 -- C. Ramisch, P. Schreiner, M. Idiart, and A, Villavicencio. An evaluation of methods for the extraction of multiword expressions. In Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), pages 50-53, 2008.

Ramisch 2009 -- C. Ramisch. Multi-word terminology extraction for domain-specific documents.Master's thesis. Йcole Nationale Supйrieure d'Informatique, Mathйmatiques Appliqueйes et Tйlйcommunications LIG - Laboratoires d'Informatique de Grenoble, 2009.

Rayson et al. 2010 -- P. Rayson, S. Piao, S. Sharoff, S. Evert, and B. Moirуn. Multiword expressions: hard going or plain sailing? Language Resources and Evaluation, pages 44:1-5, 2010

Seretan 2008 -- V. Seretan. Collocation extraction based on syntactic parsing. Ph.D. thesis, University of Geneva, 2008.

Большакова et al. 2006 -- Большакова Е. И., Васильева Н. Э., Морозов С. С. Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов // Десятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции в 3-х томах. -- Т. 2. -- Физматлит Москва, 2006 -- С. 506-524.

Сосинский 2000 -- A. Б. Сосинский. Как написать математическую статью по-английски. -- М: Изд-во «Факториал Пресс», 2000. -- 112 с. ISBN 5-88688-032-1

Сосинский 2017 -- A. Б. Сосинский. Mathematical English. МЦНМО, Москва, 2017. ISBN 978-5-4439-1242-4

Приложение 1

Топ-50 по итогам работы метрики t-score на корпусе с тегом <x>. Этот эксперимент дал лучший результат для биграмм и триграмм

bigram

freq

3

доказать_v что_conj

488

20.359222

40

то есть_adv

169

12.946699

34

мочь_v быть_v

182

12.839804

18

в_pr точка_s

276

12.093771

41

такой_a что_conj

167

11.871054

56

теорема_s доказать_partcp

135

11.387456

47

один_a из_pr

148

11.254863

53

делиться_v на_pr

137

11.115777

55

иметь_v вид_s

136

11.083018

44

следовать_v что_conj

154

10.972362

48

на_pr плоскость_s

146

10.664447

74

таким образом_adv

110

10.460746

61

для_pr любой_a

127

10.403880

75

см также_adv

110

10.381487

66

на_pr отрезок_s

123

10.191382

77

показать_v что_conj

109

9.767581

96

так как_conj

92

9.439169

101

заметить_v что_conj

88

8.852968

120

ответ_s указание_s

73

8.469317

123

указание_s решение_s

72

8.417200

121

ряд_s сходиться_v

73

8.372201

129

при помощи_pr

69

8.293040

124

только_part тогда_adv

71

8.022187

134

тогда_adv когда_conj

67

7.911553

153

о_pr а_s

60

7.527335

141

означать_v что_conj

64

7.431554

133

каждый_a из_pr

67

7.328418

166

совпадать_v с_pr

57

7.246982

163

тогда_adv только_part

58

7.168826

160

говорить_v что_conj

58

7.045187

183

приходить_v к_pr

51

7.005263

17

аналитический_a <x>

277

7.004638

192

р_р р_р

49

6.930765

112

в_pr пространство_s

80

6.924927

12

<x> алгебра_s

324

6.907838

152

непрерывный_a на_pr

60

6.873862

138

пусть_part функция_s

65

6.865546

175

очевидно_adv что_conj

54

6.715872

211

зависеть_v от_pr

46

6.675472

167

доказать_v равенство_s

57

6.672967

220

проходить_partcp через_pr

45

6.663536

222

хотя бы_adv

44

6.626175

149

у_pr у_pr

60

6.618637

226

г_г г_г

44

6.597520

191

предположить_v что_conj

49

6.581335

182

по_pr формула_s

51

6.448251

217

от_pr до_pr

45

6.409623

145

следовать_v из_pr

62

6.404573

215

состоять_v из_pr

45

6.400378

236

пример_s решить_v

43

6.394083

Приложение 2

Топ-50 по итогам работы метрики LogLikelihood Ratio. В данном случае количество математических штампов оказалось минимальным

bigram

pmi

694

последовый_a тельность_s

13.128216

673

крайней мере_adv

13.040753

745

коля_s васин_s

12.958291

763

диаграмма_s юнга_s

12.735898

740

по крайней

12.484360

597

предметный_a указатель_s

12.093357

622

урав_s нения_s

12.036293

610

опера_s тор_s

11.735898

363

хотя бы_adv

11.636363

644

гиперболический_a параболоид_s

11.279041

656

ф_ф ф_ф

11.209353

339

с помощью_pr

11.128216

236

при помощи_pr

11.019691

410

алгоритм_s евклид_s

10.757925

660

а также_conj

10.656961

538

представлять_v себ

10.604654

819

чем_conj сущность_s

10.548801

135

таким образом_adv

10.346856

882

треугольник_s паскаль_s

10.135986

716

взаимно_adv однозначный_a

10.045307

930

так же_adv

9.918763

340

остаточный_a член_s

9.852091

621

главный_a минор_s

9.842814

808

во_pr внимание_s

9.817062

393

бесконечно_adv малый_a

9.792540

434

л_л л_л

9.764568

513

математический_a анализ_s

9.755806

57

то есть_adv

9.693588

542

линейно_adv зависимый_a

9.660055

674

е_е е_е

9.652959

646

признак_s делимость_s

9.597875

589

однозначный_a соответствие_s

9.594886

416

положительно_adv определенный_a

9.583895

518

симметрия_s относительно_pr

9.555326

359

условный_a экстремум_s

9.470554

220

линейно_adv независимый_a

9.467570

452

тензорный_a исчисление_s

9.441715

460

высший_a математика_s

9.439966

366

г_г г_г

9.299935

159

аффинный_a преобразование_s

9.268992

578

инвариантный_a подпространство_s

9.210098

388

интегральный_a исчисление_s

9.197790

463

локальный_a экстремум_s

9.162432

649

нелинейный_a объект_s

9.095895

590

нелинейный_a зависимость_s

9.083822

177

цепной_a дробь_s

9.029630

139

проходить_partcp через_pr

8.994018

549

наибольший_a наименьший_a

8.993395

793

квадратный_a трехчлен_s

8.992507

541

необходимый_a достаточно_adv

8.976565

Приложение 3

Ссылка на репозиторий GitHub https://github.com/MariaTsareva/Diplomarbeit

Ссылка на код программы https://github.com/MariaTsareva/Diplomarbeit/blob/master/math_constructions.ipynb

Список биграмм https://github.com/MariaTsareva/Diplomarbeit/blob/master/bigram1_df.csv

Список триграмм https://github.com/MariaTsareva/Diplomarbeit/blob/master/trigram1_df.csv

Размещено на Allbest.ru

...

Подобные документы

  • Перевод английских текстов и активного словарного запаса на русский и украинский языки в письменном виде. Ответы на вопросы по тексту. Перевод утверждений и определение их правдивости или ложности. Составление вопросов по тексту на английском языке.

    контрольная работа [41,9 K], добавлен 28.01.2012

  • Специфика словарного состава языка. Классификация словарного состава языка. Особенности и свойства лексического поля. Анализ модели лексического поля "женщины" на материале рекламных текстов в журналах для женщин. Лексика рекламы в журнале "Cosmopolitan".

    курсовая работа [46,6 K], добавлен 25.09.2016

  • Значение урока русского языка. Понятие словарного запаса. Психологические и индивидуальные особенности младшего школьного возраста. Методы и приемы обогащения словарного запаса на уроке русского языка в начальной школе. Усвоение различных групп слов.

    курсовая работа [53,1 K], добавлен 24.04.2011

  • Факторы, обусловливающие развитие и пополнение словарного состава языка. Новообразования, используемые большинством говорящих на данном языке людей. Количественное пополнение. Заимствование латинской, французской лексики.

    доклад [17,0 K], добавлен 25.08.2006

  • Понятие о структурности словарного состава языка. Заимствования как способ развития и обогащения словарного состава языка, их типология и классификация. Экономическая лексика французского языка иноязычного происхождения. Языковой анализ англицизмов.

    дипломная работа [67,8 K], добавлен 25.04.2011

  • Этимология - раздел языкознания. Исследование источников и формирования словарного состава языка, включая реконструкцию словарного состава древнейшего периода. Реконструкция первичной мотивации, формы и значения слова как предмет этимологического анализа.

    курсовая работа [94,1 K], добавлен 17.06.2015

  • Особенности лексического состава древнеанглийского языка. Развитие и способы пополнения словарного состава языка. Развитие продуктивных способов словообразования. Заимствования новоанглийскогого периода. Образование новых слов путем словосложения.

    реферат [34,7 K], добавлен 17.12.2010

  • Анализ особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Характеристика научно-технического языка. Анализ текста и выявление влияния контекста на перевод медицинских терминов.

    дипломная работа [159,6 K], добавлен 28.10.2012

  • Эволюция глаголов в английском языке, системы сильных и слабых глаголов. Претерито-презентные, неправильные и супплетивные глаголы. Морфологическая классификация английских глаголов. Анализ древнеанглийских глаголов на примере памятников письменности.

    курсовая работа [52,6 K], добавлен 14.11.2012

  • Рассмотрение и анализ популярных в Интернете он-лайн переводчиков, сравнение их возможностей и функций. Технологии, на которых работают он-лайн транслейторы. Сравнительная характеристика перевода английских шуточных текстов с помощью он-лайн словарей.

    курсовая работа [452,6 K], добавлен 06.06.2012

  • Лингвостилистические свойства языка немецких средств массовой информации. Изменения словарного состава речи. Заимствования с точки зрения лексической структуры. Анализ классификации неологизмов. Лексико-стилистический анализ информативных медиа-текстов.

    дипломная работа [98,0 K], добавлен 26.07.2017

  • Место фразовых глаголов в лексической системе английского языка. Практические особенности употребления глаголов. Сходства и различия текстов английских и русских информационных сообщений. Функционирование фразовых глаголов в средствах массовой информации.

    курсовая работа [48,6 K], добавлен 13.11.2015

  • Полисемия как средство обогащения словарного состава языка. Анализ типов семантических изменений лексического значения. Характеристика причин наиболее распространенных типов изменения лексического значения слов на примере произведений В.С. Моэма.

    курсовая работа [73,5 K], добавлен 18.04.2011

  • Изучение предмета лексикографии или раздела языкознания, занимающегося теорией и практикой составления словарей. Проблема семантической структуры слова. Принципы словарного описания языка. Лексикографический параметр и пометы. Требования к толкованиям.

    презентация [281,9 K], добавлен 17.03.2015

  • Изучение сленга немецкой молодежи, понимание особенности и своеобразия национальной картины и национально-специфических особенностей их менталитета. Рассмотрение некоторых категорий сленговых выражений (существительных, глаголов, эмоциональных выражений).

    статья [13,8 K], добавлен 04.06.2012

  • Оцифровка германских документов в архивах России. Издание специальных немецких терминологических справочников, словарей и тезаурусов. Классификация жанров и специфики военных текстов. Анализ особенностей перевода на примере боевых документов бундесвера.

    дипломная работа [5,4 M], добавлен 16.09.2017

  • Заимствование как один из видов обогащения словарного запаса. Заимствования в немецком языке и их количество, причины и пути проникновения англицизмов, сферы распространения. Морфологическая трансформация на примере имен существительных в немецком языке.

    курсовая работа [86,6 K], добавлен 26.06.2012

  • Общие сведения о древнеанглийском языке, словарный фонд, количественный состав. Развитие словарного состава английского языка: суффиксация, префиксация, словосложение, заимствования. Анализ лексики древнеанглийского языка на примере поэмы "Беовульф".

    курсовая работа [28,6 K], добавлен 13.05.2012

  • Стилистический разбор текстов. Составление библиографического списка. Определение типа словосочетаний прилагательных и глаголов с существительными. Понятие синонимов, антонимов. Примеры написания коммерческого письма, распорядительного документа.

    контрольная работа [47,5 K], добавлен 18.12.2009

  • Трактовка переходности в концепциях отечественных и зарубежных лингвистов. Семантико-синтаксический анализ переходных глаголов, употребляющихся безобъектно. Классификация переходных глаголов. Факторы, влияющие на употребление переходных глаголов.

    дипломная работа [117,0 K], добавлен 15.11.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.