Автоматическое составление словарного минимума для обучения математике
Сравнение методов для извлечения коллокаций. Характеристика методики составления словарного минимума для определенной предметной области на примере математических текстов. Структурирование терминологических выражений. Анализ частотных списков глаголов.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 10.12.2019 |
Размер файла | 4,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Получившийся список для метрики t-score можно использовать как основу для составления лексических листов для изучающих РКИ.
Для составления списка терминологических выражений лучше свего подойдут результаты работы LogLikelihood Ratio. Он показал самый маленький процент вхождения выражений математического языка.
Значения для n-грамм с n = 4, 5 оказались слишком мусорными из-за специфики корпуса. Совершенствование методов для оптимальной работы на таких выражениях требует еще более тщательной очистки текстов и отдельного исследования.
Наше исследование показало, что эти методы скорее могут ранжировать лексику и терминологический минимум, а также помочь экспертам в определении выражений, составляющих язык математики.
Литература
Artstein and Poesio 2008 -- R. Artstein and M. Poesio. Inter-coder agreement for computational linguistics.' Computational Linguistics, 34 (4). 555 - 596. 2008. ISSN 0891-2017
Bordea 2013 -- G. Bordea, P. Buitelaar, T. Polajnar. Domain-independent term extraction through domain modelling, 2013.
Church 1990 -- K. Church and P. Hanks. Word association norms, mutual information, and lexicography. Computational Linguistics, 16(1):22-29, 1990.
Church 1991 -- K. Church, W. Gale, P. Hanks, and D. Hindle. Using statistics in lexical analysis. In Uri Zernik, editor, Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon, pages 115-164, 1991.
Frantzi 2000 -- K. Frantzi, S, Ananiadou, and H. Mima. Automatic recognition of multi-word terms: the C-value/NC-value method. International Journal on Digital Libraries, 3(2):115-130, 2000.
Manning and Schьtze 1999 -- C. D. Manning and H. Schьtze. Foundations of statistical natural language processing. MIT Press, Cambridge, USA, 1999. ISBN 0-262-13360-1.
Sag et al. 2002 -- I. Sag, T. Baldwin, F. Bond, A. Copestake, and D. Flickinger. Multiword expressions: A pain in the neck for NLP. In Proceedings of the 3rd International Conference on Intelligent Text Processing and Computational Linguistics (CICLing-2002), pages 1-15, 2002. Springer.
Pearce 2002 -- D. Pearce. A comparative evaluation of collocation extraction techniques. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002), 2002. European Language Resources Association.
Ramisch 2008 -- C. Ramisch, P. Schreiner, M. Idiart, and A, Villavicencio. An evaluation of methods for the extraction of multiword expressions. In Proceedings of the LREC Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), pages 50-53, 2008.
Ramisch 2009 -- C. Ramisch. Multi-word terminology extraction for domain-specific documents.Master's thesis. Йcole Nationale Supйrieure d'Informatique, Mathйmatiques Appliqueйes et Tйlйcommunications LIG - Laboratoires d'Informatique de Grenoble, 2009.
Rayson et al. 2010 -- P. Rayson, S. Piao, S. Sharoff, S. Evert, and B. Moirуn. Multiword expressions: hard going or plain sailing? Language Resources and Evaluation, pages 44:1-5, 2010
Seretan 2008 -- V. Seretan. Collocation extraction based on syntactic parsing. Ph.D. thesis, University of Geneva, 2008.
Большакова et al. 2006 -- Большакова Е. И., Васильева Н. Э., Морозов С. С. Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов // Десятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2006. Труды конференции в 3-х томах. -- Т. 2. -- Физматлит Москва, 2006 -- С. 506-524.
Сосинский 2000 -- A. Б. Сосинский. Как написать математическую статью по-английски. -- М: Изд-во «Факториал Пресс», 2000. -- 112 с. ISBN 5-88688-032-1
Сосинский 2017 -- A. Б. Сосинский. Mathematical English. МЦНМО, Москва, 2017. ISBN 978-5-4439-1242-4
Приложение 1
Топ-50 по итогам работы метрики t-score на корпусе с тегом <x>. Этот эксперимент дал лучший результат для биграмм и триграмм
bigram |
freq |
|||
3 |
доказать_v что_conj |
488 |
20.359222 |
|
40 |
то есть_adv |
169 |
12.946699 |
|
34 |
мочь_v быть_v |
182 |
12.839804 |
|
18 |
в_pr точка_s |
276 |
12.093771 |
|
41 |
такой_a что_conj |
167 |
11.871054 |
|
56 |
теорема_s доказать_partcp |
135 |
11.387456 |
|
47 |
один_a из_pr |
148 |
11.254863 |
|
53 |
делиться_v на_pr |
137 |
11.115777 |
|
55 |
иметь_v вид_s |
136 |
11.083018 |
|
44 |
следовать_v что_conj |
154 |
10.972362 |
|
48 |
на_pr плоскость_s |
146 |
10.664447 |
|
74 |
таким образом_adv |
110 |
10.460746 |
|
61 |
для_pr любой_a |
127 |
10.403880 |
|
75 |
см также_adv |
110 |
10.381487 |
|
66 |
на_pr отрезок_s |
123 |
10.191382 |
|
77 |
показать_v что_conj |
109 |
9.767581 |
|
96 |
так как_conj |
92 |
9.439169 |
|
101 |
заметить_v что_conj |
88 |
8.852968 |
|
120 |
ответ_s указание_s |
73 |
8.469317 |
|
123 |
указание_s решение_s |
72 |
8.417200 |
|
121 |
ряд_s сходиться_v |
73 |
8.372201 |
|
129 |
при помощи_pr |
69 |
8.293040 |
|
124 |
только_part тогда_adv |
71 |
8.022187 |
|
134 |
тогда_adv когда_conj |
67 |
7.911553 |
|
153 |
о_pr а_s |
60 |
7.527335 |
|
141 |
означать_v что_conj |
64 |
7.431554 |
|
133 |
каждый_a из_pr |
67 |
7.328418 |
|
166 |
совпадать_v с_pr |
57 |
7.246982 |
|
163 |
тогда_adv только_part |
58 |
7.168826 |
|
160 |
говорить_v что_conj |
58 |
7.045187 |
|
183 |
приходить_v к_pr |
51 |
7.005263 |
|
17 |
аналитический_a <x> |
277 |
7.004638 |
|
192 |
р_р р_р |
49 |
6.930765 |
|
112 |
в_pr пространство_s |
80 |
6.924927 |
|
12 |
<x> алгебра_s |
324 |
6.907838 |
|
152 |
непрерывный_a на_pr |
60 |
6.873862 |
|
138 |
пусть_part функция_s |
65 |
6.865546 |
|
175 |
очевидно_adv что_conj |
54 |
6.715872 |
|
211 |
зависеть_v от_pr |
46 |
6.675472 |
|
167 |
доказать_v равенство_s |
57 |
6.672967 |
|
220 |
проходить_partcp через_pr |
45 |
6.663536 |
|
222 |
хотя бы_adv |
44 |
6.626175 |
|
149 |
у_pr у_pr |
60 |
6.618637 |
|
226 |
г_г г_г |
44 |
6.597520 |
|
191 |
предположить_v что_conj |
49 |
6.581335 |
|
182 |
по_pr формула_s |
51 |
6.448251 |
|
217 |
от_pr до_pr |
45 |
6.409623 |
|
145 |
следовать_v из_pr |
62 |
6.404573 |
|
215 |
состоять_v из_pr |
45 |
6.400378 |
|
236 |
пример_s решить_v |
43 |
6.394083 |
Приложение 2
Топ-50 по итогам работы метрики LogLikelihood Ratio. В данном случае количество математических штампов оказалось минимальным
bigram |
pmi |
||
694 |
последовый_a тельность_s |
13.128216 |
|
673 |
крайней мере_adv |
13.040753 |
|
745 |
коля_s васин_s |
12.958291 |
|
763 |
диаграмма_s юнга_s |
12.735898 |
|
740 |
по крайней |
12.484360 |
|
597 |
предметный_a указатель_s |
12.093357 |
|
622 |
урав_s нения_s |
12.036293 |
|
610 |
опера_s тор_s |
11.735898 |
|
363 |
хотя бы_adv |
11.636363 |
|
644 |
гиперболический_a параболоид_s |
11.279041 |
|
656 |
ф_ф ф_ф |
11.209353 |
|
339 |
с помощью_pr |
11.128216 |
|
236 |
при помощи_pr |
11.019691 |
|
410 |
алгоритм_s евклид_s |
10.757925 |
|
660 |
а также_conj |
10.656961 |
|
538 |
представлять_v себ |
10.604654 |
|
819 |
чем_conj сущность_s |
10.548801 |
|
135 |
таким образом_adv |
10.346856 |
|
882 |
треугольник_s паскаль_s |
10.135986 |
|
716 |
взаимно_adv однозначный_a |
10.045307 |
|
930 |
так же_adv |
9.918763 |
|
340 |
остаточный_a член_s |
9.852091 |
|
621 |
главный_a минор_s |
9.842814 |
|
808 |
во_pr внимание_s |
9.817062 |
|
393 |
бесконечно_adv малый_a |
9.792540 |
|
434 |
л_л л_л |
9.764568 |
|
513 |
математический_a анализ_s |
9.755806 |
|
57 |
то есть_adv |
9.693588 |
|
542 |
линейно_adv зависимый_a |
9.660055 |
|
674 |
е_е е_е |
9.652959 |
|
646 |
признак_s делимость_s |
9.597875 |
|
589 |
однозначный_a соответствие_s |
9.594886 |
|
416 |
положительно_adv определенный_a |
9.583895 |
|
518 |
симметрия_s относительно_pr |
9.555326 |
|
359 |
условный_a экстремум_s |
9.470554 |
|
220 |
линейно_adv независимый_a |
9.467570 |
|
452 |
тензорный_a исчисление_s |
9.441715 |
|
460 |
высший_a математика_s |
9.439966 |
|
366 |
г_г г_г |
9.299935 |
|
159 |
аффинный_a преобразование_s |
9.268992 |
|
578 |
инвариантный_a подпространство_s |
9.210098 |
|
388 |
интегральный_a исчисление_s |
9.197790 |
|
463 |
локальный_a экстремум_s |
9.162432 |
|
649 |
нелинейный_a объект_s |
9.095895 |
|
590 |
нелинейный_a зависимость_s |
9.083822 |
|
177 |
цепной_a дробь_s |
9.029630 |
|
139 |
проходить_partcp через_pr |
8.994018 |
|
549 |
наибольший_a наименьший_a |
8.993395 |
|
793 |
квадратный_a трехчлен_s |
8.992507 |
|
541 |
необходимый_a достаточно_adv |
8.976565 |
Приложение 3
Ссылка на репозиторий GitHub https://github.com/MariaTsareva/Diplomarbeit
Ссылка на код программы https://github.com/MariaTsareva/Diplomarbeit/blob/master/math_constructions.ipynb
Список биграмм https://github.com/MariaTsareva/Diplomarbeit/blob/master/bigram1_df.csv
Список триграмм https://github.com/MariaTsareva/Diplomarbeit/blob/master/trigram1_df.csv
Размещено на Allbest.ru
...Подобные документы
Перевод английских текстов и активного словарного запаса на русский и украинский языки в письменном виде. Ответы на вопросы по тексту. Перевод утверждений и определение их правдивости или ложности. Составление вопросов по тексту на английском языке.
контрольная работа [41,9 K], добавлен 28.01.2012Специфика словарного состава языка. Классификация словарного состава языка. Особенности и свойства лексического поля. Анализ модели лексического поля "женщины" на материале рекламных текстов в журналах для женщин. Лексика рекламы в журнале "Cosmopolitan".
курсовая работа [46,6 K], добавлен 25.09.2016Значение урока русского языка. Понятие словарного запаса. Психологические и индивидуальные особенности младшего школьного возраста. Методы и приемы обогащения словарного запаса на уроке русского языка в начальной школе. Усвоение различных групп слов.
курсовая работа [53,1 K], добавлен 24.04.2011Факторы, обусловливающие развитие и пополнение словарного состава языка. Новообразования, используемые большинством говорящих на данном языке людей. Количественное пополнение. Заимствование латинской, французской лексики.
доклад [17,0 K], добавлен 25.08.2006Понятие о структурности словарного состава языка. Заимствования как способ развития и обогащения словарного состава языка, их типология и классификация. Экономическая лексика французского языка иноязычного происхождения. Языковой анализ англицизмов.
дипломная работа [67,8 K], добавлен 25.04.2011Этимология - раздел языкознания. Исследование источников и формирования словарного состава языка, включая реконструкцию словарного состава древнейшего периода. Реконструкция первичной мотивации, формы и значения слова как предмет этимологического анализа.
курсовая работа [94,1 K], добавлен 17.06.2015Особенности лексического состава древнеанглийского языка. Развитие и способы пополнения словарного состава языка. Развитие продуктивных способов словообразования. Заимствования новоанглийскогого периода. Образование новых слов путем словосложения.
реферат [34,7 K], добавлен 17.12.2010Анализ особенностей перевода устойчивых словосочетаний и терминологических клише на основе научных текстов и диссертационных работ. Характеристика научно-технического языка. Анализ текста и выявление влияния контекста на перевод медицинских терминов.
дипломная работа [159,6 K], добавлен 28.10.2012Эволюция глаголов в английском языке, системы сильных и слабых глаголов. Претерито-презентные, неправильные и супплетивные глаголы. Морфологическая классификация английских глаголов. Анализ древнеанглийских глаголов на примере памятников письменности.
курсовая работа [52,6 K], добавлен 14.11.2012Рассмотрение и анализ популярных в Интернете он-лайн переводчиков, сравнение их возможностей и функций. Технологии, на которых работают он-лайн транслейторы. Сравнительная характеристика перевода английских шуточных текстов с помощью он-лайн словарей.
курсовая работа [452,6 K], добавлен 06.06.2012Лингвостилистические свойства языка немецких средств массовой информации. Изменения словарного состава речи. Заимствования с точки зрения лексической структуры. Анализ классификации неологизмов. Лексико-стилистический анализ информативных медиа-текстов.
дипломная работа [98,0 K], добавлен 26.07.2017Место фразовых глаголов в лексической системе английского языка. Практические особенности употребления глаголов. Сходства и различия текстов английских и русских информационных сообщений. Функционирование фразовых глаголов в средствах массовой информации.
курсовая работа [48,6 K], добавлен 13.11.2015Полисемия как средство обогащения словарного состава языка. Анализ типов семантических изменений лексического значения. Характеристика причин наиболее распространенных типов изменения лексического значения слов на примере произведений В.С. Моэма.
курсовая работа [73,5 K], добавлен 18.04.2011Изучение предмета лексикографии или раздела языкознания, занимающегося теорией и практикой составления словарей. Проблема семантической структуры слова. Принципы словарного описания языка. Лексикографический параметр и пометы. Требования к толкованиям.
презентация [281,9 K], добавлен 17.03.2015Изучение сленга немецкой молодежи, понимание особенности и своеобразия национальной картины и национально-специфических особенностей их менталитета. Рассмотрение некоторых категорий сленговых выражений (существительных, глаголов, эмоциональных выражений).
статья [13,8 K], добавлен 04.06.2012Оцифровка германских документов в архивах России. Издание специальных немецких терминологических справочников, словарей и тезаурусов. Классификация жанров и специфики военных текстов. Анализ особенностей перевода на примере боевых документов бундесвера.
дипломная работа [5,4 M], добавлен 16.09.2017Заимствование как один из видов обогащения словарного запаса. Заимствования в немецком языке и их количество, причины и пути проникновения англицизмов, сферы распространения. Морфологическая трансформация на примере имен существительных в немецком языке.
курсовая работа [86,6 K], добавлен 26.06.2012Общие сведения о древнеанглийском языке, словарный фонд, количественный состав. Развитие словарного состава английского языка: суффиксация, префиксация, словосложение, заимствования. Анализ лексики древнеанглийского языка на примере поэмы "Беовульф".
курсовая работа [28,6 K], добавлен 13.05.2012Стилистический разбор текстов. Составление библиографического списка. Определение типа словосочетаний прилагательных и глаголов с существительными. Понятие синонимов, антонимов. Примеры написания коммерческого письма, распорядительного документа.
контрольная работа [47,5 K], добавлен 18.12.2009Трактовка переходности в концепциях отечественных и зарубежных лингвистов. Семантико-синтаксический анализ переходных глаголов, употребляющихся безобъектно. Классификация переходных глаголов. Факторы, влияющие на употребление переходных глаголов.
дипломная работа [117,0 K], добавлен 15.11.2009