О некоторых возможностях выявления коллокаций с помощью Интернет-технологий
Применение современных методов работы, необходимость использования Интернет-источников. Анализ ряда ресурсов, которые могут быть полезными в лексикографической работе для поиска и отбора наиболее релевантных коллокаций из массива Интернет-текстов.
Рубрика | Иностранные языки и языкознание |
Вид | статья |
Язык | русский |
Дата добавления | 20.05.2021 |
Размер файла | 17,1 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
О некоторых возможностях выявления коллокаций с помощью Интернет-технологий
Д. В. Андрианова
Институт лингвистических исследований РАН
Аннотация: современные научные исследования, в том числе филологические, требуют применения современных методов работы, что связано с необходимостью эффективного использования Интернет-источников. В статье анализируется ряд ресурсов, которые могут быть полезными в лексикографической работе для поиска и отбора наиболее релевантных коллокаций из массива Интернет- текстов.
Ключевые слова; лексикография, коллокации, Интернет, корпуса русского языка. интернет ресурс лексикография коллокация
Abstract; modernscientificresearch, alsoinphilology, requirestheuseofmodernmethodsofwork, whichinvolveeffectiveuseoftheInternetsources. Thearticleanalyzes a numberofsourcesthatmaybeusefulinlexicographicalworkforsearchingandselectingthemostrelevantcontextsforthecollocationsfromInternettexts.
Keywords; lexicography, collocations, Internet, Russianlanguagecorpuses.
Благодаря развитию Интернета и Интернет-тех-нологий карточные каталоги в работе лексикографа уступают место работе с электронными текстами. Именно поэтому особенно актуальным в лексикографической практике становится умение эффективно организовать автоматический поиск и отбор необходимых и релевантных единиц. Одной из интересных и актуальных задач в контексте оптимизации поиска в Интернет является выявление т.н. коллокаций, т.е. сочетаний слов, которые характеризуются относительно устойчивой частотностью совместной встречаемости. Такие сочетания слов присущи всем естественным языкам [1 с. 59], однако их изучение было начато только во второй половине XX в. в работах J. R. Firth, И. А. Мельчука, О. C. Ахмановой, С. Г. Тер-Минасовой и др. Для словарной работы коллокации интересны тем, что «они являются периферийными единицами как для традиционной лексикологии, которая описывает в основном свободную сочетаемость лексем, так и для фразеологии, занимающейся непосредственно идиомами. Исходя из этого, коллокации, оказываясь на границе между лексикологией и фразеологией, занимают промежуточное положение в системе языка» [1 с. 57]. Одной из задач современной практической лексикографии, по всей видимости, является поиск и фиксация коллокаций для целей последующего изучения этого языкового феномена.
Сегодня «все лингвисты, работающие в самых разных направлениях, как правило, проводят свои исследования на базе корпусов» [2, с. 20]. Вероятно, самый известный и часто привлекаемый для исследовательских целей корпус в России -- НКРЯ (http://www.ruscorpora.ru/). В отличие от более крупных корпусов, этот корпус создается «лингвистами по заранее описанной технологии, которую можно назвать «классической». Для подобных корпусов тексты отбираются, размечаются и далее загружаются в корпус» [3 с. 74]. Одним из больших преимуществ этого корпуса, по сравнению с автоматически собранными корпусами, является то, что все тексты в нем созданы русскоязычными авторами на русском языке. Удобный интерфейс позволяет легко осуществлять простейшую выборку по времени написания текста, по жанру (художественная литература, публицистика и т.д.). Конструктор запросов также позволяет уточнять грамматические формы слов и осуществлять поиск коллокаций с дистантным расположением компонентов. На стадии разработки находится синтаксический корпус, с помощью которого можно очень детализированно задать синтаксическую структуру коллокации. Однако в настоящий момент объем синтаксического корпуса составляет всего 100 лексических функций, которым соответствует около 21 тысячи словосочетаний.
Более объемные, по сравнению с НКРЯ, корпуса составляются в большинстве случаев автоматически из текстов, полученных изИнтернет, которые затем обрабатываются специальными программами с целью удаления дублей и повторов, выполнения морфологической и морфосинтаксической разметки и проч. [3, с. 74]. К этому типу относится корпус русскоязычных текстов из художественной литературы Google N-gramViewer(https://books.google. com/ngrams). Этот ресурс с лаконичным интерфейсом позволяет моментально отобразить на графике количество употреблений какого-либо слова или сочетания слов за период с 1800 по 2009 гг. Что особенно удобно, под графиком можно выбрать интересующий пользователя период и просмотреть источники с цитатами, в которых встретилось искомое сочетание. Чтобы отобразить наиболее часто встречающиеся рядом с определенным словом (словоформой) слова, необходимо поставить знак звездочки до или после этого слова. Однако в данном случае будут отображены только слова, стоящие непосредственно перед этой единицей или после нее. И хотя среди этих оборов могут быть найденыколлокации, специального инструмента для поиска коллокаций, в т.ч. с дистантным расположением компонентов, в Google N-gramViewer нет.
Еще один большой созданный автоматически корпус русскоязычных текстов -- RuTenTen(www. sketchengine.eu/rutenten-russian-corpus/). Преимуществом этого корпуса является наглядное отображение частотных для заданного слова синтаксических моделей и коллокаций, распределенных по этим моделям. При этом нельзя задать поиск конкретной коллокации. К недостаткам этого корпуса можно отнести отсутствие хронологической сортировки в отображении конкорданса, а также включение в него как русскоязычной, так и переводной литературы (даже при заданном поиске по сайтам с доменом.™ отсортировать переводные тексты не представляется возможным). Отметим также сложность атрибуции: в конкордансе дается только ссылка на сайт -- источник цитаты, но не указывается автор и название текста.
Много интересных возможностей открывает ГИ- КРЯ (http://www.webcorpora.ru/), материалом для которого являются тексты крупнейших ресурсов socialmedia, а также новостных материалов и контента «Журнального зала». Огромным преимуществом этого корпуса является то, что тексты в нем принадлежат современным носителям языка и отражают актуальные языковые процессы. Все снип- петы, т.е. контексты, отобранные по запросу, четко атрибутируются по году написания текста, году рождения автора и т.д. Благодаря очень детализированной разметке и конструктору запросов пользователь может задавать очень точные запросы для поиска коллокаций, построенных по определенной синтаксической модели.
Еще одна возможность выявления коллокаций с помощью Интернет-ресурсов -- это поиск по пользовательским запросам (логам) [4 с. 223]. Сервис GoogleTrends(http://www.google.com/trends/) в результатах по запросу какого-либо слова в графах «еще по теме» и «похожие запросы» выдает наиболее частотные мини-контексты, в которых это слово встречается в поисковых запросах пользователей Интернет. Для решения той же самой задачи в Ян- декс.Статистика(http://wordstat.yandex.ru/) необходимо ввести слово, для которого подбираются коллокации, в кавычках дважды через пробел для получения двухсловных запросов и трижды через пробел для получения трехсловных.
Помимо поиска в корпусах и по логам можно отметить ресурс Яндекс.Блоги(https://yandex.ru/ blogs/). Основным преимуществом выборки по блогам является, безусловно, актуальность материала. Именно этот инструмент помогает отследить узуальные особенности словоупотребления и значений конкретного слова или коллокации, поскольку блогосфера в отличие, например, от большей части корпусов, отражает письменную речь носителей языка вне сферы профессионального «писательства». В числе безусловных преимуществ поиска по блогосфере является отсутствие переводных текстов. Применив настройки расширенного поиска, можно выбрать регион и период поиска.
Подводя итог представленному выше обзору некоторых возможностей поиска коллокаций в текстах Интернет, нужно отметить, что нельзя назвать один ресурс, пользование которым позволит решить любую задачу в заданных рамках. Так, для наиболее общего представления о поведении искомой единицы в контексте лучше всего подойдет НКРЯ, современные значения также будут отражены в ГИКРЯ. Поиск по логам и блогам дает возможность проследить современные тенденции в семантике и употреблении коллокаций. Поиск характерных синтаксических конструкций с заданным словом оптимально осуществлять в системе RuTenTenll. Употребительность той или иной единицы можно проследить с помощью сервисов Яндекс.Статистика и GoogleTrends. Каждый из рассмотренных ресурсов имеет свою специфику, знание которой облегчит пользователю задачу максимально быстро и эффективно найти коллокации и составить представление об особенностях их семантики и стилистики в соответствующих контекстах.
ЛИТЕРАТУРА
1. Влавацкая М. В. Комбинаторная лексикология: функционально-семантическая классификация коллокаций / М. В. Влавацкая // Филологические науки. Вопросы теории и практики.-- 2015.-- № 11/1 (53).-- С. 56-60.
2. Захаров В. П. Корпуса русского языка / В. П. Захаров // Труды института русского языка им. В. В. Виноградова.-- Т. 6.-- 2015.-- С. 20-65.
3. Хохлова М. В. Обзор больших русскоязычных корпусов текстов. / М. В. Хохлова // Компьютерная лингвистика и вычислительные онтологии: сборник научных статей. Труды XIX Международной объединенной научной конференции «Интернет и современное общество» (IMS-2016), СПб., 22-24 июня 2016 г.-- 2016.-- С. 74-77.
4. Словарь бытовой терминологии: новые проблемы и новые методы / Б. Л. Иомдин [и др.] // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая-3 июня 2012 г.).-- Вып. 11.-- 2012.-- С. 213-226.
Размещено на Allbest.ru
...Подобные документы
Рассмотрение особенностей изучения грамматики в современных условиях в средней школе. Анализ сущности информационных технологий, их роли в учебном процессе, влияния на мотивацию обучения. Применение Интернет-ресурсов на уроках английского языка.
дипломная работа [249,5 K], добавлен 26.04.2015Анализ особенностей морфологической и синтаксической структур новых лингвистических единиц, характеризующих интернет-грамматику речи интернет-сообщений на материале текстов, выбранных из немецких социальных сетей. Примеры лингвистических новообразований.
курсовая работа [954,7 K], добавлен 31.10.2014История неологизмов и особенности англоязычного интернет-дискурса. Неологизмы как объект изучения современных научных исследований. Структурные особенности и функционально-прагматический анализ использования неологизмов в англоязычном интернет-дискурсе.
дипломная работа [268,5 K], добавлен 30.07.2017Выявление характера и особенности специального искажения слов русского языка в виртуальном пространстве сети Интернет. Причины использования интернет-сленга при общении в социальных сетях. Сравнительный анализ отношения к интернет-сленгу детей и взрослых.
контрольная работа [914,8 K], добавлен 29.03.2016Лексические, морфологические, синтаксические, графические особенности Интернет-текстов с сайта общения "Ответы@mail.ru" и никнеймов из Приложения для обмена короткими текстовыми сообщениями "Agent Mail.ru". Лингвокультура казахстанского Интернет-общения.
дипломная работа [119,8 K], добавлен 07.05.2014Современные учебные возможности использования Интернет–ресурсов. Практика применения новых инновационных технологий в обучении иностранным языкам. План урока английского языка с использованием приложения Microsoft Power Point по теме "Past Simple".
курсовая работа [37,3 K], добавлен 27.06.2015Характеристика речевого поведения в Интернете. Структурные особенности, стилистика, механизмы формирования и функционирования Интернет-лексики в русском языке начала XXI века; становление технологий общения. Воздействие языка Рунета на повседневную речь.
курсовая работа [43,7 K], добавлен 18.01.2014Причины появления и широкого распространения неологизмов. Лексические (вновь созданные), семантические и индивидуально-стилистические (окказиональные) неологизмы. История сайта "upachka.ru". Интернет как один из основных источников появления новых слов.
доклад [20,6 K], добавлен 23.08.2010Понятие интернет-форума и его место в среде Интернет. Современные дискуссионные форумы для изучающих английский язык. Вопросы организации тематических дискуссий на форуме. Методические принципы работы по организации и ведению тематических дискуссий.
курсовая работа [475,5 K], добавлен 25.04.2011Интернет-язык - особая форма существования языка в виртуальном пространстве. Влияние общения в сети на нормы русского языка. Анализ современной интернет-коммуникации. Отношение пользователей к проблеме грамотности, использование междометий и смайликов.
курсовая работа [50,9 K], добавлен 16.03.2014Роль интернет-сленга в системе языка, его характерные отличия и способы образования. Понятие мема, фонетические средства выражения эмоций в интернет-сленге. Лексика с ярко выраженным эмоционально-оценочным значением. Лексика с переносным значением.
дипломная работа [104,2 K], добавлен 08.10.2015Интернет как виртуальная коммуникативная среда; история развития Интернет-сообществ в мире и в России. Система жанров Интернет-коммуникаций; лексико-стилистические особенности комментариев пользователей официальных групп СМИ социальной сети "ВКонтакте".
дипломная работа [170,3 K], добавлен 15.06.2012Понятие неологизмов в литературе. Функционирование неологизмов в сфере Интернет. Неологизмы как названия пользователей или программистов. Новые слова и их функция в работе на компьютере и телефоне. Неологизмы, характеризующие составные части техники.
курсовая работа [37,6 K], добавлен 24.03.2015Понятие и функции медиадискурса. Приемы актуализации информации в новостном интернет-дискурсе. Сходства и различия в использовании лингвистических средств выдвижения информации в англоязычных и русскоязычных интернет-публикациях, их языковые особенности.
дипломная работа [84,9 K], добавлен 03.07.2013Анализ специфики функционирования англицизмов в речи населения, причины и способы заимствования английских слов; признаки англицизмов, сферы употребления. Особенности употребления англицизмов в Интернет-сленге, отношение общества к их использованию.
реферат [560,9 K], добавлен 07.03.2012Классификация, характерные и стилистические особенности рекламных текстов. Приемы параллелизма и повтора. Наиболее частые трудности, возникающие при переводе рекламных текстов. Интересные примеры перевода из публицистической продукции и сети Интернет.
курсовая работа [46,8 K], добавлен 18.04.2011Языковая специфика интернет-коммуникации. Особенности Интернета как канала коммуникации. Подходы к определению блогов. Структура блога, язык блоггеров как функциональная разновидность английского языка. Анализ блогов по классификации С. Херринг.
дипломная работа [261,1 K], добавлен 20.07.2013Влияние Интернет-пространства на общение внутри него. Альтернативные заменители реальности, гипертекст и гиперссылки. Язык Интернета как новый функциональный стиль. Отклонения от нормы, словообразование и прочие явления лексико-семантического уровня.
курсовая работа [32,2 K], добавлен 09.01.2014Возможности новых информационных технологий в обучении иностранному языку. Роль компьютерных программ в преподавании. Эффективность методики обучения в сотрудничестве. Средства коммуникационных технологий и применение Интернет-ресурсов на уроках языка.
курсовая работа [41,1 K], добавлен 23.01.2012Проблема исследования "классического интертекста" в публикациях СМИ, Интернет: генезис, типология элементов и связей. Анализ интертекста в газете "Коммерсантъ" и на портале Lenta.ru: заимствования из произведений Пушкина, Достоевского, Ильфа и Петрова.
дипломная работа [95,4 K], добавлен 24.03.2011