Классификация сообщений наркозависимых в социальных сетях с помощью нейронных сетей
Изучение лингвистики измененных состояний сознания. Влияние поверхностно-активных веществ на речь человека. Особенности выговора человека в измененном состоянии. Характеристика автоматической выгрузки набора данных. Обучение нейросетевых моделей.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 21.08.2020 |
Размер файла | 445,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ
ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ
ВЫСШЕГО ОБРАЗОВАНИЯ
«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ
«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»
Факультет Санкт-Петербургская школа гуманитарных наук и искусств
Образовательная программа «Филология»
Фирсанова Виктория Игоревна
Выпускная квалификационная работа
Классификация сообщений наркозависимых в социальных сетях с помощью нейронных сетей
О.В. Митренина
Санкт-Петербург, 2020
Исследование представляет анализ публикаций из групп наркозависимых людей. Цель работы: построить высокоточную нейросетевую модель для автоматического распознавания публикаций из групп наркозависимых, и при помощи получившейся программы определить отличительные особенности таких текстов. В ходе работы, мы обучили две модели для обработки естественного языка, Bag-of-Words и Word Embeddings, сравнили их результаты, оптимизировали параметры и определили лучшую модификацию со средней точностью 97%. Мы протестировали несколько публикаций социальной сети ВКонтакте, которых не было в обучающей выборке, и пришли к выводу о том, что в группах наркозависимых пользователи склонны описывать свое психическое или физическое состояние с целью получить от подписчиков онлайн-сообществ помощь или совет. Мы планируем создать классификатор публичных страниц на базе нашей модели, который позволит автоматически находить подобные страницы и, например, предлагать авторам таких публикаций помощь экспертов.
СОДЕРЖАНИЕ
ВВЕДЕНИЕ
ГЛАВА 1. ИССЛЕДОВАНИЯ ЯЗЫКА НАРКОЗАВИСИМЫХ
1.1 Лингвистика измененных состояний сознания
1.2 Влияние ПАВ на речь человека
1.3 Особенности речи человека в измененном состоянии
1.4 Исследования ЛИСС и психотерапия
ГЛАВА 2. ОБУЧЕНИЕ АВТОМАТИЧЕСКОГО КЛАССИФИКАТОРА
2.1 Автоматическая выгрузка набора данных
2.2 Выбор метода обучения
2.3 Подготовка данных для обучения
2.4 Обучение нейросетевых моделей
ГЛАВА 3. АНАЛИЗ ПУБЛИКАЦИЙ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ
ПРИЛОЖЕНИЕ
ВВЕДЕНИЕ
Правовой статус исследования
Наркомания -- социальное явление. Согласно статьям 228, 230, 232 УК РФ предусмотрена уголовная ответственность за:
незаконное приобретение, хранение, перевозку, изготовление, переработку без цели сбыта наркотических средств, психотропных веществ или их аналогов [УК РФ, ст. 228];
склонение к потреблению наркотических средств, психотропных веществ или их аналогов [УК РФ, ст. 230];
организацию либо содержание притонов или систематическое предоставление помещений для потребления наркотических средств, психотропных веществ или их аналогов [УК РФ, ст. 232].
Настоящее исследование посвящено анализу интернет-текстов, тематика которых связана с проблемами зависимости от наркотических веществ. В ходе работы нам удалось обучить две нейросети, каждая из которых представляет одну из моделей обработки естественного языка (Bag-of-Words и Word Embeddings), сравнить результаты их работы и положить начало созданию нейросетевого классификатора групп и публичных страниц социальной сети «ВКонтакте» по наличию в них контента, связанного с тематикой употребления ПАВ (психотропных и психоактивных веществ).
Цель исследования: в ходе экспериментов определить параметры самой эффективной модели для решения задачи классификации текстов. Эффективной при этом будет считаться такая модель, которая покажет лучшие результаты в соответствии с выбранной нами метрикой.
Не менее важно выявить характеристики текстов, с которыми получившаяся программа будет справляться лучше. К таким характеристикам может относиться тематика текста, особенности лексики, количество использованных слов, особенности пунктуации и орфографии.
Основная задача: создание классификатора публикаций социальной сети «ВКонтакте» на основе нейросетевой модели.
Для осуществления нашей задачи необходимо выполнить следующие шаги:
Найти публичные страницы «ВКонтакте», в которых содержится исследуемый нами материал, и автоматически собрать данные для обучения будущей нейросети;
Перемешать данные в случайном порядке, разделить их на две выборки, обучающую и проверочную, преобразовать текстовые данные таким образом, чтобы программа могла их распознать;
Выбрать архитектуру, модель обучения нейросети, обучить и проанализировать точность ее работы;
Провести несколько экспериментов с оптимизацией параметров модели, выбрать наиболее эффективную модификацию;
Подготовить программу к многократному использованию, проанализировать результаты ее работы на новых тестовых публикациях, которых не было ни в обучающей выборке, ни в проверочной.
Результаты исследования могут иметь практическое применение. На основе получившейся программы в будущем мы сможем создать классификатор публичных страниц и групп социальной сети «ВКонтакте», который будет автоматически определять, имеет ли данное сообщество отношение к проблемам употребления, распространения или изготовления психоактивных и психотропных веществ, запрещенных на территории РФ.
Автоматизация данного процесса позволит быстро и эффективно выявлять страницы в социальных сетях, которые пользуются популярностью среди наркозависимых. Такие страницы представляют собой виртуальные места встречи людей, которым, вероятно, требуется помощь. Нейросетевая классификация может стать инструментом для выявления таких «мест».
Кроме того, лингвистический анализ результатов работы нейросетевого классификатора позволит нам выявить неочевидные особенности онлайн-дискурса наркозависимых людей.
Допустим, в данной публикации отсутствует характерный сленг и нет тематической лексики. Сможем ли мы определить, страдает ее автор зависимостью от психоактивных веществ или нет? На какие характеристики текста мы будем опираться в своих рассуждениях? Или воспользуемся интуицией?
Вне зависимости от того, ошибемся мы или ответим правильно, у нас будет возможность проследить ход собственных размышлений. Наши суждения могут быть обусловлены стереотипами, личным опытом общения с такими людьми и т.д. Ответ программы, в свою очередь, обусловлен расчетом признаков, он совершенно иного рода.
Справится ли с этой задачей искусственный интеллект? Мы не можем спросить у компьютера напрямую, но можем проанализировать публикации из групп наркозависимых людей, класс которых программа установила ошибочно (то есть написала, что авторы не являются наркозависимыми), и предположить, с чем связана ее ошибка.
Работа представляет собой пилотный проект по исследованиям в областях искусственного интеллекта и лингвистики измененных состояний сознания. Результатом будет не диагностический инструмент. Поскольку исследование затрагивает остросоциальную проблему, дискуссия о возможностях практического применения его результатов требует предварительной консультации с экспертами в соответствующих областях.
ГЛАВА 1. ИССЛЕДОВАНИЯ ЯЗЫКА НАРКОЗАВИСИМЫХ
1.1 Лингвистика измененных состояний сознания
Прежде чем перейти к практической части работы, необходимо ознакомиться с историей вопроса исследований языка людей, страдающих алкогольной, никотиновой или наркотической зависимостью либо находящихся в измененном состоянии сознания. Это позволит нам получить представление о том, на какие проблемы и характерные особенности текста или речи в первую очередь обращают внимание лингвисты при анализе материала, подобного нашему.
В 1983 году Дмитрий Леонидович Спивак в своем сообщении, опубликованном в журнале «Физиология человека», предложил ввести новый термин «лингвистика измененных состояний сознания» (ЛИСС) для обозначения сферы исследований на грани психолингвистики и нейронауки, основной задачей которой является описание особенностей языка и изучение процессов порождения речи человека в измененном состоянии сознания. Измененным при этом считается как состояние человека под воздействием психоактивных веществ, так и состояние человека во время пребывания в неблагоприятных для жизни условиях (например, в высокогорье) или необычное эмоциональное состояние (например, тревога или страх) [Спивак 1983: 142].
Настоящее исследование также можно отнести к области лингвистики измененных состояний сознания. Определенная доля авторов сообщений из нашей выборки, вероятно, систематически (многократно и регулярно) употребляет какие-либо психотропные и психоактивные вещества. В связи с тем, что все используемые нами материалы анонимны, у нас нет возможности привести подтверждающую этот факт статистику, однако тематика исследуемых публичных страниц и содержание текстов напрямую указывают на это. Приведем несколько соответствующих примеров из обучающей выборки (весь иллюстративный материал представлен с сохранением оригинальной орфографии и пунктуации):
Сейчас курю частенько , но не более того.
Я сейчас курю 50-60 косячков в день
Мне 22 года из них я шесть лет употребляю наркотики
Это обуславливает вероятность наличия определенной доли публикаций в нашей выборке, авторы которых на период написания текста находились под воздействием каких-либо препаратов, оказывающих влияние на состояние сознания.
1.2 Влияние ПАВ на речь человека
Употребление каких-либо вообще психотропных и психоактивных веществ (ПАВ) наносит своего рода «травмы» различным отделам головного мозга. Это касается и участков, отвечающих за порождение речи. Дефекты речи в той или иной мере свойственны людям, страдающим зависимостью от психотропных и психоактивных препаратов. Дело в том, что естественных ресурсов мозга порой оказывается недостаточно для компенсации полноценной работы поврежденных участков. Это влияет на качество речи человека [Лурия 1975, 56; Jacobson 1974, 60].
Мы предполагаем, что проблемы с порождением устной речи могут проецироваться и на онлайн-дискурс, так как опосредованное цифровым устройством общение имеет множество общих черт с живой речью.
Результаты одного из исследований речи людей, страдающих алкогольной зависимостью, подтверждают идею о том, что ПАВ оказывают негативное влияние на функционирование участков мозга, отвечающих за речь. Был проведен анализ записей речи людей из двух групп: в первую входили люди, страдающие алкоголизмом; во вторую -- люди, которые не сталкивались с данной проблемой. Особое внимание уделялось синтаксическому представлению речи, в частности, была проведена оценка грамотности, полноты и сложности высказываний. Информанты из первой группы допускали большее количество ошибок, связанных с построением предложений и словоупотреблением. Эти результаты могут быть связаны с влиянием нейротоксинов на работу головного мозга [Collins 1980].
Итак, исследования в областях психолингвистики и нейронауки подтверждают, что речь человека подвержена значительным изменениям в результате употребления различных психоактивных веществ, включая алкоголь.
1.3 Особенности речи человека в измененном состоянии
Какие тенденции наблюдаются в изменениях языковых структур у людей под влиянием психотропных и психоактивных веществ? В своей монографии «Лингвистика измененных состояний сознания» Спивак предлагает рассчитывать способность к порождению речи как «отношение количества речевых знаков к количеству узкоденотативных знаков естественного языка». К речевым знакам при этом относятся знаменательные слова с относящимися к ним служебными словами, а к узкоденотативным -- бранная и звукоподражательная лексика, слова-заменители (типа, эта штука, ну и т.д.), словосочетания-«штампы», имена собственные и лексика, которая часто используется в конкретной ситуации (например, слова «врач» и «укол» в больнице) [Спивак 1986, 16].
Языковые тенденции, отмеченные Спиваком, могут оказаться актуальными и для настоящего исследования. Рассмотрим выделенные им особенности речи людей в измененном состоянии сознания и сделаем предположение, могут ли подобными свойствами обладать тексты наркозависимых в интернете.
В первую очередь Спивак обращает внимание на частотность употребления узкоденотативных знаков. Их количество возрастает в речи людей при диссолюции, т.е. разложении, расщеплении сознания, которое происходит в том числе при употреблении ПАВ [Спивак 1986, 38-39]. Из этого следует, что в ходе анализа отобранного материала нам следует обратить внимание на сообщения, содержащие бранную лексику и слова-заменители. Мы предполагаем, что автоматический классификатор будет относить тексты с узкоденативной лексикой скорее к классу публикаций из групп наркозависимых, так как ожидаем, что в выборке текстов данного типа встретится значительное количество подобных единиц.
Спивак выделяет другую важную особенность, которая заключается в объединении частей речи в «четко разграниченные, более крупные классы». Он приводит примеры таких классов: класс имени и глагола; класс наречия, категории состояния и заместительной лексики; класс фразеологизмов обстоятельственного значения. Спивак связывает этот феномен с тяготением к восстановлению «древнего именного построения русского языка» [Спивак 1986, 38-39]. На базе такой трансформации частеречных классов может сформироваться иная родовая и деклинационная система, в связи с чем некоторые именные падежи могут изменить свои функции. Спивак предполагает, что эти особенности не формируются «поверх» известной носителям языка грамматики, но восстанавливаются филогенетически в процессе диссолюции [Спивак 1986, 43-44].
Спивак также перечислил синтаксические характеристики речи людей в измененном состоянии сознания. Среди них нечеткое разграничение сочинения и подчинения, высокая частотность употребления конструкций со слабо выраженной связью между составляющими, преобладание изолированных простых нераспространенных предложений. Приведем в качестве примера транскрипт из исследования: «Ну, нормально, укол хорошо пошел, сначала похуже, а сейчас нормально, сейчас это, ну, минут уже десять» [Спивак 1986, 42].
Наконец, он отмечает следующие свойства: передача функций пассива активу или неопределенно-личным формам глагола, переход речевых знаков в узко-денотативные, перестройки в способах выражения предикативности и паратаксическом построении предложений [Спивак 1986, 43-44].
Итак, структура текстов наркозависимых может, гипотетически, обладать свойствами, которые перечислил Спивак в своих исследованиях. Авторы интернет-текстов из нашей выборки могли на момент создания публикаций находиться в измененном состоянии сознания, а их речь могла деформироваться в связи с длительным и систематическим употреблением психоактивных веществ, что в свою очередь могло оказать влияние и на их язык в интернете.
1.4 Исследования ЛИСС и психотерапия
Результаты исследований лингвистики измененных состояний сознания могут найти применение в психотерапии. Изучение речи и текстов наркозависимых людей, в частности, может пролить свет на особенности их мировосприятия и, как следствие, поведения. Это напоминает о том, какую силу имеет слово.
Например, среди наркозависимых особенной популярностью пользуются стигматизационные проявления в виде формул («бывших наркоманов не бывает»). Психотерапия, в которой внимание уделяется семантике речи, делает возможной дестигматизацию, развенчание мифов о неизлечимости зависимости. Эта процедура является важным этапом в лечении пациента, также она позволяет установить доверительные отношения с врачом [Шайдукова 2013, 403].
О связи науки о слове и психотерапии писал и Дмитрий Леонидович Спивак. Он считал, что действенность психотерапевтического сеанса «целиком зависит от влияния на глубинные слои сознания пациента, и инструмент для этого есть лишь один -- слово врача» [Спивак 1987, 80-81].
Дональд Спенс в своей статье «Language in Psychotherapy» развивает аналогичную идею. Он сравнивает психотерапевта с исследователем языка. Чуткий специалист, который стремится выяснить как можно больше деталей о своем клиенте, должен стать настоящим экспертом по индивидуальному языку пациента. Для него важно уловить все возможные значения высказывания, мгновенно расшифровать их, проанализировать [Spence 2013, 471].
Спенс также описывает, на какие особенности речи должен обращать внимание психотерапевт: выбор лексики и синтаксических конструкций, наличие повторений и/или пропусков слов, ошибки и оговорки. [Spence 2013, 472].
Не менее важен в психотерапевтической практике анализ поверхностных и глубинных структур. В свободном общении мы в первую очередь обращаем внимание на смысл высказывания, глубинную структуру. Поверхностная, оформление речи, обычно для нас не столь важна [Bransford & Franks 1971; Jenkins 1974]. Такой тип восприятия информации характерен для повседневного общения, однако в психотерапии, как пишет Спенс, важно слушать одновременно на двух уровнях, поверхностном и глубинном.
Проиллюстрируем примером. Допустим, пациент говорит: «Я до смерти боюсь игл». Наиболее очевидная интерпретация этого высказывания такова: «Инъекции для меня совершенно неприятны». Однако психотерапевт должен обратить внимание на то, что пациент использовал слово «смерть». Он не просто боится, но боится до смерти. Эта смоделированная ситуация объясняет, как один элемент поведения может иметь множество причин и выполнять одновременно множество ролей [Spence 2013, 474-475]. Лингвистический анализ является ключом к пониманию таких деталей.
ГЛАВА 2. ОБУЧЕНИЕ АВТОМАТИЧЕСКОГО КЛАССИФИКАТОРА
Настоящее исследование является продолжением работы, посвященной функционированию жаргона наркозависимых в социальных сетях. Результатом этой работы стало составление мини-словаря арготизмов наркозависимых с пометами о лексическом значении, контекстах употребления и словообразовательных особенностях данного слова. Лексика была найдена в социальной сети «ВКонтакте». Мы дополнили наш словарь после социологического опроса.
В ходе исследования нам удалось выяснить, что среди способов словообразования арго наркозависимых наиболее распространена деривация с помощью деминутивных аффиксов, сокращения, заимствования из англоязычного арго, метафоризация и образование жаргонизмов от имен собственных. Эти выводы указывают на некоторые словообразовательные тенденции языка наркозависимых [Фирсанова 2019, 186].
Наши выводы об особенностях тайного языка наркозависимых послужили теоретической основой для настоящего исследования. Также мы воспользовались списком сообществ «ВКонтакте», который составили в рамках исследования 2019 года, для автоматической выгрузки данных для обучения нейросети.
2.1 Автоматическая выгрузка набора данных
В социальной сети «ВКонтакте» можно обнаружить такие группы и публичные страницы, на которых записи оставляют преимущественно люди, столкнувшиеся с проблемой употребления запрещенных на территории РФ психоактивных и психотропных веществ. При помощи поиска по ключевым словам в интерфейсе социальной сети нам удалось получить список таких сообществ.
Мы нашли 31 открытую для просмотра и участия группу «ВКонтакте» и заметили, что все найденные нами страницы можно разделить на три группы в соответствии с типом публикуемого в них контента и стилем администрирования. Это отличительная черта нашей выборки, которая не указывает на то, что все сообщества, связанные с тематикой употребления ПАВ, ограничены форматами, перечисленными ниже.
Итак, мы выделили три типа сообществ (Рисунок 1). К первому относятся так называемые «библиотеки трип-репортов». Мы обнаружили 11 публичных страниц данного формата. Администраторы подобных групп позволяют любому подписчику поделиться своей историей об опыте употребления какого-либо ПАВ, то есть написать «трип-репорт». Соответственно, публикации, выгруженные из таких сообществ, в основном представляют собой достаточно объемные (например, около 500 слов) тексты с описанием процесса употребления ПАВ, его эффектов, последствий и обстановки, в которой происходил прием вещества.
Ко второму типу относятся страницы «Подслушано». Мы нашли 14 сообществ, связанных с тематикой ПАВ, такого формата. К «Подслушано» относятся тематические группы профессиональных сообществ («Подслушано у медиков»), жителей определенного населенного пункта («Подслушано в Кронштадте»), представителей какой-либо социальной категории («Подслушано у замужних») и т.д. Главной особенностью таких страниц является то, что весь их контент формируют подписчики, а не администрация. Пользователи делятся информацией, опытом, рассказывают истории, просят советы и т.д.
В последнюю группу вошли юмористические и развлекательные сообщества, посвященные особенностям жизни наркозависимых. Как правило, в них публикуются изображения, видео- или аудиозаписи с короткими текстовыми комментариями (в среднем, не больше десяти слов). Мы обнаружили 6 страниц такого типа.
Рисунок 1. Распределение типов публикаций в наборе данных
Мы обратили внимание на то, что публикации из групп наркозависимых в большом количестве содержат обсценную лексику, сленг и просторечия. Чтобы точность работы нейросетевой модели была выше, подобная лексика должна содержаться и в выборке текстов из сообществ ненаркозависимых. В противном случае, обученная программа может допускать ошибки в классификации любых публикаций, содержащих ненормативный и бранный язык, игнорируя другие лингвистические характеристики. Определенная степень сходства между двумя выборками необходима для того, чтобы нейросеть смогла рассчитать коэффициент связей между менее очевидными признаками текста и классами.
В сообществах описанного выше формата «Подслушано» некоторых городских районов, а также в группах, где активно обсуждаются проблемы личной жизни, участники не затрагивают в своих дискуссиях тематику употребления ПАВ, однако их сообщения в большом количестве содержат просторечия и ненормативную лексику. Можно найти и другие сходства таких публикаций с записями из сообществ наркозависимых. Рассмотрим два примера. Под номером (4) представлен отрывок публикации из группы наркозависимых, под номером (5) -- текст из группы ненаркозависимых.
Анонимно. Любил бабу одну. Ну как любил? Чувства были точно помню... С бабой вместе жили года три уже. Любила меня говорила. Ну вобщем в один из дней поехал в гараж...
Вот чего не хватает девушкам??. Вроде даже над твоими шутками смеется,но нет в итоге прости не судьба не люблю и бла бла бла... можно не анонимно.
Отрывки (4) и (5) объединяет не только проблематика отношений с противоположным полом. Оба автора оставили в своих текстах пожелания о том, публиковать их анонимно или нет, они использовали просторечия (“любил бабу”, “бла бла бла”), порядок слов в их текстах характерен скорее для устной речи и т.д. Итак, мы допускаем, что тексты в двух наборах данных единообразны и содержат достаточно общих черт для глубокого обучения.
Для автоматической выгрузки данных мы воспользовались функционалом API «ВКонтакте» и написали бот на языке Python (Приложение 1). Администрация данной социальной сети предоставляет открытый доступ к сервисам для разработчиков: «Доступ к Публичному API предоставляется на безвозмездной основе» [API ВКонтакте. Документация 2020].
API (application programming interface) -- это интерфейс, при помощи которого взаимодействие между двумя системами становится возможным [Lauret 2019, 3]. Интерфейс, с которым работали мы, представляет собой посредник между средой программирования разработчика и базой данных «ВКонтакте».
Чтобы создать бот, мы загрузили модуль для работы с API, авторизовались и открыли новую сессию (альтернативой авторизации является регистрация приложения в социальной сети с получением сервисного ключа доступа [API ВКонтакте. Документация 2020]). Мы воспользовались методом wall.get для массовой выгрузки публикаций со следующими параметрами: count, количество постов, которое мы хотим получить, с максимальным значением 100; owner_id -- идентификационный номер страницы (указывается положительное значение, если мы интересуемся личной страницей пользователя, и отрицательное -- если группой или публичным сообществом) или domain -- короткий адрес, который используется, если ID неизвестен. Все записи мы сохранили в отдельный файл с расширением *.json.
Мы присвоили публикациям из групп наркозависимых индекс «1», а текстам из групп ненаркозавимых -- индекс «0». Наш набор данных составляет 23 983 публикации (1 636 998 слов). Тексты в наборе были перемешаны с помощью генератора случайных чисел и разделены на две выборки: обучающую (80% данных) и проверочную (20%). Обучающая выборка необходима для настройки модели. Проверочная позволит нам оценить качество ее работы [Karpathy 2015].
Мы допускаем, что не все авторы публикаций с индексом «1» страдают зависимостью от ПАВ. Например, в группах «Подслушано», популярных среди зависимых, комментарии могут оставлять медицинские работники и психологи, представители правоохранительных органов, а также люди, чьи родственники или друзья столкнулись с ПАВ. Мы также не исключаем вероятность наличия сообщений, созданных наркозависимыми людьми, среди текстов с индексом «0». Мы считаем это естественной погрешностью данных, «шумом», который не повлияет на процесс обучения нейросети.
2.2 Выбор метода обучения
Использование статистических методов и построение нейросетевой модели являются эффективными способами решения задачи классификации текстов. Статистические модели просты в настройке, результаты их работы легче интерпретировать [Flexer 1996, 1005]. Однако, в отличие от нейронных сетей, они хуже справляются с автоматическим выявлением сложных взаимосвязей. Это становится важно при работе с естественным языком, поэтому мы выбрали нейросетевую модель для создания классификатора.
В большинстве случаев нейросетевые модели справляются с лингвистическими задачами лучше, чем статистические [Collobert et al. 2011, 2494]. Обучение искусственной нейросети заключается в вычислении коэффициентов связей между нейронами. Это позволяет модели принимать нелинейные решения [Ma et al. 2017].
Статистические классификаторы создают для двух классов линейную разделяющую поверхность, гиперплоскость. Она делит пространство признаков, свойственных разным классам, на два полупространства. Такая модель подходит для классификации простых данных, однако при решении комплексных задач она скорее всего допустит значительное количество ошибок [Goodfellow et al. 2016, 487].
Комплексными считаются обычно задачи, связанные с обработкой естественных сигналов. Например, речь, тексты и изображения включают множество компонентов, представляют сложную структуру. Чтобы отнести данные такого типа к определенному классу, необходимо учесть одновременно множество переменных [Kim 2017, 82].
Рассмотрим материал нашего исследования. Лексика, которая часто встречается в публикациях с индексом «1», должна служить сигналом для определения соответствующего класса. Согласно результатам исследований Дмитрия Леонидовича Спивака, а также выводам, которые мы сделали в ходе нашей работы 2019 года, сленг, обсценная и узкотематическая лексика могут служить индикаторами текстов категории «1». Однако в сообщениях с индексом «0» мы можем найти примеры, в которых лексика, распространенная среди наркозависимых, используется в ином контексте:
Сегодня получила посылку с книжками и кайфую…
Обнаружено и изъято 12,84 грамма мефедрона. Его и хранил с целью сбыта 38-летний хозяин квартиры...
Нас с подругой как-то угораздило оказаться в клубе во время… рейда. Конечно у нас ничего не было. Наш единственный наркотик -- жизнь))
Недавно подала на развод, из за того что муж переодически употребляет наркотические вещества, а именно спайс.
В примере (6) автор употребляет разговорное слово «кайфовать», которое получило особенное распространение среди наркозависимых. (7) представляет собой отрывок из новостной сводки, в которой упоминается название ПАВ. В (8) автор называет жизнь «наркотиком», подчеркивая тем самым, что не имеет пагубного пристрастия, а в (9) название ПАВ упоминается, чтобы объяснить причину развода женщины со своим мужем.
Наличие лексики, характерной скорее для текстов с индексом «1», может послужить для линейной модели сигналом, чтобы отнести данные отрывки к категории сообщений из групп наркозависимых, несмотря на то, что тематика и контекст здесь типичны скорее для публикаций класса «0». Если принять во внимание окружение этих лексем в тексте, то, вероятно, избежать потенциальной ошибки удастся, однако для этого понадобится более глубокий, нейросетевой анализ.
2.3 Подготовка данных для обучения
При помощи облачного сервиса Google Colaboratory мы обработали данные, обучили нейронную сеть и протестировали классификатор [What is Colaboratory? 2020]. Весь код написан на языке Python [Python 3 documentation 2020]. Для обучения нейросети мы использовали библиотеку Keras [Keras Documentation 2020]. Первым этапом нашей работы стало преобразование текстовых данных в числовые вектора слов и формирование обучающего и проверочного наборов.
Мы сохранили тексты в два списка. В первый, training_set (обучающая выборка), мы загрузили 80% данных из сообществ наркозависимых и такой же объем текстов из групп ненаркозависимых. Во второй, validation_set (проверочная выборка), мы вставили по 20% данных каждого типа. Кроме того, мы подготовили список классов из двух элементов. Первый предназначен для обозначения категории текстов с индексом «0»: «Это сообщение, скорее всего, опубликовано в группе ненаркозависимых». Второй -- для записей с индексом «1»: «Вероятно, это сообщение опубликовано в группе наркозависимых».
Одна из проблем обработки естественного языка заключается в том, что нейросеть может анализировать только числовые данные, например, вектора, которые представляют встречаемость слова в определенном контексте [Webster & Kit 1992, 1107]. Чтобы преобразовать наши тексты в матрицы векторов, мы создали частотный словарь тренировочной выборки, в соответствии с которым присвоили каждой словоформе в training_set и validation_set частотный индекс (Приложение 2).
Мы разбили весь объем данных на отрывки равной длины, чтобы нейронная сеть анализировала короткие отрезки текста, а не массив целиком (Приложение 3). Каждый отрывок был преобразован в последовательность частотных индексов, а все последовательности были обращены в матрицу унитарных векторов (one-hot encoding), в которой один вектор представляет один индекс (Таблица 1) [Keras Documentation].
Таблица 1. Этапы преобразования текстовых данных
Оригинальный текст из выборки |
В виде последовательности частотных индексов |
Матрица one-hot кодирования |
|
ТВ-3 приглашает семьи из Челябинска принять участие... |
[2 441, 4 228, 747, 23, 335, 1 324, 1 860] |
[0. 0. 0. 0. 0. 0. 0. 1.] [0. 1. 0. 0. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.]... |
В ходе токенизации, то есть преобразования текста в последовательность частотных индексов, мы задали следующие параметры: количество слов из частотного словаря, которое нейросеть будет учитывать при обучении (maxWordCount, mWC), фильтры символов (filters), нижний или оригинальный регистр знака (lower), тип словоразделителя (split), пропуск или анализ однобуквенных слов (char_level) (Приложение 2). Рассмотрим подробно каждый из них.
Начальное значение maxWordCount, 20 000 слов, мы увеличили до 20 500 в ходе оптимизации параметров. Первый вариант требовал меньшей вычислительной мощности, однако второй позволил нам добиться лучшего результата.
Объем частотного словаря -- 137 802 единицы, так что значение параметра mWC на первый взгляд может показаться недостаточным. На самом деле, анализ каждой отдельной словоформы из частотного словаря не имеет смысла. Во-первых, величина этого параметра прямо пропорциональна необходимой вычислительной мощности. В этом мы убедились на собственном опыте: чем выше мы задавали значение mWC (например, 30 000 слов), тем выше была вероятность того, что наша сессия в Google Colaboratory прервется. Во-вторых, такой эксперимент может привести к переобучению (overfitting), то есть к ситуации, когда модель рассчитала закономерности для обучающих данных слишком точно, и этот расчет не подходит для новых примеров.
Есть и другие причины. Частотный словарь содержит большое количество уникальных и низкочастотных словоформ. Настройка параметра mWC позволяет не учитывать при анализе такие лексемы. Среди них могут оказаться ошибки и опечатки. Например, в нашей выборке есть слово «однокласницы» с индексом частотности 137 308. Это значит, что оно находится в самом конце словаря и встречается очень редко, скорее всего один раз в нашем наборе данных. Другой пример, слово «привоатились», его индекс -- 137 304. Кроме того, в конце словаря оказываются нераспространенные в повседневной речи лексемы, например, слово «мумия» имеет индекс 137 306, словоформа «эндогенного» -- 137 352.
Для сравнения приведем примеры частотных словоформ. Самым первым словом нашего словаря является союз «и» (индекс 1). Частотно наречие «анонимно» (индекс 103) и его сокращение «анон» (индекс 92). Это связано с тем, что сообщения на публичных страницах «ВКонтакте» принято дополнять подписью «анонимно» или «не анонимно» (и, соответственно, «анон» или «не анон»). Такая подпись служит сигналом запрета или разрешения администрации группы оставлять ссылку на профиль автора сообщения при публикации. Кроме того, частотны глаголы «люблю» (индекс 272) и «боюсь» (индекс 787). Популярно слово «эффект» (индекс 783), которое часто используется при описании воздействия ПАВ на организм и/или сознание человека.
Параметр filters позволяет выбрать символы, которые не будут учитываться при токенизации. В нашем словаре анализировались только буквы, кириллица и латиница. Параметр lower позволил нам привести все символы в тексте к нижнему регистру знака. В качестве типа словоразделителя (split) мы использовали пробел. Однобуквенные слова (char_level) при анализе учитывались.
Рассмотрим два фрагмента из обучающей выборки и их представление в виде последовательности индексов (Таблица 2). Пример (10) -- оригинальный текст класса «1»; (11) -- отрывок сообщения класса «0». В соответствии с примененными параметрами, словоформе «чечече» присвоен индекс 106 183, однако это значение превышает 20 500, следовательно анализироваться программой далее она не будет, число «3» не учтено при токенизации, все слова приведены к нижнему регистру.
Таблица 2. Соответствия между словоформами и частотными индексами
Словоформа, фрагмент (10) |
Индекс, фрагмент (10) |
Словоформа, фрагмент (11) |
Индекс, фрагмент (11) |
|
чечече |
106 183 (не будет учитываться программой) |
тв |
2 441 |
|
алкоголь |
1 744 |
приглашает |
4 228 |
|
не |
3 |
семьи |
747 |
|
употребляю |
3 948 |
из |
23 |
|
челябинска |
335 |
|||
принять |
1 324 |
|||
участие |
1 860 |
Размер тренировочных данных после обработки составляет 8 998 819 символов, 1 221 630 слов. Мы написали функцию для формирования выборки из текстов, преобразованных в числовые данные (Приложение 3). Функция делит массив текстов на короткие отрезки длины xLen со смещением step. Это происходит следующим образом: сначала обрезается вектор длины xLen, по выборке происходит смещение вперед на step, операция повторяется. Каждый полученный таким способом отрывок добавляется в список своего класса («0» или «1»), а затем -- в общий массив. Далее, классы преобразовываются в унитарные вектора следующего вида: [0. 0. 1. 0. 0...]. Так мы получили списки для осуществления методов, в которых тексты представлены в виде цепочек чисел, что подходит для машинного обучения. Для работы с массивами мы использовали библиотеку NumPy [NumPy Documentation 2020].
Мы обучили две нейросетевых модели для обработки естественного языка: Bag-of-Words [Chollet 2017, 181] и Word Embeddings [Goncalves 2018] (Приложение 4). В ходе оптимизации параметров xLen и step, нам удалось повысить качество их работы. Мы определили самую эффективную модификацию и протестировали ее на текстах, которых не было в обучающей выборке.
2.4 Обучение нейросетевых моделей
Искусственные нейросети считаются эффективным инструментом для решения задачи классификации текстов разной длины. В настоящем исследовании рассматривается анализ сообщений в пределах 100 слов, а именно: комментариев, небольших постов и отрывков объемных публикаций.
Мы обучили сверточную нейронную сеть (convolutional neural network, CNN) с полносвязным слоем (Приложение 4). Подход к обработке естественного языка с помощью сверточных нейросетей был впервые упомянут в статье Александра Вайбеля [Waibel et al. 1989]. Сейчас этот класс нейросетей часто используется для классификации текстов. Данные обрабатываются следующим образом: слои свертки производят над матрицами операции, в ходе которых извлекается информация о наиболее значимых признаках [Goodfellow et al. 2016, 367].
Результаты некоторых исследований доказывают эффективность применения нейросетей с полносвязным слоем для классификации коротких текстов, например, реплик диалога [Lee & Dernoncourt 2016, 516]. Мы предполагаем, что сообщения в социальных сетях, как элементы онлайн-дискурса, имеют определенное сходство с диалогическими репликами, и считаем этот подход подходящим для решения нашей задачи.
Мы выбрали две модели для обработки данных. Первая, Bag-of-Words, представляет текст в виде «мешка слов» [Zhang et al. 2010, 45]. В нем не анализируется грамматика, структура текста или порядок составляющих, учитывается только частотность словоупотреблений [Sriram et al. 2010, 841-842]. По мнению Ронана Коллоберта и его коллег, использование Bag-of-Words в качестве модели упрощенного представления языка и ее успешное применение для решения задач узкой специфики (классификация, извлечение информации и т.д.) дает нам более общее представление о естественных языках и приоткрывает тайну их устройства [Collobert et al. 2011, 2493].
Вторая модель, Word Embeddings, сопоставляет векторные представления слов. Ее концепция заключается в том, что семантически близкие слова должны находиться в сходных контекстах. Вектор отображает положение слова в пространстве значений, сравнение векторов позволяет выявить близкие по смыслу лексемы, установить тематические кластеры [Turney & Pantel 2010, 141]. Эта модель считается особенно эффективной для обработки естественного языка [Yin & Shen 2018, 1]. В отличие от Bag-of-Words, Word Embeddings учитывает не только частотность, но и сочетаемость лексем, поэтому мы выдвинули следующую гипотезу: модель Word Embeddings справится с задачей классификации текстов из групп не- и наркозависимых лучше, чем Bag-of-Words.
Перенастройка модели, перебор значений в поисках наиболее эффективных модификаций позволяет достичь удивительных результатов. Чтобы добиться наивысшей точности в работе нашей программы, мы также использовали простой перебор параметров. Этот способ подходит для оптимизации сверточных нейросетей [Goodfellow et al. 2016, 326; Kim 2017, 122]. Например, Юн Ким в своем исследовании успешно использовал данный подход для решения задач анализа тональности текстов и классификации вопросов [Kim 2014, 1746].
Для оценки качества работы нашей программы мы использовали метрику Accuracy (точность). Вычислялась доля правильных ответов от количества текстов в выборке: Accuracy = P / N. P -- количество правильно угаданных ответов, N -- размер обучающей выборки [Sebastiani 2002, 33].
В основе метрик оценки качества работы классификаторов, созданных методами машинного обучения, лежит выявление частотности ошибок первого и второго рода, ложноотрицательных и ложноположительных срабатываний программы соответственно [Manning et al. 2008, 23]. Ошибки первого рода или «ложная тревога» (также могут называться type I errors, б errors, false positive) и ошибки второго рода или «пропуск цели» (type II errors, в errors, false negative) -- ключевые понятия задач проверки статистических гипотез [Easton & McColl 1997].
Перебор значений параметров xLen и step в большей степени повлиял на качество работы наших моделей. Сначала мы провели несколько экспериментов с моделью Bag-of-Words, попробовали обучить сеть с длиной окна в 10 и 50 единиц (xLen), а также с длиной шага равной 100 и 50 (step). Мы получили 4 варианта модели.
BoW 10х100 (Bag-of-Words, xLen = 10, step = 100) была первой пробой в нашем эксперименте. Эта модификация распознала верно 72% сообщений класса «0» и 75% сообщений класса «1». Средний процент распознавания составляет 73%. Мы предположили, что уменьшение длины шага при формировании выборки сделает ее более плотной, что позволит нейросети провести более тщательный анализ текстов. Действительно, сокращение значения step в два раза благоприятно повлияло на результаты распознавания. Мы получили BoW 10х50 (Bag-of-Words, xLen = 10, step = 50), которая верно распознала 80% сообщений класса «0» и 76% сообщений класса «1». Средний процент распознавания составляет 78% (Рисунок 2).
Рисунок 2. Сравнение BoW 10х100 (Bag-of-Words, xLen = 10, step = 100) и BoW 10х50 (Bag-of-Words, xLen = 10, step = 50)
Мы предположили, что точность анализа частотности словоупотреблений увеличится, если нейросеть будет анализировать отрывки большей длины, поэтому мы установили значение параметра размера окна в 50 слов. Чтобы удостовериться в том, что повышение точности распознавания с сокращением длины шага не было совпадением, мы протестировали еще две модификации, BoW 50х100 (Bag-of-Words, xLen = 50, step = 100) с начальным значением step и BoW 50х50 (Bag-of-Words, xLen = 50, step = 50) с оптимизированным значением данного параметра (Рисунок 3). лингвистика сознание речь нейросетевой
Точность распознавания сообщений из групп ненаркозависимых моделью BoW 50х100 составляет 97%. Для сообщений из групп наркозависимых это значение несколько ниже, 91%. Средний процент распознавания составляет 95%. Это на 17% больше по сравнению с BoW 10x50, которая показала лучшие результаты в предыдущем эксперименте и оказалась на 19% точнее, чем BoW 10x100. Эти результаты можно назвать настоящим скачком эффективности нашей программы.
Результаты модификации BoW 50х50 оказались несколько выше. Модель распознала верно 99% сообщений категории «0» и 92% текстов класса «1». Средний процент распознавания увеличился до 96%. Это значимое различие, так как для решения нашей задачи важен даже 1 процент повышения точности. Итак, с помощью увеличения размера окна (параметр xLen) и уменьшения длины шага (step) мы смогли получить самую точную модификацию модели Bag-of-Words, BoW 50х50 (Рисунок 3).
Рисунок 3. Сравнение BoW 50х100 (Bag-of-Words, xLen = 50, step = 100) и BoW 50х50 (Bag-of-Words, xLen = 50, step = 50)
Прежде чем начать наш эксперимент, мы предположили, что модель с Embeddings-слоем справится с задачей классификации текстов лучше, однако наша гипотеза не подтвердилась. Мы применили различные настройки размера окна (значения 10 и 50 для параметра xLen) и длины шага (50 и 100 для step) для E-модели и получили 4 новых модификации. Рассмотрим наши варианты (Рисунок 4, Рисунок 5).
Мы не можем назвать модификацию E 10x100 (Word Embeddings, xLen = 10, step = 100) более эффективной, чем BoW 10x100. Средний процент ее распознавания оказался выше на единицу, 74%, однако это связано с тем, что она распознала верно 81% сообщений класса «0», на 9% лучше, чем BoW 10x100, и 66% текстов категории «1», на 9% хуже, чем эта же модификация. Такой разброс в точности распознавания текстов разных классов не допустим для решения нашей задачи.
Модификация E 10x50 (Word Embeddings, xLen = 10, step = 50) оказалась точнее, чем E 10x100. Эта модель распознала верно 84% сообщений из групп ненаркозависимых и 70% текстов из групп другого класса. Средний процент ее распознавания составляет 77%, что на 1 процент ниже, чем показатели BoW 10x50 (Рисунок 4).
Рисунок 4. Сравнение E 10x100 (Word Embeddings, xLen = 10, step = 100) и E 10x50 (Word Embeddings, xLen = 10, step = 50)
Рисунок 5. Сравнение E 10x50 (Word Embeddings, xLen = 10, step = 50) и E 50x50 (Word Embeddings, xLen = 50, step = 50)
Модель E 50x100 (Word Embeddings, xLen = 50, step = 100) распознала верно 94% текстов класса «0» и 92% сообщений категории «1». Средний процент ее распознавания составляет 93%, на 2% ниже BoW с такими же настройками. E 50x50 (Word Embeddings, xLen = 50, step = 50) показала лучшие результаты среди модификаций с Embeddings-слоем, однако не смогла превзойти подобную ей BoW 50x50. Модель верно распознала 97% сообщений с индексом «0» и 92% текстов с другим индексом. Средний процент ее распознавания уступает BoW 1% и составляет 95% (Рисунок 5).
В таблице 3 приведены результаты всех наших модификаций. Рисунок 6 представляет визуализацию этих данных. Модель Word Embeddings справилась с задачей классификации сообщений из групп не- и наркозависимых людей хуже, чем модель Bag-of-Words с такими же параметрами. Мы опровергли гипотезу.
Таблица 3. Результаты обучения
Значения параметров |
Точность модели BoW |
Точность модели E |
|
10x100 |
Класс 0: 72% Класс 1: 75% Среднее: 73% |
Класс 0: 81% Класс 1: 66% Среднее: 74% |
|
10x50 |
Класс 0: 80% Класс 1: 76% Среднее: 78% |
Класс 0: 84% Класс 1: 70% Среднее: 77% |
|
50x100 |
Класс 0: 97% Класс 1: 91% Среднее: 95% |
Класс 0: 94% Класс 1: 92% Среднее: 93% |
|
50x50 |
Класс 0: 99% Класс 1: 92% Среднее: 96% |
Класс 0: 97% Класс 1: 92% Среднее: 95% |
На этом наши эксперименты не закончились. Мы провели еще один тест, в ходе которого убедились в том, что на качество работы классификатора текстов может также повлиять значение максимального количества слов в частотном словаре, которое учитывалось при обучении (параметр maxWordCount). Начальное значение maxWordCount в нашей модели составляло 20 000, однако поиск по частотному словарю позволил нам убедиться, что среди слов, индекс которых превышает это значение, могут встретиться не только опечатки или низкочастотные лексемы. Мы обнаружили в списке слов с индексами от 20 000 до 21 000 формы, которые показались нам значимыми для качественного анализа.
Рисунок 6. Результаты обучения
Приведем несколько примеров таких словоформ. Глагол «забиваю» имеет частотный индекс 20 364, однако мы предполагаем, что пропуск этого слова при анализе может привести к ошибке в работе классификатора. Данная лексема может употребляться как сленговое слово в значении «не обращать на что-либо внимание» в каком-либо тексте класса «0». Также она может встретиться в одном из текстов класса «1» в жаргонном словосочетании «забить косяк», то есть скрутить сигарету с марихуаной. Также мы обнаружили в этом списке слова «умиротворение» с индексом 20 188 и «побег» с индексом 20 079, которые не показались нам низкочастотными или редкими. Примеры (12) и (14) иллюстрируют использование этих слов авторами текстов класса «1», (13) и (15) представляют класс «0».
...казалось, будто эффекты сошли на нет, присутствовало лишь внутреннее умиротворение...
Ей нужна искренняя любовь и забота! Взамен она Вам подарит спокойствие, умиротворение и душевную гармонию!
Разбойник, совершивший побег в Челябинске, задержан.
...он приземлился в большой сугроб снега, который его и спас от верной смерти. Но побег на этом окончился...
Мы увеличили значение параметра maxWordCount с 20 000 до 20 500. Скорость обучения при этом снизилась, так как потребовалась большая вычислительная мощность. Наша сессия в Google Colab прерывалась, когда мы задавали значение больше 20 500.
Мы получили две модификации, E 50x50 + mWC (Word Embeddings, xLen = 50, step = 50, mWC = 20 500) и BoW 50x50 + mWC (Bag-of-Words, xLen = 50, step = 50, mWC = 20 500). Модель с Embeddings-слоем вновь показала более низкие результаты, распознав 98% сообщений класса «0» (ее эффективность повысилась на 1% по сравнению с E 50x50) и 90% текстов класса «1» (на 2% ниже, чем E 50x50). Средний процент распознавания при этом снизился на единицу, 94%. Однако повысилась производительность модели BoW, которая распознала 100% сообщений класса «0» (эффективнее на 1%, чем BoW 50x50) и 93% текстов класса «1» (также лучше на 1%). Средний процент ее распознавания повысился на единицу, 97% (Рисунок 7).
Рисунок 7. Сравнение E 50x50 + mWC (WE, xLen = 50, step = 50, mWC = 20 500) и BoW 50x50 + mWC (Bag-of-Words, xLen = 50, step = 50, mWC = 20 500)
Мы выбрали модификацию BoW 50x50 + mWC (xLen = 50, step = 50, maxWordCount = 20 500) в качестве финальной. Для повторного использования модели мы сохранили ее параметры в формате *.json при помощи модуля model_from_json библиотеки Keras. Также мы сохранили веса (W, weights), рассчитанные нейросетью в ходе обучения. В нашей задаче веса представляют собой значения силы связей между определенными сетью характеристиками текста и заданными классами [Ng & Hung 2014, 90].
Мы воспользовались методом ModelCheckpoint из той же библиотеки, который анализирует данные в процессе обучения и позволяет сохранить лучший результат в соответствии с метрикой Accuracy. Мы не использовали второй параметр, так как данная метрика не подходит для автоматического выявления лучшего результата. Мы убедились на собственном опыте в том, что кроме точности, важно также обращать внимание на минимальные потери при обучении (loss).
Благодаря тому, что мы сохранили результаты машинного обучения, чтобы воспользоваться ими повторно, достаточно загрузить файл с моделью и весами и скомпилировать программу в Google Colab (Приложение 5). Однако важно помнить, что тексты должны быть представлены в числовом виде. Для этого мы прописали функцию токенизации любого заданного текста и обращения полученной последовательности индексов в матрицу векторов. Наша модель производит предсказания на основе анализа матричного представления текста, в котором слова представлены в виде частотных векторов из нулей и единиц.
Рисунок 8. Результат работы программы
Рисунок 8 представляет образец результата работы программы. Она принимает на вход любой текст и выводит длину сообщения в символах и словах, последовательность индексов и векторное представление входных данных, а также числовое предсказание и определенный класс.
ГЛАВА 3. АНАЛИЗ ПУБЛИКАЦИЙ
Мы протестировали программу на публикациях, которых не было в обучающей выборке. Анализ результатов работы классификатора позволил нам выявить его сильные и слабые стороны.
Средняя точность нашей нейросети составляет 97%, однако следует помнить, что это результат обработки текстов только из проверочной выборки. Объем этой выборки в 4 раза меньше обучающей, она относительно небольшая. Выборка включает тексты только из тех групп, которые анализировались в ходе обучения сети. Это значит, что точность распознавания текстов из групп не- и наркозависимых другого типа (типы групп и публикаций нашей выборки описаны в разделе 2.1), может оказаться значительно ниже.
Кроме того, наш массив данных был разделен на отрывки по 50 слов, благодаря чему процесс машинного обучения стал проще. Однако мы полагаем, что точность распознавания текстов иного размера может оказаться ниже, а в реальных условиях вероятность встретить публикацию заданной длины достаточно низка. Мы предполагаем, что неоднозначные тексты программа будет относить скорее к классу «0», так как анализ проверочной выборки показал, что точность определения текстов из групп ненаркозависимых равна 100%.
...Подобные документы
Анализ особенностей морфологической и синтаксической структур новых лингвистических единиц, характеризующих интернет-грамматику речи интернет-сообщений на материале текстов, выбранных из немецких социальных сетей. Примеры лингвистических новообразований.
курсовая работа [954,7 K], добавлен 31.10.2014Основные понятия корпусной лингвистики. Общая характеристика Национального корпуса русского языка. Изучение лексических категорий многозначности и омонимии, синонимии и антонимии. Использование данных Корпуса при изучении синтаксиса и морфологии.
дипломная работа [95,5 K], добавлен 07.11.2013Коммуникативные стратегии как компонент речевого воздействия. Речевые стратегии, их классификация. Типология иллокутивных целей. Грамматические особенности речи человека, находящегося в экстремальной ситуации (на основе анализа американского кинотекста).
курсовая работа [40,6 K], добавлен 27.01.2014Речь как форма поведения человека, в которой обнаруживаются проявления его характера, его отношения с другими людьми, его жизненные позиции. Структура и характеристика речевых коммуникативных качеств. Речь в межличностном и социальном взаимодействии.
реферат [30,5 K], добавлен 13.02.2008Мышление и речь человека. Содержание и форма речи. Язык - система знаков, необходимых для человеческого общения, мышления и выражения. Жесты - вспомогательное средство общения. Речь в деятельности юриста. Разновидности и особенности юридической речи.
курсовая работа [24,3 K], добавлен 15.12.2008Классификация видов письменной речи - содержание (мышление), выражение (речь), исполнение (графика). Обзор основных видов письменных заданий: репродуктивный, индивидуальный творческий диктант. Письменная монологическая речь и ее социокультурный компонент.
реферат [32,9 K], добавлен 28.05.2010Понятие и классификация жаргонизмов, их разновидности, роль и место в современном языке. Особенности использования жаргонизмов в периодических изданиях и рекламных текстах, анализ их употребления в материалах журналистских и рекламных сообщений.
курсовая работа [51,9 K], добавлен 08.05.2010Изучение употребления устойчивых оборотов речи в русском языке. Классификация фразеологических единиц, характеризующих социальное положение человека по степени слитности. Структурно-семантический анализ отобранных из словаря фразеологических оборотов.
курсовая работа [29,8 K], добавлен 22.04.2011Речь как вид деятельности человека и как ее продукт осуществляется на основе использования средств языка (слов, их сочетаний, предложений, пр.) и эмоциального выражения. Функции и разновидности речи. Этикет речевого общения и этикетные формулы речи.
реферат [26,4 K], добавлен 07.04.2008Понятие лингвистики связного текста. Теория связывания, механизм связности как основной текстообразующий фактор. Факторы, влияющие на выбор анафорических средств, степень активации референта в памяти человека. Типологии анафоры и виды антецедентов.
дипломная работа [93,0 K], добавлен 02.03.2011Изучение эмоций с точки зрения зарубежного и отечественного опыта. Уровни эмоциональной интенсивности. Взаимоотношение эмотивности и экспрессивности в языке. Лексико-семантические особенности и связи английских слов – наименований отрицательных эмоций.
дипломная работа [861,8 K], добавлен 22.08.2015История изучения детской речи. Речь как проявление творческой деятельности человека. Понятие "отрицательного языкового материала". Этапы освоения языка детьми: невербальный период, этап голофраз и звукоподражательных слов, первые двухсловные высказывания.
курсовая работа [39,6 K], добавлен 20.06.2013Влияние социальных факторов на особенности общения современной молодежи. Анализ речевой культуры подростка в среде сверстников, в кругу родителей и в обществе посторонних взрослых людей. Влияние преподавателя на формирование речи у старшеклассников.
реферат [17,0 K], добавлен 26.05.2015Теоретические основы исследования языкового такта в аспекте межкультурной коммуникации. Соотношение понятий "языковой такт" и "политкорректность". Проявления языкового такта в публикациях в социальных сетях в русскоязычной и англоязычной лингвокультурах.
дипломная работа [214,9 K], добавлен 29.05.2019Различия между литературным и разговорным языками, их характерные черты и сферы употребления. Взаимосвязь литературного и разговорного языков в повседневной жизни человека. Современные тенденции русской разговорной речи, ее эмоциональная окраска.
реферат [23,4 K], добавлен 18.06.2009Изучение фразеологии – материала, наиболее ментально содержательного с точки зрения воспроизведения языковой картины, и который ярко отражает национальную культуру народа. Влияние на фразеосемантическое поле психического, физического состояния человека.
статья [21,9 K], добавлен 14.04.2010Рассмотрение понятия и признаков разговорного стиля русского языка. Ознакомление со статистикой пользования социальными сетями. Положительные черты общения в Интернете. Изучение положительных и отрицательных языковых особенностей виртуального общения.
презентация [893,3 K], добавлен 24.04.2015Выявление характера и особенности специального искажения слов русского языка в виртуальном пространстве сети Интернет. Причины использования интернет-сленга при общении в социальных сетях. Сравнительный анализ отношения к интернет-сленгу детей и взрослых.
контрольная работа [914,8 K], добавлен 29.03.2016Целенаправленное и неосознанное влияние общества на систему языка. Языковая политика. Роль социальных факторов в развитии системы языка. Классификация социолингвистических факторов. Влияние социальных факторов на фонетическую и морфологическую систему.
курсовая работа [75,3 K], добавлен 23.03.2015Характеристика способов словообразования в немецком языке. Изучение словообразовательных моделей современного немецкого языка. Анализ особенностей газетно-публицистического текста и компьютерной лексики. Словообразовательные модели частей немецкой речи.
курсовая работа [58,3 K], добавлен 29.05.2014