Популярность текста
Оценка читабельности текста и факторы, оказывающие влияние. Сущность и методы машинного обучения. Метрики оценки качества классификаторов. Загрузка, извлечение атрибутов из текста. Индекс туманности Ганнинга. Статистический анализ языковых факторов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 15.09.2018 |
Размер файла | 419,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Введение
Интерес и потребность к выявлению и изучению факторов, обуславливающих популярность текста, всегда были высокими. Это может быть объяснено существованием большого количества областей, для которых этот аспект является важным и играет ключевую роль. Например, главной целью работы писателей и поэтов является создание таких текстов, которые позволяют получать материальное вознаграждение за свой труд и признание аудитории. Также крайне важно иметь возможность предсказывать популярность текстов для издательств, чтобы уменьшать риски инвестирования. Кроме того, маркетинговые агентства и маркетологи получают финансовую выгоду при помощи использования таких текстов, как одного из самых эффективных способов продвижения и продуктов и рекламы.
Говоря о языковых факторах, способных обусловливать популярность текста, как единицы языка, стоит отметить, что в данном случае популярность следует понимать, как «общедоступность, понятность широким, народным массам». В этом контексте популярность текста тесно связана с читабельностью.
Большое количество работ посвящено выявлению факторов, влияющих на читабельность (E. Gibson, 1998), созданию автоматических моделей ее вычисления (M. Coleman&TLiau, 2006). Также, существует ряд исследований, направленных на выявления статистической значимости этих языковых факторов (A. Nenkova&E. Pitler, 2008). Однако, важно упомянуть, что материал, использованный для данных исследований, был преимущественно на английском языке. Кроме того, работы, основанные на русскоязычном материале, носят теоретический характер и не используют статистических методов анализа.
Таким образом, целью данного исследования является проведение статистического анализа языковых факторов, влияющих на популярность текста.
Исходя из поставленной цели были определены следующие задачи:
1. проанализировать теоретические и практические исследования в данной области
2. собрать набор языковых факторов для последующего анализа
3. собрать набор текстов для практического анализа
4. проанализировать существующие методы для автоматического определения популярности текста
5. выделить выбранные факторы из собранных текстов
6. применить выбранные методы для проверки статистической значимости языковых факторов
7. сделать выводы
Объектом исследования являются тексты фанфиков, собранные с сайта www.ficbook.com. Выбор материала обусловлен следующими параметрами:
· Достаточное для использования статистических методов количество текстов (более 10 миллионов текстов различных тематик, жанров и размеров на 01.05.2018).
· Наличие оценки популярности текста среди читателей.
· Наличие свободного доступа к текстам и возможность их использования.
· Возможность автоматического сбора информации с сайта по средствам парсингаHTML-страниц.
Дата сбора материала - 01.05.2018
3732 текста и информация о них (дата загрузки на сайт, количество вхождений в сборники, жанры, оценка популярности) были собраны автоматически при помощи программы, написанной на языке Python. Все собранные тексты относились к одной категории «ориджиналы», что означает, что все авторские тексты основываются на новых историях, реальных или вымышленных самим автором произведения, а значит исключается влияние на оценки популярности самих текстов источников, на которых обычно базируются фанфики. Впоследствии 1841 из 3732 были удалены, в связи с запретом авторов текстов на оценивание их работ, а, соответственно, и с отсутствием оценки популярности. Окончательное количество текстов, входящих состав материалов исследования - 1891 текст.
Гипотеза исследования заключается в предположении о наличии корреляции между факторами, обуславливающими читабельность, общедоступность и понятность текста и его популярностью.
Структура исследования:
В первой главе производится анализ исследований, посвященных популярности, ее особенностях и подходах к изучению.
Во второй главе описываются теоретические исследования читабельности текста, существующие подходы ее оценки и выделяемые языковые факторы, влияющие на читабельность.
В третьей главе рассматриваются существующие методы машинного обучения и способы их применения для статистического анализа.
В четвертой главе описывается сбор и обработка материала исследования, отбор языковых факторов для последующего анализа, а также процесс автоматического выделения отобранных для анализа языковых факторов.
В пятой главе описывается применение моделей машинного обучения и производится анализ полученных результатов.
Глава 1. Популярность текста
Популярность имеет несколько значений в современном русском языке, рассмотрим наиболее частотные из них:
1) «Слава, известность, общественные симпатии к кому-чему-н» (Ушаков, )
2) «Простота, доступность изложения» (Ушаков)
Слово популярность было заимствовано из французского языка( от фр. populaire)(Крылов). Стоит отметить, что концепт популярность имеет широкое распространение в современном мире: определение «популярный» может получить большое количество предметов, явлений и действий, таких как, например, музыка, еда, сервисы, различные виды искусства, идеи, мода, танцы, политики, фильмы, литература и многое другое. Также популярность неразрывно связана с популярной культурой.
Под популярной культурой принято понимать доступную для понимания представителями всех существующих в обществе социальных групп и слоев область культуры, которая имеет широкое распространение.
Популярная культура характеризуется консьюмеризмом в отношении общепринятых тенденций, апелляцией к обыденному мышлению и простотой усвоения, не требующей особых знаний и навыков. Существенной особенностью популярной культуры является ее развлекательный характер. Основная сфера использования продуктов данной культуры - досуговая деятельность. Появление концепта популярной культуры можно соотнести с моментом выделения из общей культуры, имевшей сакральное значение, области, предназначенной для отдыха и развлечений. Ее дальнейшее развитие связано с эпохой Древнего мира и появлением крупных городов, расцвет приходится на эпоху Нового времени и связан с покровительством мелкой буржуазии и Просвещением. Образы, зародившиеся в популярной культуре в 18 и 19 веках, существенно изменились в современном контексте. Это привело к появлению новых жанров в разных областях культуры от музыки до литературы. Однако, важно отметить, что иногда продукт культуры, ставший популярным, то есть приобретший известность в широких кругах, остается, тем не менее, элитарным, соединяя в себе как элементы, легкие для понимания всеми представителям общества, так и те, что требуют специальных знаний для усвоения. Примерами таких продуктов культуры могут быть: картины художников-передвижников, музыка П.И. Чайковского и многие другие.
Говоря о популярности текста, неизбежно придется обратиться к популярной литературе. Развитие массовой литературы происходит в пределах характерных для нее жанров, таких как триллер, детектив, фэнтези, роман, приключения и ряд других. При этом необходимо отметить, что границы определения жанра произведения ужесточаются, после дробления жанра на подвиды, так появляются, например, детективный, женский, юмористический романы. Функционирование популярной литературы в обществе обуславливается законами коммерции и заключается в существовании бестселлеров, комиксов, покет-буков - книг небольшого размера в бумажной обложке, и некоторых других.
Массовая литература оценивается по-разному специалистами - литературоведами, критиками, культурологами и социологами - и читателями. Первые менее критичны и рассматривают популярную литературу как сравнительно более широкую область, в то время как вторые настроены более скептично. Кроме, стоит отметить, что в популярной литературе происходит выделение кластера «классики» - произведений, имеющих высокую общественную оценку (А. Кристи, Дж. Р. Р. Толкиен, Дж. Мартин и другие). Такое расслоение внутри массовой литературы приводит к тому, что не вошедшие в «классический раздел» произведения обычно оцениваются общество еще ниже, что заставляет авторов, работающих в данной сфере использовать псевдонимы.
Популярная литература рассматривается как часть общей литературы, а значит и часть культуры, что обуславливает предъявление к ней требования наличия художественной и духовной ценности. Эти требования являются причинами низкой оценки популярной литературы. Однако ее необходимо рассматривать отдельно от общей литературы, как элемент популярной культуры и, соответственно, предъявлять к ней соразмерные требования. Массовая культура отражает восприятие мира через призму массового стереотипированного сознания и родственна обыденной культуре, отражающей быт человека.
Основными характеристиками массовой культуры, корни которой уходят в народную культуру, являются общедоступность и общепонятность. Отличают массовую культуру от ее дальнего родственника космополитичность и приоритетное отражение вопросов выживания, семьи, иерархии общества. (Луков, 2006, 561)
Стоит отметить, что при обращении к проблемам веры, сверх сознания, интуиции массовая культура идет по пути упрощения в отличии от художественной культуры, целью которой является всестороннее и полное постижение бытия. Это связано с тем, что массовая культура предназначена для упрощения повседневной ориентации в мире.
Функция популярной литературы в массовой культуре может быть сравнима с функцией фольклора в народной. Так, в обоих видах литературы ключевыми элементами уровня содержания являются мифологизированные сюжеты, а уровня формы - клишированность, также присутствует строгое соответствие рамкам жанра и неважность авторской фигуры.
Наиболее распространённым жанром популярной литературы является детектив, освещающий вопросы выживания, смерти и жизни. Также популярны эротический и женский любовный романы, освещающие проблемы секса, семьи, успеха, героизма, денег и чувств. Важно сказать, что эти темы освещаются не с точки зрения философских рассуждений и поиска истины и общего знания о бытие, но с точки зрения самого события, как элемента, повышающего динамику сюжета. В этом заключается главное отличие популярной и классической литературы.
Кроме того, важным для понимания популярной литературы является формат ее издания. Оформление обложек для популярной литературы всегда выполнено ярко с целью быстрого привлечения читателей, сами книги выпускаются либо в формате карманных изданий с низкой ценой, которые выбрасываются после прочтения, например, в дороге, либо стандартизированного размера с красивым переплетом, способным украсить в дальнейшем интерьер. Это подчеркивает соответствие и отнесенность популярной литературы к обыденной культуре.
Итак, популярная литература акцентуируется на читателе и его переживаниях, ее содержание определяется обыденными потребностями читателя, удовлетворив которые обычно быстро забывается и даже выбрасывается, как другие предметы быта.
Таким образом популярная литература и популярные тексты тесно связаны с общепонятностью, доступностью широкому кругу людей, принадлежащих к различным социальным группам и слоям и, в конечном итоге, с таким понятием как читабельность текста.
классификатор загрузка текст читабельность
Глава 2. Читабельность текста и факторы, оказывающие влияние
2.1 К определению понятия читабельность
Популярность имеет несколько значений в современном русском языке, отметим наиболее частотные из них:
1) «Слава, известность, общественные симпатии к кому-чему-н» (Ушаков)
2) «Простота, доступность изложения» (Ушаков)
Слово популярность было заимствовано из французского языка ( от фр. populaire) (Крылов). Стоит отметить, что концепт популярность имеет широкое распространение в современном мире: определение «популярный» может получить большое количество предметов, явлений и действий, таких как, например, музыка, еда, сервисы, различные виды искусства, идеи, мода, танцы, политики, фильмы, литература и многое другое.
Под читабельностью понимается свойство текста, обеспечивающее легкое понимание для читателя. Так читабельность синонимична в локальном значении популярности текста.
Для оценки читабельности существует ряд методов, основными критериями для которых часто являются количество слов в тексте, среднее количество слов в предложении, среднее количество букв в предложении. Для различных языков методы вычисления читабельности могут варьироваться ввиду существования разных подходов к выделению слогов в слове, анализу аббревиатур, а также специфики самого языка, выражающейся, например, в целом более коротких или длинных словах, строе языка.
Оценка читабельности производится только в письменной речи, лингвистическое изучение которой возможно на морфологическом, синтаксическом и семантическом уровнях. Однако, стоит отметить также, что оценка читабельности может проводиться не только с лингвистической точки зрения, но и с точки зрения полиграфии, тогда при анализе учитываются графические особенности текстов, такие как тип, размер, цвет шрифта, его контрастность по отношению к фону, а также верстка, качество бумаги, использованной для печати.
Далее будут подробнее рассмотрен ряд формул, использующих для оценки читабельности текстов только собственно лингвистические факторы.
2.2 Индекс туманности Ганнинга
Данный метод оценки читабельности текста был разработан американским ученым Р. Ганингом в 1952 году(Miles, 1990, 280). Индекс туманности Ганинга применяется на текстах для широкого круга читателей и позволяет получить не только оценку читабельности текста, но и примерные значения минимально допустимого для корректного понимания текста возраста читателя.
Читабельность измеряется на 2 произвольных выбранных фрагментах текста длинной примерно по 100 слов. Параметры, используемые в формуле определения индекса туманности Ганинга:
*количество слов в тексте - k;
* количество предложений в тексте - s;
* среднее количество слов в предложения - w;
* среднее количество слов, содержащих более 3 слогов - l.
Первый шаг заключается в вычислении среднего количества слов в предложении w, которое осуществляется по следующей формуле:
Односложные предлоги, аббревиатуры, именные части речи во множественном числе и любые производные лексемы, создающие тавтологию в предложении, не учитываются при подсчете. Формула расчета индекса туманности:
Данный индекс активно используют для определения подходящей для текста аудитории, например индекс не ниже 12 будет означать что англоязычный текст будет понятен большей части населения англоязычной страны.
2.3 Формула Флеща
Данная формулачитабельности позволяет определить примерный уровень образования, необходимый для понимания текста. Она была разработана американским ученым Р. Флещем в 1948 году и считается одной из самых точных формул читабельности(Flesch, 1948, 221). В отличии от индекса туманности Ганинга, формула Флеща учитывает не только количество слов в предложении, но и среднюю длину слов в слогах. FRES (FleschReadingEaseScore) стал широко применятся после принятия в США закона о понятности договоров страхования для людей, имеющих только среднее образование.
При вычислении читабельности по формуле Флэша исследуется фрагмент текста длиной около 100 слов. Параметры, используемые в формуле:
* общее количество слов в тексте k;
* количество предложений в тексте s;
* общее количество слогов в тексте f;
* средняя длина предложения w;
* средняя длина слова p (в слогах).
Стоит отметить что аббревиатуры и любые графемы, в написании которых используется дефис, считаются отельными словами. Читабельность рассчитывается по следующей формуле:
Публицистический литературный язык имеет индекс Флеща не ниже 60, разговорный литературный язык - не ниже 80, при чем тексты со значением читабельности более 90 легки для восприятия младшими школьниками, в то время как тексты с индексом Флэша менее 30 могут вызывать трудности в понимании у людей, имеющих высшее образование.
2.4 Формула Флеща-Кинкэйда
Данная формула является результатом продолженной работы над формулой Флеща и позволяет явственно преобразовывать результаты читабельности текста по формуле Флеща в необходимый уровень образования. Сфера применения данной формулы : рекомендательная система книг и учебников.
При расчете учитываются следующие параметры:
* средняя длина предложения w;
* средняя длина слова p.
Формула Флеща-Кинкэйда:
2.5 График читабельности текста Фрая
Для исследования читабельности текста при помощи данного метода необходимо обработать фрагмент текста длиной около 100 слов и на основе полученных данных построить график зависимости количества слогов и количества предложений в отрывке(Long, 14). Так же для анализа учитываются следующие параметры:
* общее количество слов в тексте k;
* количество предложений в тексте s;
* общее количество слогов в тексте f;
* средняя длина предложения w;
* средняя длина слова p (в слогах).
2.6 Индекс Колемана-Лиау
Данный индекс при оценке читабельности текста основывается не на средней длине слов в слогах, а на средней длине слов в символах(McCallum, 1982, 16). Кроме того, в нем учитываются следующие параметры:
* количество символов в тексте x;
* количество слов в тексте k;
* количество предложений в тексте s;
* средняяколичество слов в предложении w;
* среднее количество символов в слове Р.
Формула для расчета индекса Колемана-Лиау:
2.7 Оценка читабельности Рэйгора
Параметрами оценки читабельности текста при помощи метода Рэйгора(Raygor, 1977, 260) являются прежде всего среднее количество слов в предложении и среднее символьная длина слов. Данный метод позволяет определить минимальный возраст читателя, для которого исследуемый текст может быть понятен. При анализе также учитываются:
* общее количество слогов в тексте f;
* общее количество слов в тексте k;
* количество предложений в тексте s;
* средняя длина предложения w;
* средняя длина слова p (в слогах).
2.8 Формула Пауэрса-Самнера-Кеарла
Данный метод анализа подходит только для текстов, адресованных детской аудитории(Powers, 1993, 101). Для расчетов используется произвольно выбранный отрывок длиной около 100 слов и следующие параметры:
* общее количество слогов в тексте f;
* общее количество слов в тексте k;
* количество предложений в тексте s;
* средняя длина предложения w;
* средняя длина слова p (в слогах).
Формула для расчетов:
2.9 Формула Маклаулина
Для вычисления читабельности по данной формуле используется отрывок текста длиной 30 предложений, при этом учитываются следующие параметры:
* общее количество слов в тексте k;
* количество "длинных" слов в тексте L;
* среднее количество "длинных" слов в тексте l.
Результаты, получаемы при использовании данных формул являются более высокими по сравнению с результатами других формул читабельности. Это связано с тем, что формула Маклаугина была разработана для определения способности к полному пониманию текста.
2.10 Формула FORCAST
Данная формула была создана для анализа читабельности технической документации и применялась в американской армии (McLaughlin, 1969, 641), ввиду этого может быть использована только для текстов, адресованных взрослым читателям.
* общее количество слов в тексте k;
* количество односложных слов в тексте b.
Приведенные выше способы измерения читабельности текстов подчеркивают разнообразие существующих в настоящее время подходов, которое, несмотря на использования различных коэффициентов и критериев, тем не менее, дают в целом схожие результаты.
Стоит также отметить, что приведенные выше тесты подходят для оценки читабельности только существующих текстов и не могут быть использованы в рекомендательных системах по написанию текстов.
Глава 3. Методы машинного обучения
3.1 Сущность машинного обучения
Под машинным обучением принято понимать ряд методов, применяемых для решения задач в процессе обучения на большом наборе данных, а не на программировании правил. Эти методы базируются на средствах математической статистики, математического анализа, линейной алгебры, теории графов, теории вероятностей, методах оптимизации и ряде других математических дисциплин.
Машинное обучение делится на два подвида:
Обучение без учителя или индуктивное обучение, основанное на выявлении закономерностей в данных.
Обучение с учителем или дедуктивное обучение, заключающееся в формализации экспертных знаний о мире и их представление в виде, возможном для обработки машиной.
Термин «машинноеобучение» был предложен Артуром Самюэлем в 1959 году. Понятие машинного обучение пришло из теории распознавания образов и теории вычислительного обучения в искусственном интеллекте. Машинное обучение используется в ряде вычислительных задач, где проектирование и программирование явных алгоритмов с хорошей производительностью является трудным или неосуществимым; например, фильтрация электронной почты, обнаружение сетевых злоумышленников, оптическое распознавание символов, обучение ранжированию и компьютерное зрение.
К задачам, решаемым при помощи машинного обучения относятся задачи регрессии, классификации, кластеризации, уменьшения размерности данных и ряд других. Рассмотрим наиболее известные задачи.
3.2 Регрессия
Задача регрессии относится кобучению с учителем и является частной задачей прогнозирования. «Классический регрессионный анализ опирается на некоторую систему постулатов в основном статистического характера. Эти постулаты гласят, что регрессия представляет собой линейную комбинацию некоторых линейно независимых базисных функций от факторов с неизвестными коэффициентами (параметрами).»(Дрейпер, 1973, 7)
Регрессионный анализ может использоваться для нахождения степени детерминированности зависимых переменныхнезависимыми, предсказания значений зависимых переменных, а также для определения значимости независимых переменных для вариации зависимой.
В статистике линейная регрессия - это линейный подход моделирования отношений между множеством независимых переменных и одной или более зависимыми переменными.
В линейной регрессии отношения моделируются с использованием линейных функций, в которых неизвестные параметры вычисляются на основе имеющихся данных. Как и все виды регрессионного анализа линейная регрессия фокусируется на условной вероятности распределения целевых значений.
Линейная регрессия - первая модель регрессионного анализа, которая изучалась и широко применялась в практических задачах. Этосвязаностем, чтомоделис линейной зависимостью переменных являются более простыми в применении и вычислениях, чем нелинейные. Стоитотметить, чтолинейная регрессия имеет большую количество сфер практического использования, однако большинство из них могут быть разделены на 2 категории:
Если целью анализа является предсказание или прогнозирование, тогда алгоритм линейной регрессии может быть использован для создания предикативной модели на исследуемом наборе данных, содержащих значения целевых и независимых переменные. После создания такой модели, если дополнительные значения объясняющих переменных будут собраны без сопроводительного значения ответа, подходящую модель можно использовать для прогнозирования ответа.
Если целью анализа является объяснение вариации целевой переменной, которая может быть описана через независимые переменные, линейный регрессионный анализ может быть применен для того, чтобы измерить корреляцию между независимыми и целевыми переменными, и в особенности определить, могут ли независимые переменные не иметь линейной зависимости от целевых значений или идентифицировать какие поднаборы независимых переменных могут содержать избыточные данные о целевых значениях.
Модель линейной регрессии является вероятностной моделью, математическое определение которой в общем случае имеет следующий вид:
где У - n-мерный вектор наблюдений, Х - известная матрица плана размерности n?p, ? - неизвестный р-мерный вектор параметров, -n-мерный случайный вектор-столбец ошибок.» (Айвазян, 1983, 68)
Для оценки качества работы моделей линейной регрессии применятся ряд метрик:
· Сумма квадратов остатков SSE
· Среднеквадратичная ошибка MSE
· Квадратный корень среднеквадратической ошибки
· Коэффициент детерминации
Где сумма квадратов остатков регрессии вычисляется по формуле:
Общая сумма квадратов:
3.3 Классификация
Задача классификации относится к обучению с учителем и заключается в установлении принадлежности конечного множества объектов к одному из имеющихся классов(Айвазян, 1989).В современном машинном обучении существует большое количество алгоритмов для решения задач классификации, они реализованы на многих языках программирования, что позволяет пользователям с разным уровнем подготовки использовать данные методы. В настоящее время широко используются следующие алгоритмы классификации:
1) Наивный Байесовский классификатор.
Этот классификатор создан на предположении строгой независимости классов и работает на основе теоремы Байса, которая для рассматриваемого случая будет давать вероятность принадлежности элемента конечного множества входных объектов к одному из классов.
2) Логистическая регрессия.
Метод логистической регрессии основан на использовании логарифмической функции, график которой хорошо подходит для бинарной классификации данных. Классы отделяют друг от друга линейно в точке, максимально удаленной от обоих классов.Сутью метода логистической регрессии является построение логарифмической функции, описывающей обучающие данные и нахождение максимально удаленной от обоих классов точки.
Решение об отнесении объекта тестовой выборки к тому или иному классу принимается на основе его расположения относительно разделяющей прямой.
3) Метод решающих деревьев.
Деревья решений - это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если ... то ...".
Задается обучающее множество, содержащее N объект, каждый из которых характеризован m атрибутами, один из которых указывает на принадлежность к одному из n классов, тогда возможны 3 ситуации:
1. Множество X содержит один или более предложений, относящихся к одному из n классов, тогда дерево решений для этого множества - лист, определяющий этот класс.
2. Множество Х не содержит ни одного примера, т.е является пустым множеством. Тогда это снова лист, и класс, ассоциированный с листом, выбирается из другого множества отличного от Х, скажем, из множества, ассоциированного с родителем;
3. Множество Х содержит примеры, относящиеся к разным классам. В этом случае следует разбить множество Х на некоторые подмножества. Для этого выбирается один из признаков, имеющий два и более отличных друг от друга значений O1, O2, ... On. Х разбивается на подмножества Х1, Х2, ... Хn, где каждое подмножество Хi содержит все примеры, имеющие значение Хi для выбранного признака. Это процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу.
На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но наибольшее распространение и популярность получили следующие два:
* CART (ClassificationandRegressionTree) - это алгоритм построения бинарного дерева решений - дихотомической классификационной модели. Каждый узел дерева при разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии.
* C4.5 - алгоритм построения дерева решений, количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации.
Большинство из известных алгоритмов являются "жадными алгоритмами". Если один раз был выбран атрибут, и по нему было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный атрибут, в конечном итоге, оптимальное разбиение.
4) Метод опорных векторов.
В методе опорных векторов проводится предсказание вероятностей принадлежности предложений к определенному классу исходя из выборки исходных значений, высчитывается значение функции, описывающей разделяющую границу, а классификация производится на основе вычислений, показывающих, где именно по отношению к разделяющей границе находится классифицируемый объект. При этом линейность разделения не обязательна, а за вид разделяющей границы отвечает вид ядра. Чаще всего на практике встречаются следующие ядра:
Полиномиальное:
Радиальная базисная функция:
Гауссова радиальная базисная функция:
Сигмоид: 0
3.4 Метрики оценки качества классификаторов
Для интерпретации результатов работы алгоритмов классификации и понимания качества выполненной классификации принято использовать ряд метрик:
1) Recall (полнота)
Первая метрика, которая использовалась для оценки классификаторов - полнота. Для ее вычисления необходимо поделить истинно-положительные (те тексты, которые отнесены классификатором к определенному классу, и на самом деле принадлежат к нему) решения на сумму истинно-положительных и ложно-отрицательных (те тексты, которые не отнесены к определенному классу, но на самом деле принадлежат к нему).
Recall =
Где TP -- истинно-положительное решение;
FN -- ложно-отрицательное решение.
Полнота показывает долю найденных классификатором документов определенного класса относительно всех документов этого класса.
2) Precision (точность)
Точность является частным истинно-положительных решений и суммы истинно-положительных и ложно-положительных.
Precision =
Где TP -- истинно-положительное решение;
FP -- ложно-положительное решение;
Точность показывает долю верно определенных классификатором объектов определенного класса относительно всех объектов, отнесенных моделью к этому классу. Таким образом, чем выше значение этой метрики, тем меньшее объектов, не принадлежащих к классу А, классификатор относит к этому классу. Так как, метрика высчитывается по обоим классам, учитывается и количество объектов, принадлежащих к классу А, но не отнесенных к нему классификатором.
3) F1 - мера.
F-мера представляет собой гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремятся к нулю.
F1 =
Как было сказано выше, чем выше значение полноты и точности, тем лучше обученная модель, однако в реальности невозможно добиться максимизации этих параметров одновременно, поэтому была создана метрика, объединяющая значение двух вышеназванных.
Рис.1
4) Accuracy
Данная метрика показывает долю объектов, по которым классификатор принял правильное решение
Accuracy =
Где TP - истинно-верные решения
TN - истинно-ложные решения
N - размер обучающей выборки
Одно из основных свойств данной метрики - присваивание всем объектам одинакового веса, что некорректно при несбалансированной выборке.
Глава 4. Автоматический сбор материалов исследования и выделение языковых факторов для последующего анализа
4.1 Загрузка текстов
Для исследования популярности текстов в данной работе были загружены любительские художественные тексты на русском языке с сайта www.ficbook.net. Выбор данного источника для сбора материалов обусловлен следующими его характеристиками:
1. Достаточное для использования статистических методов количество текстов (более 10 миллионов текстов различных тематик, жанров и размеров).
2. Наличие оценки популярности текста среди читателей.
3. Наличие свободного доступа к текстам и возможность их использования.
4. Возможность автоматического сбора информации с сайта по средствам парсингаHTML-страниц.
Все тексты, отобранные для исследования, относятся к одной категории - ориджиналы, что означает, что они основаны либо на реальных событиях, либо являются полностью вымышленными автором. Это позволяет избежать искажения оценок популярности самого текста, влияние на которые могут оказать оригинальные произведения, фильмы, сериалы, персоны, на которых базируются фанфики, на которых специализируется сайт.
Автоматическая загрузка текстов и метаданных о них осуществлялась с помощью написанной на языке программирования Python программы-краулера.См. код в Приложении.Функционал сайта позволяет использовать фильтр и отобрать только 50 страниц-меню, содержащих по 20 ссылок на фанфики категории ориджиналы. Данного объема недостаточно для применения статистических инструментов, поэтому было принято решение добавить фильтр размера фанфиков(драббл, мини, миди и макси). Таким образом, было собрано 4000 самых популярных текстов, по 1000 каждого размера, а также следующая информация:
1. Оценка популярности текста.
2. Дата загрузки текста на сайт.
3. Количество сборников, в которые включен текст.
4. Жанры текста.
Все загруженные данные были сохранены в файле формата .csv, который позволяет получать быстрый доступ к информации, а также организует ее в удобном для дальнейшей обработки виде.
4.2 Извлечение атрибутов из текста
Все факторы были извлечены из текста автоматически, при помощи программ, написанных на языке программирования Python.
1. Среднее количество символов в слове.
Для вычисления среднего количества символов в слове для одного текста была произведена токенизация текста - разделение текста на отдельные лексемы и удаления пунктуации. После этого для каждого текста применялась формула:
2. Среднее количество слов в предложении
Для вычисления среднего количества слов в предложении также была написана отдельная функция split_tokenized_text, производящая токенизацию текста с последующей разбивкой на предложения. Следующим шагом было применение формулы:
3. Максимальное число слов в предложении
Для вычисления максимального количества слов в предложении использовалась функция предобработки текста split_tokenized_text, а также встроенная функция max.
4. Число слов в тексте
Для определения количества слов в тексте была проведена токенизация каждого текста и вычисления длины списка, хранящего все лексемы текста без знаков препинания.
5. Среднее количество местоимений в предложении
Для определения среднего количества местоимений в предложении была проведена следующая предобработка текстов:
· Токенизация текста
· Разделение токенизированного текста на предложения
· Лемматизация текста - приведение всех словоформ к начальным грамматическим формам.
· Автоматическая частеречная разметка текста, которая осуществлялась при помощи библиотеки pymystem3
· Извлечение частеречных тегов при помощи регулярных выражений.
Библиотека pymystem3, которая является реализацией алгоритма морфологического анализа MyStem для языка программирования Python, была выбрана ввиду следующих причин:
· возможность некоммерческого использования
· лучшие показатели точности при лемматизации (96.94%) в сравнении с другими доступными частеречными разметчиками на русском языке (pymorphy2, TreeTagger, FreeLing) (Filchenkov, 2017)
· высокая скорость работы
Библиотека pymystem 3 позволяет извлекать местоименные наречия (вопросительные, указательные) местоимения-прилагательные (притяжательные, указательные) и местоимения-существительные( личные относительные неопределенные), придерживаясь классификации Льва Владимировича Щербы.(Щерба, 1957) Однако в автоматическом разборе отсутствует возможность определения разрядов местоимений.
Следующим шагом было вычисление среднего количества местоимений в предложении по формуле:
6. Среднее количество повторяющихся слов в соседних предложениях
Для определения среднего количества повторяющихся слов в соседних предложениях были проведены токенизация, лематизация и разделение на предложения. Следующим шагом было создание списков соседних предложений текста и подсчет повторяющихся лемм.
7. Среднее количество повторяющихся существительных и местоимений в соседних предложениях
Для вычисления среднего количества повторяющихся существительных и местоимений в соседних предложениях были произведены токенизация, лемматизация, разделение на предложения, частеречная разметка, выделение частеречных тегов при помощи регулярных выражений, создание списков, содержащих все местоимений и существительные соседних предложений, вычисление количества повторяющихся лемм.
8. Длинна текста в слогах
Под слогом понимается «минимальная фонетико-фонологическая единица, характеризующаяся наибольшей акустико-артикуляционной слитностью своих компонентов, то есть входящих в него звуков» (Розенталь, 1985)Слог не связан со смыслом и выделяется только в фонетике, являясь совокупность различных по звучности звуков: слогообразующих и неслоговых.
Существуют 2 теории, относящиеся к проблеме определения слога. Первая предлагает решение с точки зрения образования звуковых единиц, и тогда под слогом понимается звук или звукосочетание, порождаемое толчком выдыхаемого воздуха, который создает речевой аппарат. В то же время, с точки зрения акустического подхода, слог - отрезок фонетического слова, в составе которого присутствует один звук с наибольшей степенью звучности по отношению к звукам, которые его окружают.
Четкое определение слоговых границ является сложным вопросом и решается по-разному в зависимости от фонетической системы конкретного языка. В русском языке нет закрытого списка фонологических признаков, определяющих границы слога(Ярцева, 1990), однако в настоящее время принят слогораздел после гласного звука (Бондарко, 1977), за рядом некоторых исключений.
В то же время существует однозначное определение количества слогов для русского языка, в котором слогообразующий звук - гласный, при чем невозможно соседство двух гласных звуков в рамках одного слога. (Бондарко, 1977)Таким образом, количество слогов в слове определяет количество гласных звуков.
Стоит отметить, что лексемы, состоящие только из согласных звуков, не могут образовывать самостоятельных фонетических слов, а значит и звуков, и входят в состав фонетических слов вместе с другими совместными лексемами, при этом согласный звук становится частью слога следующего за ним слова.
Так как в данном исследовании не ставится задачи выделения слогов, а необходимо только определение их количества, то задача сводится к определению количества гласных звуков, что будет отражать соответственно количество слогов. На письме каждому гласному звуку в русском языке соответствует одна из гласных букв.
Таким образом, для определения длины текста в слогах было посчитано количество гласных букв в каждом тексте.
9. Среднее количество слов длиннее 3 слогов
Для определения среднего количеств слов длиннее 3 слогов была проведена токенизация текста, вычисление количества слов необходимой длины в каждом предложении, нахождение средней величины по следующей формуле:
10. Среднее количество односложных слов
Для определения среднего количества односложных слов была проведена токенизация текстов, нахождение среднего количество слов длиной 1 слог в предложении.
Глава 5. Статистический анализ языковых факторов
Для проведения статистического анализа популярности текстов на основе выделенных языковых факторов было решено использовать алгоритмы линейной регрессии, так как данная задача связана с прогнозированием числового значения читательской оценки текста. Для анализа были отобраны три модели, реализованные на языке Python: Linear Model Regression, Xg Boost Regression, Decision Tree Regression. Ввиду ограничений, накладываемых на исследование имеющимся в распоряжении оборудованием. применение модели Xg Boost оказалось невозможным.
Для оценки качества работы моделей использовались следующие метрики качества:
Метод наименьших квадратов MSE
Коэффициент детерминации
В ходе анализа были получены следующие значения метрик:
MSE |
R2 |
||
LinearModelRegression |
11372019.89 |
0.12 |
|
DecisionTreeRegression |
8687428.85 |
0.15 |
Значения среднеквадратичной ошибки у обеих использованных в анализе моделей регрессии крайне высоки, что говорит о значительной неточности моделей и плохой способности предсказывать оценки популярности. Кроме того, отрицательное значение метрики R2 у модели линейной регрессии означает, что модель, натренированная на обучающих данных, показывает худшие результаты предсказания, чем случайно формируемые величины. Низкое значение R2 модели Decision Tree Regression говорит о соответственно низком качестве предсказаний этой модели. Исходя из полученных значений, можно сделать вывод о том, что модели линейной регрессии не справляются с решением поставленной задачи, что может быть обусловлено спецификой данных.
В связи с этим было принято решение о применении методов классификации. Для этого все значения оценок популярности были разделены на 4 равных класса по квантилям.
В качестве моделей классификаторов были выбраны модели, реализованные в пакете sklearn на языке python :SVC, Gaussian Naive Bias, Multinomial NaiveBias, Ada Boost Classifier, Random Forest Classifier, Logistic Regression.
Для оценки обученных классификаторов использовался метод кросс-валидации по 5 блокам, суть которого заключается в разделении обучающей выборки на 5 равных частей, одна из которых используется в качестве тестовой выборки, а 4 других - обучающей, при этом обучение происходит 5 раз с изменением блока тестовой выборки. Для измерения моделей в машинном обучении применяется ряд метрик, которые высчитываются, как среднее арифметическое метрик, полученных на каждом из этапов кросс-валидации. Ниже приведены полученные значения для каждой модели:
Recall |
Precision |
F1 |
||
SVC |
0.313381858903 |
0.47299911687 |
0.220555052489 |
|
GaussianNaiveBias |
0.329613661814 |
0.300438472859 |
0.285041120836 |
|
MultinomialNaiveBias |
0.35578387458 |
0.341200528205 |
0.318018229416 |
|
AdaBoostClassifier |
0.42727323628 |
0.427515889108 |
0.4176670537433 |
|
RandomForestClassifier |
0.417374020157 |
0.432943690093 |
0.401630239772 |
|
LogisticRegression |
0.364832026876 |
0.340429890535 |
0.329737908787 |
Чем выше значение метрики precision (точность) для классификатора, тем большее количество текстов, отнесенных им к определенному классу на самом деле окажутся представителями этого класса. Чем выше значение метрики recall (полнота), тем большее количество текстов определенного класса будут отнесены классификатором к этому классу. Поскольку в нашей задаче классификации текстов одинаково важны и полнота, и точность, наиболее релевантной метрикой оказывается F1-мера, позволяющая учесть оба этих параметра, при том, чем выше значение F1-меры, тем лучше классификатор справляется с поставленной задачей. Таким образом, ранжирование значимости атрибутови оценка работы классификаторов будет проводиться по метрике F1
Исходя из полученных данных, можно сделать вывод, что наилучшие результаты классификации показала модель AdaBoostClassifier. Значение метрик Recall иF1 у этой модели являются самыми высокими, в то время как значение метрики Precision лишь третье по величине, однако, несмотря на это, для дальнейшего анализа будет использоваться модель AdaBoostClassifier, так как значение контрольной метрики F1 у нее наивысшее.
С помощью выбранной модели классификации была проведена оценка значимости каждого из выбранных для анализа в данном исследовании атрибутов. Для этого модель AdaBoostClassifier с кросс-валидацией на 5 блоков, максимальной глубиной деревьев - 5, минимальное количество объектов в листе - 2, число деревьев - 1000 обучалась 10 раз на 9 из 10 атрибутах по очереди, чтобы оценить влияние каждого из атрибутов на качество предсказаний. Результаты работы модели представлены в таблице ниже:
Recall |
Precision |
F1 |
||
Feature 1 |
0.4045240761478164 |
0.4252579136906104 |
0.4232656711156245 |
|
Feature 2 |
0.4294232922732363 |
0.4326424696101908 |
0.43636509742168583 |
|
Feature 3 |
0.4330347144456887 |
0.43835041993180274 |
0.43060996850799305 |
|
Feature 4 |
0.4384322508398656 |
0.4331013107002356 |
0.4286473341412217 |
|
Feature 5 |
0.4192833146696529 |
0.43130954486062245 |
0.4288881700501059 |
|
Feature 6 |
0.42201567749160135 |
0.42781823976005817 |
0.4286827159000697 |
|
Feature 7 |
0.420996640537514 |
0.4278045751678471 |
0.41924157691444003 |
|
Feature 8 |
0.43739081746920494 |
0.4284628011385247 |
0.43764751649808603 |
|
Feature 9 |
0.43522396416573345 |
0.42415776424794027 |
0.4254203313081269 |
|
Feature 10 |
0.42618701007838744 |
0.41181277236166636 |
0.42602704223062027 |
На основе полученных данных можно сделать вывод о том, что атрибуты, оказывающие наибольшее влияние на результаты классификации, являются: feature8 (длинна текста в слогах), feature2 (среднее количество слов в предложении),feature3 (максимальное количество слов в предложении): их отсутствие улучшает результаты классификации на 0,021, 0,019, 0,014 соответственно. При чем, такжестоит отметить, что отсутствие feature8 при классификации улучшает recall, а значит классификатор способен правильно классифицировать большее количество текстов, отсутствие feature2иfeature 3 улучшает значение метрики precision, и, соответственно, позволяет классификатору совершать меньше ошибок при отнесении того или иного текста к определенному классу. Это означает, что данные атрибуты затрудняют классификацию и имеют отрицательную корреляцию с популярностью текстов. Несмотря на то, что подавляющее большинство существующих способов для оценки читабельности текстов используют в том или ином виде длину текстов, а также длину предложений, статистически эти признаки имеют наименьшее влияние на понятность текста.
Отсутствие остальных атрибутов также показывает незначительное улучшение значений F1 классификаторов, однако оно меньше, поэтому не рассматривается как статистически значимое.
Заключение
Гипотеза о наличии корреляций между признаками, обуславливающими читабельность текста, и ее популярность подтвердилась частично. Относительно слабая положительная корреляция обнаружена с рядом атрибутов, при этом выявлены 3 признака, показывающие отрицательную корреляцию: длинна текста в слогах, среднее количество слов в предложении, максимальное количество слов в предложении. Полученные результаты могут быть связаны с комплексностью популярности как явления. Исследованные в данной работе признаки показывают взаимосвязанность с популярностью текста, однако, вероятнее всего, не представляют собой исчерпывающий список факторов, обуславливающих популярность. В будущих исследованиях видится целесообразным выявление и анализ семантических атрибутов, не учтенных в настоящей работе, на предмет наличия корреляций с популярностью текста. Также необходимо исследовать экстралингвистические факторы, которые способны оказывать влияние на популярность текста на интернет-ресурсах, такие как дата и время публикации текста, наличие у автора публикации особых привилегий в размещении на сайте и в поисковых выдачах, популярность самого автора публикаций и ряд других.
Список литературы
1. Айвазян С. А. Прикладная статистика. Основы моделирования и первичная обработка данных. - 1983.
2. Айвазян С. А., Бухштабер В. М., Енюков Е. С. Прикладная статистика Классификация и снижение размерности. - 1989.
3. Анисимович К. В. и др. Синтаксический и семантический парсер, основанный на лингвистических технологиях //Международная конференция по компьютерной лингвистике «Диалог». URL: http://www. dialog-21. ru/digests/dialog2012/materials/pdf/Anisimovich. pdf (датаобращения: 24.12. 2014). - 2014.
4. Бабина О. И., Мыларщикова Т. Ю. Извлечение именных групп из корпуса текстов на испанском языке //Вестник Южно-Уральского государственного университета. Серия: Лингвистика. - 2011. - №. 22 (239).
5. Бериков В. С., Лбов Г. С. Современные тенденции в кластерном анализе // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы», 2008. -- 26 с.
6. Бондарко Л. В. Звуковой строй современного русского языка. - 1977.
7. Власова Н. А., Подобряев А. В. К вопросу об определении границ именных групп при решении задач автоматического извлечения информации из текстов на русском языке //Программные системы: теория и приложения. - 2016. - Т. 7. - №. 1. - С. 153-170.
8. Дрейпер Н. Р. Прикладной регрессионный анализ. - Рипол Классик, 1973.
9. Зализняк А. «Русское именное словоизменение» с приложением избранных работ по современному русскому языку и общему языкознанию. - Litres, 2017.
10. Коробко М. А. Соотношение канона и фанона (на материале фандомов «Шерлок»,«Мерлин»,«Сверхъестественное») //Вестник Брянского государственного университета. - 2015. - №. 2.
11. Кузнецова Т. Ф., Луков В. А., Луков М. В. Массовая культура и массовая беллетристика //Информационный гуманитарный портал Знание. Понимание. Умение. - 2008. - №. 4. - С. 9-9.
12. Луков В. А., Луков В. А. Теория тезаурусного подхода //Гуманитарное знание: тенденции развития в XXI веке/под общ. ред. ВА Лукова. М.: Изд-во Нац. ин-та бизнеса. - 2006. - С. 557-564.
13. Мандель И. Д. Кластерный анализ. - Финансы и статистика, 1988.
14. Плунгян В. А. Введение в грамматическую семантику: грамматические значения и грамматические системы языков мира. - Федеральное государственное бюджетное образовательное учреждение высшего образования" Российский государственный гуманитарный университет", 2011. - С. 7281-7281.
15. Рогушина Ю. В. Использование критериев оценки удобочитаемости текста для поиска информации, соответствующей реальным потребностям пользователя. - 2007.
16. Розенталь Д. Э., Теленкова М. А. СЛОВАРЬ-СПРАВОЧНИК. - 1985.
17. Рыбанов А. А. Оценка качества текстов электронных средств обучения Школьные технологии. - 2011. - №. 6. - С. 172-174.
18. Червинский П., Надель-Червинская М. Толково-этимологический словарь иностранных слов русского языка. - KrokPublishers, 2012.
19. Четина Е. М., Клюйкова Е. А. Фандомы и фанфики: креативные практики на виртуальных платформах //Вестник Пермского университета. Российская и зарубежная филология. - 2015. - №. 3 (31).
20. Шатрова Е. Д., Ласица Л. А. К проблеме определения жанров произведений фанфикшн //Вестник Оренбургского государственного университета. - 2017. - №. 1 (201).
21. Шереметьева С. О., Осминин П. Г. Методы и модели автоматического извлечения ключевых слов //Вестник Южно-Уральского государственного университета. Серия: Лингвистика. - 2015. - Т. 12. - №. 1.
22. Щерба Л. В. О частях речи в русском языке //Избранные работы по русскому языку. - 1957. - С. 63-84.
23. Ярцева В. Н. и др. Лингвистический энциклопедический словарь. - Советская энциклопедия, 1990.
24. Coleman M. and Liau T. (1975), A computer readability formula designed for machine scoring. Journal of Applied Psychology, pp. 283-284.
25. Cruse D. A. Lexical semantics. - Cambridge University Press, 1986.
26. Filchenkov A., Pivovarova L., Zizka J. (ed.). Artificial Intelligence and Natural Language: 6th Conference, AINL 2017, St. Petersburg, Russia, September 20-23, 2017, Revised Selected Papers. - Springer, 2017. - Т. 789.
27. Flesch R. A new readability yardstick //Journal of applied psychology. - 1948. - Т. 32. - №. 3. - С. 221.
28. Gibson E. (1998), Linguistic complexity: locality of syntactic dependencies. Cognition, pp. 1-76.
...Подобные документы
Работа в окне документа. Ввод текста. Вставка и удаление текста. Отмена результатов выполненных действий. Перемещение и копирование текста методом "перетащить-оставить". Форматирование текста. Сохранение документа. Шаг вперед: смена регистра.
лабораторная работа [220,9 K], добавлен 10.03.2007Организация возможности просмотра текстовых файлов и осуществления поиска нужных слов в тексте. Редактирование текста (шрифт, размер). Алгоритм поиска подстроки в строке (метод Кнута-Морриса-Пратта). Загрузка текста из файла (с расширением .txt).
курсовая работа [2,2 M], добавлен 29.05.2013Работа с фигурным текстом. Форматирование и редактирование текста. Редактирование узлов фигурного текста. Привязка текста к фигурам. Выравнивание текста на фигуре. Перспектива, оболочки и выдавливание. Работа с простым текстом.
реферат [12,7 K], добавлен 21.12.2003Распознавание текста на изображениях как очень важная задача, имеющая множество практических приложений. Особенности архитектуры интегрированной системы получения текстовой информации из изображений. Общая характеристика методов выделения текста.
курсовая работа [1,7 M], добавлен 12.06.2016Работа с текстом в программе Inkscape. Предложение с иероглифами, редактирование и применение атрибутов текста, выделение символов в строке. Редактирование текста и проверка орфографии, подбор цвета и шрифта в тексте, логотипы и их значение в программе.
отчет по практике [2,8 M], добавлен 29.05.2012История появления и развития шифрования текста. Проблема шифрования и дешифрования текстовых сообщений в современности. Создание программы для зашифровки и расшифровки вводимого текста пятью методами: Атбаш, Цезаря, Полибия, Гронсфельда и Винжера.
курсовая работа [923,6 K], добавлен 26.12.2011Интерфейс текстового редактора MS Word. Редактирование и форматирование текста в MS Word, вставка таблиц, текста WordArt и объектов из другого приложения. Создание схематических диаграмм, использование данных из табличного процессора Microsoft Excel.
презентация [1022,7 K], добавлен 05.06.2015Структура и алгоритм составления рекламного текста. Возможности графики в рекламных текстах. Анализ рекламного текста на основе архетипов К.Г. Юнга. Цвет и шрифт как часть графики в рекламных текстах. Архетипы рекламного текста на примере MacBook Air.
дипломная работа [8,0 M], добавлен 29.12.2012Структура окна офисного приложения MS Word, ввод текста, копирование и перемещение его фрагментов. Работа со встроенными шрифтами, сохранение, закрытие и открытие документов. Создание нового документа, установка параметров страницы, форматирование текста.
лабораторная работа [33,7 K], добавлен 26.01.2010Форматирование текста с помощью HTML. Задание цвета на веб-странице. Задание размера шрифта. Физическое и логическое форматирование символов. Вставка специальных символов. Удобочитаемость, содержание и форма шрифта. Подбор шрифта и верстка текста.
курсовая работа [1,3 M], добавлен 01.10.2014История развития компьютерного анализа текста на естественном языке; выделение его проблем. Принципы извлечения информации и обработки разговорной речи. Ознакомление с программными продуктами, реализующими машинный перевод и проверку орфографии.
реферат [371,0 K], добавлен 13.02.2011Анализ особенностей работы и основных операций с символьными строками, указателями, функциями, динамически выделяемой памятью. Ввод текста в пустые строки. Вывод введённого текста на экран. Замена первых слов строк. Проверка правильности работы программы.
курсовая работа [1,9 M], добавлен 17.07.2014Порядок и основные правила создания и редактирования текста. Способы выделения текста. Исправление орфографических ошибок с помощью функции автоматической проверки правописания в тестовом редакторе Word. Присвоение имя файлу и его сохранение в программе.
лабораторная работа [116,5 K], добавлен 04.12.2010Цели, задачи и виды, методы и направления обработки информации, современные системы. Проблемы, связанные с компьютерными способами обработки информации. Конвертирование текста из DJVU в PDF, преобразование из PDF в WORD, редактирование полученного текста.
дипломная работа [1,8 M], добавлен 18.06.2011Классификация текстовых редакторов и процессоров. Способы хранения текста в файле. Форматирование документа и его редактирование. Среда текстового редактора. Автоматическая проверка орфографии и синтаксиса текста, автотекст, автозамена, гипертекст.
курсовая работа [35,0 K], добавлен 25.04.2013Проблема конфиденциальности информации и принципы ее реализации, используемые методы. Общая характеристикам и сравнение шифров DES и ГОСТ, оценка их главных преимуществ и недостатков применения, удобства использования, возможности и функциональность.
курсовая работа [525,8 K], добавлен 22.06.2015Разработка алгоритмов на персональном компьютере, среда Турбо Паскаль. Работа программы для шифровки и дешифровки текста. Алгоритм шифрования: с помощью команды ORD. Функция Password а преобразовании символа, введенного пользователем ключа в его числовой
курсовая работа [19,6 K], добавлен 17.10.2008Программная среда Delphi. Программа, создающая графический объект. Свойства и методы Canvas формы. Свойства шрифта для текста, который будет нарисован на поверхности формы. Отображение информации о фигуре, о программе, об авторе. Быстрые клавиши и иконки.
контрольная работа [1,4 M], добавлен 07.01.2015Структура окна Word. Методы представления и работа с несколькими документами. Ввод и редактирование текста. Средства поиска и замены. Отмена действия ошибочных команд. Изменение внешнего вида текста. Установка отступов и интервалов. Работа со списками.
реферат [33,8 K], добавлен 03.02.2013Присвоение атрибутов в AutoCad. Проектирование в AutoCAD 3D модели детали с настройкой параметров визуализации. Настройка обзора реального объекта. Упрощенный редактор многострочного текста, используемый для форматирования многострочных атрибутов.
курсовая работа [3,8 M], добавлен 03.03.2014