Алгоритм автоматической генерации текста на примере данных о прогнозе погоды

Понятие и основные принципы автоматической генерации текстов. Актуальность и применимость алгоритмов автоматической генерации текстов. Описание используемых входных и выходных данных. Методология разработки алгоритма и основные принципы его работы.

Рубрика Журналистика, издательское дело и СМИ
Вид дипломная работа
Язык русский
Дата добавления 02.09.2018
Размер файла 724,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

В то же время сам текст, сгенерированный на основе такого типа представления информации, как и процесс его создания, будут отличаться некоторыми особенностями. К примеру, исследователи Соколова и Болдасов утверждают, что «Особенность планирования содержания в этих типах текстов состоит в том, что оно частично задается извне в виде коммуникативной цели, частично следует свойствам описываемого объекта. Прямое отношение к планированию содержания текстов в терминах дискурсивных стратегий имеют эксперименты по генерации текстов, описывающих пространства, например, интерьер комнаты, в исследованиях по когнитивной лингвистике. В этом случае описание начинается, например, от массивного, центрального объекта, существенными оказываются такие когнитивные свойства как вертикальность, автономность и т.п.» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 05.04.2018)..

В свою очередь, ко второму типу представления входных данных относятся тексты на логических языках, которые подробно были описаны ранее. Отметим лишь, что использование логических формул в системах автоматической генерации естественно-языковых текстов очень удобно, так как позволяет очень гибко формализовать параметры генерируемых текстов. По сути речь здесь идет о создании своего рода шаблона, однако шаблона более продвинутого, обладающего рядом собственных свойств и закрепленных за ним «знаний» о правилах того языка, для которого он был создан.

К третьему типу относят данные, которые были сформированы системой в результате ее взаимодействия с человеком. Именно этот аспект и является основной особенностью такого вида представления, отличающей его от рассмотренных выше вариантов. В частности, в отличие от других разновидностей ЛМ-систем, в данном случае содержание будущего текста определяется именно человеком, который по сути задает системе определенные правила и схемы построения материала. Как правило, в подобных алгоритмах для взаимодействия с пользователем применяется GUI (графический интерфейс).

«Таким образом, графический редактор контролирует правильность получающегося представления, предлагая пользователю для продолжения структуры текста допустимые по структурным и семантическим свойствам понятия МПО. Примерами таких систем являются AGILE (Automatic Generation of Instructions on Languages of the Eastern Europe) - система генерации софтверных руководств к графическим редакторам (международный проект координируемый Институтом исследований по информационным технологиям (ITRI) Университета Брайтона (Великобритания)), и MDA (Multilingual Document Authoring) (Xerox Research Centre Europe) - система, генерирующая различные документы» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 05.04.2018)..

Примечательно, что в семантических текстовых генераторов происходит двойной преобразование информации - сначала данные из человекочитаемого формата (то есть естественного языка) конвертируются в машиночитаемый, затем обрабатываются программой и вновь переводятся в форму, доступную человеку. Подобные виды систем часто используются для создания технических документаций к программному обеспечению или для генерации руководства пользователя для графических или видеоредакторов.

Кроме того, похожим образом устроены, например, системы, которые выполняют задачу по автоматическому реферированию и аннотированию текстовых материалов, преимущественно, научных работ. Так, исследователь Осмининым П.Г. из Института проблем передачи информации им. А.А. Харкевича РАН отмечает, что среди методов по автоматическому реферированию и аннотированию принято выделять две группы: «экстрагирующие или извлекающие методы, основанные на извлечении из первичных документов наиболее информативных фрагментов и включении их в реферат в порядке следования в тексте, и абстрагирующие или генерирующие методы, предусматривающие создание нового текста, обобщающего первичные документы» Осминин П.Г. Построение модели реферирования и аннотирования научно-технических текстов, ориентированной на автоматический перевод [Текст]: автореф. дис. на соиск. учен. степ. канд. филолог. наук (10.02.21) / Осминин Павел Григорьевич; ФГБОУ ВПО «Южно-Уральский государственный университет» (Челябинск, 2016). [Электронный ресурс]. URL: http://www.tmnlib.ru/jirbis/files/upload/abstract/10.02.21/Osminin_P_G.pdf (дата обращения: 15.04.2018). С. 4.. Таким образом системы, основанные на семантическом представлении сначала производят анализ входных текстовых данных, представленных в формализованной форме, а уже затем на основе полученных результатов генерируют текст на естественном языке.

Далее рассмотрим основные компоненты, из которых состоят алгоритмические системы текстовой генерации, а также основные принципы и этапы работы таких программ.

Как правило, все текстовые генераторы, основанные на жестких программных алгоритмах, включают в себя два обязательных элемента: 1) ресурсы; 2) компонент обработки. К ресурсам относят всю сопутствующую информацию о естественном языке, на котором создается текстовый материал: словари, стоп-слова, наборы грамматических правил, шаблоны, базы знаний и базы данных - практически любая информация, которая помогает системе выполнять свою задачу. «Языковые ресурсы обычно модуляризируются - разделяются по уровням лингвистического описания и по специфичности описания для конкретного языка. Традиционно выделяются следующие уровни лингвистического описания: лексика, морфология, синтаксис, семантика, риторика и прагматика» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 05.04.2018).. Как утверждают Соколова и Болдасов, первые три элемента задают правила для конкретного языка, вторые же три - определяют правила, общие для большинства естественных языков, например, схемы построения текста, его структуру и прочее.

Отметим, что важно не путать информацию, поступающую на вход в систему, от данных, составляющих ресурсы генератора - первые в виде приведенных выше представлений передаются системе в качестве аргументов, вторые же являются вспомогательным элементом генератора - по записанным в них правилам и происходит непосредственное создание текстового материала.

Компонент обработки системы представлен в виде программного кода генератора, который выполняет ряд логических операций анализа и синтеза, в результате чего генерируется готовый естественно-языковой текст. Непосредственная реализация, язык программирования и стек используемых технологий в целом зависит от конкретной системы и ее особенностей. В общем же можно отметить, что в идеальном случае компонент обработки и ресурсы должны быть максимально независимы друг от друга, тогда даже значительные изменения в блоке ресурсов не приведут к возникновению критических проблем в программном коде генератора. Кроме того, независимость компонентов друг от друга позволяет значительно расширять систему, добавлять в нее возможность генерации текстов на двух, трех и более естественных языках, создавать текстовые материалы на различные тематики и так далее. Как отмечают исследователи Соколова и Болдасов, в случае правильно спроектированной архитектуры программного сервиса, «проблему построения генератора придется решить всего один раз» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 05.04.2018)..

Важно понимать, что конкретные детали реализации компонента обработки могут сильно отличаться в зависимости от того, какие задачи стоят перед системой, какие данные она получает на вход и каким образом обрабатывает их, как спроектирована архитектура сервиса и стек каких технологий используется для работы программы. Все эти аспекты естественно зависят и от того, какой метод работы с информацией был выбран разработчиком алгоритма. Привести все варианты проектирования компонента обработки в рамках данной работы не представляется возможным в силу огромного количества различных вариаций, однако мы можем рассмотреть наиболее частые методы работы с текстом, которые используются в языковых генераторах.

Одним из наиболее популярных методов генерации естественно-языковых текстов является применение так называемых цепей Маркова. В целом под Марковской цепью понимают такую последовательность событий, где вероятность каждого нового события зависит лишь от того, в каком состоянии процесс находится в настоящее время Романовский И. В. Дискретный анализ. -- СПб.: Невский Диалект; БХВ-Петербург, 2003. С. 271.. При этом стоит отметить, что ранние состояния этого процесса не оказывают влияния на будущий результат. В применении к генераторам текстов цепи Маркова, как правило, используют следующим образом: перед началом работы системы подготавливается исходный текст - причем, чем больше будет объем этого текста, тем более естественным получится результат. Затем из исходного текста алгоритм случайным образом выбирает одно слово и помещает его в результирующий текст. После этого добавленное слово вновь ищется в исходном тексте, из которого берется слово, следующее за вновь добавленным. Максимальная длина цепочки элементов ограничивается соответственно количеством элементов в исходном тексте. В результате этого получается текст, внешне похожий на естественно-языковой. Однако стоит понимать, что смысл текста, сгенерированного с помощью цепей Маркова, будет, к сожалению, отсутствовать, несмотря на то, что в целом слова и даже предложения могут быть взаимосвязаны друг с другом.

Другой способ автоматической генерации текста связан с так называемым методом фокуса внимания. Он основан на первоначальном выделении из входных текстовых данных ключевых слов и дальнейшем построении осмысленного предложения с их использованием. Отметим, что подобные системы способны принимать на вход исключительно данные в текстовом виде и обычно используются для построения вопросно-ответных систем, часто использующихся при разработке чат-ботов. При этом сам процесс генерации текста в таких системах, как правило, довольно тривиален - для этого используются базы знаний или определенные шаблоны. Интерес в данном случае представляют методы, с помощью которых из исходного текста выделяются ключевые слова. Для реализации этого могут быть использованы два различных подхода: первый основан на базовых методах NLP и позволяет статистически выделить из предложения подлежащее и сказуемое. Второй способ связан с использованием искусственного интеллекта и нейросетей, специально обученных на больших корпусах тренировочных текстов, однако применение подобных технологий будет рассмотрено в рамках данной работы позже. Итак, использование метода фокуса внимания позволяет сгенерировать текст на естественном языке, наделенный определенным смыслом, однако примечательно, что часто два соседних предложения все же могут быть абсолютно не связаны между собой, поэтому использовать такой подход для генерации стройных текстовых материалов не получится.

Третий метод заключается в использовании специальных SIMP-таблиц (Simplified Integrated Modular Prose), которые были разработаны специалистами компании HoneyWell Incorporated. Смысл технологии состоит в последовательном соединении различных частей предложений из четырех разных таблиц, которые содержат, соответственно, начала, середины и окончания предложений. С учетом того, что в таблицах содержатся общие фразы, не описывающие ничего конкретного и по большому счету не имеющие никакого смысла. Именно за счет этого получаемые на выходе предложения выглядят очень похоже на настоящий текст на естественном языке. К примеру, сервис, использующий SIMP-таблицы может сгенерировать следующее предложение: «On the other hand, the product configuration baseline adds explicit performance limits to the total system rationale Brian J Ford. Confusing the public with long words: the buzz-word generator. [Электронный ресурс]. URL: http://www.brianjford.com/anonscic.htm (дата обращения: 12.04.2018).», что переводится как: «С другой стороны, базовая линия конфигурации продукта добавляет четкие ограничения производительности для общего обоснования системы». Совершенно очевидно, что несмотря на кажущуюся логичность, данная фраза не наделена смыслом и на практике представляет из себя лишь комбинацию из фраз, часто используемых в научных работах или официальных докладах.

Все три приведенных выше метода текстовой генерации способны создавать псевдо-тексты, которые в действительности абсолютно лишены какого-либо смысла, а значит, рассмотренные подходы не могут использоваться при реализации текстовых генераторов, от которых требуется выполнение вполне конкретной задачи и создание осмысленного текстового материала. Примером же более серьезного способа является генерация текста с использованием словарей. В подобных сборниках содержатся слова (а иногда части слов без окончаний или приставок), а также подробные лингвистические характеристики этих слов: информация о части речи, роде, склонении, спряжении и других параметрах. На основе этой информации слова с помощью специального алгоритма могут составляться в грамматически правильно построенные предложения. При этом зачастую в таких системах также используются и шаблонные методы, которые позволяют генерировать не только правильный согласно требованиям естественного языка, но и наполненный смыслом текстовый материал.

В отличие от рассмотренных выше методов генерации текстов, подход с использованием словарей обычно является гораздо более сложным, содержащим в себе большое количество логических операций и преобразований данных. В данном случае качество генерируемого текста и гибкость системы, то есть ее возможность подстраиваться под разные задачи и тематики текстов определяются количеством возможных вариантов преобразований слов, а соответственно, и информации, которая хранится в словарях.

Так, например, исследователь А.В. Пруцков в своей работе «Определение и генерация сложных форм слов при морфологическом анализе и синтезе» Пруцков А. В. Определение и генерация сложных форм слов естественных языков при морфологическом анализе и синтезе // Известия ЮФУ. Технические науки. 2006. №15. С. 11. предлагает хранить в качестве ресурсов не просто отдельные слова, а сразу несколько типов лингвистических данных, среди которых: 1) словарь основ слов; 2) словарь преобразований основ слов; 3) словарь правил образования форм слов; 4) словарь слов-исключений. Основная идея подхода исследователя заключается в том, что любую форму слова можно представить как цепочку последовательных преобразований его формы, которые выполняются по вполне определенным правилам. Автор работы разделяет все преобразования на два типа: прямые и обратные. С помощью первых можно из слова в начальной форме получить его производное, с помощью вторых, соответственно, из некоей формы представляется возможным получить его основу. При этом каждую группу Пруцков разделяет еще на два элемента, а именно: 1) преобразование основы - замены подстроки в строке; 2) добавление подстрок к основе слова - для прямых преобразований и: 1) обратная замена подстрок в строке; 2) отделение подстрок от строки. Таким образом, все типы преобразований можно в конечном итоге свести всего к двум вариантам: первый непосредственно изменяет исходную форму слова, представленную определенной строкой, второй же лишь конкатенирует или отделяет строки друг от друга. И тот, и другой методы, что важно, представляют из себя простейшие операции работы со строками. В свою очередь перечисленные простые преобразования могут объединяться и образовывать более сложные конструкции.

Важной особенностью предлагаемой системы является тот факт, что для любой цепочки прямых преобразований всегда можно построить такую же обратную цепочку. Таким образом алгоритм будет работать как для целей генерации текста, так и для целей определения смысла заданного текстового материала.

«Алгоритм генерации заключается в выборе цепочки прямых преобразований из словаря правил образования форм слов и применении этих преобразований к нормальной форме. В алгоритме определения происходит перебор всех цепочек обратных преобразований из словаря правил образования форм слов и поиск полученных основ в словаре основ слов» Пруцков А. В. Определение и генерация сложных форм слов естественных языков при морфологическом анализе и синтезе // Известия ЮФУ. Технические науки. 2006. №15. С. 12..

Стоит отметить, что использование данного подхода, кроме того, сильно расширяет возможности системы, поскольку работа самого алгоритма по сути не зависит от того, на каком языке будут выполняться преобразования слов, так как сами логические операции, выполняемые в программном коде никак не относятся к поступающим в систему данным. Иными словами, вся критическая информация, определяющая язык, на котором будет работать система, содержится только в базе данных. Автор также отмечает, что «все цепочки преобразований хранятся в словаре правил образования форм слов. Если просматривать цепочку с начала, применяя преобразования к нормальной форме, то в результате получим производную форму. Если просматривать цепочку с конца, обращая преобразования в обратные, то происходит процесс определения формы и получение нормальной формы. Цепочки преобразований можно представить в виде графа, что позволяет использовать аппарат теории графов и методы поиска в них» Пруцков А. В. Определение и генерация сложных форм слов естественных языков при морфологическом анализе и синтезе // Известия ЮФУ. Технические науки. 2006. №15. С. 13..

Таким образом, системы основанные на использовании специальных словарей и баз знаний обладают рядом преимуществ в сравнении с более простыми текстовыми генераторами. Во-первых, такие программы обычно содержат в себе комплексную информацию о языке, на котором происходит генерация. То есть базы данных хранят не только непосредственно слова языка, но и основные лингвистические правила преобразования этих слов. В следствие этого в работе системы прослеживается именно логика самого естественного языка, что позволяет утверждать, что сгенерированные тексты обладают неким смыслом, в отличие от результата работы систем, основанных исключительно на математических алгоритмах. Во-вторых, ЛМ-системы на основе словарей, как уже упоминалось выше, обладают наиболее высокой гибкостью, которая проявляется в возможности расширения системы, ее переноса на другие платформы, добавлении поддерживаемых языков, а также тематических сфер. Для этого не нужно переписывать программный код самого алгоритма, достаточно лишь подключить другую базу данных или базу знаний. В-третьих, на примере алгоритма, разработанного исследователем А.В. Пруцковым, показана возможность не только прямого, но и обратного использования системы на основе словарей - то есть алгоритм может не только генерировать новый естественно-языковой текст, но и распознавать введенные пользователем лингвистические данные, что безусловно значительно расширяет возможную функциональность программы.

Есть, однако у таких систем и отрицательные качества, одно из главных заключается в достаточно трудоемкой и сложной разработке и настройке подобного программного обеспечения. В связи с тем, что программа должна предусматривать большое количество различных преобразований, производимых в идеале и в ту, и в другую сторону (для генерации и распознавания текста), ее код будет содержать большое количество логических операций, а значит и большее количество так называемых «слабых» мест. Отсюда более низкая в сравнении, например, с шаблонными системами, отказоустойчивость. Кроме того, сама настройка программы требует работы профессиональных программистов и лингвистов. Подобные алгоритмы требуют тщательного описания всех возможных правил лингвистических преобразований, возможных в языке. Необходимо заполнение баз данных начальными формами слов, типами их изменений, частями этих слов и т.д. Впрочем, отметим, что на сегодняшний день без вмешательства человека не работает ни одна компьютерная программа - любой код так или иначе требует настройки и поддержки.

Необходимо отметить, что в целом, несмотря на большие различия в устройстве различных алгоритмических систем генерации текста на естественном языке, работа всех подобных программ может быть разделена на несколько основных этапов. Рассмотрим их более подробно.

Как в своей работе отмечают исследователи Соколова и Болдасов, работу программных генераторов можно разделить на три основных этапа: 1) планирование содержания текста; 2) микропланирование; 3) реализация текста на естественном языке.

К первому этапу относится та часть работы программы, в которой решается, какая информация из представленной на вход системе будет участвовать в создании будущего текста. Здесь работают аналитические алгоритмы, которые вычленяют из данных необычные показатели, сравнивают полученные сведения с какими-либо значениями (например, средними показателями какого-либо параметра) и выявляют закономерности. На этом этапе система еще ничего не знает о тексте на естественном языке, в ее распоряжении есть только чистые данные и метаданные.

Второй этап включает в себя алгоритмы, которые решают, каким образом отобранная на первом этапе информация будет представлена в виде текста. Здесь программа формирует структуру будущего текста, подготавливает выражения на формальных языках, делает необходимые запросы к базам данных, после чего передает информацию дальше. Стоит отметить, что на данном этапе система все еще не генерирует текст, а лишь создает его скелет.

На третьем же этапе программа занимается непосредственно созданием текстового материала. В этот момент на основе сформированной заготовки алгоритм делает специальные лингвистические преобразования, подбирает необходимые морфемы и трансформирует их в нужную форму или же достает из базы данных определенные шаблоны, на основе которых подготавливается итоговый текст. В то же время авторы подчеркивают, что “действующая модель генерации не является и не может быть полной и последовательной реализацией схемы генерации. Разработчики постоянно сталкиваются с проблемами, которые получили название generation gaps (“пропасти”), которые на практике преодолеваются директивным сопоставлением средств выражения. Таким образом, вместо плавного уровневого процесса генерации в действующей системе мы имеем рваную модель, достигающую своей цели отчасти эмпирическими шаблонными методами, применяемыми локально» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 01.04.2018)..

В то же время исследователь А.В. Пруцков в реализации своей системы текстового генератора выделяет следующие этапы: 1) семантический; 2) синтаксический; 3) морфологический; 4) лексический. На первом этапе определяется смысл будущего текста, то есть выделяются основные вехи и направления его развития, подбираются необходимые слова и их группы. Этот этап можно сравнить с планированием содержания в предыдущей классификации, однако стоит отметить, что в данном случае генерация начинается раньше, нежели в предыдущей версии программы - уже на первой ступени работы алгоритма происходит подбор нужных слов в базах данных. На втором, синтаксическом, этапе происходит объединение некоторых слов в группы, например, существительных и глаголов, существительных и прилагательных, глаголов и местоимений и т.д.

Третий этап ознаменован заданием необходимых грамматических характеристик подготовленных слов. Здесь, исходя из закрепленных в базе данных лингвистических правил языка, происходят подборы окончаний или предлогов, выявляются способы трансформации слов. На четвертом, заключительном, этапе происходит непосредственный перевод заготовленного шаблона в текстовый вид - слова претерпевают преобразования, чтобы в итоге в согласованной форме попасть в текстовый материал. В сравнении с предыдущей классификацией в данном случае автор больше внимания уделяет непосредственно лингвистической составляющей генератора, оставляя практически без упоминания процесс анализа и подготовки первичной информации, поступающей в систему.

В свою очередь исследователи из МГУ им. М.В. Ломоносова Замков А.Вб Крашенинникова М.А., Лукина М.М. и Цынарева Н.А. в своей работе «Роботизировання журналистика: от научного дискурса к журналистскому образованию» отмечают, что как правило, циклы работы программ автоматической генерации текстовых журналистских материалов разделяются на пять этапов, а именно: 1) накопление данных; 2) статистическая оценка данных; 3) классификация данных; 4) генерация текста; 5) публикация текста. На первом шаге алгоритм не выполняет каких-либо активных действий, а лишь принимает на вход и записывает в базу данных определенную информацию. «С этой целью привлекается как можно большее число независимых источников информации, в том числе текущие, исторические, контекстные данные. В случае с бейсбольным матчем, например, это могут быть данные с табло, поминутная запись игры, информация о прошлых матчах, демографические данные об игроках» Замков А.В., Крашенинникова М.А., Лукина М.М., Цынарёва Н.А. Роботизированная журналистика: от научного дискурса к журналистскому образованию // Медиаскоп. 2017. Вып. 2. [Электронный ресурс]. URL: http://www.mediascope.ru/2295 (дата обращения: 16.03.2018).. На втором этапе производится анализ полученной информации. Этот шаг идентичен тем, что было связаны с анализом информации в предыдущих классификациях, его цель - выявить какие-либо закономерности и зависимости в данных, наиболее ярко выраженные выбросы или отклонения - словом, любые зацепки, которые могут лечь в основу журналистского текста. К третьему этапу авторы относят процессы сортировки проанализированных данных и классификации выявленных событий. По своей сути этот этап можно сравнить с этапом микропланирования, о котором говорилось выше в другой классификации. Сами исследователи отмечают, что «функция третьего шага состоит в классификации событий и расстановке приоритетов согласно принятой системе критериев для оценки важности событий и генерации связного текста (например: победа важнее, чем травма игрока)» Там же..

На четвертом этапе происходит непосредственно генерация текстового материала, а на пятом уже сгенерированный текст автоматически публикуется роботом на сайт через используемую редакцией систему управления контентом (CMS). Таким образом, данная классификация относится именно к системе автоматического создания текста для журналистских целей, поскольку некоторые этапы применимы исключительно для генерации новостных материалов.

В целом же, по нашему мнению, процесс генерации естественно-языковых текстов ЛМ-системами на основе нетекстовых данных действительно можно разделить на три последовательных этапа. Во-первых, это аналитический этап. Предположим, что в программу поступили какие-либо данные, алгоритм должен тщательно изучить полученную информацию, провести ее анализ для того чтобы выявить наличие или отсутствие определенных закономерностей, необычных показателей, отклонений от средних значений - словом, любых необычных параметров. Впрочем выявление отклонений в данных далеко не всегда является основной задачей программы на данном этапе - в системах, спроектированных таким образом, что не принимают решения о последующей генерации текста на этом этапе, анализу подлежат все входящие данные - как правило подобные программы создают текст на основе всей поступающей в них информации и используются, например, для подготовки каких-либо отчетов.

Обычно программный код, который выполняет работу на первом, аналитическом, этапе, представляет набор различных обработчиков, которые в зависимости от решаемой системой задачи, могут быть основаны на сложных математических и статистических алгоритмах и вычислениях или же представлять собой наборы относительно примитивных правил анализа данных.

Отметим, что по завершении работы первого этапа программный код формирует определенную модель данных, которая как правило представлена в виде стандартных используемых в программировании типов данных: массивов, коллекций, словарей, множеств или объектов. Затем эта информация попадает в ту часть программы, которая отвечает за второй этап работы алгоритма - а именно, планирование текста.

На этой стадии система решает, как будет выглядеть «скелет» будущего текста и собирает его основу. Для этого обрабатывается поступившая в модуль планирования информация, делаются запросы в базы данных для получения названий шаблонов, составляются выражения на формальном языке, расставляются необходимые технические флаги. На этапе планирования система анализирует сгенерированную ей же самой информацию и на ее основе подготавливает структуру для дальнейшей работы алгоритма. Отметим, что результатом работы программного кода на этой стадии является обычно выражение на формальном языке, содержащее набор основных правил построения текста.

На третьем же этапе это выражение вновь подвергается обработке, по указанным в нем условиям и операторам программа составляет непосредственно текстовый материал. Именно в этот момент происходят лингвистические преобразования и компоновка текста. После вывода результата работа программы заканчивается.

Стоит пояснить, что представленная схема работы алгоритма генерации естественно-языкового текста не является исчерпывающей или единственно верной - для каждого конкретного случая будет проектироваться своя программа, состоящая из конкретных модулей и, соответственно, работающая по вполне определенным этапам. Однако данная классификация этапов работы текстового генератора представляется наиболее общей, подходящей для большинства подобных систем.

Подытожим, что системы генерации текста на естественном языке, которые относятся к программам, основанным на жестких логических алгоритмах, обычно разделяют на шаблонные системы и лингвистически ориентированные системы - первые, как правило, устроены довольно примитивно и способны решать лишь очень ограниченный круг задач, однако, несмотря на это, находят применение практически в любой компьютерной программе. Ко второй же группе относится целое семейство систем, основное отличие которых состоит в том, что они работают непосредственно с естественном языковым текстом, то есть взаимодействуют с лингвистической материей, преобразовывая слова, сочетания слов и предложения по вполне определенным правилам. Диапазон возможных задач, решаемых такими программами, невероятно широк, однако из-за их больше сложности, нежели в случае с шаблонными системами, применяются они несколько реже.

Далее перейдем к рассмотрению второй большой группы систем автоматической генерации текста, которые в свой основе содержат принципиально другой принцип работы. Речь идет о системах, использующих искусственный интеллект. Суть подобных программ сводится к отказу от жестких логических алгоритмов и задания беспрекословных правил работы систем: текстовые генераторы на основе нейросетевого интерфейса не нуждаются в закреплении в ресурсном компоненте определенных лингвистических правил и словарей слов - подобные системы производят текст после длительного процесса обучения. Рассмотрим принцип работы таких систем более подробно.

Прежде всего, необходимо привести определение понятия «нейронная сеть». По мнению исследователей Горбачевской Е.Н. и Краснова С.С. под искусственной нейронной сетью следует понимать «математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей - сетей нервных клеток живого организма» Горбачевская Е.Н., Краснов С.С. История развития нейронных сетей // Вестник ВУиТ. 2015. №1 (23). URL: https://cyberleninka.ru/article/n/istoriya-razvitiya-neyronnyh-setey (дата обращения: 20.04.2018).. Ключевыми моментами в данном определении является то, что нейронные сети основаны на математических моделях, а также то, что подобные сети сходи с сетями нейронов в живых организмах. В конечном счете нейронная сеть представляет собой соединенный определенным образом набор различных программных элементов, так же называемых процессорами, каждый из которых решает какую-либо довольно примитивную задачу, и возвращает результат. Несмотря на внешнюю простоту отдельно взятых нейронов, будучи соединенными вместе эти элементы могут решать достаточно сложные задачи.

Все нейронные системы имеют несколько так называемых слоев нейронов - входного, выходного и скрытых слоев. Минимальное количество слоев не может быть меньше трех - соответственно, один входной, один выходной и один скрытый слой. Впрочем, серьезные системы, в задачи которых входит анализ большого количества информации или генерация больших объемов текста содержат в себе гораздо большее количество нейронных слоев.

Отметим также, что сами по себе нейронные сети не программируются в привычном смысле этого слова - для настройки и запуска такой системы необходим длительный процесс обучения нейронной сети. В рамках такого обучения, которое заключается в подаче на вход сети определенных данных, а на выход - уже готовой модели их представления, происходит подбор весов на выходном слое нейронов, а именно, коэффициентов связи между ними - с каждой итерацией обучения нейронная сеть начинает выдавать все более и более близкие к действительности результаты. После этого система считается готовой к работе.

Важно понимать, что принцип функционирования нейронной сети заключается в выполнении отдельными нейронами определенных математических операций, возвращающих какое-либо значение, обрабатываемое в дальнейшем. Так, например, при выполнении задачи автоматического распознавания текста в системе на основе искусственного интеллекта «смысл, извлеченный из текста на естественном языке, формализовано представляется в семантической нейронной сети как мгновенное состояние множества нейронов-эффекторов, находящихся в слове извлечения смысла из входной символьной последовательности. Градиентное значение на выходе нейрона представляет собой нечеткий фактор уверенности (certainty factor) - степень уверенности в том, что данное элементарное понятие содержится в обрабатываемом тексте» Шуклин Д.Е. Применение семантической нейронной сети в экспертной системе, преобразующей смысл текста на естественном языке // Радиоэлектроника и информатика. 2001. №2 (15). С. 61.. В итоге выходной параметр может принимать истинное или ложное значение. Первое свидетельствует о том, что обрабатываемый компонент, понятие, присутствует в тексте, второй же говорит о его отсутствии.

Отметим, что текстовые генераторы, использующие искусственный интеллект, безусловно отличаются рядом важнейших преимуществ в сравнении с алгоритмическими системами. Во-первых, это гибкость системы, то есть ее возможность постоянного обучения и самообучения, которое может происходить уже и в процессе работы программы - таким образом система самостоятельно расширяет свою «знания» и соответственно диапазон текстов, которые она может генерировать. Во-вторых, это отсутствие необходимости составления масштабных словарей и баз знаний, на основе которых работают ЛМ-системы - в случае с искусственным интеллектом подобные ресурсы, которые ко всему прочему, ограничивают в определенной степени возможности системы, теряют актуальность. В-третьих, генераторы с правильно обученными искусственными нейронными сетями отличаются, как правило, более высоким качеством производимого текста, который в большей степени похож на естественно-языковой текст, производимый человеком.

Впрочем, есть у таких систем и ряд серьезных ограничений и недостатков. Одним из главных является, например, необходимость проведения процесса обучения нейронной сети. Для этого сначала необходимо подготовить определенный датасет - набор данных, который будет пропускаться через слои нейронов, и на основе которого будут корректироваться веса. Отметим, что для правильной работы сети объем таких данных должен быть достаточно велик, что создает определенные проблемы при составлении датасета. Кроме того, сам процесс обучения занимает довольно продолжительное время, в течение которого сама система требует контроля, со стороны разработчиков.

Во-вторых, существует фактор некоторой непредсказуемости работы системы. В связи с тем, что поведение программы не контролируется жестко заданными алгоритмами, не всегда представляется возможным точно предугадать, какие именно результаты выдаст система. Особенно опасными такие эксперименты становятся в тех случаях, когда обучение системы не прекращается после начала ее работы, поскольку в данном случае затруднительно контролировать, какие именно данные поступают в систему. Различные, произошедшие по похожим причинам казусы, случались с системами на основе искусственного интеллекта не раз. Так, например, в марте 2016 года нейросеть TayTweets, разработанная компанией Microsoft менее чем за сутки общения с пользователями сервиса микроблогов Twitter «научилась» расизму, фашизму и начала писать нецензурные сообщения Статья «Microsoft's racist bot shows we must teach AI to play nice and police themselves» на сайте www.telegraph.co.uk [Электронный ресурс}. URL: https://www.telegraph.co.uk/technology/2016/03/25/we-must-teach-ai-machines-to-play-nice-and-police-themselves/ (дата обращения: 23.04.2018).. В итоге проект пришлось приостановить. Другой громкий случай произошел с системой искусственного интеллекта в компании Facebook. Летом 2017 года инженеры социальной сети были вынуждены отключить нейросетевых чат-ботов, которые изначально использовались в Facebook для общения с живыми людьми, поскольку роботы стали переписываться между собой и даже изобрели свой собственный непонятный для человека язык Статья «Facebook's artificial intelligence shot down after they start talking to each other in their own language» на сайте www.independent.co.uk [Электронный ресурс}. URL: https://www.independent.co.uk/life-style/gadgets-and-tech/news/facebook-artificial-intelligence-ai-chatbot-new-language-research-openai-google-a7869706.html (дата обращения: 23.04.2018).. Сначала роботы общались на английском языке, но ввиду того, что ограничение на выбор языка отсутствовало, через некоторое время они стали посылать друг другу сообщения, состоящие из наборов английских слов, отдельных букв и символов. В конце концов специалистом пришлось прервать эксперимент и заглушить роботов, поскольку предсказать, чем могло бы закончиться такое общение, было невозможно.

В-третьих, гибкость системы на основе искусственного интеллекта в действительности оборачивается целым рядом трудностей, главной среди который как раз выступает процесс обучения нейросети. Дело в том, что обученная на одном датасете сеть совершенно непригодна для работы с другими данными или тематиками. Таким образом, чтобы расширить сферу тем, которые может покрывать автоматический текстовый генератор, требуется составление нового набора учебных данных и проведение еще одного процесса обучения нейронной сети. В случае же с алгоритмическими ЛМ-системами для расширения тематики требуется добавление новых данных в ресурсный компонент - базы данных и знаний. Таким образом, сам по себе процесс подготовки к расширению возможностей системы при использовании искусственного интеллекта нельзя назвать более простым.

Таким образом, можно сделать вывод, что системы автоматической генерации текста на естественном языке обычно разделяют на две большие группы - системы, работающие на основе жестких логических программных алгоритмов, и системы, основанные на использовании искусственного интеллекта. Программы, относящиеся к первому типу, в свою очередь разделяются на шаблонные и лингвистически мотивированные системы. Шаблонные генераторы выполняют примитивные преобразования входных данных и способны создавать простые текстовые материалы, близость к естественно-языковой природе которых зависит исключительно от качества представленных в системе шаблонов. Лингвистически мотивированные же алгоритмы имеют гораздо более сложное устройство и генерируют естественно-языковой текст с применением лингвистических правил языка, то есть могут делать преобразования слов и их основ по правилам, заранее закрепленным в базе знаний.

Системы на основе искусственного интеллекта же работают по другим принципам - в основе таких систем лежат искусственные нейронные сети, состоящие из слоев нейронов - простейших элементов, выполняющих базовые математические операции. Подготовка таких систем к работе требует составления специального тренировочного датасета и обучения нейросети.

Отметим, что каждый из видов систем обладают как своими плюсами, так и минусами. Сильные и слабые качества различных алгоритмов были подробно рассмотрены в рамках данного раздела. Таким образом, выбор конкретного типа генератора зависит исключительно от того, какие задачи и в рамках какой тематики предстоит решать создаваемой системе.

Глава 2. Разработка алгоритма автоматической генерации текста на основе метеорологических данных

2.1 Описание используемых входных и выходных данных

В рамках второй главы данной работы будут рассмотрены типы используемых входных метеорологических данных, дано пояснение атмосферным параметрам, которые описываются этими данными, приведен анализ и обоснование типа спроектированной системы генерации текста на естественном языке, проанализированы сильные и слабые стороны такого подхода, описан принцип действия системы, а также приведены результаты ее работы. В первую очередь, для того чтобы определиться с тем, как именно выстраивать систему текстовой генерации, необходимо сначала рассмотреть непосредственно информацию, на основе которой будут создаваться журналистские тексты, поскольку типы входных данных в нашем случае во многом предопределяют структуру программы.

Итак, для генерации текстов, содержащих сведения о прогнозе погоды необходимы непосредственно сами прогнозные данные, сведения о текущей погоде, а также статистическая метеорологическая информация о средних величинах тех или иных атмосферных параметров, измеренная за определенный промежуток времени. Первый тип данных необходим для создания самого прогноза, второй и третий же типы сведений предназначаются для проведения анализа отклонений прогнозируемых данных от многолетних норм, выявления мощных выбросов тех или иных параметров за пределы нормы или же наоборот отсутствие каких-либо отклонений от нормальных показателей.

Начнем рассмотрение с данных о прогнозе погоды. В данном случае в первую очередь необходимо определиться с источником информации. Важную роль здесь играют сразу несколько факторов. Во-первых, это полнота предоставляемой информации - сведения должны содержать максимальное количество параметров атмосферы, чтобы можно было на их основе провести полноценных анализ факторов изменения погоды. Вполне очевидно, что одних лишь данных о температуре и давлении, несмотря на то, что именно эти параметры интересуют большинство людей, недостаточно для составления полного новостного текста о прогнозе погоды. Вторым критерием является так называемая степень охвата данных - то есть количество точек на поверхности земного шара, для которых имеются актуальные данные об изменении погоды. Разумеется, система должна быть максимально универсальной, поэтому должна иметь возможность получать информацию о метеорологической обстановке не только в больших городах, но и в других относительно малонаселенных местах. Третьим важным критерием является простота предоставляемой информации - на сегодняшний день актуальную информация о состоянии атмосферы агрегируют из множества различных источников - данные передают наземные автоматизированные и неавтоматизированные метеостанции, запускаемые четыре раза в сутки метеорологические зонды, пилоты воздушных судов, специальные метеостанции при аэропортах, специальные метео- и гидрологические буи, расположенные в морях, океанах и других водоемах, а также спутники, перемещающиеся по орбите Земли. Все эти данные обрабатываются на мощнейших компьютерах и компилируются в единую модель атмосферы в определенный срез времени. Такая информация содержит в себе огромное количество параметров и занимает довольно большие объемы памяти. Подобная детализация сведений для разработки системы автоматической генерации журналистских текстов на естественном языке не требуется. Для наших целей подойдет набор вполне стандартных параметров. Таким образом, следует отметить, что данные, необходимые для работы системы, должны быть актуальными, достоверными, не слишком подробными, но и не примитивными - одним словом, информация должна быть исчерпывающей и достаточной.

На сегодняшний день в Интернете существуют десятки различных сервисов, предоставляющих данные о прогнозе погоды. Одни были разработаны при поддержке Всемирной метеорологической организации и предоставляют официальную погодную информацию, другие созданы любителями, соответственно, предоставляемые такими сервисами данные могут несколько отличаться от официальных. Так, например, существуют сервисы, которые были разработаны и поддерживаются метеорологами-любителями и энтузиастами. Многие подобные программы работают по принципу краудсорсинга, то есть для поддержания работоспособности приложения или наполнения его актуальными данными используются ресурсы других людей - к примеру, пользователи погодного сервиса BloomSky Сервис BloomSky. [Электронный ресурс]. URL: https://bloomsky.com/ (дата обращения: 20.04.2018). должны приобрести и установить свою собственную небольшую метеорологическую станцию, данные с которой обрабатываются на серверах веб-сервиса, после чего выводятся на общей карте. Другой сервис под названием Wezzoo Сервис Wezzoo. [Электронный ресурс]. URL: http://www.wezzoo.com/ (дата обращения: 20.04.2018). предоставляет пользователям возможность делиться погодными данными в том месте, где они находятся с помощью специальной формы и приложенных к отчету фотографий. Есть и специальные сервисы для отслеживания опасных явлений погоды, например, StormTag и WeatherSignal - пользователи этих сервисов должны установить на свой смартфон специальной приложение, а также подключить к телефону небольшой погодный датчик, который будет считывать информацию для ее передачи на сервер.

Впрочем, для целей создания текстового генератора прогнозов погоды приложения, основанные на краудсорсинге и предоставляющие ограниченный набор данных, не подходят. В связи с этим рассмотрим другие погодные сервисы, оснащенные API (Application Programming Interface) для разработчиков. Одним из первых и наиболее популярных является API Национального управления океанических и атмосферных исследований США (NOAA) Сервис Weather.Gov. [Электронный ресурс]. URL: https://www.weather.gov/ (дата обращения: 20.04.2018).. Стоит отметить, что этот источник располагает широким спектром официальной - то есть полученной с официальных, а не любительских метеорологических станций - информации, а также данными с метеорологических спутников, атмосферных зондов и океанических буев. Этот факт дает информации, предоставляемой NOAA, серьезный плюс, однако неполнота технической документации и достаточно медленная работа внешнего API значительно осложняют работу с сервисом. Доступ к другому крупному хабу с погодными данными предоставляет сервис OpenWeatherMap Сервис OpenWeatherMap. [Электронный ресурс]. URL: https://openweathermap.org (дата обращения: 20.04.2018)., содержащий данные о текущей погоде, прогнозе, а также историческом изменении параметров атмосферы. Философия данного сервиса похожа на принципы построения Wikipedia и OpenStreetMap и пропагандирует свободу распространения метеорологической информации. Сервис предоставляет данные для более чем 200 тысяч крупных населенных пунктов, что впрочем свидетельствует о том, что актуальная информация предоставляется лишь для крупных городов, в то время как сведения о погода в относительно небольших населенных пунктах отсутствуют, что противоречит одному из приведенных выше требований. Более того, OpenWeatherMap предоставляют доступ к исторической информации о погоде только за плату - бесплатный тариф не позволяет получать такие данные через API.

Другой популярный метеорологический сервис, предоставляющий подробную информацию о текущем состоянии и изменении атмосферы, носит название World Weather Online Сервис World Weather Online. [Электронный ресурс]. URL: https://www.worldweatheronline.com (дата обращения: 20.04.2018).. Ресурс предоставляет актуальные данные для порядка трех миллионов городов и населенных пунктов по всему миру. Для сбора и обработки информации компания использует современные дата-центры, расположенные в Европе, США и Индии. Среди данных, которые могут получить разработчики, - прогнозы погоды, информация о текущей погоде, историческая информация, а также специализированные прогнозы погодных условий в морях, океанах, а также в горах. Стоит впрочем отметить, что данный сервис предоставляет информацию исключительно за плату, поэтому в рамках данной работы использование такого API не имеет смысла, поскольку существует большое количество бесплатных аналогов.

Так, например, другой крупный погодный ресурс с интерфейсом для разработчиков предоставляет компания Weather Underground (Wunderground) Сервис Weather Underground. [Электронный ресурс]. URL: https://www.wunderground.com (дата обращения: 20.04.2018).. Девиз компании заключается в том, чтобы «предоставить качественную погодную информацию для каждого человека на планете». При этом интересно, что данный сервис использует не только официальные метеорологические данные, но и информацию, получаемую из своей собственной системы погодных датчиков, в том числе и с любительских метеостанций участников сообщества. На данный момент, согласно официальной информации с сайта Wunderground, сеть из любительских метеостанций насчитывает более 250 тысяч приборов, которые отсылают информацию о погоде в разных частях света в реальном времени. Сервис оснащен удобным REST и SOAP API для разработки сторонних приложений. Компания предоставляет информацию о текущей погоде в определенной точке, прогноз погоды на несколько дней вперед, данные о космической погоде, а также так называемый «альманах» на день - сведения о средних, максимальных и минимальных значениях метеорологических показателей для текущего дня в конкретной местности за период метеорологических наблюдений. Доступ к API предусматривает три тарифных плана, отличающихся ценой и количеством предоставляемой информации - для целей данного исследования вполне подойдет бесплатный тариф, включающий в себя всю вышеперечисленную информацию. Кроме того, API снабжен подробной документацией и примерами программного кода на различных языках программирования. Таким образом, по большинству параметров для целей настоящей работы более других подходит именно сервис Weather Underground. Дальнейшая работа будет вестись с данными, предоставляемыми данным сайтом.

...

Подобные документы

  • Общие правила набора на русском языке. Основные виды текстов. Верстка текстов и иллюстраций с соответствующими примерами, правильного и неправильного расположения. Спуск полос и сбор брошюры. Способы размещения изображений, текста, формул, таблиц.

    курсовая работа [2,0 M], добавлен 15.05.2013

  • Классификация и жанрообразующие признаки внешних PR текстов. Понятие и содержание пресс-релиза в системе жанров PR-текса, принципы их написания для опубликования в сети Интернет. Типология оперативно-новостного и аналитико-публицистического жанров.

    курсовая работа [33,3 K], добавлен 10.01.2016

  • Проблемы журналистского текста. Понятие текста. Специфика журналистского текста. Особенности организации журналистского текста. Проблемы композиции. Важность вывода. Роль заголовка. Признаки хорошо написанного текста. Проблемы текстов местной прессы.

    курсовая работа [39,6 K], добавлен 06.10.2008

  • Композиция журналистского текста как неотъемлемая часть литературного произведения, её отличие от литературных текстов. Особенности аналитических жанров журналистики в российских изданиях. Комментарий как аналитический жанр на примере газеты "Ведомости".

    курсовая работа [40,8 K], добавлен 02.04.2017

  • Анализ особенностей текстов модульной рекламы в печатных средствах массовой информации. Основные виды, типы текстов, структура модульной рекламы. План анализа модульных структур в журнале "Story". Характеристика журнала, анализ его рекламных модулей.

    курсовая работа [72,6 K], добавлен 17.03.2015

  • Массовые коммуникации, средства массовой информации и принципы PR. Основные принципы Паблик Рилейшнз. Общие правила подготовки PR текстов. Проведение новостных PR-мероприятий, пресс-конференций. Этапы управления информацией. Правила взаимодействия со СМИ.

    курсовая работа [56,5 K], добавлен 09.05.2011

  • Виды издания документных текстов. Оценка текста с логической стороны. Выявление логико-смысловых связей. Виды логических ошибок. Устранение смысловых ошибок. Анализ и оценка композиции произведения. Корректурные знаки, используемые при редактировании.

    курсовая работа [90,9 K], добавлен 24.05.2014

  • Специфика рекламы в прессе. Структура рекламного текста в журнале. Основные типы взаимодействия текста и иллюстрации. Смысловая организация и использование выразительных приёмов в рекламных креолизованных текстах. Практическое использование Punctum.

    дипломная работа [50,2 K], добавлен 10.07.2012

  • Основные этапы производства периодических изданий. Технологическая схема производства. Какая бумага применяется в полиграфии. Подборка 20-ти шрифтов и 5-ти линеек. Таблица выходных данных трех периодических изданий. Расчет емкости рукописного текста.

    контрольная работа [30,8 K], добавлен 31.10.2002

  • Источники цитирования прецедентных текстов в соответствии с классификацией А.Б. Лихачевой. Определение особенностей использования прецедентных текстов в заголовках газет местного издания. Употребление в заголовке стереотипного для собеседника изречения.

    курсовая работа [62,1 K], добавлен 08.03.2015

  • Сущность выходных сведений, правила их оформления. Понятие классификационных индексов. Примеры титульных листов. Способы оформления печатных изданий, типичные ошибки и неточности исходных данных. Содержание выходных сведений согласно стандартам.

    контрольная работа [694,3 K], добавлен 16.06.2015

  • Современный фотографический аппарат представляет из себя сложный электронный оптико-механический прибор. Устройство автоматической наводки на резкость объектива (автофокус), установки выдержки и диафрагмы, управление глубинной резкости.

    реферат [21,1 K], добавлен 28.11.2008

  • Общая характеристика журналистских текстов и способов подачи новостей в средствах массовой информации. Выборочный анализ подачи информации в BusinessWeek и анализ рейтинговых публикаций издания. Рассмотрение основных проблем журналистских текстов.

    курсовая работа [45,8 K], добавлен 27.11.2012

  • Мнения ряда исследователей по вопросам текста как вида речевой деятельности и некоторых особенностей газетного текста. Сравнительная характеристика и организация текстов качественной и популярной прессы Великобритании. Анализ первой страницы газет.

    дипломная работа [69,7 K], добавлен 21.07.2011

  • Понятие гендера в психологии и лингвистике. Основные гендерные требования к информационной политике и их реализация в СМИ. Особенности выражения гендерной специфики информационных продуктов (на примере текстов глянцевых журналов для мужчин и женщин).

    курсовая работа [42,2 K], добавлен 22.06.2010

  • Понятие и языково-стилистические особенности журналистского текста, краткая сводная характеристика существующих в данной сфере жанров. Функциональная специфика и использование стилей: информационный, аналитический и художественно-публицистический жанры.

    курсовая работа [47,7 K], добавлен 09.05.2014

  • Изучение классификации способов изложения и видов текста. Понятие признаки повествования, его виды и типичные ошибки построения. Виды, и признаки описания. Формы рассуждения, ошибки построения рассуждения-доказательства. Определение и объяснения понятий.

    контрольная работа [63,1 K], добавлен 22.01.2014

  • Умения и навыки редактирования текстов. Виды изданий: рекламные; информационные, научные, учебные, переиздания. Требования по редактированию газетно-журнальных изданий. Работа редактора с рекламными изданиями. Редактирование информационных изданий.

    реферат [28,9 K], добавлен 15.12.2010

  • Зависимость количества существительных и глаголов в тексте от авторского стиля (для конкретной выборки авторов). Сбор и подготовка данных. Проведение двухфакторного дисперсного анализа существительных, глаголов, прилагательных и служебных частей речи.

    курсовая работа [405,3 K], добавлен 26.06.2013

  • Отличительные особенности PR-текстов. Медиа-тексты, их своеобразие и место в современных СМИ. Имиджевое интервью: основные признаки и отличия от интервью традиционного. Особенности имиджевых интервью на примере публикаций в газете "Континент Сибирь".

    дипломная работа [73,9 K], добавлен 27.06.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.