Главная Коллекция "Revolution" Журналистика, издательское дело и СМИ Алгоритм автоматической генерации текста на примере данных о прогнозе погоды

Алгоритм автоматической генерации текста на примере данных о прогнозе погоды

Понятие и основные принципы автоматической генерации текстов. Актуальность и применимость алгоритмов автоматической генерации текстов. Описание используемых входных и выходных данных. Методология разработки алгоритма и основные принципы его работы.

Рубрика	Журналистика, издательское дело и СМИ
Вид	дипломная работа
Язык	русский
Дата добавления	02.09.2018
Размер файла	724,7 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Федеральное государственное автономное образовательное учреждение высшего образования

«Национальный исследовательский университет «Высшая школа экономики»»

Факультет коммуникаций, медиа и дизайна

Выпускная квалификационная работа

алгоритм автоматической генерации текста на примере данных о прогнозе погоды

по направлению 42.04.02 Журналистика

студента группы МЖД162 образовательной программы магистратуры

«Журналистика данных»

Костогоров Евгений Евгеньевич

Руководитель

канд. физ.-мат. наук, доцент

И.В. Щуров

Москва 2018

Содержание

Введение

Глава 1. Теоретические аспекты автоматической генерации текстовых материалов

1.1 Понятие и основные принципы автоматической генерации текстов

1.2 Актуальность и применимость алгоритмов автоматической генерации текстов

1.3 Обзор подходов и методов к созданию алгоритмов автоматической генерации текстов

Глава 2. Разработка алгоритма автоматической генерации текста на основе метеорологических данных

2.1 Описание используемых входных и выходных данных

2.2 Методология разработки алгоритма и основные принципы его работы

2.3 Структура алгоритма и используемые технологии

Заключение

Список использованной литературы и источников

Приложения

Введение

Ежедневно в интернете появляется большое количество журналистских материалов: некоторые из них являются творческими работами, другие же просто описывают конкретные факты, а зачастую и строго типизированные данные. К примеру, изменения на валютном рынке или же результаты спортивных команд на соревнованиях. Несмотря на то, что уровень технического развития сегодня позволяет автоматизировать процесс создания некоторых медийных материалов, как правило, их написанием все же занимаются люди.

Актуальность темы выпускной квалификационной работы обусловлена растущей потребностью в создании текстовых журналистских материалов для размещения их на страницах интернет-изданий. В настоящее время правильно спроектированные программные алгоритмы автоматизированной генерации текста на естественном языке на основе строго типизированных данных работают стабильно и могут упростить работу профессиональных журналистов, предоставив им больше времени для творчества. Кроме того, автоматически сгенерированные тексты могут использоваться для подготовки новостных материалов на радиостанциях или телевизионных каналах. Таким образом результат исследования может быть интересен представителям бизнес-сообщества в области средств массовой информации.

Степень разработанности темы. Разработка программных алгоритмов для проведения автоматического морфологического анализа, распознавания, а также и генерации текстов на естественных языках является одной из основных задач, которые стоят сегодня перед исследователями и инженерами-разработчиками программного обеспечения. В настоящее время достаточно большое количество различных алгоритмов, позволяющих анализировать и создавать осмысленные текстовые материалы в автоматическом режиме. Однако из-за неточностей в работе, узкой специализации, а также необходимости регулярной технической поддержки подобных роботов, в редакциях средств массовой информации такие алгоритмы используются нечасто. Стоит отметить, что полностью автоматизировать работу журналиста на сегодняшний день по ряду причин не представляется возможным: для корректной работы программным алгоритмам необходимы данные для анализа, которые должны быть представлены в строго заданной форме. Роботы в состоянии самостоятельно определять информационные поводы и генерировать новостные тексты небольшого объема на такие темы, где возможен анализ первичной информации, к примеру, материалы о спорте, финансах или метеорологической обстановке. В рамках данного исследования за основу были взяты данные о текущей погоде, а также информация о прогнозе изменения метеорологической обстановки.

Таким образом, целью выпускной квалификационной работы является разработка и запуск алгоритма автоматической генерации текстовых материалов на основе данных о состоянии погоды. Задачами исследования, соответственно являются:

1) Изучение существующих подходов к автоматизированной генерации текстовых материалов, их анализ и выбор наиболее подходящего цели данной работы, либо комбинирование существующих подходов;

2) Разработка схемы работы алгоритма, оценка технических и программных средств, необходимых для написания, запуска, тестирования и работы алгоритма;

3) Разработка программного алгоритма, его запуск и тестирование.

Объектом исследования является способ автоматической генерации текста на естественном с помощью программного алгоритма на основе строго типизированных данных.

Предметом исследования является автоматически генерируемый с помощью программного алгоритма текст на естественном языке.

Предполагается, что результаты исследования будут представлены в виде описания работы программного алгоритма генератора текстов, а также непосредственно самой программы, оформленной в виде конечного продукта с различными расширениями в сети интернет.

Результаты исследования будут представлять интерес, прежде всего, для представителей средств массовой информации - печатных и интернет-изданий, радиостанций и телевизионных каналов. Предполагается, что разработанные в рамках данного исследования алгоритмы будут использоваться для ускорения и упрощения процесса подготовки журналистских материалов на погодную тематику. Использование программных средств позволит в несколько раз сократить время, требующееся для написания и публикации коротких новостных материалов на метеорологическую тематику. Кроме того, предполагается, что разработанный в рамках настоящей работы программный продукт может использоваться и другими пользователями сети интернет, к примеру, в виде расширения для интернет-сайта или в форме специального чат-бота в социальных сетях и мессенджерах.

Методология исследования включает в себя как общенаучные методы, такие как анализ, синтез, индукция, дедукция, методы математического и статистического анализа, так и методы, присущие дата-журналистской отрасли, в частности, контент-анализ, методы Data-Science, а также специализированные программные методы, такие как использование регулярных выражений для работы со строками, методы объектно-ориентированного и функционального программирования.

Структура работы. Данная работа состоит из введения, двух глав, разделенных на параграфы, заключения, списка использованных источников и приложений. Во введении дается обоснование проблемы, актуальности и степени разработанности темы, описываются методология, объект, предмет, цель и задачи работы. В первой главе представлена теоретическая часть исследования: даются определения используемых в работе понятий, описываются существующие на сегодняшний день подходы к автоматической генерации текста, приводится описание принципа их работы, достоинства и недостатки, а также дается обоснование об использовании в рамках данного исследования конкретного метода.

Во второй главе приводится описание схемы работы самого алгоритма, схема программы, описываются ее отдельные модули, принцип их работы и обосновывается необходимость их использования.

В заключении делаются выводы по проделанной работе, дается описание сильных и слабых сторон работы алгоритма, приводятся результаты, которых автору удалось достичь в рамках исследования. В списке использованных источников приводятся ссылки на использованные во время подготовки работы материалы, литературу и источники программного обеспечения. В приложении содержится диаграмма классов спроектированного алгоритма.

Глава 1. Теоретические аспекты автоматической генерации текстовых материалов

1.1 Понятие и основные принципы автоматической генерации текстов

Стремительное развитие информационных технологий и увеличение потока ежедневно появляющейся в Интернете информации требует, как следствие, и увеличения ресурсов для их обработки. Уровень развития техники и возможностей современных языков программирования, в частности позволяют автоматизировать работу во многих отраслях. Так, например, частично переложить на «плечи» роботов можно задачи по написанию текстовых журналистских материалов. В рамках данной работы будут подробно рассмотрены и описаны аспекты этой проблемы. Однако, прежде всего, следует определить ряд теоретических моментов, в частности, определить используемые в рамках работы определения.

В первую очередь, обратимся к различным подходам к понимаю термина и сущности текста, а также определению задачи по его автоматической генерации. Прежде всего, отметим, что само по себе слово текст происходит от латинского термина textus, что при дословном переводе означает «ткань» или «соединение». В то же время, согласно определению из Большой Советской Энциклопедии, под текстом следует понимать «последовательность из нескольких (или многих) предложений, построенных согласно правилам языка» Определение слова «текст» в Большой Советской Энциклопедии. [Электронный ресурс]. URL: http://bse.sci-lib.com/article109481.html (дата обращения: 05.03.2018).. При этом отмечается, что текст должен обладать свойством связности, то есть, во-первых, отвечать правилам того языка, на котором он написан, а во-вторых, нести определенную смысловую нагрузку. Связность текста обеспечивается грамматическими средствами, а также присутствующими в нем смысловыми соотношениями между отдельными элементами.

Похожее определение содержится и в словаре Т.Ф. Ефремовой. В данном случае под текстом автор понимает любую «напечатанную или написанную связную речь, которую можно воспроизвести» Значение слова «текст» в толково-словообразовательном словаре русского языка Т.Ф. Ефремовой. [Электронный ресурс]. URL: https://www.efremova.info/word/tekst.html#.WvYLetNubBI (дата обращения: 05.03.2018).. Кроме того, исследователи-лингвисты отмечают тот факт, что текст в первую очередь является следствием и, можно сказать, произведением процесса речи человека. Так, Н.Д. Зарубина считает, что текст - «это письменное по форме речевое произведение, принадлежащее одному участнику коммуникации, законченное и правильно оформленное» Зарубина Н. Д. Текст: лингвистический и методический аспекты. М., 1981. C 11.. В то же время М.В. Лосева помимо критерия соответствия текста правилам языка, на котором он написан, выделяет также и необходимость наличия в нем смысловой составляющей. По ее мнению, под текстом следует понимать «сообщение в письменной форме, характеризующееся смысловой завершенностью и определенным отношением автора к сообщаемому» Цику Лариса Халидовна. Текст как результат речевой деятельности // Известия РГПУ им. А.И. Герцена. 2008. №86. С. 263..

Впрочем, представляется логичным, что в действительности далеко не каждый текст на естественном языке выражает ту или иную позицию автора по отношению к повествуемому материалу.

К примеру, если речь идет о тексте, описывающем прогноз погоды, или автоматическом отчете, сформированном в результате работы компьютерной программы или поиска в базе данных, говорить о каком-либо отношении автора к сообщаемой информации было бы неправильно. Более того, в случае, когда текстовый материал был автоматически сгенерирован компьютером, некорректно говорить и об авторе текста, поскольку в конечном итоге текст в данном случае представляет собой лишь определенную последовательность символов на естественном языке, выстроенных таким образом, чтобы описывать и передавать какую-либо информацию. Таким образом, в данном случае такие свойства как принадлежность текста конкретному участнику коммуникации, а также и наличие в тексте позиции автора по отношению к повествуемой информации, отходят на второй план, в то время как оформление текста в соответствии с правилами языка, его связность и осмысленность выходят вперед. Этот аспект в определенной мере размывает определение «текста», дополняя его различными вариациями. Впрочем, О.О. Варнавская отмечает, что под текстом на сегодняшний день в лингвистике понимают разного рода сообщения, а наличие или отсутствие у них определенных свойств зависит прежде всего от направленности таких сообщений. «текстами в современной лингвистике считаются как письменные, так и устные сообщения, объем текста ставится в зависимость от коммуникативных намерений говорящего, тексту приписываются такие основные характеристики как целостность, ограниченность, замкнутость, смысловая завершенность и др. Текст осознается как единство содержания и речи, выражающей это содержание» Варнавская О. О. Текст как единица языка и произведение речи // Известия РГПУ им. А.И. Герцена. 2008. №58. С. 60..

Стоит отметить, однако, что существуют и другие виды текстовых данных, которые также отвечают ряду правил, применимых к естественно-языковым текстам, но по ряду причин отличаются от привычных речевых текстов. Так, например, отдельный пласт составляют машиночитаемые тексты, например, коды компьютерных программ на определенных языках программирования, языки разметки электронных документов, в частности, гипертекста, а также языки запросов к базам данных, например, SQL. Подобные языки предназначены для передачи информации компьютерным системам, они подчинены очень жестким правилам и в какой-то мере обладают смысловой составляющей - та или иная программа передает компьютеру данные о том, что он должен сделать при поступлении каких-либо входных параметров или в том случае, если произойдут какие-либо события - к примеру, нажатие на кнопку. Таким образом, формально сведения, описанные на языках программирования, отвечают свойствам текста. С другой стороны, текст на естественном языке отличается от программы как раз тем, что является произведением речи человека. Здесь стоит отметить, что автоматически сгенерированный компьютером текст на естественном языке по своей сути все же больше приближен именно к повествованию, в основе которого лежит именно человеческая речь, а основной задачей самих алгоритмов генерации текста является вывод информации в человекочитаемой форме, наиболее приближенной к естественной речи.

Таким образом, под текстом, по нашему мнению, следует понимать совокупность символов и частей речи, выстроенных по правилам языка, обладающую связностью, имеющую смысловую нагрузку и приближенную к человеческой речи.

Далее следует дать определение непосредственно процессу генерации текста на естественном языке, определить его основные свойства и выявить, чем машинная генерация текста отличается от речевого процесса. Отметим, что в сравнении с термином «текст» количество определений процесса генерации текста гораздо меньше по причинам довольно четкой определенности данного понятия. Одно из первых определений понятию естественно-языковой генерации (Natural Language Processing - NLG) дал в конце 1980-х годов автор книги «Системы порождения естественного языка» Дэвид Макдоналд. По его мнению, естественно языковая генерация - «это процесс сознательного конструирования текстов естественного языка для удовлетворения коммуникативных целей» McDonald D. Natural language generation systems / McDonald D., Bolc L. -- SpringerVerlag. 1988. P. 7.. Другое определение приводит исследователь из Новой-Зеландии Ривинду Перера. Он считает, что под естественно языковой генерацией следует понимать «системный процесс создания понятных человеку материалов на естественном языке, на основе нетекстуальных данных» Recent Advances in Natural Language Generation: a Survey and Classification of the Empirical Literature // Computing and Informatics, Vol. 36, 2017, 1-32, doi: 10.4149/cai 2017 1 1. P. 1. [Электронный ресурс]. URL: http://www.cai.sk/ojs/index.php/cai/article/view/2017_1_1/810 (дата обращения: 10.03.2018).. Автор книги «Естественно языковая генерация» Эла Кумар сводит это понятие к процессу «порождения фраз и текстов из машинного представления, то есть баз данных и / или логических форм» Kumar E. Natural Language Processing / Kumar E. - I. K. International Pvt Ltd. 2011 P. 202..

Заметно, что все приведенные выше определения очень похожи друг на друга и отличаются лишь в деталях. Ключевыми моментами NLG является, во-первых, выполнение задачи компьютером, то есть с помощью программного алгоритма или системы искусственного интеллекта, работающей на удаленном веб-сервере или локальной машине, во-вторых, генерация текста именно на определенном естественном языке с соблюдением его грамматических и орфографических правил. Третьим важным аспектом является требование к содержанию текстовых материалов - они должны быть прежде всего понятны человеку, то есть обладать определенным смыслом и содержать в себе конкретную информацию - справедливо стоит отметить, что автоматически сгенерированный набор несвязанных между собой слов, словосочетаний или предложений нельзя считать качественным продуктов системы автоматической генерации текста - именно поэтому связность и доступность материала для понимаю являются одними из основных критериев при оценивании качества работы NLG-систем. Четвертый важнейший момент заключается в том, что в основе процессе естественно-языковой генерации должны лежать нетекстуальные данные - то есть информация в первичном виде - например, записи из базы данных или какие-либо статистические показатели.

Последний пункт может показаться спорным. К примеру, не все автоматические языковые генераторы получают на вход четко структурированные данные. Есть, например, диалоговые системы, широко реализованные сегодня в интерфейсе чат-ботов для популярных мессенджеров и социальных сетей, которые способны выстраивать полноценное общение с пользователем, давать осмысленные ответы на его вопросы и предоставлять информацию по запросам. Однако как правило, подобные системы имеют сложное архитектурное строение и состоят из нескольких максимально независимых друг от друга микросервисов или блоков, отвечающих строго за свои функции. Так, структура диалоговых систем обычно включает в себя как минимум модуль, занимающихся распознаванием текста, модуль, анализирующий текстовые сообщения, а также блок, отвечающий за генерацию текста. Принцип работы системы сводится к следующему: входящий текст принимается распознающим компонентом, который раскладывает текст на отдельные элементы и передает их аналитическому блоку, который выделяет в тексте ключевые моменты, распознает смыслы и принимает решение о форме генерации ответа. Затем данные для генерации ответного текста в строго типизированном и структурированном виде передаются в генератор, где уже и происходит синтез текстового материала. Таким образом, текстовые генераторы даже в более сложных системах всегда работают с информацией, которая представлена в определенном формате и виде.

Интересно и то, что требования к автоматически генерируемому тексту практически не отличаются от требований, предъявляемых к текстам, которые производят люди - такие материалы должны быть цельными, осмысленными и выражающими определенную позицию или передающими те или иные сведения. Помимо прочего необходимо безукоризненное соблюдение правил языка, на котором составлен текст. Иными словами, простой читатель в идеале не должен заметить разницы между текстом, синтезированным компьютером и написанным живым человеком.

Таким образом, объединив все три рассмотренных определения, можно сделать вывод, что под генерацией текста следует понимать процесс автоматизированного создания осмысленных текстовых материалов на основе структурированной информации в нетекстуальной форме с соблюдением правил языка.

Кроме того, следует уделить внимание такому явлению, как роботизирванная журналистика. Впервые это понятие (а вернее, понятие «computatial journalism», которое дословно можно перевести как компьютерная или вычислительная журналистика») появилось в 2009 году в исследовании профессора Джеймса Гамильтона и доцента Фреда Тернера из Стенфордского университета. Авторы определяют его как «combination of algorithms, data, and knowledge from the social sciences to supplement the accountability function of journalism» Hamilton, J. T. Accountability through algorithm: Developing the field of computational journalism [Text] / J. T. Hamilton, F. Turner // Report from the Center for Advanced Study in the Behavioral Sciences, Summer Workshop. - 2009. - P. 27. [Электронный ресурс]. URL: https://web.stanford.edu/~fturner/Hamilton%20Turner%20Acc%20by%20Alg%20Final.pdf (дата обращения: 20.02.2018).. В переводе на русский язык это можно определить, как «комбинацию алгоритмов, данных и знаний из области общественных наук, дополняющую функции современной журналистики». Нужно отметить, что по нашему мнению, данное определение не раскрывает полностью сущности самого явления. Схожую позицию занимает и исследователь А.Д. Иванов в своей работе «Роботизированная журналистика и первые алгоритмы на службе редакций международных СМИ». Автор отмечает, что смысл понятий автоматизированная, роботизированная и алгоритмизированная журналистика «сводятся к указанию на использование особых автоматизированных инструментов («роботов», «ботов», и в т. ч. «алгоритмов») для выполнения журналистских функций по сбору и обработке информации, а также для написания готовых текстов без участия человека» Иванов А. Д. Роботизированная журналистика и первые алгоритмы на службе редакций международных СМИ // Знак: проблемное поле медиаобразования. 2015. №2 (16). С. 34..

Кроме того, Иванов отмечает, что приведенные понятие не стоит путать с другими близкими по смыслу явлениями, а именно, дата-журналистикой и вычислительной журналистикой - под первой автор подразумевает «направление в журналистике, связанное с обработкой большого массива данных с последующим анализом и представлением для аудитории в понятном виде» Там же. С. 34., а под второй - способ подготовки журналистских материалов с использованием «вычислительных алгоритмов для анализа информации с целью выявления неочевидных фактов» Там же. С. 34..

В то же время исследователи Замков А.В., Крашенникова М.А, Лукина М.М и Цынарева Н.А. из МГУ им. М.В. Ломоносова определяют понятие роботизированной журналистики несколько иначе. По их мнению, под этим феноменом следует понимать «алгоритмическую обработку программами-роботами семантических связей между единицами текста, включая автоматизированную генерацию журналистских текстов» Замков А.В., Крашенинникова М.А., Лукина М.М., Цынарёва Н.А. Роботизированная журналистика: от научного дискурса к журналистскому образованию // Медиаскоп. 2017. Вып. 2. [Электронный ресурс]. URL: http://www.mediascope.ru/2295 (дата обращения: 16.03.2018)..

Таким образом, можно сделать вывод, что под роботизированной или автоматизированной журналистикой следует понимать направление в журналистской деятельности, предусматривающее активное использование компьютерных технологий и программных алгоритмов для генерации текстовых материалов. Основной целью применения подобных технологий является задача автоматической генерации текстов на естественном языке для избавления журналистов от рутинной и однотипной работы, ускорения работы интернет-изданий и проведения более качественного анализа больших массивов информации.

1.2 Актуальность и применимость алгоритмов автоматической генерации текстов

автоматический генерация текст алгоритм

Актуальность алгоритмов естественно-языковой генерации обусловлена в первую очередь бурным развитием цифровых технологий, повсеместным использованием интернета и увеличением активности пользователей глобальной сети. На сегодняшний день подавляющее большинство онлайн-сервисов и программных интерфейсов для взаимодействия с человеком используют именно текст, реже используется графический интерфейс, не имеющий текстового оформления. Примерами таких сервисов могут являться интернет-порталы, сайты средств массовой информации, интернет-магазины и онлайн-каталоги, службы клиентской поддержки, сервисы, предоставляющие данные о прогнозах погоды или расписании движения поездов - словом, спектр интерфейсов, использующих для коммуникации с человеком тексты на естественных языках максимально широк. При этом опять же в большинстве случаев подобные тексты составляются людьми вручную, что впрочем не всегда удобно и быстро - зачастую такие задачи гораздо проще и быстрее могут выполнить автоматические алгоритмы.

Так, например, алгоритмы естественно-языковой генерации в разном объеме используются в системах электронных каталогов товаров, для формирования простых, коротких и емких описаний продукции, которые составляются на основе множества отзывов покупателей. В подобных системах отзывы и рейтинги товаров по разным категориям сначала агрегируются и анализируются, затем записываются в базу данных, а уже после этого оттуда поступают в модуль естественно-языковой генерации, где на основе структурированной информации сначала генерируются шаблоны текста, а затем уже непосредственно подбираются необходимые по смыслу слова, фразы и предложения на естественном языке.

Другие системы, использующие алгоритмы генерации текста, динамически формируют пользовательский интерфейс или преобразуют вводимые пользователем данные в определенные тексты на формальных языках запросов к базам данных. Подобные системы значительно расширяют функциональность сервисов, позволяя пользователям генерировать практически любые поисковые запросы, и что очень важно, могут использоваться людьми, не обладающими специальными знаниями по работе с базами данных. Так, по мнению исследователей Бородина Д.С. и Строганова Ю.В., внедрение подобных систем «возможно практически во всех сферах деятельности человека: медицинское обслуживание, образование, библиотечные информационные системы и другие области, где внедрены базы данных и требуются средства автоматизации доступа к ним пользователей, малознакомых с технологическими составляющими работы с этими данными» Бородин Д.С., Строганов Ю.В. К задаче составления запросов к базам данных на естественном языке // Новые информационные технологии в автоматизированных системах. 2016. №19. С. 119.. В такой системе поступающий от пользователя поисковый запрос на естественном языке сначала преобразуется в шаблон, после чего сгенерированный шаблон заполняется текстом на формальном языке запросов к базе данных, например, каком-либо из диалектов SQL.

Стоит отметить, что несмотря на то, что подобные системы не являются примером алгоритмов, генерирующих текст на естественном языке, в силу рассмотренных в первом параграфе настоящей работы особенностей все же являются полноценными текстовыми генераторами.

Есть и другие примеры использования систем автоматической генерации текстовых данных, одним из них являются так называемые чат-боты - роботы, ведущие переписку с пользователями мессенджеров и чатов социальных сетей. Подобные системы способны общаться с человеком на естественном языке, при этом давая осмысленные и привязанные к определенной тематике ответы.

Одним из первых прототипов сегодняшних чат-ботов стал робот «Элиза», сконструированный в 1966 году инженером Джозефом Вейзенбаумом. Машина общалась с людьми в роли профессионального психотерапевта, поддерживая беседу и отвечая на простые вопросы. С тех пор прошло больше полувека и чат-боты получили значительное распространение. Сегодня такие помощники используются почти повсеместно, начиная от сферы игр и развлечений, и заканчивая интернет-магазинами и службами клиентской поддержки компаний. Такие роботы могут значительно уменьшить время, необходимое на работу с клиентом, а также сократить количество занимающихся этим сотрудников. К примеру, чат-бот может заранее выяснить у пользователя, какая проблема у него возникла и после этого направить его к профильному специалисту. Более того, робот может самостоятельно дать ответ на базовые и наиболее часто задаваемые вопросы, без привлечения для этого человека.

В интернет-магазинах чат-боты могут помогать в оформлении заказов и получении подтверждения их статусов - использование такой технологии избавляет компании от необходимости держать в штате операторов, связывающихся с клиентами.

Как следует из доклада Humanity the Machine, на сегодняшний день большинство людей согласно с тем, что представители бизнес сообщества будут частично оказывать свои услуги с использованием технологии чат-ботов Доклад «Humanity the Machine», 2016. [Электронный ресурс]. URL: http://www.mindshareworld.com/sites/default/files/MINDSHARE_HUDDLE_HUMANITY_MACHINE_2016_0.pdf (дата обращения: 17.03.2018).. Более того, из документа следует, что общение с чат-ботами является предпочтительным способом связи с компанией для 29% опрошенных граждан США.

Еще одной обширной сферой, где применяются алгоритмы автоматической генерации человекочитаемых текстов несомненно является журналистика. Интернет-издания ежедневно публикуют большое количество информации, при этом часть этой информации имеет четко определенную структуру, а ее анализ и подготовка на основе таких данных журналистских материалов не подразумевает общения со спикерами или выездной работы. Речь в первую очередь идет о небольших новостных текстах, описывающих изменение каких-либо параметров - курсов валют, цены на нефть или драгоценные металлы, ситуации на финансовых рынках, прогнозируемые погодные условия или же развитие каких-либо спортивных соревнований. Имеются в виду такие данные, которые имеют четкую структуру и могут быть проанализированы с помощью программных алгоритмов. Из возможности проведения автоматизированного анализа подобных сведений вытекает и возможность составления на основе них журналистского текста, описывающего изменения параметров.

Как правило, в таких системах используются специальные заранее заготовленные шаблоны, с помощью которых и генерируется естественно-языковой текст. Разумеется, речь в данном случае не идет о генераторах больших журналистских материалов, в которых присутствует экспертная аналитика и различные мнения сторон - роботы в состоянии генерировать небольшие новостные тексты, описывающие исключительно фактическую стороны вопроса.

На сегодняшний день подобные системы были апробированы и успешно используются в ряде иностранных СМИ. Так, например, робот-журналист «работает» в Los Angeles Times, Washington Post, Associated Press, Forbes , ProPublica, Southern Metropolis Daily и многих других. Автоматические алгоритмы в редакциях, как правило, выполняют рутинную работу - генерируют небольшие новостные материалы на основе анализа каких-либо данных. При написании подобного рода статей обычно не требуется проведения специальных исследований, которые под силу только человеку, поэтому подготовку таких материалов можно доверить роботам.

Впрочем, история знает и случаи ошибочной работы алгоритмов, которые могли привести ко вполне реальным последствиям. Так, например, летом 2014 года один из роботов издания Los Angeles Times, в задачи которого входил мониторинг данных Национальной геологической службы США (US Geological Survey) из-за ошибочных данных в отчете опубликовал новость о сильнейшем землетрясении на побережье Калифорнии Статья «Robot writes LA Times earthquake breaking news article» на сайте www.bbc.com [Электронный ресурс}. URL: http://www.bbc.com/news/technology-26614051 (дата обращения: 23.03.2018).. Мощность катаклизма, исходя из статьи, составляла 6,8 баллов по шкале Рихтера, что стало бы рекордом для данного региона за период с 1925 года. Новость на сайте издания появилась всего через три минуты после публикации ошибочного отчета геологической службой, впоследствии она была признана ошибочной.

Однако, несмотря на такие оплошности, популярность роботизированной журналистики продолжает набирать обороты. Так, в сентябре 2017 года представители Washington Post заявили о запуске системы автоматической генерации новостей о школьных соревнованиях по футболу, которые проходят каждую неделю в Вашингтоне Heliograph Статья «The Washington Post leverages automated storytelling to cover high school football» на сайте www.washingtonpost.com [Электронный ресурс}. URL: https://www.washingtonpost.com/pr/wp/2017/09/01/the-washington-post-leverages-heliograf-to-cover-high-school-football/?noredirect=on&utm_term=.8457cc6630fa (дата обращения: 23.03.2018).. Система умеет писать новости, отражая не только общую информацию о результатах состязаний, но и анализируя сведения о личной статистике каждого из игроков. В издании утверждают, что Heliograph без труда может быть расширен для написания материалов на другие схожие темы. В редакции планируют приспособить робота для работы и с другими спортивными событиями уже в 2018 году.

Отметим, что внедрение роботов в работу редакций происходит, как правило, по нескольким причинам и преследует, соответственно, вполне определенные цели. Так, некоторые издания пытаются автоматизировать написание новостей с целью сокращения времени, которое требуется на выпуск одного материала, таким образом выигрывая заветные минуты у своих конкурентов - подобная тактика относится, прежде всего, к изданиям, работающим в сфере финансов и бизнеса, где резкие изменения показателей курсов могут сформировать информационный подов. Другие вводят в строй роботов для того, чтобы «покрыть» определенные сферы интересов, без привлечения дополнительных человеческих ресурсов, например, как раз публиковать новости о погоде или спорте на сайте издания. Третьи автоматизируют работу журналистов с целью охвата большего числа регионов, в которых, соответственно, необходимо публиковать новости на определенную тематику, но с уклоном в сторону конкретной области или города Alexander Fanta. Putting Europe's Robots on the Map: Automated journalism in news agencies // Reuters Institute Fellowship Paper. University of Oxford. [Электронный ресурс]. P. 4. URL: https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2017-09/Fanta%2C%20Putting%20Europe%E2%80%99s%20Robots%20on%20the%20Map.pdf (дата обращения: 24.03.2018). с учетом того, что содержать журналистов, которые бы следили за новостной повесткой в каждом регионе, редакции невыгодно.

В то же время в российской журналистике появление роботов пока не заметно - на данный момент алгоритмы для автоматической генерации текста не используются ни в одном отечественном издании. «Единственными примерами внедрения так называемых нейронных сетей стали чат-боты в российской социальной сети «ВКонтакте», способные распознавать запросы пользователей и выдавать ответы, а также ML-проекты «Яндекса» Иванов А. Д. Курс на роботизированную журналистику: почему российским медиа не грозят современные мировые тенденции / А. Д. Иванов // Профессиональная культура журналиста цифровой эпохи : материалы Всероссийской научно-практической конференции с международным участием (Екатеринбург, 19 мая 2017 г.). -- Екатеринбург : Изд-во Урал. ун-та, 2017. С. 47., в частности, проект «Яндекс для медиа» в рамках которого разработчики компании создали сервис, генерирующий короткие новостные тексты о загруженности дорог и состоянии погоды.

По мнению исследователя А.Д. Иванова, отсталость российских средств массовой информации в плане использования алгоритмов текстовой генерации обусловлена несколькими причинами. Во-первых, это отсутствие интереса самих изданий, которое в свою очередь диктуется экономическими причинами - «российские медиа не спешат тратить бюджеты на перспективные разработки ближайшего будущего и пытаются справиться с более реальными проблемами экономического характера, а также со сменой форматов медиапотребления аудитории, которая все больше уходит в мобильный интернет» Там же. С. 47.. Во-вторых, в отечественных изданиях отсутствуют размеченные и специально подготовленные корпусы текстов, которые можно использовать для обучения нейросетей или составления шаблонов алгоритмических систем. Отчасти это также обусловлено и сложностью самого русского языка. Кроме того, Иванов отмечает, что многие российские издания довольно консервативны и не готовы внедрять в свою работу инновационные технологии, влияющие на деятельность редакции.

В-четвертых, влияние оказывает и другая более общая проблема - неспособность роботов полностью заменить живых журналистов - алгоритмы при всех своих достоинствах все же не способны подготовить большую часть журналистских материалов, таких как интервью, авторские колонки или аналитические тексты. К тому же роботы не обладают чувством юмора и собственным стилем, текстовые генераторы могут лишь за считанные секунду проводить аналитику данных и готовить на основе этого короткие новостные заметки.

Таким образом, можно сделать вывод, что на сегодняшний день алгоритмы автоматической генерации текстов на естественных языках относятся к передовым технологиям и могут быть применимы в разных сферах, однако наиболее обширной областью их использования является именно журналистика. При этом подобные компьютерные программы обладают рядом преимуществ и недостатков, их внедрение связано с множеством технических и инфраструктурных сложностей, однако при грамотном использовании такие алгоритмы могут значительно сократить время, затрачиваемое на подготовку новостей, а также освободить профессиональных журналистов от монотонной рутинной работы, улучшив тем самым производительность редакции и качество выпускаемых ей материалов.

Стоит отметить, что учитывая специфику работы отечественных средств массовой информации, разрабатываемый журналистский робот должен отвечать целому ряду особых требований. Во-первых, конечный продукт должен отличаться относительной простотой в настройке и внедрении в работу редакции. В идеале работу алгоритма должен быть в состоянии контролировать один IT-специалист. Впрочем, сразу стоит оговориться, что речь идет не о первоначальной настройке, а об этапе, когда робот уже внедрен в работу издания. Во-вторых, отметим все же, что необходима высокая степень автономности работы алгоритма, то есть отсутствие необходимости постоянного контроля за деятельностью программы. Третьим важным критерием является возможность запуска алгоритма, что называется «из коробки» - без длительного периода обучения и подготовки корпуса текстовых материалов. В-четвертых, отметим важность дешевизны данного алгоритма - обслуживание программы не должно быть сравнимо по затратам с зарплатами профессиональных журналистов или превосходить их, в противном случае, экономическая целесообразность внедрения робота во многом отпадает.

1.3 Обзор подходов и методов к созданию алгоритмов автоматической генерации текстов

Для того чтобы правильно спроектировать и реализовать алгоритм автоматической генерации текста необходимо внимательно рассмотреть существующие на сегодняшний день методы, которые используются в сфере Natural language generation, а именно, подходы к созданию алгоритмов генерации текстовой информации на основе каких-либо данных. В этом подразделе работы приведены основные и наиболее часто используемые методики построения систем генерации естественно-языковых текстов, проанализированы достоинства и недостатки каждого из подходов, а также сделан вывод о выборе определенной модели в рамках разработки робота-журналиста для написания текстов о погоде.

Согласно мнениям ученых, сегодня можно выделить несколько различных по своей сути систем генерации естественно-языковых текстов. Отличаются они не только методами работы непосредственно с текстом, но и подходами к анализу первичных данных, из которых строится текстовый материал, принципами задания правил языка, построения словарей и баз знаний и другими немаловажными особенностями. В целом системы генерации текста на естественном языке принято разделять на программы, построенные на принципах так называемого логического программирования, то есть основанные на жестко заданных программных алгоритмах, и системы, использующие при работе искусственный интеллект. Исследователи Замков А.В., Крашенинникова М.А, Цынарева Н.А и Лукина М.М. отмечают, что алгоритмы автоматический генерации текстов «различают по уровню их сложности. Наиболее простыми являются программы работы с шаблонами типовых сценариев. Они извлекают числовую информацию из баз данных и заполняют пустые поля в предзаданных шаблонах историй. Алгоритмически более сложным является класс программ, использующих смысловые корреляции между массивом больших данных и нарративом, т.е. текстом, написанном на естественном языке» Замков А.В., Крашенинникова М.А., Лукина М.М., Цынарёва Н.А. Роботизированная журналистика: от научного дискурса к журналистскому образованию // Медиаскоп. 2017. Вып. 2. [Электронный ресурс]. URL: http://www.mediascope.ru/2295 (дата обращения: 16.03.2018).. Далее рассмотрим обе группы программ более детально.

Первая группа, включающая в себя системы, построенные на основе четких программных алгоритмов, отличается определенной жесткостью - речь в данном случае идет о вполне конкретном наборе правил, которым подчиняется программа и по которым создается текстовый материал. При этом, несмотря на то, что количество подобных правил может быть достаточно велико, оно все же в определенной мере ограничивает варианты работы программы и генерируемый ей продукт. Впрочем, данные ограничения во многих случаях являются не столько отрицательным, сколько положительным моментом, ведь задание четких правил, по которым будет работать система, обеспечивают ее стабильность, предсказуемость и повышают отказоустойчивость. В частности по этой причине большинство систем автоматической генерации текста относят именно к первой группе.

Самой простой разновидностью таких систем являются так называемые шаблонные системы. Принцип их работы заключается в подборе и интеграции определенных фрагментов текста в заранее заданные паттерны. Шаблонная система «использует готовые реплики или комбинирует готовые фрагменты текста таким образом, что они занимают заданные позиции в дискурсе или стереотипном тексте» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 01.04.2018).. Несмотря на кажущуюся простоту подобных программ, в действительности они являются полноценными алгоритмами генерации естественно-языковых текстов, поскольку выполняют свою главную функцию - создание осмысленного и правильного с точки зрения грамматики языка текстового материала на определенную тематику.

Как правило, такие системы используют для генерации простых, коротких и однозначных текстов, в тех случаях, когда отсутствует сложная логика построения текстового материала. При этом шаблонные системы на самом деле имеют очень широкое распространение - они применяются практически в любой компьютерной программе, будь пользовательский интерфейс программы, содержащей набор сложных математических алгоритмов для торговли на бирже или простое мобильное приложение-мессенджер. Готовые предзаполняемые в зависимости от ситуации шаблоны, например, могут использоваться для подачи типовых сигналов пользователю: файл не найден, страница не может быть открыта, было получено новое сообщение от какого-либо абонента - словом, этот самый простой и в некотором смысле даже примитивный способ генерации текста находит применение почти везде. Зачастую под подобные системы даже не создаются отдельные классы программы - порой вся реализация такого текстового генератора умещается в небольшую функцию, принимающую на вход тип генерируемого сообщения и текст для вставки.

Впрочем, иногда при разработке генераторов текста шаблонные системы дополняются более серьезными функциями - «дополнительно проводят ограниченную лингвистическую и риторическую обработку результата - позволяют задавать отдельные грамматические параметры текста или комбинировать шаблонные высказывания в связный текст, используя определенные лексические и грамматические знания о естественном языке» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 01.04.2018)..

Второй вид алгоритмизированных текстовых генераторов представляют так называемые лингвистически мотивированные (ЛМ) системы, способные решать более сложные задачи по автоматическому созданию текстов на определенную тематику с учетом особенностей того или иного естественного языка. Их основным преимуществом перед системами, использующими готовые шаблоны, является возможность генерации текстовых материалов со свободным содержанием, то есть таких, в отношении которых нельзя заранее подготовить строгие паттерны. Кроме того, важно отметить, что ЛМ-системы всегда получают на вход данные, представленные в нелингвистическом виде. Проще говоря, такие системы генерируют текст не на основе текстовой информации, а на основе некоторых структурированных данных, например, числовых или каких-либо других.

Рассмотрим типы данных, с которыми могут работать ЛМ-системы более подробно. К примеру, по мнению исследователей из научно-исследовательского института искусственного интеллекта Соколовой Е.Г. и Болдасова М.В., «определение вида входных данных является кардинальным вопросом для ЛМ-систем» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 01.04.2018).. Ученые приводят классификацию информации, принимаемой на вход подобными системами, разделяя ее на три типа:

1) числовые данные;

2) логические формулы;

3) структурированные объекты.

К первым относят любые сведения, которые могут быть представлены в числовом виде: количество олимпийских медалей спортсменов в различных видах спорта, частота использования определенных слов в тексте, данные о населении в странах мира - словом, под этот критерий попадает практически любая информация, имеющая числовое выражение. Ко второму типу относят сокращенные логические записи (формулы), с помощью которых можно формализовать некоторые выражения на естественном языке. Логические формулы содержать набор переменных и операторов, описывающих смысл выражения. Рассмотрим простой пример. Выражение на естественном языке «если на улице светит солнце и тепло, значит погода хорошая», можно легко заменить простой и короткой формулой: (A v B) => С. В данном формализованном выражении переменные A и B являются условиями, которые могут принимать значение «истина» или «ложь». Переменная C же является результатом, значение которого зависит от того, выполняются ли заданные условия. Это пример простейшей логической формулы, которую с помощью программных алгоритмов можно преобразовать в текст на естественном языке. Соколова и Болдасов также отмечают, что особенностью текстов на формальных языках является то, что они «коммуникативно организованы, т.е. так же, как и тексты на естественном языке, непосредственно предназначены для передачи информации. В качестве входа для системы генерации естественного языка такие представления получаются в результате работы определенной нелингвистической системы» Соколова Е.Г. Автоматическая генерация текстов на ЕЯ (портрет направления) // Российский НИИ искусственного интеллекта. [Электронный ресурс]. URL: http://www.dialog-21.ru/media/2570/sokolova.pdf (дата обращения: 01.04.2018)..

К слову, отдельной важной задачей в области NLG является преобразование текстов на формальных языках, например, на языках запросов к базам данных, в тексты на естественных языках и наоборот. Сегодня существует множество сервисов, предоставляющих услуги по трансформации запросов пользователей на естественных языках в формализованные тексты для запросов в базы данных, среди них можно выделить, например, Kueri Система Kueri. [Электронный ресурс]. URL: http://kueri.me/ (дата обращения: 03.04.2018)., FriendlyData Система FrinedlyData. [Электронный ресурс]. URL: https://friendlydata.io/blog/best-nlp-apis (дата обращения: 03.04.2018). и ThatNeedle Система ThatNeedle. [Электронный ресурс]. URL: http://www.thatneedle.com/nlp-api.html (дата обращения: 03.04.2018).. Подобные системы позволяют пользователям, не знакомым с компьютерными технологиями достаточно глубоко, самостоятельно через графический интерфейс генерировать SQL запросы к базам данных, получая в ответ необходимую информацию. Таким образом, с помощью логических формул можно не только значительно сокращать запись определенных высказываний, сильно экономя дисковое пространство, но и сильно повышать удобство записи информации и методы работы с ней.

К третьему типу входных данных относят любую информацию, которая передается в систему в строго структурированном виде. Как правило, таким образом информация хранится в реляционных базах данных, где параметры сведения представлены в виде отдельных матричных таблиц. Строки в таких таблицах соответствуют отдельным объектам, а колонки - отдельным параметрам этих объектов. Таким образом, в таблице хранится информация о конкретных объектах с вполне определенными параметрами. Объект вместе с его параметрами принято называть моделью. Ее можно передать на вход ЛМ-системе, которая после проведения аналитики модели построит на ее основе какой-либо текстовый материал.

Отметим также, что вне зависимости от конкретного типа входных данных, представления поступающей в ЛМ-системы информации, следует также разделять на три типа. Во-первых, это информация, содержащаяся в базах данных, во-вторых, представление сведений на формальном логическом языке, например, SQL, и, в-третьих, данные в виде так называемого семантического представления, то есть та информация, которая была сформирована напрямую человеком через специальный компьютерный интерфейс. Соколова и Болдасов выделяют важнейшую особенность современных лингивтически мотивированных систем естественно-языковой генерации - по мнению исследователей, ЛМ-системы сегодня работают с представлениями данных, которые были произведены другими компьютерными системами, а не человеком. Далее рассмотрим приведенную классификацию представления данных более подробно.

Первым типом, как уже отмечалось выше, являются базы данных, а именно те схемы и модели, в которые структурирована та или иная информация. Здесь важно подчеркнуть, что входные сведения из баз данных также можно разделить на две группы: 1) информацию, которая описывает несколько различных объектов и их параметры, то есть модели данных, содержащиеся, например, в базе данных; 2) простые отчеты - потоковую информацию, которая описывает изменение состояния какого-либо одного конкретного объекта. Примером таких данных может являться информация о курсе какой-либо валюты, данные о цене нефти или сведения об изменении погоды в каком-то определенном месте. Сведения, содержащие информацию о нескольких объектах, обычно хранятся в реляционных базах данных, например, MySQL, PostgreSQL, Oracle, SQL Server и других. Потоковые же данные в виде простых отчетов, как правило, записывают в так называемые NoSQL базы данных, которые по-другому называют нереляционными - MongoDB, CouchDB, Apache Cassandra и так далее.

...

Страница:

дипломная работа "Алгоритм автоматической генерации текста на примере данных о прогнозе погоды" скачать

Подобные документы

Набор и обработка текста
Общие правила набора на русском языке. Основные виды текстов. Верстка текстов и иллюстраций с соответствующими примерами, правильного и неправильного расположения. Спуск полос и сбор брошюры. Способы размещения изображений, текста, формул, таблиц.

курсовая работа [2,0 M], добавлен 15.05.2013
Жанровая типология PR текстов
Классификация и жанрообразующие признаки внешних PR текстов. Понятие и содержание пресс-релиза в системе жанров PR-текса, принципы их написания для опубликования в сети Интернет. Типология оперативно-новостного и аналитико-публицистического жанров.

курсовая работа [33,3 K], добавлен 10.01.2016
Особенности журналистского текста
Проблемы журналистского текста. Понятие текста. Специфика журналистского текста. Особенности организации журналистского текста. Проблемы композиции. Важность вывода. Роль заголовка. Признаки хорошо написанного текста. Проблемы текстов местной прессы.

курсовая работа [39,6 K], добавлен 06.10.2008
Типы композиционных конструкций аналитических текстов в СМИ по материалам газеты "Ведомости"
Композиция журналистского текста как неотъемлемая часть литературного произведения, её отличие от литературных текстов. Особенности аналитических жанров журналистики в российских изданиях. Комментарий как аналитический жанр на примере газеты "Ведомости".

курсовая работа [40,8 K], добавлен 02.04.2017
Тексты модульной структуры в СМИ (на примере журнала "Story")
Анализ особенностей текстов модульной рекламы в печатных средствах массовой информации. Основные виды, типы текстов, структура модульной рекламы. План анализа модульных структур в журнале "Story". Характеристика журнала, анализ его рекламных модулей.

курсовая работа [72,6 K], добавлен 17.03.2015
Основные формы и средства взаимодействия PR со СМИ
Массовые коммуникации, средства массовой информации и принципы PR. Основные принципы Паблик Рилейшнз. Общие правила подготовки PR текстов. Проведение новостных PR-мероприятий, пресс-конференций. Этапы управления информацией. Правила взаимодействия со СМИ.

курсовая работа [56,5 K], добавлен 09.05.2011
Редакторский анализ публицистических текстов
Виды издания документных текстов. Оценка текста с логической стороны. Выявление логико-смысловых связей. Виды логических ошибок. Устранение смысловых ошибок. Анализ и оценка композиции произведения. Корректурные знаки, используемые при редактировании.

курсовая работа [90,9 K], добавлен 24.05.2014
Смысловая организация рекламных креолизованных текстов
Специфика рекламы в прессе. Структура рекламного текста в журнале. Основные типы взаимодействия текста и иллюстрации. Смысловая организация и использование выразительных приёмов в рекламных креолизованных текстах. Практическое использование Punctum.

дипломная работа [50,2 K], добавлен 10.07.2012
Издательское дело
Основные этапы производства периодических изданий. Технологическая схема производства. Какая бумага применяется в полиграфии. Подборка 20-ти шрифтов и 5-ти линеек. Таблица выходных данных трех периодических изданий. Расчет емкости рукописного текста.

контрольная работа [30,8 K], добавлен 31.10.2002
Прецедентные тексты в заголовках местного издания (на примере газеты "Идринский вестник")
Источники цитирования прецедентных текстов в соответствии с классификацией А.Б. Лихачевой. Определение особенностей использования прецедентных текстов в заголовках газет местного издания. Употребление в заголовке стереотипного для собеседника изречения.

курсовая работа [62,1 K], добавлен 08.03.2015
Правила оформления выходных сведений
Сущность выходных сведений, правила их оформления. Понятие классификационных индексов. Примеры титульных листов. Способы оформления печатных изданий, типичные ошибки и неточности исходных данных. Содержание выходных сведений согласно стандартам.

контрольная работа [694,3 K], добавлен 16.06.2015
Компоненты и режимы работы современного фотографического аппарата
Современный фотографический аппарат представляет из себя сложный электронный оптико-механический прибор. Устройство автоматической наводки на резкость объектива (автофокус), установки выдержки и диафрагмы, управление глубинной резкости.

реферат [21,1 K], добавлен 28.11.2008
Формы подачи информации на примере BusinessWeek
Общая характеристика журналистских текстов и способов подачи новостей в средствах массовой информации. Выборочный анализ подачи информации в BusinessWeek и анализ рейтинговых публикаций издания. Рассмотрение основных проблем журналистских текстов.

курсовая работа [45,8 K], добавлен 27.11.2012
Пресса Великобритании
Мнения ряда исследователей по вопросам текста как вида речевой деятельности и некоторых особенностей газетного текста. Сравнительная характеристика и организация текстов качественной и популярной прессы Великобритании. Анализ первой страницы газет.

дипломная работа [69,7 K], добавлен 21.07.2011
Гендерная специфика информационных продуктов
Понятие гендера в психологии и лингвистике. Основные гендерные требования к информационной политике и их реализация в СМИ. Особенности выражения гендерной специфики информационных продуктов (на примере текстов глянцевых журналов для мужчин и женщин).

курсовая работа [42,2 K], добавлен 22.06.2010
Жанровая стилистика журналистских текстов
Понятие и языково-стилистические особенности журналистского текста, краткая сводная характеристика существующих в данной сфере жанров. Функциональная специфика и использование стилей: информационный, аналитический и художественно-публицистический жанры.

курсовая работа [47,7 K], добавлен 09.05.2014
Смысловое изложение художественных и публицистических текстов
Изучение классификации способов изложения и видов текста. Понятие признаки повествования, его виды и типичные ошибки построения. Виды, и признаки описания. Формы рассуждения, ошибки построения рассуждения-доказательства. Определение и объяснения понятий.

контрольная работа [63,1 K], добавлен 22.01.2014
Редактирование текстов по видам изданий (газетно-журнальные, информационные, рекламные)
Умения и навыки редактирования текстов. Виды изданий: рекламные; информационные, научные, учебные, переиздания. Требования по редактированию газетно-журнальных изданий. Работа редактора с рекламными изданиями. Редактирование информационных изданий.

реферат [28,9 K], добавлен 15.12.2010
Статистический анализ текстов различных авторов на основе их морфологических характеристик
Зависимость количества существительных и глаголов в тексте от авторского стиля (для конкретной выборки авторов). Сбор и подготовка данных. Проведение двухфакторного дисперсного анализа существительных, глаголов, прилагательных и служебных частей речи.

курсовая работа [405,3 K], добавлен 26.06.2013
Медиатекст: из PR-отдела в СМИ
Отличительные особенности PR-текстов. Медиа-тексты, их своеобразие и место в современных СМИ. Имиджевое интервью: основные признаки и отличия от интервью традиционного. Особенности имиджевых интервью на примере публикаций в газете "Континент Сибирь".

дипломная работа [73,9 K], добавлен 27.06.2012

Другие документы, подобные "Алгоритм автоматической генерации текста на примере данных о прогнозе погоды"

весь список подобных работ

скачать работу можно здесь

сколько стоит заказать работу?

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.