Главная Коллекция "Revolution" Математика Разработка информационной системы прогнозирования эпидемиологического индекса гриппа по регионам Российской Федерации

Разработка информационной системы прогнозирования эпидемиологического индекса гриппа по регионам Российской Федерации

Обзор моделей прогнозирования заболеваемости с помощью интернет данных. Применение машинного обучения, нейронный сетей. Прогнозирование эпидемиологического индекса гриппа: хранение данных, поисковые запросы из Яндекс. Вычисление среднеквадратичной ошибки.

Рубрика	Математика
Вид	дипломная работа
Язык	русский
Дата добавления	10.12.2019
Размер файла	2,6 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Разработка информационной системы прогнозирования эпидемиологического индекса гриппа по регионам Российской Федерации

Аннотация

прогнозирование нейронный сеть эпидемиологический индекс

Основной целью данной работы является разработка информационной системы для прогнозирования эпидемиологического индекса гриппа по регионам Российской Федерации. Для выполнения поставленной цели в ходе работы были выполнены все необходимые задачи. В первую очередь реализована автоматизированная система сбора и хранения данных для последующей обработки и построения на их базе прогнозирования эпидемиологического индекса гриппа по всем регионам Российской Федерации. На основе полученных данных выполнено прогнозирование эпидемиологического индекса гриппа по регионам РФ с помощью глубокого обучения на открытой платформе Visual Gene Developer. Визуализация исторических данных и прогноза была выполнена с помощью разработанного интерфейса, подключенного к базе данных Google Big Query.

Введение

Живя в большом мегаполисе или же в малом городе, ежегодно наступает момент, когда большая часть людей заболевает и необходимо обезопасить себя, а именно начать наиболее активно готовить свой организм к предстоящим угрозам. Прогноз эпидемии гриппа активно изучают в США. Ежегодно проходит соревнование по прогнозированию гриппа «CDC Flu Forecasting Challenge», где команды из разных университетов пытаются достичь наибольшей точности в своих прогнозах [13].

Применение данных моделей или систем по прогнозированию может быть, как и на социально-общественных началах, так и для решения конкретных бизнес задач. Свою выпускную квалификационную работу я развиваю в качестве решения определенной задачи от крупной фармацевтической кампании, где большое внимание уделяется сезонности заболеваний гриппа и прогнозированию пика заболеваний среди населения Российской Федерации.

В наше время большое количество институтов по всему миру занимаются изучением вопросов прогнозирования распространения заболеваний. Основной задачей, которую я постараюсь решить во время выполнения своей выпускной квалификационной работы, является прогнозирование эпидемии гриппа по всем регионам Российской Федерации: Центральный ФО, Южный ФО, Северо-Западный ФО, Дальневосточный ФО, Сибирский ФО, Уральский ФО, Приволжский ФО, Северо-Кавказский ФО.

Основными задачами, решенными в рамках данной выпускной квалификационной работы, являются:

· Разработка автоматизированной системы сбора и хранения данных для последующей обработки и построения на их базе прогнозирования эпидемиологического индекса гриппа по всем регионам Российской Федерации.

· Прогнозирование эпидемиологического индекса гриппа по регионам РФ с помощью глубокого обучения на открытой платформе Visual Gene Developer.

· Визуализация исторических данных и прогноза с помощью интерфейса подключенного к базе данных Google Big Query.

В результате проведенных работ по исследованию методики прогнозирования заболеваемости эпидемиологического индекса гриппа по регионам РФ и разработке информационной системы автоматизированного сбора и хранения данных была получена система, которая отвечает всем поставленным задачам:

· Сбор и хранение данных

· Прогнозирование эпидемиологического индекса гриппа по всем регионам РФ

· Визуализация

Структура работы состоит из описания инструментов, использованных для разработки автоматизированной системы сбора, хранения и визуализации данных, а также глубокого обучения на их основе. В данной выпускной квалификационной работе содержатся три главы, заключение и приложение, содержащие статистические данные для прогнозов, сами прогнозы, а также программный код использованных инструментов.

Первая глава состоит из обзора научных работ посвященных прогнозированию или определению уровня эпидемии на региональном и городском уровне. Подробно разобраны методы, применяемые в этой выпускной квалификационной работе, где прогнозирование осуществляется с помощью интернет данных из социальных сетей и поисковых систем.

Вторая глава содержит все себе описание работы сбора и хранения данных для прогнозирования эпидемиологического индекса гриппа по регионам РФ. В данной главе будет подробно описана логика парсеров исторических погодных данных и прогнозируемых погодных данных, статистических данных по поисковым запросам с помощью Yandex Wordstat API, а также описание загрузки в облачную базу данных Google Big Query. Вся разработка на данном этапе велась с помощью Python и Standard SQL.

Вторая глава также заключает в себе настройку нейронной сети для прогнозирование эпидемиологического индекса гриппа по регионам Российской Федерации. Разработка обучения была реализована с помощью открытого для общего использования инструмента, разработанного в University of California-Davis, департамент химической инженерии и науки о материалах. После описания методов прогнозирования следует система визуализации с помощью Google Data Studio со встроенным pipeline с базой данных Google Big Query.

Третья глава состоит из анализа результатов полученных, с помощью разработанной системы. Данная глава также содержит анализ работы системы в целом и выводы, которые были сделаны после решения возникших во время разработки проблем. В конце этой главы расписаны дальнейшие шаги по улучшению системы и планируемое развитие продукта прогнозирования.

В заключении сделаны выводы об изученных научных работах и актуальных на данный момент методов прогнозирования заболеваемости, а также выводы о разработанной информационной системе.

Глава 1. Обзор существующих моделей обнаружения и прогнозирования заболеваемости с помощью интернет данных

1.1 Обзор проблематики наблюдения и прогнозирования распространения заболеваемости гриппом

До начала разработки собственной модели прогнозирования был сделан обзор существующих или ранее существовавших моделей прогнозирования гриппа или каких-либо эпидемиологических заболеваний.

Общественное здравоохранение является важной проблемой. Медицинские работники должны быть в курсе регионального состояния здоровья и вспышек заболеваний, затрагивающих регионы, в которых они работают. Эти знания об очагах заболеваний помогут принимать правильные решения в нужное время. Это поможет им предлагать более качественные услуги эффективным способом и в идеальное время. Большинство поставщиков медицинских услуг зависят от НИИ гриппа Министерства здравоохранения РФ, который информирует о вспышках заболевания или уведомляет о сезоне гриппа.

НИИ гриппа Министерства здравоохранения РФ является доверенным органом на территории РФ. Он публикует еженедельные отчеты о заболеваниях. Одним из еженедельных отчетов является отчет об эпидемии гриппа. НИИ гриппа публикует отчеты, связанные с гриппом, с использованием системы отслеживания числа заболеваний, которая собирает информацию о гриппе амбулаторных больных из сотен медицинских организаций на территории РФ.

Поскольку мы живем в эпоху данных, сайты социальных сетей и поисковые системы широко используются для публикации новостей, событий и даже для выражения своих чувств. Исходя из вышеупомянутых фактов, такие данные сыграли важную роль в оценивании эпидемиологического состояния на текущий момент времени и применяются для разработки наиболее точного прогнозирования во многих областях. Среди указанных сфер можно выделить следующие: прогнозирование чрезвычайных происшествий, управление потоками данных, взаимоотношения внутри сетей, предположения в области новостных фактов и так далее.

В области общественного здравоохранения данные из социальных и поисковых систем обеспечивают эффективный ресурс для наблюдения за распространением эпидемиологических заболеваний, а также эффективный способ связи для предотвращения вспышек заболеваемости. Раннее выявление сезонных эпидемий, таких как грипп, может снизить его воздействие на городском, региональном и национальном уровнях [5]. Использование этих данных для выявления распространения эпидемий, таких как грипп среди населения, может помочь в получении ранних предупреждений того, что в скором времени большое количество граждан будет находиться в высокой зоне риска заболевания. Пользователи социальных сетей и их смежные, текущие поисковые запросы могут использоваться в качестве датчиков, которые предоставляют данные для анализа дальнейшего раннего обнаружения тенденций распространения заболевания и прогнозирования временного интервала, определяющего окончание пика заболеваемости. Новые методы анализа поведения пользователей в поисковых системах и больших данных из социальных сетей могут быть успешно использованы с целью улучшить качество оказания медицинских услуг и повысить готовность лечащих заведений к надвигающимся пикам распространения заболеваемости.

Опираясь на дальнейший обзор моделей выявления пиков эпидемиологических заболеваний с использованием поисковых запросов пользователей и их высказываниях в социальных сетях, было обнаружено следующее подтверждение того, что большинство исследований и моделей были разработаны для выявления таких заболеваний, как сезонный грипп и свиной грипп [1]. Далее описанные модели могут быть применены не только для решения конкретной задачи прогнозирования эпидемиологического индекса гриппа, но и для других, схожих по распространяемости заболеваний или сезонных явлений.

Не смотря на тот факт, что термины прогнозирования и обнаружения будут использованы в дальнейшем обзоре существующих методов прогнозирования, эти термины имеют разные определения. Обнаружение гриппа относится к процессу выявления случаев гриппа, которые уже произошли. Прогнозирование гриппа в свою очередь подвергает анализу и дальнейшему использованию раннее собранные данные для прогнозирования тенденций гриппа. Добавляя к предыдущим терминам и определениям, также существует такой термин как «текущее прогнозирование», который в свою очередь относится к процессу прогнозирования случаев гриппа, произошедших в режиме реального времени, которые пропустили системы наблюдения эпидемиологического контроля за ситуацией гриппа в регионах. Из-за ограничений системы наблюдения, для прогнозирования случаев неотраженного гриппа необходимы новые методы и модели, такие как Google Flu Trend (GFT). Этот процесс прогнозирования текущей погоды интегрируется в редакции отчетов до выпуска окончательных отчетов. Помимо прогнозирования текущей погоды, процесс прогнозирования используется для прогнозирования реальных случаев заболевания гриппом в будущем.

1.2 Существующие проекты обнаружения и прогнозирования эпидемиологических заболеваний

Так как изначально была идея пользоваться поисковыми запросами пользователей в крупных поисковых системах, первое на что было обращено внимание - это существовавший ранее проект от Google, по прогнозированию заболеваемости гриппа с помощью больших данных, состоящих из запросов внутри собственной системы и машинного обучения. Данный проект имеет название Google Flu Trends [9].

Позднее с помощью данных и самой идеи построения прогноза на такого рода данных была написана научная работа в национальном университете Ватерлоо, Канада.

Их идея заключалось в том, что каждый год грипп приводит к увеличению переполненности отделения неотложной помощи, которое можно смягчить путем раннего выявления, связанного с ненадлежащим реагированием. Несмотря на то, что системы национального эпидемиологического надзора позволяют проводить контроль за гриппом практически в режиме реального времени, лишь в немногих случаях была продемонстрирована способность прогнозировать предстоящие региональные заболевания гриппом с превышением порога эпидемиологического индекса гриппа.

Модели прогнозирования, предназначенные для прогнозирования на одну неделю вперед, были разработаны на основе еженедельного подсчета подтвержденных случаев заболевания гриппом в течение семи сезонов (2004-2011 гг.), разделенного на наборы для обучения и проверки вне выборки. Процедуры прогнозирования с использованием классических методов Бокса-Дженкинса, обобщенных линейных и авторегрессионных методов были использованы для разработки окончательной модели и оценки относительного вклада внешних переменных, таких как Google Flu Trends, метеорологические данные и временная информация. Модели были разработаны и оценены с помощью статистических критериев глобального отклонения и тестов логарифмического отношения правдоподобия. Дополнительная мера достоверности прогноза, определяемая как процент значений прогноза, во время пика гриппа, которые находятся в пределах 7 случаев гриппа от фактических данных, была исследована, чтобы продемонстрировать практическую полезность модели.

1.3 Прогнозирование заболеваемости с помощью машинного обучения

Метод опорных векторов является наиболее часто используемым способом прогнозирования заболеваний гриппа. В 2012 году Давид А. Бронятовский предпринял идею использовать метод опорных векторов с тремя классификаторами. Идея заключалось в том, что на основе постов пользователей из социальной сети Twitter, проживающих в Нью Йорке на протяжении 2012-2013 года, определялось текущее состояние эпидемиологического индекса гриппа на городском уровне. Три классификатора работали следующим образом:

· Первый определял среди всех записей пользователей - те записи, которые относятся тем или иным образом к состоянию здоровья (т. е. не являлись шуточной записью или образным выражением)

· Второй классификатор применялся уже к постам, свидетельствующим о состояния здоровья. Классификатор в свою очередь выделял из них те, которые свидетельствовали о заболевании гриппом.

· Третий классификатор разбирал записи, содержащие смысловую нагрузку о заболевании гриппом. На этом этапе происходило определение степени заболевания пользователя

Данный проект оказался относительно успешным. Коэффициент корреляции показателей работы машинного обучения с помощью метода опорных векторов к данным из центра по контролю и предотвращению заболеваний США (аналог НИИ гриппа на территории РФ) составил r=0,93

Похожая структура построения модели определения текущей заболеваемости была построена в 2011 году в Японии Эйджи Арамаки. С помощью API Twitter было выгружено 300 миллионов записей пользователей в период с ноября 2008 года по декабрь 2010 года [20]. После того, как данные из социальной сети были выгружены, к ним применилась фильтрация по содержанию ключевого слова «грипп». Далее, также к и к вышеизложенной модели определения текущей эпидемиологической заболеваемости гриппом, сделанной Давидом Бротнявским, был предпринят метод опорных векторов. В первую очередь, происходило распределение на положительные посты о гриппе и отрицательные. К положительным записям о гриппе исследователь относил посты, содержащие утвердительные предложения о том, что сам пользователь или его знакомый, живущий в близлежащем городе, заболел гриппом. К отрицательным записям о гриппе исследователь относил вопросы, которые пользователи задавали в социальной сети, употребляя ключевое слово «грипп», а также новостные записи аккаунтов журнальных редакций. На 5000 тысячах записей была сделана обучающая выборка, применяемая далее ко всем остальным постам. Специальный человек лично просмотрел обучающую выборку данных и определял «положительность» либо «отрицательность» просмотренной записи. Не маловажным фактором также было уделенное внимание на то, о каком времени заболевания в своем посте говорил пользователь, в последствии к положительным относились только те, которые либо не содержали упоминание времени или же содержали следующие ключевые слова «сегодня» и «вчера». Сравнение данных, полученных с помощью модели, сравнивалось с фактическими данными о заболеваемости от центра по заболеваемости при правительстве Японии (аналог НИИ гриппа на территории РФ). Коэффициент корреляции Пирсона составил r = 0,89. После проведения данного исследования было выяснено, что очень большие трудности для функционирования такой модели составили именно новостные записи, так как в тот период по всему мира наблюдался обширный ажиотаж в связи с свиным гриппом.

Если две вышеописанных работы были созданы для определения текущей заболеваемости, то следующие две научной работы служили для распознавания трендов эпидемиологической заболеваемости гриппа. Первой научной работой в этой части работы будет труд, посвященный прогнозированию гриппа в Пекине, с помощью китайских, национальных социальных сетей. Он был проведен Nanhai Yang в период с сентября 2013 года по декабрь 2013 года. Данная работа, как утверждает сам автор, является первым примером прогнозирования эпидемиологической заболеваемости с помощью метода опорных векторов на территории Китая. Из китайской национальной социальной сети было выгружено более 3,500,000 постов пользователей из Пекина. Далее после того, как была организована выгрузка требуемого набора данных, были отобраны 5000 случайно выбранных записей для построения обучающей выборки, в дальнейшем применимой к общему набору данных. Маркировка «больных» записей происходила вручную и по итогу отобрано 285 постов, относящихся к свидетельствам о заболевании гриппа, и 285 постов, не удовлетворяющих искомым требованиям [4]. Для достижения максимальной точности в определении трендов эпидемии гриппа на территории Пекина Nanhai Yang использовал текстовые функции вместо символьных функций. К общему набору данных были применены 4 типа взвешивания слов:

· логическое взвешивание

· взвешивание по частоте

· взвешивание по частоте с инвертированным документом

· взвешивание по частоте с инвертированным документом по частоте

Результатом этой научной работы стало прогнозирование трендов эпидемиологических заболеваний гриппом на 5 дней ранее чем национальный центр наблюдения за эпидемиологическими заболеваниями на территории Китая.

Вторая работа по прогнозированию трендов эпидемий заболеваний гриппом была проведена Маурисио Сантильяна в Португалии. Также, как и во всех выше рассмотренные трудах, здесь использовалось машинное обучение. Самым основным различием от других работ является тот факт, что вместо одного источника данных (в предыдущих проектах это была одна социальная сеть) здесь набор данных строился на 5 источников, включающих в себе как и социальную сеть, поисковые запросы, системы прогнозирования трендов заболеваемости от Google и несколько других смежных сервисов:

· Поисковые запросы Google

· Google Flu Trends

· Записи в социальной сети Twitter

· Данные о визитах в медицинские учреждения, полученные от AthenaHealth

· Система наблюдения за заболеваниями FluNearYou

Результатом этой работой стало прогнозирование трендов заболеваний

гриппом, которое на неделю опережало схожую по идее систему Google Flu Trends. Положительные результаты этого проекта доказывают факт того, что при смешивании источников данных можно достичь лучших результатов (прогнозирование Google Flu Trends, осуществляется основываясь исключительно на поисковых запросах)

1.4 Прогнозирование заболеваемости с помощью нейронных сетей

Следующая работа принадлежит Vasileios Lampos, который также предпринимал усилия для того, чтобы определить степень заболеваемости гриппом с помощью социальных сетей. В данной работе он исследовал записи, содержащие упоминания гриппа и симптомов гриппа. Данные, полученные из социальной сети Twitter, преобразовывались в показатель гриппа, вычисляемый собственным способом. В первую очередь набор ключевых слов, для поиска , такой что , где i [1, k]. Во вторую очередь набор ежедневных записей составляет , который в свою очередь представляет = , где j [1, n]. Когда индикатор принадлежности к тематике гриппа попадает в запись из набора ежедневных записей, тогда : () = 1, в другом случае () = 0. Количество индикаторов, входящих в записи, делится на общее количество индикаторов. Предыдущее число является показателем гриппа для одной записи. Оно обозначается, как S(), и высчитывается по следующей формуле:

Показатель гриппа для всех записей, он же дневной показатель гриппа, полученный при анализе всех записей за день, обозначается как f(, M) и высчитывается, как сумма всех показателей гриппа отдельно по каждой записи, деленная на общее дневное количество записей n.

С целью достигнуть наибольшей точности в определении текущего состояния заболеваемости гриппа среди населения было принято присвоить каждому слову-индикатору свой вес, влияющий на итоговую формулу и значение показателя гриппа как для каждой отдельной записи, так и для всех записей в целом. Сначала стоит представить формулу показателя гриппа для одной конкретной записи.

После того, как определена формула индекса гриппа для каждой записи, следует описать формулу индекса гриппа для всех записей за день:

Каждый индикатор гриппа оказывает определенное влияние общую картину дневного индекса гриппа. Это влияние оценивается следующим образом:

Дневной индекс гриппа с помощью вышеописанной формулой влияния каждого ключевого слова индикатора может быть записан, как вектор, состоящий из k влияний, где k - количество индикаторов.

Определение веса для каждого индикатора может осуществляться несколькими способами. Далее будут рассмотрен вариант, представленный автором статьи, для решения поставленной задачи:

1. Первоначально находится скользящая средняя из вектора индексов гриппа с отсутствующими весами.

2. Выполнение линейной регрессии наименьших квадратов для сглаженной версии вектора индексов гриппа с отсутсвующими весами.

Очередной работой, связанной с машинным обучением, в целях прогнозирования трендов заболеваний является труд Wei Xu, который применил нейронные сети к данным, собранным из интернет ресурсов, в частности запросов в поисковых системах [16]. Логику его работы можно разбить на 4 основных шага:

Рис. 1. Схема модели прогнозирования Wei Xu

1. Сбор данных из запросов в поисковых системах и фактических исторических данных по заболеваемости.

2. Нахождение оптимальных и наиболее коррелирующих запросов в поисковых системах для уменьшения нагрузки на выгрузку запросов.

3. Использование различных нейронных сетей и их алгоритмов для нахождения взаимосвязей между поисковыми запросами и фактическими данными.

4. Выбор наиболее подходящего алгоритма работы нейронной сети.

В итоге наименьшую среднеквадратичную ошибку в данном научном труде показал метод устойчивого обратного распространения, который был найден на 4 шаге вышеописанного алгоритма во время поиска наилучшей нейронной сети с наилучшим алгоритмом методом перекрестной проверки.

Рис. 2. Шаги прогнозирования модели Wei Xu

Глава 2. Прогнозирование эпидемиологического индекса гриппа

2.1 Сбор и хранение данных

2.1.1 Эпидемиологический индекс гриппа

Данная выпускная квалификационная работа посвящена прогнозированию эпидемиологического индекса гриппа. Для того чтобы, осуществить такой прогноз необходимы исторические данные для обучения. В этой работе период данных, на которых проходило обучение изначально составлял: Январь 2017 - Ноябрь 2018. После каждую неделю приходили новые данные по заболеваемости, разделенные на города и регионы.

Рис. 3. Фрагмент недельного отчета о заболеваемости от НИИ Гриппа

Данные по заболеваемости поступали в формате PDF, и изначально они представляли из себя 63 отдельных файла, которые надо было агрегировать и структурировать. Выполнялось это с помощью скрипта, реализованного на Python 3.7 с помощью библиотек Pandas и pdfminer. После того, как данные о заболеваемости были структурированы в один dataframe, этот dataframe был загружен в облачную базу данных Google Big Query, используя библиотеку «pandasqbq», и конкретно функцию «df.to_gbq».

Последующие данные о заболеваемости, приходящие на рабочую почту в формате PDF, автоматически скачивались на локальный диск виртуальной машины, а после еженедельно отрабатывал скрипт чтения PDF файла, с последующей загрузкой в Google Big Query, автоматическое срабатывание скрипта организовано благодаря Windows Scheduler, работающего на виртуальной машине, также в дальнейшем многие скрипты будут срабатывать основываясь на триггерах именно этого планировщика системных задач.

2.1.2 Сбор метеоданных

Для разработки прогнозирования эпидемиологического индекса гриппа помимо исторических данных о заболеваемости и данных о поисковых запросах из Yandex Wordstat, также использовались данные о погоде и влажности.

Для сбора исторических метеоданных был использован портал www.rp5.ru. Он был выбран по следующим критериям:

1. Существуют исторические данные о погоде с необходимым периодом (начало - Январь 2017)

2. Существуют исторические данные о влажности с необходимым периодом

3. Есть данные о рассматриваемых городах и регионах

4. Есть градация данных до 4 часов необходимая для нахождения средней недельной температуры

Исторические данные о температуре и влажности были выгружены вручную, так как эту операцию надо было выполнить один раз и писать отдельный скрипт, имитирующий поведение пользователя через Python Webix с последующим скачиванием CSV файлов было не целесообразно.

Рис. 4. Фрагмент необходимых данных о прогнозе погода со страницы gismeteo.ru

Для сбора актуальных данных по погоде и прогнозируемых данных по погоде был выбран сервис www.gismeteo.ru, так как изначальным требованием по работе информационной системы прогнозирования был прогноз на период не менее четырех недель, следовательно было необходимо выбрать такой информационный метео-портал, который предоставлял бы данные о прогнозе погоды на месяц вперед.

Gismeteo кроме своего информационного сайта также обладает платными инструментами для реализации пользовательских задач. В конечном итоге было 3 возможных варианта получения дынных о прогнозе погоды:

1. Подписка на прогноз погоды, поступающий в формате CSV на указанную почту

2. Покупка права использования Gismeteo API, для непрерывного получения метео данных для решения масштабных задач

3. Написание собственного парсера сайта www.gismeteo.ru

Наиболее подходящим вариантом для решения задачи реализации требуемой информационной системы оказался написание собственного парсера.

Парсер сайта был написан с помощью Python 3.7 и следующих библиотек:

· urllib.request

· requests

· pandas

· numpy

· csv

· pandas_gbq

Логику разработанного парсера можно описать следующим образом. Первоначально считывается CSV файл со списком городов и URL адресов, на которых расположены прогнозы погоды на ближайший месяц. С помощью функции «csv.reader()» алгоритм скрипта проходит по каждой строке файла, определяя ранее созданные переменные названия города и адреса страницы.

Создав необходимые переменные с помощью библиотеки urllib.request и функции «urlopen(quote_page)» открывается необходимая веб-страница, где переменная quote_page содержит в себе соответствующий URL адрес.

После того, как загружен необходимый HTML код страницы, для доступа к прогнозу погоды требуется разобрать код страницы на элементы, с искомыми значениями. Для выполнения этой задачи было принято решение использовать библиотеку beautiful soup 4.

Beautiful Soup -- это библиотека Python для извлечения данных из файлов HTML и XML. Он работает, предоставляя идиоматические способы навигации, поиска и изменения дерева разбора. Обычно это экономит программистам часы или дни работы. Beautiful Soup поддерживает парсер HTML, включенный в стандартную библиотеку Python, но также поддерживает ряд сторонних анализаторов Python. Beautiful Soup превращает сложный HTML-документ в сложное дерево объектов Python. Пользуясь предоставленным инструментарием, дальнейшие операции будут производиться только с четырьмя видами объектов: Tag, NavigableString, BeautifulSoup и Comment [2].

Разбив необходимую веб-страницу на объекты, поддерживаемые Beautiful Soup, нужно найти такие объекты, которые содержат внутри себя информацию о дне месяца, максимальной температуре за сутки и минимальной температуре за сутки. Для нахождения таких элементов наиболее оптимальным вариантом поиска является использование интернет браузера для поиска класса того элемента, данные которого требуется получить. Выяснив, что нужные элементы на странице, содержащие нужную погодную информацию, обладают одинаковыми атрибутами, а именно - class: temp, потребуется выбрать эти элементы. Выбор всех элементы с данными атрибутами был организован функцией find_all('div', attrs={"class" : "temp"}). Beautiful Soup определяет множество методов поиска дерева разбора, но именно для данной задачи подходит find_all. Метод find_all() просматривает потомков тега и извлекает всех потомков, которые соответствуют указанным фильтрам.

Рис. 5. HTML код разбираемой веб-страницы

Все найденные с помощью find_all элементы образуют список, содержащий максимальные и минимальные температуры, где каждая новая строка - это новые сутки. Теперь достаточно только разобрать HTML код, для нахождения информации о погоде. Метод find_all () сканирует весь документ в поисках результатов, но иногда для конкретной задачи требуется найти только один результат. Если доступна информация о том, что в документе есть только один тег <body>, отсканировать весь документ в поисках большего количества времени. Вместо того, чтобы передавать limit = 1 каждый раз, когда вызывается find_all, есть возможность использовать метод find ().

Финальная часть работы парсера метеоданных заключается в том, что проходя циклом по каждой строке списка температур внутри суток, максимальная и минимальная температуры записываются в объявленный ранее dataframe. После создания такого объекта он записывается в отдельный CSV файл, с помощью функции to_csv() и записывается в облачную базу данных Google Big Query с помощью функции to_gbq().

2.1.3 Поисковые запросы из Яндекс с помощью API Wordstat

Для набора данных, с которым планировалась работа для прогнозирования трендов эпидемии заболевания гриппом, при начале работы с этим проектом планировалось использовать данные по поисковым запросам. В данном подпункте будет разобрана именно техническая часть сбора данных, а не выбор наиболее релевантных запросов для последующего обучения.

Рис. 6. Пользовательский интерфейс Yandex Wordstat

Yandex Wordstat - это доступный, открытый и бесплатный сервис от компании Яндекс для оценки популярности того или иного поискового запроса. С помощью данной системы можно определить популярен ли искомый запрос в определенное время года, а также в нем присутствует возможность выбора нужного региона/города/области (возможности этого инструмента не ограничиваются Российской Федерацией и странами СНГ, также присутствует весь мир). Помимо инструмента для выгрузки количества запросов от Яндекс, есть сервис от Google - Google Trends. Google Trends обладает схожим функционалом, за единственным минусом, что невозможно получить точные данные о количестве запросов. Вместо абсолютного количества Google предоставляет процентное отношение к среднему количеству запросов для определенного месяца и географического расположения и по этой причине такие данные не были выбраны для дальнейшего использования. Для выгрузки из Yandex Wordstat существуют платные инструменты такие как SpyWords, Keycollector, SemanticTool и т. д., которые предоставляют настроенные под каждого отдельного пользователя отчеты и помимо данных о количестве запросов также могут отдавать пользователям этих платных инструментах информацию о SERP (Search Engine Results Page). Так как конечными потребителям таких платных инструментов в большей части являются специалисты SEO оптимизации, и не функции были необходимы для выполнения проекта требовалось другое решение.

Решением стало API Wordstat, использованное с помощью Python для автоматизации еженедельной выгрузки данных о количестве поисковых запросов за прошлую неделю. Написанный скрипт был размещен на виртуальную машину, где, используя стандартное приложение Windows Task Scheduler каждую субботу запускался скрипт, выгружающий количество поисковых запросов по ключевым словам (индикаторам гриппа) в облачную базу данных Google Big Query. День недели для выгрузки данных выбран неслучайно, так как за время работы над проектом было выяснено, что данные появляются не раньше чем четверг, но не позднее чем вечер пятницы.

Выгрузка поисковых запросов была реализована с помощью следующих библиотек:

· JSON

· Urllib2

· Time

· Pandas

· Pandas_gbq

Логика загрузки отчета по поисковому запросу построена следующим образом. Так как Яндекс разрешает сделать не бесконечное количество запросов в день и API Wordstat входит в API Direct, где можно выгрузить персональные данные компании или пользователя о их затратах на рекламные размещения в контекстно медийной сети, то для того, чтобы начать работать с загрузкой информации о поисковых запросов, предварительно необходимо получить уникальный token. Token получается в тот момент, когда регистрируется приложение в облачное системе Яндекс, с указанием целей и задач его использования. После того как получен уникальный token, начинается работа над скриптом выгрузки данных.

Работа скрипта начинается с формирования JSON запроса к заданному URL, для получения данных. JSON запрос состоит из параметров отчета, который необходимо получить в ответе, ключевого слова, временного промежутка, на котором эти данные должны были быть агрегированы, а также GeoID (унифицированная нумерация города/региона/страны). После того, как запрос отправлен, необходимо реализовать функцию проверки готовности отчета. Используя функции urllib2.urlopen() и urllib2.load() проверяется фрагмент о статусе отчета. После чего данная функция готовности отчета используется в цикле до тех пор, пока не получен положительный ответ, в противном случае скрипт переходит в ожидание на 2 секунды. Как только положительный ответ получен, он записывается в dataframe, который после загружается в облачную базу данных Google Big Query. Скрипт завершается удалением запроса и системы Wordstat и проверкой статуса по данным аккаунта, которому принадлежит token и с которого происходил запрос. Проверка происходит для того, чтобы узнать, какое количество запросов еще можно совершить за день и не превышен ли лимит запросов в сутки.

2.1.4 Облачное хранение данных с помощью Google Big Query

Google Big Query - это облачная система хранения данных, запущенная на бета-тестирование компанией Google в 2010 году и выпущенная в релиз уже в 2012. Основным преимуществом этой системы над другими базами данных - это простота в реализации требуемых задач. Основными конкурентами GBQ являются следующие базы данных:

· SAP Business Warehouse

· Snowflake

· Amazon Redshift

Рис. 7. Схема базы данных MySQL

Так как цели данного проекта не включают в себя создания базы данных промышленного уровня на большое количество выделенной памяти под хранение набора данных - выгоднее с точки зрения стоимости и времени, затраченного на организацию хранения и последующей визуализации данных, было выбрать GBQ. Также в GBQ, в отличие от привычной структуры организации базы данных, не требуется заранее продумывать стандартную схему сущностей с внутренними и внешними ключами (рабочий пример MySQL находится выше). Запросы и объединение данных из разных таблиц/разных наборов данных происходит с помощью привычного SQL.

2.2 Прогнозирование эпидемиологического индекса гриппа с помощью нейронной сети

2.2.1 Visual Gene Developer

Прогнозирование эпидемиологического индекса было решено делать с помощью открытого программного обеспечения Visual Genne Developer.

Visual Gene Developer -- это специализированное программное обеспечение для конструирования генов, которое имеет множество функций для анализа, проектирования и оптимизации генов. Первоначально, программное обеспечение было разработано для оптимизации последовательности ДНК и с 2008 года было обновлено до общего пакета программ. Пользователь может легко получить доступ к внутренней структуре Visual Gene Developer, использовать его ресурс и разрабатывать новые модули. , Например, объединяя класс искусственной нейронной сети с классом анализа генов и классом сетевых вычислений, разработчик модуля может решать очень сложные нелинейные, многопараметрические задачи оптимизации задач не только связанных с генами, но и с другими сферами изучения.

Рис. 8. Пользовательский интерфейс Visual gene developer

Перед подключением искусственной нейронной сети данные проходят нормализацию к значениям от 0 до 1. После чего нейронная сеть с тремя скрытыми слоями и прогнозными значениями по температуре, влажности и поисковыми запросами рассчитывает значения эпидемиологического индекса на 4 недели вперед. Переобучение сети происходит каждую неделю с поступлением актуальных данных по региональной заболеваемости.

2.2.2 Выбор ключевых поисковых запросов для обучения нейронной сети

После исследования большого семантического ядра запросов, относящихся к заболеваемости и эпидемиям, были выбраны следующие, наиболее коррелирующие с заболеваемостью:

1) Кашель

2) Простуда

3) Доктор Мом

4) Грипп

5) Эпидемия Гриппа

Ниже представлены графики количества запросов по Центральному Федеральному Округу запросов «кашель» и «эпидемия гриппа»:

Рис. 9. Динамика поисковых запросов «кашель» по центральному федеральному округу

Рис. 10. Динамика поисковых запросов «грипп» по центральному федеральному округу

Поисковым запросом, который наиболее точно, отображал начало ускоренного распространения эпидемии гриппа и самой эпидемии гриппа являлся запрос «эпидемия гриппа» [3]. Он был добавлен в список для ежедневной выгрузки только в начале февраля 2019, так как на начальных этапах не удалось выявить его значимость для прогнозирования индекса гриппа. Совместив на одной диаграмме эпидемиологический индекс гриппа для одного региона и количество запросов «эпидемия гриппа» в неделю на той же диаграмме, но с другой осью, первоначально можно увидеть визуальное подтверждение факта, описанного выше.

Рис. 11. Сравнение эпидемиологического индекса и поисковых запросов "эпидемия гриппа". ЦФО

2.2.3 Нейронная сеть

Нейронные сети (они же искусственные нейронные сети), глубокое обучение и машинное обучение - это те термины, которые можно услышать из большинства статей, связанных с информационными технологиями. Многие, уже привычные для современного населения пользователей, продукты основаны на этих технологиях: определение лиц на фотографиях, корректировки изображений, аутентификация по фотографии паспорта, предсказание пользовательских предпочтений, основываясь на его поведенческих факторах, собранных во время использования сайта/продукта/приложения, и многое другое.

После обзора существующих на данный момент решений по прогнозированию эпидемии заболеваемости было принято решение использовать нейронные сети, так как первоочередным условием, выявленным после обзора, является тот факт, что использование нескольких источников повышает точность прогнозирования распространения эпидемии. Источники данных также выбраны после прочитанных научных статей и уже готовых проектов, за единственным исключением того, что была добавлена температура (исторические значения и прогнозные).

Для прогнозирования данных в инструменте Visual Gene Developer есть раздел создания искусственной нейронной сети. В данном разделе можно загрузить имеющиеся данные, разграничив их на требуемые «входные» и «выходные» данные. В программном обеспечении Visual Gene Developer используется стандартный алгоритм обучения нейронных сетей, а именно алгоритм обратного распространения (back propagation). Набор инструментов используемого программного обеспечения активно используется исследовательскими институтами не только для проектирования генов (первоначальная функция по) либо же их оптимизации, но и для любых задач, с использованием искусственной нейронной сети. Весь этап прогнозирования можно разделить на 4 основных шага:

1. Подготовка набора данных

2. Конфигурация искусственной нейронной сети

3. Процесс обучения

4. Предсказание эпидемиологического индекса гриппа

Первым шагом является подготовка набора данных, который в дальнейшем будет использоваться. В самой последней версии данного ПО, есть функции нормализации данных, через которую будет проходить набор данных, состоящий из: средней за неделю температуры, количество поисковых запросов (связанных с гриппом) за неделю, разделенные на каждый запрос отдельно, и фактическими значениями эпидемиологического индекса гриппа, предоставленного НИИ гриппа по РФ. Актуальный набор данных загружается из Google Big Query, куда заранее была загружена информация на этапе сбора данных.

Вторым шагом является конфигурация искусственной нейронной сети. Для конфигурации Visual Gene Developer предоставляет возможность воспользоваться встроенным интерфейсом для настройки требуемых параметров.

Рис. 12. Конфигурация искусственной нейронной сети

Суммарная ошибка определяется следующим уравнением:

Где:

- Общее количество наборов данных

- Общее количество «выходных» переменных

- Фактическое значение «выходной переменной» переменной

- Прогнозируемое значение «выходной» переменной

С помощью интерфейса загружается набор данных для обучения и переменные, которые необходимо спрогнозировать. Во время прогноза было создано три скрытых слоя и одна переменная, значение которой надо было получить - эпидемиологический индекс гриппа. [14]

Третьим шагом является обучающий процесс. После того как набор данных был загружен - запускается процесс обучения. В программном обеспечении Visual Gene Developer на выполнение 30 000 циклов затрачивается около 70 секунд

Рис. 13. Обучение искусственной нейронной сети

Первоначально, когда работа над проектом только начиналась, предполагалось прогнозировать абсолютное значение количества заболевших гриппом, помимо эпидемиологического индекса гриппа. Ниже представлена иллюстрация регрессии во время процесса обучения, для прогнозирования двух переменных:

Рис. 14. Результат регрессии во время обучения

Четвертым шагом является сам прогноз значения эпидемиологического индекса гриппа. Используя набор данных, полученный после обучения, применяется метод обратного распространения (back propagation). После того как получены финальные прогнозируемые значения, во второй раз проходят нормализацию и принимают фактические вид (не от 0 до 1)

2.3 Визуализация

Визуализация была сделана на открытой платформе построения онлайн интерфейсов и дашбордов Google Data Studio. Выбор происходил между Tableau и Google Data Studio, выбор в сторону второго обусловлен сразу несколькими большими превосходствами - это встроенный pipeline между облачной базой данных, где находятся все исторические и прогнозные значения и интерфейсом визуализации Google Data Studio, а также простое предоставление доступа к использованию собственного сервиса третьим лицам [6]. Созданный интерфейс визуализации представлен ниже:

Ошибка! Недопустимый объект гиперссылки.

Рис. 15. Пользовательский интерфейс системы

Обновление данных в визуализации происходит автоматически. Функционал Google Data Studio позволяет делать обновление диаграмм, таблиц и числовых показателей каждый раз, когда пользователь обновляет веб-страницу. Сверху диаграммы организованы фильтры, которые позволяют выводить только интересующий регион, город или период, за который пользователю необходимо посмотреть фактические либо прогнозируемые данные эпидемиологического индекса гриппа.

Рис. 16. Пользовательский интерфейс (фильтр по регионам)

Под запросы конечного потребителя данного интерфейса можно оперативно менять визуализацию, не затрачивая на это большое количество времени и максимально быстро внедряя дополнения, необходимые для анализа информации. Линия «Threshold» является уровнем, превышая который, начинается эпидемия. По данным НИИ гриппа РФ уровень эпидемии существуют для каждый недели, и линия, искусственно созданная в этом интерфейсе, визуализирует то значение эпидемиологического индекса гриппа, которое конечный клиент выбрал для решения своих задач, заранее согласовав это значение с источником информации о заболеваемости. Уровень Threshold для каждого региона свой. Наиболее доступно это объясняется сравнением динамики индекса гриппа двух регионов на одном графики с единой осью.

Рис. 17. Сравнение эпидемиологических индексов СЗФО и ЮФО

Как видно из вышеприведенного графика, определять один уровень порога заболеваемости было нецелесообразно [12], поэтому согласовав с клиентом, были введены следующие значения:

Таблица 1. Порог заболеваемости по регионам

Регион

Порог заболеваемости

РФ - Центральный ФО

70

РФ - Южный ФО

40

РФ - Северо-Западный ФО

90

РФ - Дальневосточный ФО

75

РФ - Сибирский ФО

65

РФ - Уральский ФО

90

РФ - Приволжский ФО

70

РФ Северо-Кавказский ФО

50

Российская Федерация

73

Глава 3. Анализ результатов работы информационной системы и прогнозирования эпидемиологического индекса гриппа

3.1 Вычисление среднеквадратичной ошибки результатов прогнозирование заболеваемости

Для оценки результатов работы системы прогнозирования заболеваемости была применена среднеквадратичная ошибка. Дальнейшие результаты будут разделяться на 4 типа, так как прогнозирование было на 4 недели вперед и качество прогноза будет различаться в зависимости от недели.

Формула вычисления среднеквадратичной ошибки:

Где = , - результат i-ого прогноза, X - фактическое значение индекса гриппа.

Таблица 2. Средняя квадратичная ошибка по регионам

Регион

Средняя квадратичная ошибка

РФ - Центральный ФО

2,48

РФ - Южный ФО

2,41

РФ - Северо-Западный ФО

2,27

РФ - Дальневосточный ФО

2,41

РФ - Сибирский ФО

2,61

РФ - Уральский ФО

2,41

РФ - Приволжский ФО

1,92

РФ Северо-Кавказский ФО

2,45

Российская Федерация

2,48

В приложении находятся таблицы с прогнозируемыми значениями для каждого региона. В качестве сжатых результатов ниже будет приведена таблица среднеквадратичных ошибок для каждого из регионов на одну неделю вперед.

3.2 Оценка работы эффективности информационной системы прогнозирования заболеваемости и дальнейшее развитие

Работа информационной системы была оценена конечным клиентом, как стабильная и информативная. Основным плюсом работы с облачной системой Google Cloud, в которую входят инструменты, использованные для реализации проекта, а именно для хранения и визуализации данных - Google Big Query и Google Data Studio, несомненно, были выбраны оптимально под те условия, которые необходимо было соблюдать:

· Стабильное функционирование работы системы

· Гибкость в настройке элементов для визуализации и последующие корректировки конечного продукта

· Быстрая реализации новых идей для тестирования в целях повышенной точности прогнозирования заболеваемости

Во время работы над реализацией данной системы, а также ее последующей настройкой возникал ряд проблем. Проблемы возникали в двух областях реализации - это сбор данных для обучения нейронной сети и прогнозирования и само прогнозирования с помощью искусственной нейронной сети.

Касаемо первой части, возникших проблем, стоит сказать, что многие из скриптов не срабатывали в заданное им время, в связи с чем возникали трудности с последующим прогнозированием, так как отсутствовали необходимые данные. Изначально в качестве виртуальной машины по сбору данных использовался рабочий персональный компьютер. После того, как идея использования персонального компьютера зарекомендовала себя, как нестабильная, компания приобрела виртуальную машину на базе облака Microsoft Azure. После приобретения облачной виртуальной машины Microsoft, проблем связанных с запуском скриптов сбора данных (конвертация PDF файла от НИИ гриппа, сбор прогнозируемых погодных данных с gismeteo.ru, сбор поисковых запросов, связанных с распространением заболеваемости по API Wordstat) удалось избежать. Следующие проблемы возникали с работой парсера. В течение работы проекта необходимо было отслеживать стабильность сбора данных с веб-страниц. На данный момент уже рассматривается возможность покупки платной подписки на API по загрузке прогноза погоды, но до этого момента структура сайта имеет ключевую роль в сборе данных, так как если таковая структура меняется (допустим в целях улучшения визуального восприятия сайта), то сбор данных осуществить невозможно.

Дальнейшее развитие данного проекта заключается в распространении работы системы на крупные города текущих регионов. Прогноз погоды, а также данные по поисковым запросам будут собираться с каждого города, входящего в систему, объединяясь с фактическими данными о заболеваемости от НИИ гриппа. В качестве улучшения прогнозы планируется создание собственной искусственной нейронной сети с помощью Keras - библиотеки глубокого обучения под Python.

Заключение

В результате проведенных работ по исследованию методики прогнозирования заболеваемости эпидемиологического индекса гриппа по регионам РФ и разработке информационной системы автоматизированного сбора и хранения данных была получена система, которая отвечает всем поставленным задачам:

· Сбор и хранение данных

· Прогнозирование эпидемиологического индекса гриппа по всем регионам РФ

· Визуализация

Дальнейшим развитием будет более точная настройка искусственной нейронной сети для уменьшения среднеквадратичной ошибки прогнозирования на базе построенной для этого информационной системе, а также распространение работы системы на города Российской Федерации.

Список литературы

1. Paul MJ, Dredze M, Broniatowski D. Twitter improves influenza forecasting. PLOS Currents Outbreaks. 2014;P.6-15

2. Adam N, Eledath J, Mehrotra S, Venkatasubramanian N. Social media alert and response to threats to citizens (smart-c). In: Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom) // 2012 8th International Conference On. - IEEE, 2012. P.18-19.

3. Abel F, Hauff C, Houben GJ, Stronkman R, Tao K. Semantics+ filtering+ search= twitcident. exploring information in social web streams // Proceedings of the 23rd ACM Conference on Hypertext and Social Media. - ACM, 2012. P. 285-94.
...

Страница:

1
2

дипломная работа "Разработка информационной системы прогнозирования эпидемиологического индекса гриппа по регионам Российской Федерации" скачать

Подобные документы

Построение краткосрочного прогноза в рамках адаптивной модели
Обзор адаптивных методов прогнозирования. Построение модели Брауна. Применение методов прогнозирования на примере СПК колхоза "Новоалексеевский" в рамках модели авторегрессии и проинтегрированного скользящего среднего, предложенной Боксом и Дженкинсом.

дипломная работа [9,0 M], добавлен 28.06.2011

Сортировка данных и реализация быстрого поиска в уже отсортированном массиве
Законы алгебры Буля и их применение для преобразования логических выражений. Расчет информационной емкости документов предметной области. Построение инфологической, реляционной и даталогической моделей. Применение методов поиска и сортировки данных.

курсовая работа [261,7 K], добавлен 05.01.2013

Анализ показателя реадмиссии
Анализ исследований в области лечения диабета. Использование классификаторов машинного обучения для анализа данных, определение зависимостей и корреляции между переменными, значимых параметров, а также подготовка данных для анализа. Разработка модели.

дипломная работа [256,0 K], добавлен 29.06.2017

Конечные группы со сверхразрешимыми подгруппами четного индекса
Конечные группы со сверхразрешимыми подгруппами четного и непримарного индекса. Неразрешимые группы с заданными подгруппами непримарного индекса. Классификация и строение конечных минимальных несверхразрешимых групп. Доказательство теорем и лемм.

курсовая работа [427,2 K], добавлен 18.09.2009

Разработка и исследование ускоренного алгоритма калибровки моделей больших сетей по коэффициенту кластеризации
Теория случайных графов, модели сетей (графы Барабаши-Альберт, Эрдеша-Реньи, Уотса-Строгатса и др.) Разработка ускоренного алгоритма калибровки больших сетей по коэффициенту кластеризации на языке Java в среде Eclipse. Анализ экспериментальных данных.

дипломная работа [2,0 M], добавлен 19.11.2013

Приближение функций
Medsmooth и supsmooth, линейное сглаживание данных по трем, пяти и семи точкам. Численное дифференцирование исходных и сглаженных данных с помощью второй формулы Гаусса и Бесселя, первая и вторая производная. Вычисление коэффициентов обусловленности.

лабораторная работа [205,8 K], добавлен 16.06.2014

Метод наименьших квадратов
Основные задачи регрессионного анализа в математической статистике. Вычисление дисперсии параметров уравнения регрессии и дисперсии прогнозирования эндогенной переменной. Установление зависимости между переменными. Применение метода наименьших квадратов.

презентация [100,3 K], добавлен 16.12.2014

Нейронные сети
Изучение человеческого мозга. История изучения и создания нейронных сетей. Биологический и искусственный нейрон. Выбор структуры нейросети. Грамотное обучение искусственных нейронных сетей и их применение, программные модели искусственных нейросетей.

курсовая работа [89,2 K], добавлен 29.04.2009

Прогнозирование функций по методу наименьших квадратов
Исследование точности прогнозирования случайного процесса с использованием метода наименьших квадратов. Анализ расхождения между трендом и прогнозом, последующая оценка близости распределения расхождений наблюдений и распределения сгенерированного шума.

курсовая работа [1,0 M], добавлен 29.01.2010

Прогноз количества отказов РЭО аэропорта на следующий год
Постановка задачи прогнозирования количества отказов радиоэлектронного оборудования на следующий год в аэропорту. График общей тенденции отказов. Использование метода временных рядов. Выделение тренда, применение метода скользящих средних значений.

курсовая работа [109,9 K], добавлен 19.12.2009

Приближенное вычисление числа e и основная формула для e
Определение числа e, вычисление его приближенного значения и его трансцендентность. Анализ формул числа е с помощью рядов и пределов функции. Проявление числа e в реальной жизни и его практическое применение. Применение числа e в математических задачах.

курсовая работа [352,9 K], добавлен 17.05.2021

Проценты и их применение
Обзор истории происхождения процентов, применение процентных вычислений в задачах. Решение задач по формуле сложных процентов разными способами, нахождение процентов от числа. Применение процентов в жизни: исследование бюджета семьи и посещения кружков.

курсовая работа [126,9 K], добавлен 09.09.2010

Прогнозирование наработки до отказа объекта
Определение среднего квадратичного отклонения. Расчет значения критерия Стьюдента, значения доверительных границ с его учетом. Обоснование выбора математической модели прогнозирования. Параметры по методу наименьших квадратов, наработка до отказа.

контрольная работа [394,1 K], добавлен 18.06.2014

Методические особенности обучения решению текстовых задач учащихся начальной школы
Понятие текстовой задачи, ее роль в процессе обучения математике. Изучение основных способов решения текстовых задач, видов их анализа. Применение метода моделирования в обучении решению данных заданий. Описание опыта работы учителя начальных классов.

дипломная работа [69,6 K], добавлен 13.01.2015

Математическое моделирование и численные методы в решении технических задач
Изучение способов работы с файлами с помощью автоматического преобразования данных. Решение иррациональных уравнений методами хорд и половинного деления. Вычисление определенного интеграла. Решение систем линейных алгебраических уравнений. Ряды Фурье.

курсовая работа [759,3 K], добавлен 16.08.2012

Информация. Модели. Математическое моделирование
Вводные понятия. Классификация моделей. Классификация объектов (систем) по их способности использовать информацию. Этапы создания модели. Понятие о жизненном цикле систем. Модели прогнозирования.

реферат [36,6 K], добавлен 13.12.2003

Обработка экспериментальных данных методами математической статистики
Проверка адекватности линейной регрессии. Вычисление выборочного коэффициента корреляции. Обработка одномерной выборки методами статистического анализа. Проверка гипотезы значимости с помощью критерия Пирсона. Составление линейной эмпирической регрессии.

задача [409,0 K], добавлен 17.10.2012

Простейшие способы обработки опытных данных
Простейшие способы обработки опытных данных. Подбор параметров способом средних. Подбор параметров способом наименьших квадратов. Применение простейших способов обработки опытных данных к конкретным процессам.

дипломная работа [63,9 K], добавлен 08.08.2007

Системы линейных уравнений
Решение системы линейных уравнений по правилу Крамера и с помощью обратной матрицы. Нахождение ранга матрицы. Вычисление определителя с помощью теоремы Лапласа. Исследование на совместимость системы уравнений, нахождение общего решения методом Гауса.

контрольная работа [97,3 K], добавлен 24.05.2009

Методы представления статистических данных
Табличный метод представления данных правовой статистики. Абсолютные и обобщающие показатели. Относительные величины, их основные виды и применение. Среднее геометрическое, мода и медиана. Метод выборочного наблюдения. Классификация рядов динамики.

контрольная работа [756,5 K], добавлен 29.03.2013

Другие документы, подобные "Разработка информационной системы прогнозирования эпидемиологического индекса гриппа по регионам Российской Федерации"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Разработка информационной системы прогнозирования эпидемиологического индекса гриппа по регионам Российской Федерации

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Аннотация

прогнозирование нейронный сеть эпидемиологический индекс

Введение

Основными задачами, решенными в рамках данной выпускной квалификационной работы, являются:

Глава 1. Обзор существующих моделей обнаружения и прогнозирования заболеваемости с помощью интернет данных

1.1 Обзор проблематики наблюдения и прогнозирования распространения заболеваемости гриппом

1.2 Существующие проекты обнаружения и прогнозирования эпидемиологических заболеваний

Позднее с помощью данных и самой идеи построения прогноза на такого рода данных была написана научная работа в национальном университете Ватерлоо, Канада.

1.3 Прогнозирование заболеваемости с помощью машинного обучения

1.4 Прогнозирование заболеваемости с помощью нейронных сетей

После того, как определена формула индекса гриппа для каждой записи, следует описать формулу индекса гриппа для всех записей за день:

Каждый индикатор гриппа оказывает определенное влияние общую картину дневного индекса гриппа. Это влияние оценивается следующим образом:

Глава 2. Прогнозирование эпидемиологического индекса гриппа

2.1 Сбор и хранение данных

2.1.1 Эпидемиологический индекс гриппа

2.1.2 Сбор метеоданных

Для сбора исторических метеоданных был использован портал www.rp5.ru. Он был выбран по следующим критериям:

2.1.3 Поисковые запросы из Яндекс с помощью API Wordstat

2.1.4 Облачное хранение данных с помощью Google Big Query

2.2 Прогнозирование эпидемиологического индекса гриппа с помощью нейронной сети

2.2.1 Visual Gene Developer

Прогнозирование эпидемиологического индекса было решено делать с помощью открытого программного обеспечения Visual Genne Developer.

2.2.2 Выбор ключевых поисковых запросов для обучения нейронной сети

2.2.3 Нейронная сеть

2.3 Визуализация

Ошибка! Недопустимый объект гиперссылки.

Глава 3. Анализ результатов работы информационной системы и прогнозирования эпидемиологического индекса гриппа

3.1 Вычисление среднеквадратичной ошибки результатов прогнозирование заболеваемости

Формула вычисления среднеквадратичной ошибки:

Где = , - результат i-ого прогноза, X - фактическое значение индекса гриппа.

3.2 Оценка работы эффективности информационной системы прогнозирования заболеваемости и дальнейшее развитие

Заключение

Список литературы

1. Paul MJ, Dredze M, Broniatowski D. Twitter improves influenza forecasting. PLOS Currents Outbreaks. 2014;P.6-15

2. Adam N, Eledath J, Mehrotra S, Venkatasubramanian N. Social media alert and response to threats to citizens (smart-c). In: Collaborative Computing: Networking, Applications and Worksharing (CollaborateCom) // 2012 8th International Conference On. - IEEE, 2012. P.18-19.

3. Abel F, Hauff C, Houben GJ, Stronkman R, Tao K. Semantics+ filtering+ search= twitcident. exploring information in social web streams // Proceedings of the 23rd ACM Conference on Hypertext and Social Media. - ACM, 2012. P. 285-94.

Подобные документы

Регион	Порог заболеваемости
РФ - Центральный ФО	70
РФ - Южный ФО	40
РФ - Северо-Западный ФО	90
РФ - Дальневосточный ФО	75
РФ - Сибирский ФО	65
РФ - Уральский ФО	90
РФ - Приволжский ФО	70
РФ Северо-Кавказский ФО	50
Российская Федерация	73

Регион	Средняя квадратичная ошибка
РФ - Центральный ФО	2,48
РФ - Южный ФО	2,41
РФ - Северо-Западный ФО	2,27
РФ - Дальневосточный ФО	2,41
РФ - Сибирский ФО	2,61
РФ - Уральский ФО	2,41
РФ - Приволжский ФО	1,92
РФ Северо-Кавказский ФО	2,45
Российская Федерация	2,48