Анализ и прогнозирование показателей системы интеллектуального здания

Анализ системы управления подсистемами технического обеспечения интеллектуального здания. Особенность применения нейронных сетей. Сравнение методов случайных лесов, наивного байесовского классификатора и градиентного бустинга для задач прогнозирования.

Рубрика Программирование, компьютеры и кибернетика
Вид диссертация
Язык русский
Дата добавления 04.12.2019
Размер файла 3,8 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

3. Загрузка данных. Для обработки данных, их необходимо загрузить в среду, где будет проводиться анализ и прогнозирование. В качестве инструмента для разработки может быть использован язык Python или язык R.

4. Подготовка данных к выполнению анализа. Загруженные данные требуют подготовки к выполнению анализа: необходимо исключить из данных аномальные значения, пропуски и т.д. Исследование данных также может быть выполнено с применением инструментов, указанных в п.3.

5. Формирование отчётов. Далее на основе подготовленных данных необходимо сформировать ряд отчетов для СУ. Данная задача также может быть выполнено с использованием тех же языков программирования R и Python.

Рисунок 3.1 Проектирование модуля анализа и прогнозирования для системы управления ИЗ с контурами управления А и В

Следующий вариант проектирования модуля анализа и прогнозирования для системы управления ИЗ предполагает реализацию модуля - классификатора сценариев для контроллера (данный компонент на рис.2.3 относится к контуру С), который предполагает выбор оптимального сценария из сформированного набора сценариев при определенных входных параметрах. Рассматриваемый вариант проектирования модуля анализа и прогнозирования для управления ИЗ (см. рис.3.2) предполагает некоторые пункты, аналогичные предыдущему варианту проектирования модуля анализа и прогнозирования для системы управления ИЗ, поэтому в данном случае они будут перечислены без подробного описания:

1. Сбор данных.

2. Хранение данных.

3. Загрузка данных.

4. Подготовка данных к выполнению анализа.

5. Выбор сценария для контроллера. Данный этап предполагает применение методов анализа данных, рассмотренных в Главе 2. На основе данных с датчиков ИЗ, датчиков окружающей среды и сформированных сценариев инструменты анализа данных должны выбрать наиболее оптимальный сценарий для контроллера, который в свою очередь отрегулирует на основе него условия в системе ИЗ.

Рисунок 3.2 Проектирование модуля анализа и прогнозирования для системы управления ИЗ с контурами управления А, В и С

Итак, выше рассмотрены два варианта проектирования модуля анализа и прогнозирования для управления системой ИЗ. Далее на основе спроектированного модуля будет реализован прототип на основе методов анализа данных, рассмотренных в главе 2.

3.2 Реализация прототипа модуля анализа и прогнозирования для системы управления ИЗ

Прототип будет реализован на основе методов анализа данных, рассмотренных в главе 2, для прогнозирования показателей системы ИЗ на основе реальных данных. Исследование было реализовано на языке R в среде разработки R-Studio. В рамках данного исследования будут использованы два набора данных, собранных с разных устройств и в разное время.

Во-первых, данные, собранные на протяжении первых двух месяцах 2018 года в лаборатории НИУ ВШЭ - Пермь. Информация с датчиков собиралась о температуре батареи, температуре комнаты с гранулярностью в 15 минут. Далее к этим данным были найдены данные по температуре воздуха на улице за тот же период времени. Таким образом, исходные данные представляют из себя информацию о температурах на улице (см. рис.3.4), в комнате и температуры батареи (см. рис.3.5). С использованием рассматриваемого набора данных (далее «набор данных 1») для системы ИЗ могут быть решены следующие задачи:

1. Прогноз температуры батареи. Данный прогноз может позволить дать рекомендации для системы ИЗ по установлению температуры батареи для создания комфортных условий.

2. Определение внештатных ситуаций, которые включают в себя возникновение пожара, отключение системы отопления, выход из строя датчика и т.д. В рамках данного исследования такие прогнозы нет возможности построить, т.к. за время сбора данных не произошло никаких внештатных ситуаций.

Во-вторых, данные, собранные в начале 2019 года на протяжении двух недель в лаборатории НИУ ВШЭ - Пермь. В разрезе времени с гранулярностью полчаса (см. рис.3.27-3.28) и полтора часа (см.рис.3.25-3.26) собиралась следующая информация: показания температур комнаты с 9 разных точек комнаты, показания температуры батареи, показания температуры на улице. Текущие наборы данных (далее «набор данных 2») могут позволить решить для системы ИЗ следующие задачи:

1. Определение человека в помещении. С помощью нескольких датчиков температур можно определить изменение, которые поступят сигналом того, что в помещение вошёл человек. Данная задача может позволить эффективно управлять освещением, корректировать температурные условия комнаты на основе знаний о появлении людей в комнате в определенные промежутки времени.

2. Прогнозирование температуры батареи. На основе данных о температурах окружающей среды (температуры на улице) и температур в комнате могут быть построены рекомендательные прогнозы для корректировки системы ИЗ в целях создания комфортных условий жизнедеятельности (заранее увеличить подачу тепла при снижении температуры воздуха на улице, и наоборот).

3. Определение внештатных ситуаций. Данный пункт описан выше.

Таким образом, на основе описанных наборов данных будут опробованы методы анализа данных, которые предполагают решить ряд задач для системы ИЗ (см. табл.3.1).

Таблица. 3.1 Соотнесения используемых методов анализа данных и наборов данных

Набор данных 1

Набор данных 2

Задача регрессии

Задача классификации

Нейронные сети

+

+

+

+

Логистическая регрессия

+

+

Линейная регрессия

+

Дерево решений

+

+

+

+

Лес решений

+

+

Наивный байесовский классификатор

+

+

Градиентный бустинг

+

+

3.2.1 Пример анализа данных температуры для управления зданием: задача прогнозирования температуры батареи

На основе набора данных 1 будут построены модели, которые должны давать рекомендации по установке температуры батареи, зная прогноз погоды на улице и температуру в комнате, необходимую для жизнедеятельности. Стоит отметить, что построенные модели могут оказаться неточными, т.к. при построении моделей не учтен ряд других параметров, влияющих на температуру в комнате (скорость ветра на улице, объем комнаты, наличие людей, наличие техники, влажность воздуха и другие). Однако в текущем исследовании для упрощения будет рассмотрена следующая модель: прогнозируемый параметр - температура батареи, которая прогнозируется на основе температуры на улице и температуры в комнате.

Задача прогнозирования на наборе данных 1 предполагает выполнение следующих подзадач:

1. Загрузить данные.

2. Подготовить данные к применению методов анализа данных:

2.1. Файл, содержащий показания температуры воздуха в комнате и температуры батареи, требует подготовки к анализу:

2.1.1. Преобразовать к виду: «время - температура в комнате - температура батареи».

2.1.2. Агрегировать до измерений температур за каждый час.

2.1.3. Удалить некорректные строки.

2.1.4. Привести все столбцы к необходимому формату (температуры - числовой формат, время - встроенный формат «DateTime»).

2.2. Файл, содержащий данный с температурой воздуха на улице, требует следующей подготовки к анализу:

2.2.1. Привести столбцы к необходимому формату (Объединить столбцы час, день, месяц и привести в формат «DateTime»).

2.2.2. Удалить ненужные для дальнейшего анализа столбцы.

2.3. Объединить таблицы по столбцу «DateTime».

3. Построить модели на текущих данных с применением нескольких методов анализа данных:

3.1. Построить модели линейной регрессии, нейронных сетей, деревьев решений. В ходе апробации методов для каждого из них необходимо произвести следующие манипуляции:

3.1.1. Подготовить данные для обучения и обучить несколько моделей.

3.1.2. Подготовить данные для тестирования моделей и получить прогнозы для каждой модели.

4. Сравнить качество моделей на основе показателя средней квадратичной ошибки RMSE (Root Mean Squared Error).

5. Выбрать метод анализа данных, модель которого даёт более точный прогноз на текущих данных.

Загрузка данных

Данные по температуре комнаты и батареи получены посредством снятия показаний с установленных датчиков. Датчики измеряли температуры на протяжении 30 дней с гранулярностью в 15 минут. Файл сформирован в формате csv.

Данные температуры воздуха получены с сайта и содержат измерения температуры воздуха за каждый час в течение того же промежутка времени. Файл сформирован в формате csv.

Для загрузки данных был использован BiqQuery (см. рис. 3.3). Фрагмент исходного файла с температурой воздуха на улице представлен ниже (см. рис. 3.4).

Рисунок 3.3. Код загрузки данных с помощью BigQuery

Рисунок 3.4. Фрагмент таблицы исходных данных с температурами воздуха на улице

Далее загружаем таблицу с температурой воздуха в комнате и температурой батареи, фрагмент исходных данных показан на рис.3.5.

Рисунок 3.5. Фрагмент таблицы исходных данных с температурами воздуха в комнате и температурой батареи

Подготовка данных к применению методов анализа данных

До применения методов анализа данных необходимо привести исходные данные к необходимому формату. В ходе подготовки будут удалены аномальные значения и пропуски. Далее требуется два набора данных объединить по времени. В результате будет получена таблица с данными, готовыми к применению методов анализа.

Подготовка таблицы с температурами воздуха на улице

Объединяем столбцы День, Месяц, год и час в один и преобразуем в формат «DateTime». Удаляем все ненужные для дальнейшего анализа столбцы и получаем в результате таблицу, фрагмент которой показан на рис.3.6.

Рисунок 3.6. Фрагмент таблицы, подготовленной для анализа с температурами воздуха на улице

Подготовка таблицы с температурами воздуха в комнате и температурами батареи

Таблица температур воздуха в комнате и температур батарей получены с показаний датчиков и, вероятно, имеет выбросы. Для начала удалим все ненужные столбцы из таблицы, в частности, столбец 4. Другие столбцы приведем к необходимому формату (температуры к числовому типу данных «numeric», время к «DateTime»), отсортируем по дате, фрагмент получившейся таблицей см. рис. 3.7.

Рисунок 3.7. Фрагмент таблицы с температурами воздуха в комнате и температур батареи

Для того чтобы посмотреть, есть ли значения, сильно выбивающиеся из общей тенденции данных построим «boxplot» для значений температур батареи, см. рис. 3.8.

Рисунок 3.8. График, показывающий набор исходных данных по температуре батареи

На текущем графике выделены значения температуры с отрицательными значениями, эти данные необходимо исключить из рассматриваемой выборки. Исключаем эти выбросы и убедимся, что они теперь не попадают в выборку данных, построив снова график «boxplot», см. на рис.3.9.

Рисунок 3.9. График после удаления данных с отрицательными значениями температур батареи

Итак, явные выбросы удалены. Далее необходимо агрегировать данные и получить данные за каждый час. Для этого создадим искусственный столбец с таким же форматом «DateTime», однако «обрежем» значения минут. Добавим созданный столбец в таблицу, получим таблицу, фрагмент которой показан на рис. 3.10.

Рисунок 3.10. Фрагмент таблицы с температурами воздуха в комнате и температур батареи с добавленным столбцом времени по часам

Далее произведем агрегацию (среднее значение по часу) по двум столбцам (см. рис. 3.11): температура воздуха в комнате и температура батареи. Получим две таблицы со значениями по часам. Объединим таблицы в одну с помощью функции «merge». Получим следующую таблицу, фрагмент которой показан на рис. 3.12.

Рисунок 3.11. Код на языке R для агрегации показателей температур за час

Рисунок 3.12. Фрагмент таблицы с температурами воздуха в комнате и температур батареи за каждый час

Объединение таблиц по столбцу «Дата-Время»

Далее необходимо две получившиеся таблицы объединить в одну. Сперва преобразуем все столбцы таблиц к необходимым форматам, далее воспользуемся функцией «merge» для объединения таблиц. Затем округлим значения температур до десятых для удобства. Фрагмент таблицы, готовой для дальнейшего анализа представлен на рис.3.13.

Рисунок 3.13. Фрагмент таблицы подготовленной для анализа

Применение методов анализа данных для прогнозирования

На подготовленных данных далее будут применены методы анализа данных, направленные на решение задачи регрессии. Будут рассмотрены следующие методы: метод линейной регрессии, метод нейронных сетей и метод градиентного бустинга.

Применение метода линейной регрессии

Для обучения модели необходимо сформировать обучающую выборку, для выбора случайных строк набора данных воспользуемся функцией «sample». Для применения метода линейной регрессии применим встроенную функцию R «lm». Построим три модели линейной регрессии.

Для обучения возьмём 1000 строк, для тестирования, оставшиеся 52 строки. Сформируем прогноз по полученным моделям с помощью функции «predict». Далее построим таблицу с реальными данными и данными, которые прогнозируют обученными модели (см. рис. 3.14).

Рисунок 3.14. Фрагмент таблицы с прогнозами моделей линейной регрессии

Для обучения возьмём 1000 строк, для тестирования, оставшиеся 52 строки. Сформируем прогноз по полученным моделям с помощью функции «predict». Далее построим таблицу с реальными данными и данными, которые прогнозируют обученными модели (см. рис. 3.14).

Для каждой модели посчитаем коэффициент RMSE (Root Mean Squared Error) и построим соответствующую таблицу (см. рис.3.15).

Рисунок 3.15. Таблица сравнения качества моделей линейной регрессии с помощью показателя RMSE

На текущих данных наиболее качественной моделью линейной регрессии оказалась модель, предсказывающая температуры батареи на основе показателей температур на улице и температур в комнате. В целом качество моделей очень схоже и отличается всего на десятую часть градуса.

Применение метода нейронных сетей

Далее рассмотрим метод нейронных сетей. Для того, чтобы корректно обучить нейронную сеть, необходимо все данные преобразовать к числам в промежутке от 0 до 1. Для преобразования была создана функция, которая использована в работе (см. рис. 3.16).

Рисунок 3.16. Функция, использованная для метода нейронных сетей для преобразования данных

Далее обучим сначала модель на 1000 наблюдениях, в качестве входных параметров будут «RoomTemp + Temperature», выходной параметр один, как и в других моделях - температура батареи («BatteryTemp»). Модель содержит один скрытый уровень с 4 нейронами. Построим модель, выведем график построенной сети (см. рис. 3.17) и спрогнозируем температуры батареи по этой нейронной сети.

Рисунок 3.17. График нейронной сети с входными параметрами «RoomTemp» и «Temperature»

Аналогичные построим вторую модель нейронной сети, но в качестве входных параметров будет «Temperature», выходной параметр один , как и в других моделях «BatteryTemp». Модель содержит два скрытых уровня с 4 и 2 нейронами соответственно. Построим модель, выведем график построенной сети (см. рис. 3.18) и спрогнозируем температуры батареи по этой нейронной сети.

Рисунок 3.18 График нейронной сети с входными параметрами «Temperature» и двумя скрытыми уровнями

Аналогичные построим вторую модель нейронной сети, однако в качестве входных параметров будут «RoomTemp + Temperature», выходной параметр - «BatteryTemp». Модель содержит два скрытых уровня с 4 и 2 нейронами соответственно. Построим модель, выведем график построенной сети (см. рис. 3.19) и спрогнозируем температуры батареи по этой нейронной сети.

Рисунок 3.19. График нейронной сети с входными параметрами «RoomTemp» и «Temperature» и двумя скрытыми уровнями

По построенным нейронным сетям и получившимся прогнозам строим табличку, фрагмент которой представлен на рис. 3.20.

Рисунок 3.20. Фрагмент таблицы с прогнозируемыми значениями моделей нейронных сетей

По этим данным уже видно, что модели очень неточные и дают некачественные прогнозы.

Далее для каждой модели посчитаем коэффициент RMSE и построим соответствующую таблицу (см. рис. 3.21).

Рисунок 3.21. Таблица сравнения качества моделей нейронных сетей с помощью показателя RMSE

Как видим, ошибка очень высокая, по сравнению с предыдущим методом. Необходимо попробовать произвести те же манипуляции с меньшим набором данных. Затем рассчитаем также для моделей коэффициент RMSE (см. рис. 3.22).

Рисунок 3.22. Таблица сравнения качества моделей нейронных сетей на меньшем наборе данных с помощью показателя RMSE

Данные модели нейронных сетей были построены на основе обучающей выборки в 600 строк. Тестовая выборка составила 50 строк. Текущие результаты нейронных сетей получились лучше, т.к. такой набор данных наиболее подходит для нейронных сетей с таким кол-вом скрытых уровней и нейронов на них. В данном случае моделью, дающей наилучший прогноз стала модель 3 «Модель_RoomTemp+Temperature (hidden = c(4,2))».

Применение метода деревьев решений

Далее рассмотрим метод деревьев решений. Для данного метода построим несколько моделей, которые содержат различные значения «minbucket», а также построены модели, входными данными являются разные векторы: «RoomTemp + Temperature», «RoomTemp» и «Temperature».

Модель 1 с параметром «minbucket = 51» и зависимыми «RoomTemp + Temperature:))». Выведем значимость параметров для данной модели на рис. 3.23.

Рисунок 3.23. Значимость параметров дерева решений для модели 1

Модель 2 с параметром «minbucket = 2» и зависимыми «RoomTemp + Temperature». Модель 3 с параметром «minbucket = 25» и зависимыми «RoomTemp + Temperature».

Далее строим модели с зависимой переменной «Temperature». Модель 2_1 с параметром «minbucket = 51» и зависимой «Temperature». Модель 2_2 с параметром «minbucket = 2» и зависимой «Temperature». Модель 2_3 с параметром «minbucket = 25» и зависимой «Temperature».

Далее строим модели с зависимой переменной «RoomTemp». Модель 3_1 с параметром «minbucket = 51» и зависимой «RoomTemp». Модель 3_2 с параметром «minbucket = 2» и зависимой «RoomTemp». Модель 3_3 с параметром «minbucket = 25» и зависимой «RoomTemp».

Далее построим общую таблицу со всеми показаниями RMSE для рассмотренных 9 моделей (см. рис.3.24).

Рисунок 3.24. Таблица сравнения качества моделей деревьев решений с помощью показателя RMSE

Итак, метод деревьев решений показал примерно равные результаты с погрешностью в 0.2 градуса.

Сравнение моделей прогнозирования

Итак, в ходе практической части работы были построены модели для прогнозирования температур батареи с помощью методов линейной регрессии, нейронных сетей и деревьев решений. По построенным моделям на основе набора данных 1 можно сделать следующие выводы:

· наиболее предпочтительным методом для текущей выборки данных оказался метод линейной регрессии, что можно объяснить тем, что модели прогнозирования текущей работы несложные и не имеют большого количества зависимых переменных. Именно в этих случаях метод линейной регрессии дает более качественные результаты;

· качество моделей нейронных сетей оказалось низким, т.к. показатель RMSE выявил погрешность при предсказании в 5 градусов, что является неприемлемым результатом. Для построения более качественных моделей необходимо больше углубиться в тему нейронных сетей, также необходим больший набор данных для построения точных моделей прогнозирования;

· в целом все рассмотренные методы и их модели получились достаточно неточными. Это в первую очередь обусловлено рассматриваемым набором данных, который получен в существующей системе отопления, где показания температур в комнате постоянно изменяются и сильно отличаются от норм. Следовательно, такие данные сильно отличаются от тех, что могли бы быть получены с применением ИС ИЗ. Обучение моделей рассматриваемых методов происходило на этих данных, соответственно, стоило ожидать, что модели получатся некачественными.

Рассмотренные методы для прогнозирования позволяют получать качественные прогнозы, однако для этого необходим больший набор данных и выявление качественных данных для обучения моделей.

3.2.2 Пример анализа данных температуры для управления зданием: задача определения человека в помещении

На наборе данных 2 будет построен классификатор с применением методов анализа данных. В рамках проведения эксперимента необходимо выполнить следующие задачи:

1. Загрузить данные в среду разработки R-Studio.

2. Подготовить данные к анализу:

2.1. Удалить пропуски и выбросы.

2.2. Сформировать дополнительные поля:

2.2.1. Отклонение текущего показания температуры от среднего значения показаний за весь период измерений.

2.2.2. Отклонение текущего показания температуры относительно предыдущего.

3. Построить модели классификаторов с применением нескольких методов анализа данных:

3.1. Построить модели наивного байесовского классификатора, леса деревьев решений, градиентного бустинга. Для формирования моделей каждого из рассматриваемых методов необходимо выполнить следующие манипуляции:

3.1.1. Подготовить данные для обучения и обучить модели классификаторов.

3.1.2. Подготовить данные для тестирования моделей и получить прогнозы для каждой модели.

4. Оценить и сравнить качество моделей классификаторов на основе показателя Accuracy.

5. Выбрать метод анализа данных, дающий приемлемый результат на рассматриваемых данных.

Загрузка данных

Для текущего эксперимента собраны следующие данные:

· температуры в комнате в 9 разных точках (собирались с помощью 9 датчиков);

· температура батареи (собирались с помощью 1 датчика);

· температура на улице (собирались с помощью 1 датчика);

· метка присутствия человека (в рамках эксперимента проставлялась вручную).

Данные собираются с помощью платформы ThingsBoard. В эксперименте предполагается использование двух наборов данных разной гранулярности - полтора часа (см. рис.3.25 - 3.26) и полчаса (см. рис.3.27-3.28).

Рисунок 3.25. Фрагмент таблицы исходных данных с гранулярностью в полтора часа

Рисунок 3.26. График температур с гранулярностью в полтора часа

Рисунок 3.27. Фрагмент таблицы исходных данных с гранулярностью в полчаса

Рисунок 3.28. График температур с гранулярностью в полчаса

Подготовка данных к применению методов анализа данных

В каждом наборе данных были удалены строки, содержащие пропуски. Также были удалены данные, сильно отклоняющиеся от общего набора данных. Далее были сформированы дополнительные поля для каждого показания температуры в комнате:

· 9 дополнительных полей с показателем отклонения текущей температуры в комнате относительно среднего значения температуры комнаты на протяжении всего периода измерений (см. рис. 3.29).

· 9 дополнительных полей с показателем отклонения текущей температуры в комнате относительно предыдущего показания температуры комнаты (см. рис. 3.30).

Рисунок 3.29. Фрагмент таблицы дополнительных полей отклонения текущих значений относительно среднего

Рисунок 3.30. Фрагмент таблицы дополнительных полей отклонения текущих значений относительно предыдущего

Итак, выборка признаков без дополнительных полей будет базовой, с дополнительными полями - расширенной.

Применение методов анализа данных для создания классификаторов

Далее для обучения моделей классификаторов были сформированы обучающие и тестовые выборки (50% данных - обучающая выборка, оставшиеся 50% - тестовая выборка):

· для набора данных с гранулярностью в полтора часа:

o выборка из случайных строк (50% от количества строк за период измерений - обучающая выборка, остальные строки - тестовая);

o выборка по дням (7 дней случайных измерений);

· для набора данных с гранулярность в полчаса:

o выборка из случайных строк.

Для данных с гранулярностью в полчаса содержит объем данных всего за 4 дня, поэтому нецелесообразно создание обучающей выборки по дням. Для формирования выборки была использована функция «sample».

Применение метода «Наивный байесовский классификатор»

Для построения модели наивного байесовского классификатора была использована функция «naiveBayes» пакета «e1071». На основе рассматриваемого метода были построены две модели: на основе базового и расширенного наборов признаков. Далее на основе построенных моделей по тестовым данным были сделаны прогнозы. Модели были оценены с помощью коэффициента Accuracy (см. табл.3.2).

Таблица. 3.2 Оценка качества моделей по методу наивного байесовского классификатора

Выборка данных

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Базовая

полчаса

Случайные строки

0,83

полтора часа

По дням

0,59

Случайные строки

0,73

Расширенная

полчаса

Случайные строки

0,93

полтора часа

По дням

0,86

Случайные строки

0,9

Применение метода «Лес деревьев решений»

Для построения модели леса деревьев решений была использована функция «randomForest» пакета «randomForest». На основе рассматриваемого метода были построены две модели: на основе базового и расширенного наборов признаков. Далее на основе построенных моделей по тестовым данным были сделаны прогнозы. Модели были оценены с помощью коэффициента Accuracy (см. табл.3.3).

Таблица. 3.3 Оценка качества моделей по методу «Лес деревьев решений»

Выборка данных

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Базовая

полчаса

Случайные строки

0,88

полтора часа

По дням

0,56

Случайные строки

0,7

Расширенная

полчаса

Случайные строки

0,98

полтора часа

По дням

0,88

Случайные строки

0,89

Применение метода «Градиентный бустинг»

Для построения модели градиентного бустинга была использована функция «train» пакета «gbm». На основе рассматриваемого метода были построены две модели: на основе базового и расширенного наборов признаков. Далее на основе построенных моделей по тестовым данным были сделаны прогнозы. Модели были оценены с помощью коэффициента Accuracy (см. табл.3.4).

Таблица. 3.4 Оценка качества моделей по методу «Градиентный бустинг»

Выборка данных

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Базовая

полчаса

Случайные строки

0,83

полтора часа

По дням

0,49

Случайные строки

0,73

Расширенная

полчаса

Случайные строки

0,96

полтора часа

По дням

0,87

Случайные строки

0,91

Применение метода «Логистическая регрессия»

Для построения модели логистической регрессии была использована функция «glm» пакета «stats». На основе рассматриваемого метода были построены две модели: на основе базового и расширенного наборов признаков. Далее на основе построенных моделей по тестовым данным были сделаны прогнозы. Модели были оценены с помощью коэффициента Accuracy (см. табл.3.5).

Таблица. 3.5 Оценка качества моделей по методу «Логистическая регрессия»

Выборка данных

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Базовая

полчаса

Случайные строки

0,83

полтора часа

По дням

0,56

Случайные строки

0,67

Расширенная

полчаса

Случайные строки

0,8

полтора часа

По дням

0,72

Случайные строки

0,74

Применение метода «Деревья решений»

Для построения модели логистической регрессии была использована функция «rpart» одноименного пакета. На основе рассматриваемого метода были построены две модели: на основе базового и расширенного наборов признаков. Далее на основе построенных моделей по тестовым данным были сделаны прогнозы. Модели были оценены с помощью коэффициента Accuracy (см. табл.3.6).

Таблица. 3.6 Оценка качества моделей по методу «Деревья решений»

Выборка данных

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Базовая

полчаса

Случайные строки

0,87

полтора часа

По дням

0,8

Случайные строки

0,87

Расширенная

полчаса

Случайные строки

0,87

полтора часа

По дням

0,8

Случайные строки

0,73

Применение метода «Нейронные сети»

Для построения модели нейронных сетей была использована функция «neuralnet» одноименного пакета. На основе рассматриваемого метода были построены две модели: на основе базового и расширенного наборов признаков. Далее на основе построенных моделей по тестовым данным были сделаны прогнозы. Модели были оценены с помощью коэффициента Accuracy (см. табл.3.7).

Таблица. 3.7 Оценка качества моделей по методу «Нейронные сети»

Выборка данных

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Базовая

полчаса

Случайные строки

0,7

полтора часа

По дням

0,55

Случайные строки

0,7

Расширенная

полчаса

Случайные строки

0,73

полтора часа

По дням

0,4

Случайные строки

0,77

Сравнение моделей классификаторов

Сравним качество моделей классификаторов, построенных на основе методов: «Наивный байесовский классификатор», «Лес деревьев решений», «Градиентный бустинг», «Логистическая регрессия», «Нейронные сети», «Дерево решений» (см. табл.3.5 - 3.6).

Таблица. 3.5. Оценка качества моделей по базовым признакам

Метод

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Наивный байесовский классификатор

полчаса

Случайные строки

0,83

полтора часа

По дням

0,59

Случайные строки

0,73

Лес деревьев решений

полчаса

Случайные строки

0,88

полтора часа

По дням

0,56

Случайные строки

0,7

Градиентный бустинг

полчаса

Случайные строки

0,83

полтора часа

По дням

0,49

Случайные строки

0,73

Логистическая регрессия

полчаса

Случайные строки

0,83

полтора часа

По дням

0,56

Случайные строки

0,67

Нейронные сети

полчаса

Случайные строки

0,7

полтора часа

По дням

0,55

Случайные строки

0,7

Дерево решений

полчаса

Случайные строки

0,87

полтора часа

По дням

0,8

Случайные строки

0,87

Наиболее точной моделью, построенной на основе базовый выборки признаков, показывает метод «Лес деревьев решений» с гранулярностью данных в полчаса. Данная модель имеет точность предсказания по коэффициенту «accuracy» равный 0.88, что является хорошим результатом. Другой моделью, близкой по результату, это модель на основе метода «Деревья решений», которая показывает результат по коэффициенту «accuracy» равный 0.87. Однако скорость выполнения модели по методу «Деревья решений» выше, поэтому данный метод является более приемлемым для данной задачи, на текущем наборе данных.

Таблица. 3.6. Оценка качества моделей по расширенным признакам

Метод

Гранулярность данных

Способ формирования обучающей выборки

Точность предсказания

Наивный байесовский классификатор

полчаса

Случайные строки

0,93

полтора часа

По дням

0,86

Случайные строки

0,9

Лес деревьев решений

полчаса

Случайные строки

0,98

полтора часа

По дням

0,88

Случайные строки

0,89

Градиентный бустинг

полчаса

Случайные строки

0,96

полтора часа

По дням

0,87

Случайные строки

0,91

Логистическая регрессия

полчаса

Случайные строки

0,8

полтора часа

По дням

0,72

Случайные строки

0,74

Нейронные сети

полчаса

Случайные строки

0,73

полтора часа

По дням

0,4

Случайные строки

0,77

Дерево решений

полчаса

Случайные строки

0,87

полтора часа

По дням

0,8

Случайные строки

0,73

Наиболее точное предсказание показывает модель с расширенным набором признаков, гранулярностью данных в полчаса по методу «Лес деревьев решений». Точность предсказания человека в помещение приемлемая по коэффициенту accuracy = 0.98. Другой моделью, показавшей приемлемый результат, является модель на основе метода «Градиентный бустинг» ( точность предсказания по коэффициенту accuracy = 0.96), однако данный алгоритм не обладает высокой скоростью обучения, что является несомненных недостатком. Таким образом, наиболее приемлемый результат на текущих данных показала модель на основе метода «Лес деревьев решений».

Заключение

Магистерская диссертация посвящена анализу и прогнозированию показателей датчиков системы ИЗ на основе методов анализа данных. В рамках исследования был проведен анализ предметной области: проанализирован процесс управления зданием; проанализированы данные, используемые системой управления ИЗ; исследованы аналогичные системы управления процессами здания. Для применения в ходе реализации прототипа модуля анализа и прогнозирования для системы управления ИЗ были рассмотрены методы анализа данных, позволяющие решать задачи регрессии и классификации: нейронные сети, регрессионный анализ (линейная и логистическая регрессия), метод деревьев решений, метод случайных лесов, метод наивного Байесовского классификатора, метод градиентного бустинга. Проведено сравнение рассмотренных методов, выделены задачи, на которых будет применен каждый из методов.

Далее был спроектирован модуль анализа и прогнозирования для управления ИЗ. На основе проектирования был разработан прототип модуля анализа и прогнозирования для управления ИЗ с применением рассмотренных методов анализа данных. В ходе разработки прототипа были рассмотрены примеры анализа данных температуры для управления ИЗ. На основе набора данных 1 решалась задача прогнозирования температуры батареи на основе температур в помещении и температуры окружающей среды (температура воздуха на улице) в среде разработки R-Studio, получены следующие результаты:

· более качественной оказалась модель, построенная по методу линейной регрессии. Результат объясняется тем, что рассматриваемый набор данных имеет несложную структуру и, соответственно, не имеет большого числа зависимых переменных. Именно в подобных ситуациях модели на основе метода линейной регрессии показывают приемлемый результат;

· в целом на текущих данных модели прогнозирования дают достаточно неточные результаты. Для увеличения качества моделей необходимы большие объемы данных для обучения, а также более качественные данные для обучения моделей.

На основе набора данных 2 решалась задача определения присутствия человека в помещении, получены следующие результаты:

· более качественные результаты получены для моделей, построенных на расширенном наборе признаков;

· модели, обученные на данных с гранулярностью в полчаса, дают большую точность прогнозирования;

· наиболее качественные модели получены, построенные на основе метода «Лес деревьев решений». Модель показала приемлемую точность предсказания на тестовой выборке в 98%.

Таким образом, рассмотренные примеры анализа данных температуры для управления ИЗ показывают, что рассмотренные методы анализа данных могут быть использованы для решения задач ИЗ. В частности, задача «Определение человека в помещении» была решена с приемлемым результатом с точностью предсказания в 98%.

Библиографический список

1. Викентьева О.Л., Дерябин А.И., Шестакова Л.В., Кычкин А.В. Синтез информационной системы управления подсистемами технического обеспечения интеллектуального здания // Вестник МГСУ. 2017.№ 12. С.1191-1201.

2. Комаров Н.М., Жаров В.Г. Управление инженерными системами интеллектуального здания с использованием технологий информационного и инфо-графического моделирования // Service Plus, 2013. - С. 74-81.

3. Байгозин Д.В., Первухин Д.Н., Захарова Г.Б. Разработка принципов интеллектуального управления инженерным оборудованием в системе «умный дом» // Известия Томского политехнического университета. 2008. Т. 313. № 5. 168-172.

4. Об утверждении паспорта ведомственного проекта Цифровизации городского хозяйства «Умный город»: Приказ МинСтроя России от 31 октября 2018 № 695.

5. N. Balta-Ozkan, B. Boteler, O. Amerighi European smart home market development: Public views technical and economic aspects across the United Kingdom, Germany, Italy // Energy Research& Social Science 2014, № 3, pp. 65-77.

6. Погода в Перми

7. Система сбора данных с цифровых датчиков температуры [Электронный ресурс].

8. Система отопления в многоквартирном доме [Электронный ресурс].

9. Температурный график подачи теплоносителя в систему отопления

10. Антонов В.В., Куликов Г.Г., Антонов Д.В. Теоретико-множественная модель ИС для многомерного аналитического анализа, отвечающая требованиям хранилищ данных // Вестник УГАТУ. 2012.№ 6. С.189-201.

11. Барсегян А.А. Методы и модели анализа данных: OLAP и Data Mining / А.А. Барсегян, М.С. Куприянов, В.В Степаненко., И.И. Холод. СПб.: БХВ-Петербурс, 2004. - С. 67-75.

12. Интеллектуальный ИК модуль для дистанционного управления

13. Система умного дома Crestron [Электронный ресурс].

14. Home Sapiens - революция в системах умного дома

15. Стартовый комплекс Fibaro Starter

16. ThingsBoard - Open - source IoT Platform

17. IoT - платформа «СТРИЖ»

18. Мкртчян С.О. Нейроны и нейронные сети. Введение в теорию формальный нейронов. - М.: Энергия, 1971.

19. Регрессионный анализ - статистический метод исследования зависимости случайной величины от переменной

20. Основная идея логистической регрессии

21. Деревья решений и алгоритмы их построения

22. Breiman L. Random forests //Machine learning. - 2001. - Т. 45. - №. 1. С. 5-3.

23. Байесовский классификатор

24. Сопер М.Э. Практические советы и решения по созданию Умного дома /НТ Пресс, 2012.

25. Гололобов В.Н. Умный дом своими руками. / НТ Пресс, 2012. 416 с.

26. Харке, В. Умный дом. Объединение в сеть бытовой техники и систем коммуникаций в жилищном строительстве: пер. с нем. / Техносфера, 2013. -292 c.

27. Sahedani K.S. A Review: Mining Educational Data to Forecast Failure of Engineering Students / Komal S. Sahedani, B. Supriya Reddy // International Journal of Advanced Research in Computer Science and Software Engineering. - 2013. - C. 628-635.

28. M. Wigginton, J. Harris, Intelligent Skin, Architectural Press, Oxford, UK, 2002.

29. A.T.P. So, A.C.W. Wong, K.C. Wong, A new definition of intelligent buildings for Asia, The Intelligent Building Index Manual, 2nd edition, Asian Institute of Intelligent Buildings, Hong Kong, 2001 (October), pp. 1 - 20.

30. L. Chow, Preface, The Intelligent Building Index 10: Health and Sanitation, 3rd edition, Asian Institute of Intelligent Buildings, Hong Kong, 2004, pp. 1- 3.

31. Волков А.А., Батов Е.И. Промежуточное программное обеспечение в функциональной модели интеллектуального здания // Вестник МГСУ. 2015, № 10. С.182-187.

32. T. Weng From Buildings to Smart Buildings - Sensing and Actuation to Improve Energy Efficiency. IEEE Design and Test // Special Issue on Green Buildings - 2012.

33. Z. Chen, F. Wang, Q. Feng Cost-benefit evaluation for building intelligent systems with special consideration on intangible benefits and energy consumption // Energy and Buildings - 2016, № 128, pp. 484-490.

34. D. Marikyan, S. Papagiannidis, E. Alamanos A systematic review of the smart home literature: A user perspective // Technological Forecasting & Social Change - 2018, № 138, pp. 139-154.

35. J. Shin, Y. Park, D. Lee Who will be smart home users& An analysis of adoption and diffusion of smart homes // Technological Forecasting & Social Change - 2018, № 134, pp. 246-253.

36. O. Omara Intelligent building, definition, factors and evaluation criteria of selection // Alexandria Engineering Journal - 2018.

37. Apple HomeKit: Everything you need to know about living in an Apple Home [Электронный ресурс].

38. Ахметханов Р.С., Дубинин Е.Ф., Куксова В.И. Анализ временных рядов в диагностике технических систем // Машиностроение и инженерное образование. 2013, № 2.

39. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов // Москва - Телеком, 2007, с.522.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.