Прогнозирование ключевых параметров базовых станций на основе методов машинного обучения
Описание задачи поиска падения ключевых показателей базовых станций. Распределение точности классификации обучающей и тестовой выборок методом LDA. Особенность осуществления классификации базовых станций сети радиодоступа по наличию возможной аварии.
Рубрика | Коммуникации, связь, цифровые приборы и радиоэлектроника |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 28.08.2020 |
Размер файла | 2,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Аннотация
Существует закономерность между характером возрастания коэффициента сброса вызовов (англ. Call Drop Ratio, CDR) и вероятностью выхода из строя базовой станции. В этой статье приводится способ преобразования пространства признаков и с использованием методов машинного обучения осуществляется классификация базовых станций сети радиодоступа по наличию возможной аварии. Представленный результат может быть использован при решении задач дизайна и оптимизации сети радиодоступа и существенно снизить время обнаружения и реакции на внештатные ситуации.
The general purpose of this project is to predict key performance indicators of radio access network base stations using Machine learning based methods. The major research problem could be framed as follows: how to transform the feature space and to classify the base stations of the radio access network by the presence of a possible accident using machine learning methods? To answer it, it seems to be necessary to select features for forming a features space and classification techniques that can provide the maximum percentage of the accuracy of the prediction. During the development of the Machine learning based key indicators at the aggregated level were presented. As a result, the training model was formed and the algorithm that showed high accuracy in determining the elements of each class was implemented.
Оглавление
Введение
1. Цели и задачи работы
2. Основная часть
2.1 Описание задачи поиска падения ключевых показателей базовых станций
2.2 Формирование пространства признаков
2.3 Формирование модели обучения
2.4 Квадратичный дискриминантный анализ
2.5 Формирование комбинированного подхода
Список использованных источников
Введение
Актуальность работы
Качество связи - один из наиболее важных факторов, которые необходимо учитывать при обеспечении сети. В некоторых случаях вышедший из строя сектор БС может месяцами оставаться не обнаруженным на фоне высокой общей статистики в сумме со смежными секторами.
Решение задачи поиска падения ключевых параметров БС и помощью методов машинного обучения можно свести к задаче классификации с использованием линейного и квадратичного дискриминантного анализа. Для решения задач подобного класса были предложены подходы, описанные в работах Фишера, Андерсона, Рао, Мешалкина, Деева, Заруцкого и других отечественных и зарубежных исследователей.
Актуальность методов дискриминантного анализа подтверждается широким распространением программ дискриминантного анализа в пакетах статистических программ, например, в МОР, sklearn и др.
Работа выполнена, затрагивая сферы телекоммуникационных технологий и статистического анализа, что также иллюстрирует возможности применения методов машинного обучения в прикладных направлениях технологичных областей. Разработанная модель и алгоритм обучения предоставляют список базовых станций, ранжированный по оценке корреляционного сходства с искомым примером. Универсальность такого подхода позволяет использовать результат работы при решении целого ряда задач оптимизации сети радиодоступа без изменения основного алгоритма, а лишь при адаптации входных данных.
1. Цели и задачи работы
Целью работы является разработка алгоритма поиска падения ключевых показателей БС с использованием методов машинного обучения. В качестве основного показателя эффективности БС рассматривается CDR (англ. call drop ratio). Входные данные представляют собой восьмидневную статистику CDR для исследуемых БС (Приложение 2). В качестве результата работы алгоритма предполагается список исследуемых БС с указанием оценки корреляционного сходства текущего характера изменения CDR с типичным для наличия нарушений целостности работы БС (Приложение 3). Выделяются основные задачи:
преобразовать пространство признаков
сравнить точность поиска известными методами
предложить метод повышения точности классификации
сформировать модель обучения
2. Основная часть
2.1 Описание задачи поиска падения ключевых показателей базовых станций
Характер нормированного изменения CDR, представленный на рисунке 1а, говорит о том, что некое событие третьей недели привело к резкому возрастанию среднего значения, и свидетельствует о возможной неисправности БС. В то же время, на рисунке 1б видно, что CDR другой БС стабильно возрастал все восемь недель. Случай, приведенный на рисунке 1б, не свидетельствует о наличии «события», которое могло привести к резкому возрастанию CDR, что резко отличает его от случая на рисунке 1а.
Рисунок 1. Характер нормированного изменения CDR.
Регулирующим условием станет интенсивность нагрузки БС. Поскольку при решении задачи оптимизации следует уделять большее внимание на станции с большей нагрузкой при одинаковом характере CDR, т.к. такие станции оказывают влияние на большее количество абонентов.
Проблема прогнозирования ключевых показателей эффективности (KPI) представлена в статье Торстром[4]. Прогнозирование KPI требует статистических знаний и знаний об организации исследуемых данных. Это означает, что разработчик измерений должен выполнять ручную работу для определения и развертывания KPI. Поскольку использование машинного обучения становится все более популярным, вычислительная мощность становится дешевле и доступнее, представляется более целесообразным заменить ручные оценки автоматизированными алгоритмами. В статье описываются различные KPI в двух разных областях и рассматривается, как применять машинное обучение в предсказаниях этих KPI. Преимущество данной статьи заключается в том, что автор сочетает несколько подходов для решения одной проблемы. Используются два основных метода: линейный регрессионный подход и временные рамки. Метод линейной регрессии применяется два раза в разных аспектах статуса KPI. Промежуток времени применяется ко всем KPI, исследованным в оставшихся циклах исследования. Результаты этого исследования имеют гораздо большую академическую, чем практическую ценность, поскольку разработанный метод не лоялен к формату входных данных и может быть реализован только в сочетании с желаемым форматом отчетности, используемым на предприятии, где проводилось исследование.
Проблема состоит в том, чтобы создать правильное представление KPI на агрегированном уровне и не потерять слишком много информации в тенденциях, невидимых на уровне агрегации. Подобная проблема упоминается и в литературе по текстовой классификации. Эти исследования могут быть применимы с точки зрения подхода к формированию числовых признаков и их агрегации. Примером статьи в этой сфере является статья Икономакис[5]. Эта статья иллюстрирует процесс классификации текста с использованием методов машинного обучения. Основная задача статьи - представить методы, которые применяют машинное обучение ко всем необработанным данным и показывают скрытые тенденции, которые исчезают при агрегировании данных. В связи с этим большинство предыдущих исследований текстовых классификаций были сосредоточены на явных количественных характеристиках. В то же время подходы, принимающие во внимание другую информацию, кроме чистого текста, такую ??как иерархическая структура текстов или дата публикации, не представлены. Основным недостатком статьи является то, что мало внимания уделялось использованию учебных текстовых корпусов для повышения эффективности работы классификатора. Поскольку статья описывает, как хорошие или высококачественные учебные корпуса могут вывести классификаторы хорошей производительности, этот недостаток становится более значительным.[3]
Если МО можно применять ко всем необработанным данным и показывать скрытые тенденции, которые исчезают при агрегировании данных, то следует, используя прогнозы МО, сделать эти тенденции видимыми и используемыми, реализуя новое понимание процесса разработки алгоритма. Чтобы проверить эту теорию, будут использованы реальные данные более чем по 26 000 секторам 6 000 базовых станций в Москве и Московской области.
2.2 Формирование пространства признаков
Множество измеряемых параметров сетей радиодоступа, пригодных для формирования пространства признаков, позволяет автоматизировать процесс поиска подобных закономерностей. По этой причине МО подходит для использования в исследованиях ключевых параметров эффективности (англ. Key Performance indicators, KPI), прогнозов на основе данных мониторинга текущей тенденции и наблюдения за отклонениями.[1]
Исходными данными послужили: дата измерения, ID БС, интенсивность нагрузки и CDR. Шаг дискретизации составил одну неделю, при этом важно заметить, что трафик и CDR рассчитывался интегрально. С точки достяжения однородности измерений такой подход наиболее оправдан, т.к. важно иметь возможность оценить взаимное влияние всплесков активности абанентов и возрастания CDR, исключая пики часа наивысшей нагрузки. Интенсивность нагрузки в зависимости от условий расположения станции охватывает значения от 0.001 до 6400 Эрл (по часу наивысшей нагрузки в неделю), при этом среди соответствующих характеру искомых ухудшений KPI приоритет отдается БС с наибольшим трафиком.
Признак traf, представляющий интенсивность нагрузки на БС, подвергается нормированиювертикально, учитывая только значения принака traf, так как этот параметр описывает характеристику БС отличную от 1_week, 2_week и т.д.
Рисунок 2. Матрица парных диаграмм рассеяния признаков 3_week и 4_week.
На рисунке 1а и 1б видно, что отличительная особенность искомых объектов - быстрый рост между 3 и 4 неделями. Это замечание подтверждается матрицей парных диаграмм рассеяния признаков 3_week и 4_week на рисунке 2. Наличие крупных обособленных групп элементов искомого типа обеспечивают значительную роль этих признаков в определении оценки подобия элемента определенному типу. Также признаки 1_week и 2_week на рисунке 3 демонстрируют высокие классификационные возможности, которые были не очевидны на уровне агрегации на этапе формирования пространства признаков. В то же время признаки 5_week, 6_week, 7_week , и 8_week такой выраженности не имеют, что на фоне реальной роли 1_week и 2_week становится еще менее очевидным. [2]
Рисунок 3. Матрица парных диаграмм рассеяния признаков 1_week, 2_week и 3_week.
Также продуктом агрегации и слияния стали признаки max и min, представляющие собой максимальное и минимальное значение среди разностей каждой последующей недели и предыдущей или ускорение роста CDR. Эти признаки позволяют более явно учитывать кратковременные изменения скорости, которые наблюдаются в как правило в 3_week и 4_week. Признаки max и min демонстрируют более высокую выраженность классов, чем 5_week, 6_week, 7_week , и 8_week, но менее высокую, чем 1_week, 2_week и 3_week, 4_week. При этом стоит заметить, что признаки max и min дополнительно не нормируются, т.к. рассчитываются на основе уже нормированной величины.
2.3 Формирование модели обучения
Линейный дискриминантный анализ
Для решения описанной задачи применялось несколько методов. Первым рассматриваемым подходом был линейный дискриминантный анализ (англ. Linear Discriminant Analysis, LDA). Решение поставленной задачи возможно с его помощью по двум причинам: совпадение форм ковариационных матриц и нормальное распределение классов. Вторая причина менее очевидна исходя из рисунка 3. Скопление элементов класса «не подходит» (рисунок 1б) в окрестности правой границы области значения объясняется нормализацией строк измерения, а следовательно, наличием минимум одного значения «1» в нормированной строке. Как показывают результаты применения подхода LDA, такое отступление от нормального распределения оправдано двумя причинами: более выраженным характером класса «подходит» (рисунок 1а) и отсутствием снижения точности классификации (рисунок 4а). Tharwat и др. [3] описывают технику для задач уменьшения размерности как этап предварительной обработки для приложений машинного обучения и классификации шаблонов. Цель статьи - создать твердую обучающую модель для понимания того, что такое LDA и как работает LDA, что позволяет читателям любого уровня иметь возможность лучше понять LDA и реализовывать эту технику в различных приложениях. Ключевым моментом статьи является подробное математическое описание метода с упором на проекцию матрицы исходных данных в пространство более низких измерений. В то же время существенным недостатком является отсутствие внимания к проблеме практической реализации подхода к применению LDA. Результаты этого исследования могут помочь в исследовании влияния собственных векторов, которые используются в пространстве LDA, на надежность извлеченного признака для точности классификации, и показать, когда возникает проблема малого размера выборки и как ее можно решить.[6]
Точность представлена в виде гистограммы на рисунке 4. После проведения ста итераций обучения LDA пик распределения точности приходится на 99% (рисунок 4а). При этом в тестовой выборке насчитывалось 734 элемента класса «не подходит и 41 элемент класса «подходит». Так как тестовая выборка сильно не сбалансирована, общая точность на рисунке 4а складывается из определения двух классов. Причем из таблицы 1 видно, что точность определения класса «подходит» методом LDA составляет 78%, что выше случайного, но не позволяет с достаточной точностью определять элементы этого класса.
Рисунок Гистограммы распределения точности классификаци обучающей и тестовой выборок методами LDA и QDA.
а. Гистограмма распределения точности классификаци обучающей и тестовой выборок методом LDA
Рисунок Гистограммы распределения точности классификаци обучающей и тестовой выборок методами LDA и QDA.
б. Гистограмма распределения точности классификаци обучающей и тестовой выборок методом QDA
2.4 Квадратичный дискриминантный анализ
Вторым используемым подходом был квадратичный дискриминантный анализ (Quadratic Discriminant Analysis, QDA). Как показано на рисунке 4б, пик распределения точности приходится на 98%. Аналогично LDA, точность на рисунке 4б складывается из определения двух классов, причем из таблицы 1 видно, что точность определения класса «подходит» методом QDA составляет 65.9%, что недостаточно выше случайного. Значимым примером применения QDA является метод, представленный Шривастава[4]. Квадратичный дискриминантный анализ (QDA) является одним из распространенных инструментов классификации. QDA - это общий подход к задачам классификации, который моделирует вероятность каждого класса как гауссовское распределение, а затем использует апостериорные распределения для оценки класса для данной контрольной точки. [7]
2.5 Формирование комбинированного подхода
Обычно дискриминантный анализ реализует две тесно связанные между собой статистические процедуры:
интерпретацию межгрупповых различий, когда нужно ответить на вопрос: насколько хорошо используемый набор переменных в состоянии сформировать разделяющую поверхность для объектов обучающей выборки и какие из этих переменных наиболее информативны?
классификацию, т.е предсказание значения группировочного фактора для экзаменуемой группы наблюдений.
В основе дискриминантного анализа лежит предположение о том, что описания объектов каждого k-го класса представляют собой реализации многомерной случайной величины, распределенной по нормальному закону Nm(мk;Уk) со средними мk и ковариационной матрицей (уравнение 1).
(индекс m указывает на размерность признакового пространства).
Однако после реализации каждого метода в отдельности было сделано важное наблюдение: ковариационная оценка соответствия классу одним методом часто позволяла включить элемент в класс «подходит», но не позволяла при расчёте другим.
Чтобы этого избежать, были скомбинированы оба метода на этапе сравнения ковариационных оценок соответствия классу. Каждой оценке метода QDA добавлялась соответствующая оценка LDA, после чего происходило сравнение. Как видно на рисунке 5, пик распределения точности приходится на 99.6%, при этом распределение имеет гораздо более высокую плотность в области пика. Из этого можно сделать вывод, что при сочетании QDA и LDA 50 из 100 опытов имели точность 99.6%, тогда как каждый из этих методов в отдельности показывал такую точность в 15-20 случаях из 100 и едва достигал 25 опытов в пике. В таблице 1 приведена оценка точности методом двоичной классификации, которая свидетельствует о порядковом преимуществе комбинированного подхода при определении элементов типа positive-true.
Рисунок 5. Гистограмма распределения точности классификаци обучающей и тестовой выборок сочетанием методов LDA и QDA.
Таблица 1. Оценка точности методом двоичной классификации.
QDA |
LDA |
QDA + LDA |
|||||
Тип измерения |
N |
P |
N |
P |
N |
P |
|
NT |
732 |
0,997 |
732 |
0,997 |
732 |
0,997 |
|
NF |
2 |
0,003 |
2 |
0,003 |
2 |
0,003 |
|
PT |
27 |
0,659 |
32 |
0,78 |
38 |
0,927 |
|
PF |
14 |
0,341 |
9 |
0,22 |
3 |
0,073 |
Реализация алгоритма
Ирисы Фишера - самый популярный в статистической литературе набор данных, часто используемый для иллюстрации работы различных алгоритмов классификации. При всем желании мы не смогли без него обойтись, поскольку в современных реальных приложениях редко встречаются такие компактные наборы данных, позволяющие построить хороший классификатор при минимуме исходных признаков.
Выборка состоит из 150 экземпляров ирисов трех видов (рисунок 6), для которых измерялись четыре характеристики: длина и ширина чашелистика (Sepal.Length и Sepal.Width), длина и ширина лепестка (Petal.Length и Petal.Width).[2]
Рисунок 6. Виды ириса.
Решение задачи поиска падения CDR имеет схожий подход при решении. С точки зрения морфологической связности формулировок, они почти идентичны. Таким образом типы элементов эквивалентны видам ириса. Для ясности представления подхода к реализации алгоритма, полагалось обозначать элементы с резким возрастанием CDR как «veriscolor», а остальные элементы - «setosa».
Предварительно импортируются методы и библиотеки, указываются операторы их вызова:
Обращение к файлу происходит посредством функции pd.read_excel().
Для проверки способности модели работать на независимом наборе данных реализовывается перекрёстная проверка, для чего задаются кросс-валидированные переменные.
Для выявления и индексации по номеру семплов каждого типа и создаются списки LDA и QDA методов для обучающих и тестовых последовательностей:
Для реализации метода, проводящего обучение, создаются ковариационные матрицы для особенностей каждого типа.
Для идентификации типа элемента на этапе обучения и расчета точности обучения создаются массивы, содержащие проиндексированные значения параметров для каждого типа.
Для нивелирования неравномерности классов в естественной выборке определяется вероятность того, что случайно выбранный элемент из обучающей выборки будет того или иного типа.
Описывается ковариационное сходство между сформулированном на этапе обучения ожидаемым образом каждого типа и проверяемого элемента для того, чтобы сделать возможной параметрическую классификацию семплов. Для этого воспроизводится ковариационная оценка соответствия классу методом LDA и функция сравнения оценок для категоризации ответа.
Для воспроизведения метода QDA реализуются подходы аналогичные LDA.
На этапе категоризации ответа возможно реализовать комбинирование подходов классификации за счёт учёта ковариационных оценок соответствия классу. станция сеть радиодоступ авария
Описываем метод, оценивающий точность тестовой выборки:
Задаем функцию, графически воспроизводящую две входные последовательности в общей системе координат:
В цикле с фиксированным количеством итераций, обращаемся к функции обучения, определяем значения для QDA и LDA методов для обучающей и тестирующей последовательности:
На этом этапе можно оценить сформулированный на этапе обучения ожидаемый образ элементов каждого типа.
Как видно, элементы типа «» имеют ярко выраженный характер структурного сдвига. На рисунке 7 представлен ожидаемый образ элементов типа «Veriscolor», составленный из сегмента массива versicolor_mean. Для иллюстрации были выбраны элементы массива, описывающие характер элементов «Versicolor» в признаках, отвечающих за представление CDR на временной шкале.
Рисунок 7. Ожидаемый образ элементов типа «Veriscolor».
Рисунок 8. Ожидаемый образ элементов типа «Setosa».
Как видно на рисунке 8 типичный элемент «Setosa» представляет собой возрастающую функцию. При этом главное отличие образов «Setosa» и «Veriscolor» - это отсутствие видимого плато в начальный период наблюдения у элементов «Setosa», что не может свидетельствовать в пользу наличия некоторого искомого независимого события, приведшего к возрастанию CDR.
Обращаемся к функциям, воспроизводящим графики:
После проведенного обучения модели формируем новый датасет для тестирования модели обучения.
Строим матрицу попарных диаграмм рассеяния для оценки сформированного пространства признаков.
Вычисляем ковариационное сходство каждого семпла с представлением типов элементов обученной модели.
Сохраняем итоговый файл.
Результаты
В результате разработки способа поиска падения ключевых параметров эффективности базовых станций сети радиодоступа с помощью машинного обучения были выполнены следующие задачи:
преобразовано пространство признаков
сравнена точность поиска известными методами
предложен метод повышения точности классификации
сформирована модель обучения
Достигнута основная цель: реализован алгоритм, показывающий высокую точность определения элементов каждого класса и основанный на сочетании известных методов машинного обучения.
Список использованных источников
1. M. Staron, W. Meding, and K. Palm, “Release readiness indicator for mature agile and lean software development projects,” International Conference on Agile Software Development, 2012.
2. Мерков А.Б. Распознавание образов: Введение в методы статистического обучения URSS. 2011.
3. Померанцев А.Л. Хемометрика в Excel: учебное пособие, Томск, Из-во ТПУ, 2014
4. Thorstrom, Marcus. Applying machine learning to key performance indicators. MS thesis. 2017
5. Ikonomakis, M., Sotiris Kotsiantis, and V. Tampakas. "Text classification using machine learning techniques." WSEAS transactions on computers 4.8 (2005), 966-974.
6. Tharwat, Alaa, et al. "Linear discriminant analysis: A detailed tutorial." AI communications 30.2 (2017), 169-190.
7. Srivastava, Santosh, Maya R. Gupta, and Bйla A. Frigyik. "Bayesian quadratic discriminant analysis." Journal of Machine Learning Research 8.Jun (2007), 1277-1305.
Приложение
Матрица парных диаграмм рассеяния признаков
Сегмент используемых входных данных
NodeB-ID |
1_week |
2_week |
3_week |
4_week |
5_week |
6_week |
7_week |
8_week |
traf |
|
10005-25077133522 |
0,48 |
0,53 |
0,52 |
0,72 |
0,68 |
0,62 |
0,65 |
1,00 |
0,35 |
|
10025-25077057919 |
0,22 |
0,33 |
0,41 |
0,67 |
0,87 |
0,71 |
1,00 |
0,93 |
0,29 |
|
10026-25077057919 |
0,31 |
0,44 |
0,41 |
0,65 |
0,72 |
0,94 |
0,77 |
1,00 |
0,24 |
|
10027-25077057919 |
0,33 |
0,31 |
0,35 |
0,52 |
0,41 |
0,70 |
1,00 |
0,84 |
0,30 |
|
10033-25050128070 |
0,16 |
0,59 |
0,52 |
1,00 |
0,86 |
0,84 |
0,93 |
0,77 |
0,48 |
|
10066-25077056558 |
0,30 |
0,47 |
0,56 |
0,62 |
0,75 |
0,89 |
1,00 |
0,91 |
0,17 |
|
10087-25077000008 |
0,46 |
0,23 |
0,29 |
0,56 |
0,69 |
0,56 |
0,43 |
1,00 |
0,57 |
|
10096-25077000009 |
0,32 |
0,35 |
0,46 |
0,56 |
0,52 |
0,48 |
1,00 |
0,86 |
0,52 |
|
10106-25077000010 |
0,50 |
0,65 |
0,70 |
0,71 |
0,73 |
0,70 |
0,70 |
1,00 |
0,30 |
|
10107-25077000010 |
0,54 |
0,62 |
0,79 |
0,81 |
0,86 |
0,85 |
0,95 |
1,00 |
0,17 |
|
10145-25077000014 |
0,59 |
0,64 |
0,58 |
0,69 |
0,74 |
0,77 |
0,77 |
1,00 |
0,23 |
|
1019-25077116261 |
0,64 |
0,63 |
0,64 |
0,56 |
0,94 |
1,00 |
0,91 |
0,85 |
0,38 |
|
10195-25077000019 |
0,32 |
0,44 |
0,54 |
0,63 |
0,82 |
0,85 |
0,68 |
1,00 |
0,32 |
|
10237-25077000023 |
0,60 |
0,69 |
0,65 |
0,76 |
0,81 |
0,76 |
0,77 |
1,00 |
0,23 |
|
10267-25077000026 |
0,48 |
0,48 |
0,69 |
1,00 |
0,83 |
0,72 |
0,64 |
0,98 |
0,35 |
|
10286-25077119553 |
0,63 |
0,60 |
0,75 |
0,74 |
0,77 |
0,76 |
0,89 |
1,00 |
0,15 |
|
10305-25077000030 |
0,18 |
0,30 |
0,50 |
0,44 |
0,59 |
0,58 |
0,34 |
1,00 |
0,66 |
|
10415-25077000041 |
0,53 |
0,43 |
0,65 |
0,55 |
0,56 |
0,52 |
0,64 |
1,00 |
0,36 |
|
10416-25077000041 |
0,30 |
0,60 |
0,58 |
0,64 |
0,66 |
0,49 |
0,77 |
1,00 |
0,30 |
|
10497-25077059272 |
0,55 |
0,23 |
0,40 |
0,86 |
0,69 |
0,65 |
0,81 |
1,00 |
0,47 |
|
10516-25077000051 |
0,00 |
0,34 |
0,44 |
0,90 |
1,00 |
0,98 |
0,60 |
0,91 |
0,46 |
|
10517-25077000051 |
0,50 |
0,21 |
0,38 |
0,52 |
0,48 |
0,38 |
0,28 |
1,00 |
0,72 |
Сегмент полученных выходных данных
NodeB-ID |
answer |
QDA |
LDA |
mix |
|
7717-25077131713 |
veriscolor |
-0,38475 |
-0,63458 |
-1,01934 |
|
7896-25050119333 |
veriscolor |
-0,38870 |
-0,18713 |
-0,57583 |
|
8153-25077126998 |
veriscolor |
-0,33590 |
-0,22017 |
-0,55607 |
|
7530-25050127015 |
veriscolor |
-0,42056 |
-0,12434 |
-0,54490 |
|
7540-25050119792 |
veriscolor |
-0,39461 |
-0,14683 |
-0,54144 |
|
803-25077113170 |
veriscolor |
-0,33632 |
-0,16638 |
-0,50270 |
|
7778-25077131713 |
veriscolor |
-0,28554 |
-0,19588 |
-0,48142 |
|
8275-25050126535 |
veriscolor |
-0,36302 |
-0,10907 |
-0,47208 |
|
8052-25077007805 |
veriscolor |
-0,36163 |
-0,08388 |
-0,44551 |
|
7647-25077007764 |
veriscolor |
-0,40365 |
-0,02930 |
-0,43295 |
|
7694-25050127016 |
veriscolor |
-0,33462 |
-0,06056 |
-0,39518 |
|
7716-25077131713 |
veriscolor |
-0,37356 |
-0,00799 |
-0,38156 |
|
7448-25077132455 |
veriscolor |
-0,35586 |
-0,00466 |
-0,36052 |
|
7849-25050127526 |
veriscolor |
-0,31977 |
-0,03348 |
-0,35325 |
|
7497-25050127005 |
veriscolor |
-0,34725 |
0,00000 |
-0,34725 |
|
8360-25077134346 |
veriscolor |
-0,34396 |
-0,00267 |
-0,34663 |
|
8000-25050126767 |
veriscolor |
-0,33942 |
-0,00001 |
-0,33943 |
|
8142-25077126998 |
veriscolor |
-0,31043 |
-0,02560 |
-0,33604 |
|
8585-25077007858 |
veriscolor |
-0,25461 |
-0,03959 |
-0,29421 |
|
8834-25050120398 |
veriscolor |
0,07994 |
-0,32477 |
-0,24483 |
|
8107-25050118081 |
veriscolor |
-0,22703 |
-0,01015 |
-0,23718 |
|
7546-25077007754 |
veriscolor |
-0,18667 |
-0,03008 |
-0,21675 |
|
8586-25077007858 |
veriscolor |
-0,18837 |
-0,00337 |
-0,19174 |
|
7646-25077007764 |
veriscolor |
-0,14314 |
-0,02305 |
-0,16619 |
|
8560-25050119514 |
veriscolor |
-0,09393 |
-0,04106 |
-0,13499 |
|
10577-25077130899 |
veriscolor |
-0,05897 |
0,00003 |
-0,05893 |
|
9065-25050117060 |
veriscolor |
0,22829 |
-0,27506 |
-0,04678 |
|
8486-25077007848 |
veriscolor |
0,01134 |
-0,01326 |
-0,00192 |
|
1019-25077116261 |
veriscolor |
0,00971 |
0,00027 |
0,00998 |
Сегмент сортированных выходных данных с графическим представлением CDR
Полное представление кода программы
import openpyxl
import sys
import pandas as pd
import numpy as num
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
import matplotlib.pyplot as mtpt
import math as mt
from matplotlib.patches import Rectangle
from pandas.plotting import scatter_matrix
import mglearn
import sympy
dataset = pd.read_excel('train.xls')
train, test = train_test_split(dataset, test_size = 0.3)
setosa = train[train['answer'] == 'no']
setosa_f = setosa.iloc[:,:-1]
setosa_a = setosa.iloc[:,-1]
versicolor = train[train['answer'] == 'yes']
versicolor_f = versicolor.iloc[:,:-1]
versicolor_a = versicolor.iloc[:,-1]
dis_train_accurancy = list()
dis_test_accurancy = list()
f_train_accurancy = list()
f_test_accurancy = list()
f1_train_accurancy = list()
f1_test_accurancy = list()
def training(train):
cm_setosa = num.cov(setosa_f, rowvar=False)
cm_versicolor = num.cov(versicolor_f, rowvar=False)
cm = num.linalg.inv(num.cov(train.iloc[:,:-1], rowvar=False))
setosa_mean = num.array(setosa_f.mean(axis = 0))
versicolor_mean = num.array(versicolor_f.mean(axis = 0))
setosa_ver = len(setosa_a)/float(len(train))
versicolor_ver = len(versicolor_a)/float(len(train))
return cm_setosa, cm_versicolor,
cm, setosa_mean, versicolor_mean,
setosa_ver, versicolor_ver
def shod(x,m,cov_matrix):
xm = x - m
return mt.exp(-0.5*xm.T.dot(num.linalg.inv(cov_matrix)).dot(xm))/
mt.sqrt(2*mt.pi**len(x)*num.linalg.det(cov_matrix))
def classif(x):
ans = [setosa_ver*shod(x, setosa_mean, cm_setosa),/
versicolor_ver*shod(x, versicolor_mean, cm_versicolor)]
return ans.index(max(ans))
def likehood_f(x,m):
return -0.5*m.T.dot(cm).dot(m) + x.T.dot(cm).dot(m)
def fisher(x):
ans = [mt.log(setosa_ver) + likehood_f(x, setosa_mean), /
mt.log(versicolor_ver) + likehood_f(x, versicolor_mean)]
return ans.index(max(ans))
def mix(x):
ans = [ mt.log(setosa_ver) + likehood_f(x, setosa_mean)/
+setosa_ver*shod(x, setosa_mean, cm_setosa),/
mt.log(versicolor_ver) + likehood_f(x, versicolor_mean)/
+versicolor_ver*shod(x, versicolor_mean, cm_versicolor)]
return ans.index(max(ans))
def toch(test, classificator):
sample_feature, sample_ans = test.iloc[:,:-1], test.iloc[:,-1]
sample_ans = sample_ans.map(lambda answer: 0 if answer == 'no' /
else (1 if answer == 'yes' else 2))
number_of_right = 0
a = sample_feature.values
for pred_row, ans_row in zip(a, sample_ans):
if (ans_row == classificator(pred_row)):
number_of_right += 1
return number_of_right/float(len(sample_ans))
def Draw (tr, ts, color1='g', color2='b'):
n_bins = 20
fig, ax = mtpt.subplots()
ax.hist(tr, bins = n_bins, color = color1, alpha = 0.7)
ax.hist(ts, bins = n_bins, color = color2, alpha = 0.7)
handles = [Rectangle((0,0),1,1,color=c) for c in [color1,color2]]
labels= ["обуч","тест"]
mtpt.legend(handles, labels)
mtpt.show()
i = 0
for _ in range(100):
train, test = train_test_split(dataset, test_size = 0.3)
i = i + 1
sys.stderr.write('%d\r' % i)
cm_setosa, cm_versicolor, cm, setosa_mean, versicolor_mean,/
setosa_ver, versicolor_ver = training(train)
dis_train_accurancy.append(toch(train, classif))
dis_test_accurancy.append(toch(test, classif))
f_train_accurancy.append(toch(train, fisher))
f_test_accurancy.append(toch(test, fisher))
f1_train_accurancy.append(toch(train, mix))
f1_test_accurancy.append(toch(test, mix))
Draw (dis_train_accurancy, dis_test_accurancy, color1='g', color2='r')
Draw (f_train_accurancy, f_test_accurancy, color1='g', color2='r')
Draw (f1_train_accurancy, f1_test_accurancy, color1='g', color2='r')
dataset = pd.read_excel('check.xls')
drr = scatter_matrix(pd.DataFrame(dataset.iloc[:,:-3]),
c=num.array(dataset['answer']),
figsize=(20,20),
marker = '0',
hist_kwds={'bins':20},
s = 100, alpha = 1,range_padding=0.05,
cmap=mglearn.cm3)
dataset['QDAs']=[(mt.log(setosa_ver) + likehood_f(dataset.iloc[:,1:-1].loc[i], setosa_mean))/
(mt.log(setosa_ver) + likehood_f(setosa_mean, setosa_mean)) for i in dataset.iloc[:,1:-1].index]
dataset['QDAv']=[(mt.log(versicolor_ver) + likehood_f(dataset.iloc[:,1:-2].loc[i], versicolor_mean))/
(mt.log(setosa_ver) + likehood_f(versicolor_mean, versicolor_mean)) for i in dataset.iloc[:,1:-1].index]
dataset['LDAs']=[(setosa_ver*shod(dataset.iloc[:,1:-3].loc[i], setosa_mean, cm_setosa))/
(setosa_ver*shod(setosa_mean, setosa_mean, cm_setosa)) for i in dataset.iloc[:,1:-1].index]
dataset['LDAv']=[(versicolor_ver*shod(dataset.iloc[:,1:-4].loc[i], versicolor_mean, cm_setosa))/
(versicolor_ver*shod(versicolor_mean, versicolor_mean, cm_versicolor)) for i in dataset.iloc[:,1:-1].index]
dataset['QDA']=[mt.log(setosa_ver) + likehood_f(dataset.iloc[:,1:-1].loc[i], setosa_mean)/
- (mt.log(versicolor_ver) + likehood_f(dataset.iloc[:,1:-1].loc[i], versicolor_mean))/
for i in dataset.iloc[:,1:-1].index]
dataset['LDA']=[setosa_ver*shod(dataset.iloc[:,1:-2].loc[i], setosa_mean, cm_setosa) /
- versicolor_ver*shod(dataset.iloc[:,1:-2].loc[i], versicolor_mean, cm_versicolor) /
for i in dataset.iloc[:,1:-1].index]
dataset['mix']=[mt.log(setosa_ver) + likehood_f(dataset.iloc[:,1:-3].loc[i], setosa_mean)/
-(mt.log(versicolor_ver) + likehood_f(dataset.iloc[:,1:-3].loc[i], versicolor_mean)) /
+setosa_ver*shod(dataset.iloc[:,1:-3].loc[i], setosa_mean, cm_setosa) /
-versicolor_ver*shod(dataset.iloc[:,1:-3].loc[i], versicolor_mean, cm_versicolor) /
for i in dataset.iloc[:,1:-1].index]
writer=pd.ExcelWriter('test.xlsx')
dataset.to_excel(writer, 'Sheet1')
writer.save()
Размещено на Allbest.ru
...Подобные документы
Проектирование подсистем базовых станций сети стандарта GSM-900. Частотно-территориальное планирование сети для города среднего размера. Выбор типа, высоты и ориентации антенн. Распределение частот между базовыми станциями. Расчет оборудования сети.
контрольная работа [1,5 M], добавлен 07.08.2013Современные системы связи с подвижными объектами. Техническое описание GSM-900, характеристики стандартов. Основные технические параметры базовых станций и абонентских станций. Расчёт радиуса зоны обслуживания с использованием модели Окамуры-Хата.
курсовая работа [4,0 M], добавлен 14.12.2012Принципы работы сотовой связи: частотное, временное и кодовое разделение. Радиус действия сотового телефона. Стандарты сотовой связи с первого по третье поколения. Включение контроллера базовых станций в целях экономии наземных базовых коммуникаций.
реферат [76,4 K], добавлен 02.02.2012Сравнительный анализ систем беспроводного доступа. Способы организации связи. Разработка структурной схемы сети беспроводного доступа. Размещение базовых станций и сетевых радиоокончаний. Воздействие электромагнитных полей на организм человека.
дипломная работа [274,2 K], добавлен 04.01.2011Анализ стандартов сотовой связи. Процедура установления вызова. Подсистема базовых станций и коммутации. Центр технического обслуживания. Расчет допустимого числа каналов трафика и допустимых параметров соты. Определение баланса мощностей и оборудования.
курсовая работа [1,1 M], добавлен 08.08.2013Обзор технологий LTE, действующих в мире. Параметры стандарта LTE Advanced (Rel.10). Основные положения радио доступа. Расширения, добавленные в стандарт. Разделение контрольной информации и данных. Расчёт зоны покрытия базовых станций сети LTE Rel.8.
курсовая работа [2,4 M], добавлен 25.02.2015Характеристика стандарта GSM. Определение размерности кластера. Расчет числа радиоканалов, допустимой телефонной нагрузки, количества базовых станций, радиуса обслуживания, величины защитного расстояния. Разработка частотно-территориального плана сети.
курсовая работа [646,9 K], добавлен 17.06.2011Анализ услуг транкинговой сети связи Tetra, определение интенсивности нагрузки от базовых станций Новосибирска. Сущность стационарного оборудования Motorola CTS200. Особенности диспетчерских стационарных радиостанций DT-410 и Motorola MTM800 Enhanced.
контрольная работа [2,1 M], добавлен 24.05.2012Методы организации ветвей разнесения и сигнальных путей. Комбинирование и коммутация при разнесенном приеме. Транкинговые системы, их классификация. Транкинговая антенная система. Конфигурация транкинговой сети, структура и состав базовых станций.
контрольная работа [1,4 M], добавлен 19.12.2013Планируемая динамика роста числа абонентов. Трафик базовых станций. Параметры технической инфраструктуры. Расчет стоимости строительства и расходов на эксплуатацию сети. Телефонная плотность на прогнозируемую перспективу. Расчет потенциального спроса.
курсовая работа [1,5 M], добавлен 02.06.2011Структура сотовой сети связи. Расчет числа радиоканалов, допустимой телефонной нагрузки, числа абонентов, количества базовых станций, радиуса зоны обслуживания станции, величины защитного расстояния, модели распространения радиоволн, мощности передатчика.
курсовая работа [4,4 M], добавлен 22.06.2012Современные стандарты сотовых сетей связи. Проектирование сотовой сети связи стандарта DCS-1800 оператора "Астелит". Оценка электромагнитной совместимости сотовой сети связи, порядок экономического обоснования эффективности разработки данного проекта.
дипломная работа [1,1 M], добавлен 10.06.2010Характеристики ключевых схем на дополняющих МОП-транзисторах (КМОП), базовых схем логических элементов на основе программы MC8DEMO. Содержание процессов в формирователях коротких импульсов на базе ЛЭ КМОП и проявления гонок (состязаний) в цифровых схемах.
лабораторная работа [2,6 M], добавлен 24.12.2010Рассмотрение систем мобильной связи второго, третьего и четвертого поколений. Физический уровень, частотный диапазон и способы кодировки сетей мобильной связи. Подсистема базовых станций, ее составляющие. Требования к BTS: прочность, портативность.
курсовая работа [718,6 K], добавлен 17.06.2017Разработка схемы и выбор топологии включения станций в проектируемую сеть SDH города Темиртау. Выбор типа оборудования, расчет транспортной сети, схема мультиплексирования сигнала. Описание проекта. Мероприятия по снижению опасных и вредных факторов.
дипломная работа [4,1 M], добавлен 08.03.2012Сущность корпоративной сети. Информационное обследование программных средств для управления документами. Системы организации абонентского доступа. Организация корпоративной сети на основе технологий хDSL с применением базовых телекоммуникационных модулей.
дипломная работа [1,4 M], добавлен 11.06.2014Методы технического расчета основных параметров коммутируемой сети с использованием ЭВМ. Разработка схем организации связи коммутационных станций, каналов, децентрализованных и централизованных систем сигнализации и синтез модулей цифровой коммутации.
курсовая работа [4,5 M], добавлен 04.06.2010Понятие и применение нейронных сетей, особенности классификации искусственных нейронных сетей по Терехову. Решение задачи классификации римских цифр на основе нейронной сети. Составление блок-схемы алгоритма обучения нейронной сети и анализ ее качества.
дипломная работа [603,9 K], добавлен 14.10.2010Проверка пригодности выбранных по топографической карте позиций станций и интервалов линии для обеспечения связи с качеством и надежностью не хуже тактико-технических характеристик применяемой радиорелейной станций Р-414. Расчёт мощности сигнала.
курсовая работа [884,4 K], добавлен 22.11.2013Понятие и функциональные особенности радиолокационных станций, их классификация и разновидности в сфере обзора земной поверхности. Принцип работы, структура и основные элементы данных станций, структурные схемы. Прием и передача информации потребителю.
реферат [614,4 K], добавлен 24.12.2012