Анализ данных в физике элементарных частиц методами машинного обучения
Решение задачи классификации элементарных частиц методами классического машинного обучения. Построение модели идентификации элементарных частиц, превосходящей по качеству классические методы. Особенности разработки комплекса моделей на языке Python.
Рубрика | Физика и энергетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 07.12.2019 |
Размер файла | 2,4 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Аннотация
элементарный частица машинный обучение
Данное исследование посвящено решению задачи классификации элементарных частиц методами классического машинного обучения, такими как логистическая регрессия, случайный лес, градиентный бустинг и глубокого обучения, базируемого на нейронных сетях.
Целью данной работы является построение модели идентификации элементарных частиц, превосходящей по качеству классические методы.
В ходе исследований был разработан комплекс моделей на языке Python, реализующий различные методы машинного обучения. С помощью построения ансамбля алгоритмов были получены наилучшие результаты.
Abstract
This study is devoted to solving the problem of classifying elementary particles using classical machine learning methods, such as logistic regression, random forest, gradient boosting and deep learning.
The purpose of this work is to build a model of the identification of elementary particles, superior to classical methods in quality.
In this study a set of models was developed in Python, which implements various methods of machine learning. Using the construction of ensembles of algorithms, the best results were obtained.
Содержание
Введение
1. Ознакомительная часть
1.1 Постановка задачи
1.2 Детектор LHCb
1.2.1 Трекинговая система
1.2.2 Черенковский детектор
1.2.3 Электромагнитный и Адронный калориметры
1.2.4 Мюонная камера
1.3 Описание данных
2. Теоретическая часть
2.1 Логистическая регрессия
2.2 Дерево решений
2.3 Случайный лес
2.4 Градиентный бустинг
2.5 Нейронные сети
3. Практическая часть
3.1 Метрики качества
3.2 Предобработка данных
3.3 Настройка гиперпараметров
3.4 Полученные результаты
Заключение
Список источников
Введение
На Большом Адронном Коллайдере (БАК) в Центре Европейских Ядерных Исследований учеными из разных стран проводятся несколько различных экспериментов: LHCb (Large Hadron Collider beauty experiment) [5], ATLAS (A Toroidal LHC ApparatuS) [6], ALICE (A Large Ion Collider Experiment) [7] и CMS (Compact Muon Solenoid) [8].
Рисунок 1 Схема БАК [9]
В рамках эксперимента LHCb происходят миллионы протон-протонных столкновений в секунду, результатом которых является рождение элементарных частиц. Системам детектора LHCb необходимо распознавать эти частицы путем измерения ряда параметров.
Трекинговая система распознает траекторию, оценивает ее параметры и измеряет импульс частицы; Черенковский детектор оценивает массу частицы; электромагнитный и адронный калориметры измеряют энергию частиц; мюонные камеры распознают мюоны и оценивают их энергию.
Каждая система генерирует огромные объемы данных, которые необходимо обрабатывать и хранить. Однако, в связи с ограничениями ресурсов, только часть этих данных может быть сохранена для последующего анализа. Поэтому необходимо понимать, какие события имеют значение с физической точки зрения. Наибольший научный интерес несет поиск Новой физики в крайне редких событиях.
Каждая система детектора LHCb может регистрировать лишь определенные типы частиц, к примеру адронный калориметр не регистрирует фотоны и электроны (Рисунок 2).
Рисунок 2 Пример регистрации частиц детектором LHCb [10]
Таким образом, на основе данных, полученных с помощью различных систем детектора, становится возможным определить тип частицы. Данную проблему решают путем создания модели машинного обучения [4].
Работа состоит из трёх разделов. В первой части даются теоретические сведения о детекторе LHCb и принципе работы его систем. Второй раздел посвящён описанию основных методов машинного обучения, использованных в рамках данной работы. Третья часть содержит полученные результаты.
1. Ознакомительная часть
1.1 Постановка задачи
В данной работе изучается применение различных методов машинного обучения к решению задачи классификации элементарных частиц. Популярными видами задач, решаемых с помощью машинного обучения, являются классификация, регрессия, кластеризация и другие более специфичные, хороший обзор которых дан в работах [2, 3]. Классификация является задачей обучения с учителем: для каждого объекта из обучающей выборки известен целевой признак. В настоящей работе наряду с классическими методами машинного обучения, используется и глубокое обучение, базируемое на нейронных сетях.
В рамках работы необходимо на основе данных, полученных с различных систем детектора LHCb спрогнозировать тип частицы. Каждая частица характеризуется набором признаков, а также целевым признаком. Отклики треков частиц детектора LHCb используются в качестве входных данных классификатора. Выходом классификатора может быть одна из шести частиц: мюон, каон, пион, протон, электрон и шум или «гостевая» частица, которая не соответствует ни одной из этих частиц.
Целью данной работы является построение модели идентификации элементарных частиц, дающей прирост в качестве по сравнению с классическими методами.
Задачи исследования:
- Осуществление предобработки исследуемых данных;
- Анализ существующих методов машинного обучения, решающих задачу классификации элементарных частиц;
- Обучение моделей машинного обучения;
- Построение ансамбля алгоритмов;
- Анализ полученных результатов.
1.2 Детектор LHCb
Детектор LHCb представляет собой спектрометр, регистрирующий рождающиеся в результате протон-протонных столкновений частицы. Системы детектора LHCb представлены на рисунке 3.
Рисунок 3 Детектор LHCb [5]
1.2.1 Трекинговая система
Первой составной частью детектора LHCb является трекинговая система, в которой происходит оценка импульса и параметров траектории частиц.
Известно, что в однородном магнитном поле частица движется по кругу, радиус которого пропорционален магнитному полю и импульсу . Зная отклонение трека частицы до и после магнитного поля, можно рассчитать отклонение частицы в магнитном поле и оценить радиус и, как следствие, импульс [4].
1.2.2 Черенковский детектор
Принцип работы детектора RICH (Ring Image CHerenkov detectors) основан на эффекте излучения Черенкова. Данное явление представляет собой свечение, вызываемое частицей, скорость которой превышает фазовую скорость света в среде.
Показатель преломления представляет собой отношение скорости света в вакууме к фазовой скорости света в этой среде. Таким образом, для излучения света этим частицам необходимо двигаться в среде с показателем преломления близким к единице. Такое значение показателя преломления имеют газы, более того, данная среда практически не влияет на полет частиц.
Частица излучает фотоны с углом излучения , который определяется показателем преломления среды и отношением скорости частицы к скорости света в вакууме:
Из релятивистской физики известно, что импульс частицы определяется ее массой и скоростью:
где -- это отношение скорости частицы к скорости света в вакууме. Тогда получим уравнение для косинуса угла излучения Черенкова:
Данная формула показывает, что частицы с разными массами имеют разные зависимости угла излучения от импульса частицы. Более того, с ее помощью можно определить массу и тип частицы, зная импульс, измеренный в системе слежения, и угол излучения, измеренный детектором RICH [4,5].
1.2.3 Электромагнитный и Адронный калориметры
Данные калориметры предназначены для измерения энергии элементарных частиц. Они расположены после системы слежения и детектора RICH, поскольку останавливают все частицы, за исключением мюонов. Электромагнитный калориметр останавливает электроны и фотоны, адронный калориметр - протоны, нейтроны и некоторые другие частицы, содержащие в себе кварки.
В электромагнитном калориметре происходит измерение энергии электронов и фотонов. К примеру, электрон, влетающий в калориметр, взаимодействует с веществом, испускает фотон и меняет свое направление, теряя некоторую энергию, причем сумма энергий этих частиц равна энергии исходного электрона. Затем фотон взаимодействует с веществом, распадается на электрон и позитрон, и в то же время электрон снова испускает другой фотон, снова меняет свое направление и теряет энергию. Поэтому с каждой новой итерацией количество частиц экспоненциально увеличивается, что вызывает собой электромагнитный ливень. Таким образом, энергия частицы в электромагнитном ливне экспоненциально падает с расстоянием и пропорциональна начальной энергии исходной частицы.
Электромагнитный ливень может продолжаться пока энергия частиц в ливне находится выше некоторого критического значения, которое, как и определяется материалом калориметра. Размер ливня можно оценить по следующей формуле:
Тогда общее количество частиц в ливне можно получить следующим образом:
Измерение количества частиц позволяет определить энергию элементарной частицы.
В детекторе LHCb адронный калориметр измеряет энергии протонов, нейтронов и других частиц, содержащих кварки. Принцип работы адронного калориметра аналогичен электромагнитному калориметрическому. Частица производит адронный ливень из-за взаимодействия с ядрами атомов вещества, который состоит из большого количества различных типов частиц, а не только электронов и фотонов. Количество частиц в ливне экспоненциально увеличивается с увеличением длины ливня. В то же время энергия каждой частицы в ливне экспоненциально падает, как и для электромагнитных ливней [4,5].
1.2.4 Мюонная камера
Мюонные камеры детектора LHCb осуществляют идентификацию мюонов и оценку их энергии. Мюонная система состоит из нескольких слоев мюонных камер. Треки всех элементарных частиц распознаются в системе слежения и экстраполируется на мюонную систему, и, если трек проходит через активные мюонные камеры, частица считается мюоном.
Когда мюон проходит через камеру, он ионизирует атомы газа. В процессе ионизации в камере образуются ионы и электроны. Из-за электромагнитного поля внутри камеры ионы направляются к катоду, а электроны - к аноду. Это производит электрический ток и создает сигнал в камере, которая обнаруживает мюон.
Мюонная система состоит из нескольких последовательных слоев мюонных камер, обнаруживающих мюоны. С помощью оценки расстояния, которое мюон пролетает в системе становится возможным измерить его энергию [4,5].
1.3 Описание данных
Данные [19], представляющие собой параметры систем детектора LHCb, отображены в таблице 1.
Таблица 1
Системы детектора LHCb |
Параметры |
|
Система трекинга |
TrackQualitySubdetector1TrackQualitySubdetector2TrackPtTrackPTrackQualityPerNDoF TrackDistanceToZTrackNDoF |
|
Детектор RICH |
RICHpFlagElectronRICHpFlagPionRICHpFlagProtonRICHpFlagMuonRICH_DLLbeElectonRICH_DLLbePionRICH_DLLbeProtonRICH_DLLbeMuonRICH_DLLbeKaonRICH_DLLbeBCKFlagRICH1FlagRICH2 |
|
Электромагнитный калориметр |
EcalDLLbeElectronEcalDLLbeMuonEcalEFlagEcal EcalShowerLongitudinalParameter |
|
Адронный калориметр |
HcalDLLbeElectronFlagHcalHcalDLLbeMuonHcalE |
|
Мюонная камера |
FlagMuonMuonFlagMuonLLbeMuonMuonLLbeBCKDLLmuon |
Описание основных параметров, получаемых от детектора LHCb, представлены в таблице 2.
Таблица 2
Параметры детектора LHCb |
Описание параметров |
|
TrackP |
импульс частицы |
|
TrackDistanceToZ |
расстояние между траекторией и осью z |
|
FlagRICH |
флаг 1, если траектория частицы проходит через первый детектор RICH |
|
RICHpFlagElectron |
флаг 1, если значение импульса больше порогового значения излучения Черенкова для электронов |
|
RICHpFlagProton |
флаг 1, если значение импульса больше порогового значения излучения Черенкова для протонов |
|
RICHpFlagPion |
флаг 1, если значение импульса больше порогового значения излучения Черенкова для пионов |
|
RICHpFlagKaon |
флаг 1, если значение импульса больше порогового значения излучения Черенкова для каонов |
|
RICHpFlagMuon |
флаг 1, если значение импульса больше порогового значения излучения Черенкова для мюонов |
|
RICH_DLLbeBCK |
вероятность того, что частица является «гостевой» по данным детектора RICH |
|
RICH_DLLbeKaon |
вероятность того, что частица является каоном по данным детектора RICH |
|
RICH_DLLbeElectron |
вероятность того, что частица является электроном по данным детектора RICH |
|
RICH_DLLbeMuon |
вероятность того, что частица является мюоном по данным детектора RICH |
|
RICH_DLLbeProton |
вероятность того, что частица является протоном по данным детектора RICH |
|
EcalE |
энергия частицы по данным электромагнитного калориметра |
|
EcalDLLbeElectron |
вероятность того, что частица является электроном по данным электромагнитного калориметра |
|
EcalDLLbeMuon |
вероятность того, что частица является мюоном по данным электромагнитного калориметра |
|
FlagEcal |
флаг 1, если траектория проходит через электромагнитной калориметр |
|
HcalE |
энергия частицы по данным адронного калориметра |
|
FlagHcal |
флаг 1, если траектория проходит через адронный калориметр |
|
HcalDLLbeElectron |
вероятность того, что частица является электроном по данным адронного калориметра |
|
HcalDLLbeMuon |
вероятность того, что частица является мюоном по данным адронного калориметра |
|
MuonLLbeMuon |
вероятность того, что частица является мюоном по данным мюонных камер |
|
FlagMuon |
флаг 1, если траектория частицы проходит через мюонные камеры |
|
MuonLLbeBCK |
вероятность того, что частица не является мюоном по данным адронных камер |
2. Теоретическая часть
2.1 Логистическая регрессия
Задачей линейного классификатора является разделение признакового пространства гиперплоскостью на два полупространства, в каждом из которых прогнозируется значение класса для объекта:
Линейный классификатор получается на основе регрессии следующим образом:
где - вектор признаков объекта, - веса признаков в линейной модели, - функция сигнум, возвращающая знак своего аргумента, - ответ классификатора на данном объекте. Логистическая регрессия является частным случаем линейного классификатора, который прогнозирует вероятность отнесения объекта к классу 1 [11]. Для этого используют функцию сигмоид:
Задача обучения заключается в том, чтобы по обучающему набору данных настроить веса [16]. В логистической регрессии для этого решается задача минимизации следующей функции потерь:
После нахождения весов , возможно не только вычислять классификацию произвольного объекта выборки, но и оценивать апостериорные вероятности его принадлежности классам:
К плюсам логистической регрессии можно отнести быстроту работы, возможность работы с большими выборками и разряженными признаками. Более того ответом логистической регрессии является уверенность (confidence) модели отнести данный объект к определенному классу. Однако, данные модели недостаточно хорошо работают в задачах со сложной нелинейной зависимостью.
Переобучение в задаче обучения с учителем связано с наличием больших значений весов модели. В результате чего небольшие изменения значений признаков могут оказывать сильное влияние функционал качества. Решением данной проблемы является добавление ограничения на значения весов модели [13].
регуляризация (LASSO Regularization) делает вектор весов более разряженным, обнуляя веса некоторых признаков. Тем самым осуществляется отбор наиболее важных признаков, которые несут информативность для модели.
регуляризация (Ridge Regularization) делает веса некоторых признаков близкими к нулю.
Рисунок 4 (слева) и (справа) регуляризации [17]
Чем больше параметр , тем более сложные зависимости в данных может восстанавливать модель. В случае, если принимает малые значения, то многие веса могут обнулиться (в случае ) или стать слишком малыми (в случае ). В таком случае модель недостаточно "штрафуется" за ошибки, и она окажется недообученной. В случае, если принимает большие значения, то модель слишком "боится" ошибиться на объектах обучающей выборки, поэтому окажется переобученной. В свою очередь является гиперпараметром модели поскольку его значение не может быть определено в рамках обучения модели. Поэтому данный гиперпараметр необходимо настраивать на кросс-валидации [3, 13].
Основные параметры логистической регрессии представлены в таблице 3.
Таблица 3
Гиперпараметры логистической регресии |
Описание |
|
penalty |
или регуляризация |
|
C |
коэффициент перед регуляризацией |
|
max_iter |
максимально количество итераций |
2.2 Дерево решений
Решающее дерево по сути является объединением логических правил. В данном случае алгоритм дерева решений заключается в следующем: обучающая выборка разбивается на две части по значению одного из признаков наилучшим образом После чего каждая из получившихся подвыборок также разделяется на две части и т.д [11].
Рисунок 5 Дерево решений [16]
Построение решающего дерева основано на принципе, основанного на Энтропии Шеннона:
где - вероятности нахождения системы в -ом состоянии. Энтропия соответствует степени хаоса в системе и чем она выше, тем менее упорядочена система и наоборот. Поэтому на каждом шаге построения решающего дерева выбирается признак, разбиение по которому уменьшает общую энтропию системы. После чего данная процедура повторяется, пока энтропия не снизится до какой-то малой величины.
Преимущество деревьев решений заключается в том, что они поддаются визуализации, легко интерпретируемы и понятны человеку, благодаря чему они получили большую популярность.
Однако, решающие деревья очень чувствительны к шумам во входных данных: вся модель может кардинально измениться, если немного изменится обучающая выборка. Более того деревья решений являются крайне переобучаемым алгоритмом, поэтому для борьбы с переобучением необходимо осуществлять ограничение на максимальную глубину, фиксировать минимально возможное количество элементов в листьях дерева и корректировать долю признаков, используемых при разбиении вершины [11, 13].
Основные параметры деревьев решений представлены в таблице 4.
Таблица 4
Гиперпараметры деревьев решений |
Описание |
|
max_depth |
максимальная глубина дерева |
|
max_features |
доля признаков, используемых при разбиении вершины |
|
min_samples_leaf |
минимальное число объектов в листе |
|
min_samples_split |
минимальное количество объектов, необходимое для разделения внутреннего узла |
|
max_leaf_nodes |
максимальное количество листьев |
2.3 Случайный лес
Случайный лес (Random Forest) является ансамблевым алгоритмом, в основе которого лежат деревья решений, обученные с помощью бэггинга (bagging). Бэггинг основан на статистическом методе бутстрэпа (bootstrap aggregating), который заключается в следующем: пусть имеется выборка размера , из которой равномерно извлекаются объектов с возвращением. Бэггинг же заключается в том, что на каждой выборке , полученной с помощью бутстрэпа, обучается свое дерево решений. Итоговый ответ классификатора в данном случае будет являться наиболее частым прогнозом первичных моделей (Рисунок 6).
Рисунок 6 Бэггинг и бустрэп
Деревья решений являются хорошими базовыми классификаторами для бэггинга, поскольку они достаточно сложны и могут достигать нулевой ошибки на любой выборке.
Алгоритм построения случайного леса, состоящего из деревьев, заключается в генерации выборок с помощью бутстрэпа, построении на них деревьев решений и в дальнейшем принятии решения усреднением ответов всех деревьев. Таким образом, случайный лес является бэггингом над решающими деревьями.
К плюсам случайного леса можно отнести высокую точность предсказания, низкую чувствительность к выбросам в данных и к масштабированию признаков за счёт бутстрэпа, низкую способность к переобучению. Однако, данный алгоритм проигрывает в качестве некоторым линейным моделям на данных с большим количеством разреженных признаков [3, 11].
В таблице 5 представлены основные параметры случайного леса.
Таблица 5
Гиперпараметры случайного леса |
Описание |
|
n_estimators |
число деревьев |
|
max_features |
доля признаков, используемых при разбиении вершины |
|
max_depth |
максимальная глубина дерева |
|
min_samples_split |
минимальное количество объектов, необходимое для разделения внутреннего узла |
|
min_samples_leaf |
минимальное число объектов в листе |
|
max_leaf_nodes |
максимальное количество листьев |
2.4 Градиентный бустинг
Основной идеей градиентного бустинга является итеративное обучение моделей (чаще всего деревьев решений), каждая из которых стремится уменьшить ошибку предшествующей путем обучения на ошибках, допущенных предшествующей моделью. Тем самым каждое следующее дерево обучается на ранее некорректно предсказанных значениях.
Новое дерево обучается на ошибках , где - это прогноз всей композиции на - том объекте на предыдущей итерации (Рисунок 7). Вклад каждого дерева в общий ответ модели является параметром, подбираемым в процессе обучения.
Рисунок 7 Иллюстрация градиентного бустинга
Метод градиентного бустинга позволяет оптимизировать произвольную дифференцируемую функцию потерь, тем самым он схож с методом градиентного спуска, применяемый для решения задач оптимизации [2, 11, 13].
Одной из возможных модификаций данного алгоритма является Xgboost [20], который, как показывает и практика, и опыт соревнований по машинному обучению, очень часто является самым эффективным алгоритмом в различных задачах. Основной проблемой многих алгоритмов, в том числе и градиентного бустинга, является их стремление к переобучению, для борьбы с которой в градиентном бустинге применяют следующие виды регуляризации: ограничение на максимальную глубину и минимальное число объектов в листе и контролирование шага обучения. В Xgboost же используются и дополнительные виды регуляризации. Функция потерь включает в себя регуляризатор для каждого из деревьев, где - прогноз -ого дерева.
=
)=
где штрафует модель за большое число листьев , а контролирует сумму весов модели в листьях.
Основными плюсами Xgboost можно считать скорость работы, возможность распараллеливания и наличие дополнительной регуляризации в итоговой функции потерь, что значительно снижает переобучение [11, 20].
В таблице 6 представлены основные параметры градиентного бустинга.
Таблица 6
Гиперпараметры градиентного бустинга |
Описание |
|
learning_rate |
шаг обучения |
|
n_estimators |
число итераций |
|
max_depth |
максимальная глубина дерева |
|
min_samples_split |
минимальное число примеров, необходимое для разветвления в данной вершине |
|
min_samples_leaf |
минимальное число примеров в листе |
|
max_features |
доля признаков, используемых при разбиении вершины |
Основные параметры Xgboost представлены в таблице 7.
Таблица 7
Гиперпараметры Xgboost |
Описание |
|
booster |
тип базового алгоритма (дерево решений или линейная модель) |
|
max_depth |
максимальная глубина дерева |
|
min_child_weight |
минимальное необходимое число примеров в каждой вершине |
|
subsample |
доля выборки, используемая для обучения каждого дерева |
|
colsample_bytree |
доля признаков, используемая для обучения каждого дерева |
|
lambda |
коэффициент перед L2-регуляризатором в функции потерь |
|
alpha |
коэффициент перед L2-регуляризатором в функции потерь |
2.5 Нейронные сети
Модель нейронной сети можно представить в виде вычислительного графа, состоящего из входного, выходного и скрытых слоев. Пример архитектуры сети представлен на рисунке 8.
Рисунок 8 Архитектура нейронной сети [12]
Каждый слой является вычислительным блоком, принимающим на вход значения вектора входных параметров:
Рисунок 9 Вычислительный блок нейронной сети [12]
где - веса для входных параметров, взвешенная сумма, - функция активации, - получившийся результат, идущий на вход нейронам следующего слоя.
Различные виды функций активации представлены на следующем рисунке:
Рисунок 10 Виды функций активации нейронной сети [18]
Обучение нейронной сети осуществляется c помощью градиентного спуска [2, 3]. Данный метод представляет собой алгоритм оптимизации функции потерь, путем итеративной корректировки весов по направлению антиградиента:
Рисунок 11 Иллюстрация метода градиентного спуска [12]
где - веса нейрона на шаге , - веса нейрона на шаге , - шаг обучения, - ошибка данного нейрона. Вычисление градиента функции потерь по весу каждого нейрона осуществляется при обратном проходе по вычислительному графу нейронной сети. Эффективной реализацией данного подхода является алгоритм обратного распространения ошибки [2, 3].
3. Практическая часть
3.1 Метрики качества
В задаче классификации матрица ошибок принимает следующий вид:
True Positive (TP) |
False Positive (FP) |
||
False Negative (FN) |
True Negative (TN) |
где - это результат модели, - реальный класс объекта. Поэтому здесь True Positive - это верно классифицируемый объект класса 1, True Negative - верно классифицируемый объект класса 0, False Negative - ошибочно классифицируемый объект класса 1 и False Positive - ошибочно классифицируемый объект класса 0.
Простейшей метрикой оценки качества алгоритма классификации является доля верно классифицируемых объектов или :
Однако в моделях с несбалансированными классами, которые часто имеют быть в задачах физики элементарных частиц, данную метрику практически не используют. Одним из способов оценки таких моделей является метрика ROC AUC -- площадь под кривой ошибок True Positive Rate и False Positive Rate.
В случае идеального классификатора площадь под кривой будет равна единице, но в случае, если классификатор случайно выдает вероятности классов, площадь под кривой ошибок будет соответствовать случайному угадыванию и будет равна 0,5. Поэтому площадь под данной кривой соответствует качеству алгоритма [2, 11, 13].
3.2 Предобработка данных
Первый этап исследования представляет собой предобработку данных: feature extraction (создание новых признаков на основе обучающей выборки), feature transformation (преобразование признаков) и feature selection (отбор признаков).
Преобразования, осуществляемые над признаками, повышают качество работы одних алгоритмов, но в тоже время могут не оказывать влияния или даже снижать качество других. К примеру, логистическая регрессия и нейронные сети имеют прирост в качестве после нормировки признаков. Однако, модели, основанные на деревьях решений, устойчивы к различным распределениям признаков обучающего набора и их качество может существенно не измениться.
Трансформация Standart Scaling убирает выбросы в данных, которые негативно влияют на ряд моделей машинного обучения.
Трансформация MinMax Scaling переносит распределение признаков на отрезок [0, 1].
В случаях, если признаков недостаточно, то генерируют новые на их основе. После чего оценивают их важность, поскольку некоторые из них могут нести шум и негативно влиять на обучение модели.
Для отбора признаков используют отдельные модели, такие как Ridge Classifier и Lasso Classifier с и регуляризацией, описанные в предыдущей главе. Признаки, имеющие в таких моделях близкие к нулю веса, обычно удаляются, поскольку вряд ли они принесут существенный вклад в более сложную модель [1].
3.3 Настройка гиперпараметров
Оценку качества построенных моделей осуществляют с помощью отложенной выборки и кросс-валидации. Отложенная выборка представляет собой метод проверки, при котором исходные данные разделяют на две части - обучающую и тестовую выборки. На первой части данных происходит обучение моделей и настройка гиперпараметров, на второй части проводится итоговая оценка качества моделей.
Кросс-валидация представляет собой разбиение обучающей выборки на различных подвыборок, перекрестное обучение и проверку (Рисунок 12). Полученная оценка качества на кросс-валидации показывает, насколько хорошо модель подстраивается под обучающие данные, сохраняя при этом способность обобщения на новых данных [13].
Рисунок 12 Пример кросс-валидации [13]
Подбор оптимальных гиперпараметров модели осуществляется с помощью решетчатого поиска GridSearchCV, который принимает на вход список параметров. В результате GridSearchCV происходит обучение моделей с помощью кросс-валидации, поэтому при большом количестве входных параметров данный процесс может занимать достаточно долгое время. Для того чтобы снизить время подбора гиперпараметров используют RandomizedSearchCV, который вместо честного перебора всех комбинаций гиперпараметров оценивает лишь заданное количество их случайных вариантов на каждой итерации [1, 11].
3.4 Полученные результаты
Для построения моделей были использованы методы машинного обучения, описанные в предыдущей главе. Вычисления выполнялись с помощью следующих библиотек языка Python: pandas, numpy, matplotlib, sklearn, xgboost, keras, pytorch. В таблице 7 представлены параметры моделей, полученные на кросс-валидации.
Таблица 7
LogisticRegression |
C = 1max_iter = 501penalty = l1 |
|
RandomForestClassifier |
criterion = ginimax_depth = 25max_features = 9min_samples_leaf = 1min_samples_split = 2n_estimators = 210 |
|
GradientBoostingClassifier |
learning_rate = 0.1max_depth = 7max_features = 0.2n_estimators = 300min_samples_split = 2min_samples_leaf = 1 |
|
Xgboost |
learning_rate = 0.1
|
Архитектура нейронной сети представлена на рисунке 13.
Рисунок 13 Архитектура нейронной сети
Итоговым прогнозом ансамбля алгоритмов являлась взвешенная сумма ответов базовых алгоритмов (Рисунок 14).
Рисунок 14 Архитектура ансамбля алгоритмов
Обучение моделей осуществлялось на виртуальной машине в среде GoogleColaboratory [14]. Полученные результаты представлены в таблице 8.
Таблица 8
Electron |
Ghost |
Kaon |
Muon |
Pion |
Proton |
||
LogisticRegression |
0.9738 |
0.9363 |
0.9005 |
0.9741 |
0.9094 |
0.9028 |
|
RandomForestClassifier |
0.9774 |
0.9335 |
0.8999 |
0.9705 |
0.9346 |
0.8943 |
|
GradientBoostingClassifier |
0.9844 |
0.9336 |
0.9052 |
0.9748 |
0.9325 |
0.9001 |
|
Xgboost |
0.9856 |
0.9409 |
0.9109 |
0.9752 |
0.9300 |
0.9045 |
|
Neural Network |
0.9789 |
0.9350 |
0.8994 |
0.9802 |
0.9413 |
0.8913 |
|
Ensemble |
0.9829 |
0.9450 |
0.9153 |
0.9821 |
0.9365 |
0.9117 |
Из таблицы 8 видно, что благодаря созданию ансамбля алгоритмов, для большинства классов удалось увеличить качество классификации, в сравнении с классическими методами. Можно заключить, что данный подход дает хорошие результаты.
Заключение
В данной работе изучалось применение методов машинного обучения к решению задачи классификации элементарных частиц. Основные результаты, полученные в данном исследовании:
· Анализ существующих методов машинного обучения;
· Первичный анализ и предобработка данных;
· Тонкий подбор гиперпараметров моделей;
· Построение моделей машинного обучения;
· Применение ансамблевого подхода;
· Решение задачи классификации элементарных частиц с высокой точностью.
В результате данного исследования были построены модели логистической регрессии, случайного леса, градиентного бустинга и нейронной сети. Применение ансамблевого подхода позволило достичь прироста в точности классификации элементарных частиц и получить наилучшие результаты.
Список источников
1. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow, Орельен Жерон (2018)
2. Глубокое обучение. Погружение в мир нейронных сетей, С. Николенко, А. Кадурин, Е. Архангельская (2018)
3. Deep Learning. Ian Goodfellow, Yoshua Bengio, Aaron Courville, MIT Press, (2016)
4. URL: https://www.coursera.org/learn/hadron-collider-machine-learning (дата обращения: 10.11.2018)
5. URL: https://elementy.ru/lhc/lhc/accelerator/detectors/lhcb (дата обращения: 02.02.2019)
6. URL: https://elementy.ru/LHC/LHC/accelerator/detectors/ATLAS (дата обращения: 02.02.2019)
7. URL: https://elementy.ru/lhc/lhc/accelerator/detectors/alice (дата обращения: 02.02.2019)
8. URL: https://elementy.ru/lhc/lhc/accelerator/detectors/cms (дата обращения: 02.02.2019)
9. URL: https://cdsweb.cern.ch (дата обращения: 02.02.2019)
10. URL: https://inspirehep.net/record/884672/plots (дата обращения: 18.03.2019)
11. URL: https://mlcourse.ai (дата обращения: 16.01.2019)
12. URL: https://dlcourse.ai (дата обращения: 16.01.2019)
13. URL: http://github.com/data-mining-in-action (дата обращения: 10.03.2019)
14. URL: https://colab.research.google.com (дата обращения: 09.10.2018)
15. URL: http://www.machinelearning.ru (дата обращения: 01.04.2019)
16. URL: https://databricks.com/blog/2014/09/29/scalable-decision-trees-in-mllib.html (дата обращения: 10.03.2019)
17. URL: https://www.cs.ubc.ca/~schmidtm/Courses/340-F17/T6.pdf (дата обращения: 10.03.2019)
18. URL: https://medium.com/@krishnakalyan3/introduction-to-exponential-linear-unit-d3e2904b366c (дата обращения: 20.02.2019)
19. URL: https://github.com/hse-aml/hadron-collider-machine-learning (дата обращения: 05.10.2018)
20. URL: https://github.com/dmlc/xgboost (дата обращения: 14.12.2018)
Размещено на Allbest.ru
...Подобные документы
Свойства всех элементарных частиц. Связь протонов и нейтронов в атомных ядрах. Классификация элементарных частиц. Величина разности масс нейтрона и протона. Гравитационные взаимодействия нейтронов. Экспериментальное значение времени жизни мюона.
реферат [24,3 K], добавлен 20.12.2011Фундаментальные физические взаимодействия. Гравитация. Электромагнетизм. Слабое взаимодействие. Проблема единства физики. Классификация элементарных частиц. Характеристики субатомных частиц. Лептоны. Адроны. Частицы - переносчики взаимодействий.
дипломная работа [29,1 K], добавлен 05.02.2003Сущность элементарных частиц (лептонов и адронов), особенности их классификации. Общая характеристика гипотезы о существовании кварков: супермультиплеты, кварковая гипотеза. Специфика квантовой хромодинамики: понятие глюонов и асимптотической свободы.
курсовая работа [55,2 K], добавлен 20.12.2010Один из важнейших приборов для автоматического счёта элементарных частиц - счётчик Гейгера, основанный на принципе ударной ионизации. Конденсация перенасыщенного пара с образованием капелек воды в камере Вильсона. Метод толстослойных фотоэмульсий.
доклад [697,7 K], добавлен 28.05.2009Основные характеристики и классификация элементарных частиц. Виды взаимодействий между ними: сильное, электромагнитное, слабое и гравитационное. Состав атомных ядер и свойства. Кварки и лептоны. Способы, регистрация и исследования элементарных частиц.
курсовая работа [65,7 K], добавлен 08.12.2010Основные понятия, механизмы элементарных частиц, виды их физических взаимодействий (гравитационных, слабых, электромагнитных, ядерных). Частицы и античастицы. Классификация элементарных частиц: фотоны, лептоны, адроны (мезоны и барионы). Теория кварков.
курсовая работа [1,0 M], добавлен 21.03.2014Характеристика методов наблюдения элементарных частиц. Понятие элементарных частиц, виды их взаимодействий. Состав атомных ядер и взаимодействие в них нуклонов. Определение, история открытия и виды радиоактивности. Простейшие и цепные ядерные реакции.
реферат [32,0 K], добавлен 12.12.2009Структуры и свойства материй первого типа. Структуры и свойства материй второго типа (элементарные частицы). Механизмы распада, взаимодействия и рождения элементарных частиц. Аннигиляция и выполнение зарядового запрета.
реферат [38,4 K], добавлен 20.10.2006Сценарий развития Вселенной после Большого Взрыва. Современные представления об элементарных частицах как первооснове строения материи Вселенной. Классификация элементарных частиц. Корпускулярно-волновой дуализм в современной физике. Теория атома Н. Бора.
реферат [49,0 K], добавлен 17.05.2011Энергетическое разрешение полупроводникового детектора. Механизмы взаимодействия альфа-частиц с веществом. Моделирование прохождения элементарных частиц через вещество с использованием методов Монте–Карло. Потери энергии на фотоядерные взаимодействия.
курсовая работа [502,5 K], добавлен 07.12.2015Основные виды взаимодействия в классической физике. Характеристика элементарных частиц, специфика их перемещения в пространстве и главные свойства. Анализ гравитационного притяжения электрона и протона. Осмысление равнозначности законов Ньютона и Кулона.
статья [40,9 K], добавлен 06.10.2017Изучение процессов рассеяния заряженных и незаряженных частиц как один из основных экспериментальных методов исследования строения атомов, атомных ядер и элементарных частиц. Борновское приближение и формула Резерфорда. Фазовая теория рассеяния.
курсовая работа [555,8 K], добавлен 03.05.2011Элементарная частица — частица без внутренней структуры, то есть не содержащая других частиц. Классификация элементарных частиц, их символы и масса. Цветовой заряд и принцип Паули. Фермионы как базовые составляющие частицы всей материи, их виды.
презентация [214,8 K], добавлен 27.05.2012Метод совпадений и антисовпадений как один из экспериментальных методов ядерной физики и физики элементарных частиц. Регистрация частиц и квантов с заданной между ними корреляцией в пространстве и во времени. Способы повышения временного разрешения.
контрольная работа [295,2 K], добавлен 15.01.2014Виды фундаментальных взаимодействий в физике. Классификация, характеристика и свойства элементарных частиц. Несохранение чётности в слабых взаимодействиях. Структура и систематика адронов. Теория унитарной симметрии. Кварки как гипотетические частицы.
реферат [24,3 K], добавлен 21.12.2010Основные подходы к классификации элементарных частиц, которые по видам взаимодействий делятся на: составные, фундаментальные (бесструктурные) частицы. Особенности микрочастиц с полуцелым и целым спином. Условно истинно и истинно элементарные частицы.
реферат [94,8 K], добавлен 09.08.2010Методы наблюдения и регистрации элементарных частиц. Образование пузырьков пара в перегретой жидкости на ионах. Преимущество пузырьковой камеры перед камерой Вильсона. Метод толстослойных фотоэмульсий. Химические свойства и радиоактивность изотопов.
презентация [259,4 K], добавлен 28.03.2011Анализ развития идей атомизма в истории науки. Роль элементарных частиц и физического вакуума в строении атома. Суть современной теории атомизма. Анализ квантовой модели атома. Введение понятия "молекула" Пьером Гассенди. Открытие эффекта Комптона.
контрольная работа [25,2 K], добавлен 15.01.2013Методы наблюдения и регистрации элементарных частиц; газоразрядный счетчик Гейгера и камера Вильсона. Открытие радиоактивности; исследование альфа-, бета- и гамма-излучения. Рассмотрение биологического действия радиоактивных излучений на живые организмы.
презентация [2,2 M], добавлен 03.05.2014История исследования элементарных частиц и фундаментальных взаимодействий. Минимальная модель электрослабого взаимодействия Глэшоу-Вайнберга-Салама и квантовой хромодинамики. Современные представления об иерархии структурных элементов микромира.
реферат [42,1 K], добавлен 30.01.2013