Разработка эконометрической модели получения прибыли от букмекерских ставок на футбол
Расчет ставок с фиксированными коэффициентами при помощи вероятностей. Методы составления логистической регрессии для построения вероятностного распределения. Букмекерские стратегии, применяемые для прогнозирования победителей футбольных чемпионатов.
Рубрика | Экономико-математическое моделирование |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 01.07.2017 |
Размер файла | 62,2 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru
Размещено на http://www.allbest.ru
Введение
Футбол -- это самый популярный спорт на планете. Миллионы людей каждый день играют, болеют или просто смотрят футбольные матчи. Футбольные соревнования могут иметь разную структуру, они могут быть между национальными сборными или клубными командами, которые составлены из игроков разных стран. Также они могут быть на вылет (кубки) или по круговой системе (чемпионаты), которые продолжаются целый сезон, то есть почти календарный год. Соответственно для этого исследования будут наиболее интересны последние, то есть соревнования, в которых клубные команды играют по круговой системе. В них обычно каждая команда играет с другой по 2 раза (2 тура), за победу дают три очка, за ничью - 1 очко, победителем считается команда набравшая наибольшее количество очков в сумме за все встречи. Такой тип футбольных соревнований является самым популярным, поэтому вопрос о победителе и просто успехе в чемпионате является интересным с разных точек зрения. Огромные суммы фигурируют, как в самих турнирах, так и в букмекерских агентствах, организовывающих ставки на подобные соревнования.
Вопрос о том, как выступят команды в новом сезоне является ключевым для спорта как такового, ведь именно это является показателем успеха в командном спорте. Поэтому крайне важно понимать, что приводит к улучшению успеха команды, а что, наоборот, способствует неудаче. Разбор таких факторов является необходимым как для теоретического прогнозирования, так и для практического применения менеджментом клубов, так как позволит узнать, что именно в футболе приносит результат в наибольшей степени.
Многие букмекерские конторы предлагают сделать ставки по определённым коэффициентам до начала сезона на чемпиона, на вылет и т.д. Чтобы получать доход им необходимо делать это лучше всех других участников рынка, в противном случае становится возможным зарабатывать на невыполнении гипотезы об эффективности рынков.
Цель данной работы состоит в том, чтобы в результате аналитической работы (эконометрическое моделирование, подбор букмекерских стратегий) получить максимально прибыльный вариант, который должен на некоторой дистанции стабильно приносить доход. Также важно оценить влияние различных факторов на успешность клуба и описать механизм букмекерской деятельности.
Для того, чтобы достичь поставленную цель потребовалось решить следующие задачи:
- изучение, представленных в литературе исследований, находящихся в схожей тематике проделанной работы и сравнить её с другими авторами,
- изучение новой методологии для построения эконометрических моделей,
- сбор данных и создание базы данных для последующего исследования,
- подбор факторов, которые могут влиять на успешность команды, и в последующем станут объясняющими переменными,
- построение эконометрической модели,
- создание на её основе прогнозной системы,
- анализ букмекерской деятельности,
- создание и сравнение различных стратегий, которые, используя прогноз, взаимодействуют с букмекерскими коэффициентами для получения прибыли,
- на основе лучших вариантов сделать выводы об успешности.
Объектом данного исследования являются футбольные соревнования, проводимые в Европе. Предметом изучения являются успешность команды, вопрос о том, что ведёт к победе в футбольном соревновании.
В литературе написано достаточное количество работ о подобном прогнозировании, но для отдельных матчей. Эта же работа исследует именно долгосрочный период, итог целого чемпионата. Подобных работ крайне мало, в силу достаточной специфичности этого вида ставок. Также будет сделана попытка превысить точность предыдущих работ, в связи с достаточно обширными возможностями для этого. (стоит отметить, что прямое сравнение этой работы с другими невозможно в силу слишком большой разницы).
Практический смысл этой работы заключается в создании механизма, который с помощью более точного предсказания, чем совершает букмекер, позволит получать прибыль в долгосрочном периоде, то есть обыгрывать букмекера. Другая сторона процесса заключается в исследовании успешности клуба, что может быть полезно для самих спортивных организаций, то есть будут выделены ключевые аспекты, влияющие на результат команды.
В начале будет произведён обзор литературы, в котором будут оценены предыдущие работы в данной сфере, а также определена роль данной работы. После этого будет описан принцип совершения ставки, в том числе то, как обыграть букмекера. Далее будет описание выбора сферы и общее разъяснение описываемой сферы. Переходя к основной исследовательской части работы, сначала будет описан процесс сбора данных, их выбор, а также теоретическое описание их влияния на исследуемую переменную. После этого следует описание выбора спецификации модели (конкретных факторов и формы самой модели). Далее последует описание механизма прогнозирования с получением необходимых данных для последующего тестирования. На основе полученного прогноза будет произведён анализ букмекерских стратегий, сравнив которые, можно оценить итоговую полученную прибыльность. И в конце будут подведены итоги работы, оценено качество проделанной работы и приведены рекомендации на будущее.
1. Обзор литературы
Сегодня активно обсуждается применение научных принципов и методов для улучшения спортивных результатов. Поскольку взаимосвязь между результатами спортивных соревнований и различными элементами данных напрямую зависит от нескольких факторов, таких как тип спорта, окружающая среда и цели игроков, было предложено несколько методов для прогнозирования результатов на основе имеющихся данных. Точнее, в то время, как некоторые команды предпочитают не использовать какие-либо методы прогнозирования, другие долгое время зависели либо от опыта и инстинктов экспертов (с высокой частотой ошибок), либо от исторических данных. Однако команды, которые ищут более надежные прогнозы, склонны использовать статистические данные в процессе принятия решений.
Существующий потенциал для анализа и понимания больших наборов данных намного ниже, чем для сбора и хранения данных. Поэтому разрабатывается новое поколение методов и инструментов, помогающих людям с интеллектуальным анализом этого большого объема данных и получением критических знаний. Спорт предоставляет огромные данные о каждом игроке, команде, игре и сезоне, и поэтому идеально подходит для тестирования методов и инструментов интеллектуального анализа данных. Так как эксперты и статистики не могут объяснить отношения в данных для одной игры, методы интеллектуального анализа данных используются, чтобы помочь экспертам или использоваться независимо при принятии решений. Следовательно, спортивные команды могут получить преимущество над своими соперниками путем преобразования данных в прикладные знания посредством надлежащего извлечения и интерпретации данных.
Учитывая популярность спорта в современном мире, многие организации выделяют большие средства для достижения лучших результатов в спортивных матчах. Поэтому прогнозирование результатов игры стало предметом интереса для различных спортивных организаций. Для прогнозирования результатов игры в последние годы использовались различные методы интеллектуального анализа данных, такие как ANN, деревья решений, байесовский метод, логистическая регрессия, SVM и нечеткие методы. В этой связи проанализированная литература показывает две основные проблемы. Во-первых, низкая точность прогнозирования выявила необходимость дальнейших исследований для получения надежных прогнозов. Во-вторых, отсутствие общего и всеобъемлющего набора статистических данных заставляет исследователей собирать данные с спортивных сайтов (также, как и в данной работе). Различие в используемых наборах данных не позволяет исследователям сравнивать их результаты с предыдущими исследованиями и приводит к неясному развитию.
Первые несколько исследовательских работ по эффективности публичных рынков азартных игр были сосредоточены на тотализаторных ставках на лошадях. Многие авторы находят доказательства неэффективности таких рынков, выделяя выгодные стратегии ставок: в их числе Bolton and Chapman (1986), Hausch et al. (1981), Hausch and Ziemba (1995) и Lo (1995). В отличие от выводов, сделанных Asch et al (1984), Ali (1998) и Swindler and Shaw (1995), которые установили, что рынки ставок на основе тотализатора кажутся похожими на слабую форму эффективности.
Что касается вида ставок, которые нас интересуют, т. е. ставок с фиксированными коэффициентами, Dixon and Coles, 1997 обнаружили признаки неэффективности рынка, применив торговые стратегии к матчам Премьер-лиги в сезоне 1995/96. Аналогичные результаты были получены Rue and Salvesen (2000), Kuypers (2000) и Dixon and Pope (2004). Кроме того, Goddard and Asimakopoulos (2004) обнаружили, что неэффективность рынка более очевидна в конце футбольного сезона, чем на первых нескольких этапах чемпионата. Forrest et al. (2005) доказали, что неэффективность рынка увеличивается в течение пяти лет, но трудно найти прогностическую модель для получения положительной прибыли. Путем реализации заказанной модели пробит, обычно используемой для правильной оценки вероятности результата футбольного события, они делают вывод, что от букмекеров не может быть получена прибыль. Graham and Stott (2008) представили две прогнозирующие модели, одна из которых основывалась на футбольных результатах, а другая на прошлых коэффициентах, чтобы сравнить данные, основанные на мнениях букмекеров с результатами спортивных соревнований. Такая работа показала, что, даже если они подвержены систематическим ошибкам, букмекерские коэффициенты и ставки по ним не могут быть прибыльными, используя результаты прогнозирующих моделей. В отличие от результатов таких работ, Constantinou et al. (2013) построил модель байесовской сети, которая может генерировать прибыльные стратегии по букмекерским ставкам, сочетая рыночные шансы, субъективную информацию и исторические данные.
Более подробно рассмотрим одну из работ, которая хорошо описывает и сравнивает различные методологии для построения прогнозов - Buursma (2010) выбрал набор функций и использовал ряд алгоритмов классификации, включая простую и логистическую регрессию, байесовскую сеть и дерево решений для прогнозирования результатов футбольного матча. Его предсказания имели три исхода (выигрыш команды хозяев, ничья, выигрыш гостевой команды). Были рассчитаны коэффициенты для этих трех выходов в каждой игре, и был выбран исход с наивысшими коэффициентами.
Стоит обратить на список выбранных объясняющих факторов:
1)Забитые и пропущенные мячи в последних играх.
2)Очки обеих команд в последних играх команд (дома и нет).
3)Процент игр, сыгранных дома.
4)Средняя сила противника в последних матчах.
Используя эти данные, он оценивает различные методы прогнозирования, вычисляя процент успешности предсказания. Все вышеперечисленные методы дают схожий результат: 54-55% (для сравнения, если просто ставить на победу команды, играющей дома, то процент равен 48).
После этого полученный прогноз используется для ставок, на основе определённых стратегий для ставок - когда вероятность победы максимальна, выше определённого значения, выше аналогичного значения у букмекера (рассчитывается из коэффициента). Как отмечает сам автор, прибыль, теоретически полученная им невысока, но в долгосрочном периоде стабильно способна обыгрывать букмекера и приносить доход. При этом также важно заметить, что величина этого превосходства над коэффициентами букмекера невысока, а прогнозирование достаточно тяжело. В качестве улучшения Buursma предлагает рассмотреть более сложные варианты данных, с помощью которых можно улучшить анализ, потому что он по сути использует только количество забитых голов (остальные данные рассчитаны производно).
Поскольку точность всех разработанных моделей должна быть оценена, для этой цели исследователи используют обучающие и тестовые наборы данных. Обобщая результаты, которые приводит Rastegari (2013) в своей недавней работе, прогнозирование результатов отдельных событий может иметь точность 60-70% (зависит от вида спорта, для футбола такие значения меньше остальных и достигают максимум примерно 60%).
В контексте данной работы важно отметить, что все вышеописанные работы изучали краткосрочные спортивные события, например, футбольные матчи. Долгосрочные же события, такие как футбольные чемпионаты почти не изучались до этого. Бесспорно, более короткие промежутки времени дают много преимуществ, но и остальные также подлежат изучению, что и будет сделано в этой работе. Незначительное внимание к подобным вариантам может вполне означать возможность получения прибыли на неразвитом рынке долгосрочных ставок.
Букмекер.
1. Что такое инвестиция.
Один из основных принципов капиталистической экономики это инвестирование - использование капитала для получения прибыли. Традиционные методы инвестиций -- это банки, недвижимость и фондовые рынки. Прибыль может быть в двух формах: как рост капитала или как доход. Рост цены акции самый очевидный пример первого из них.
Некоторые инвестиции также приносят доход, как, например, недвижимость может приносить доход в виде арендных платежей. Размер дохода обычно считается, как процент от изначального капитала. ….
Возникает вопрос, как ставки на спорт связаны со всем вышеперечисленным: является ли это инвестированием или просто азартной игрой. Ответ на этот вопрос зависит в большей степени от целей и интересов того, кто делает ставки на спорт.
2. Что такое ставка на спорт.
Сделать ставку означает заключить соглашение между двумя сторонами, основанное на исходе на какое-то неопределённое событие - тот, кто окажется неправ, должен будет выплатить другой стороне определённую сумму. Событием может быть всё что угодно: от извержения вулкана до выбора имени наследника британского престола. Если говорить о ставках на спорт это обычно некоторое спортивное событие, в котором чаще всего угадывается победитель. Самое старое проявление такого вида -- это, конечно, лошадиные скачки. Сейчас с повсеместным развитием, в том числе и ставок через интернет, можно поставить на секунду первого обращения в адрес судьи в какой-нибудь индийской футбольной лиге.
Спорт в принципе основан на споре: кто быстрее, сильнее, точнее, лучше. Ставки содержат в себе подобную же природу и именно поэтому они легко вписываются в спортивную концепцию. Элемент соревнования неразрывно связан со спортом, и где бы то ни было может возникнуть спор об исходе этого соревнования, оформленный в виде ставки. Более того, популярность спорта растёт всё более быстрым темпом последние годы, что увеличивает количество фанатов и просто зрителей, которые знают всё больше о том, что они смотрят. И возможность сделать ставку - заработать немного денег - только увеличивает азарт и удовольствие от индустрии спорта.
3. Ставки - инвестиции или азартная игра.
У инвестиций и азартных игр одна цель - получение прибыли. Более того, и игроки, и инвесторы спекулируют на шансах получения прибыли, беря на себя некоторый риск в надежде на положительный исход. Самое очевидное отличие, вероятно, заключается в степени воздействия риска - игрок знает, что в случае неудачи он теряет всё, а в случае инвестора он может, например, забрать свой капитал, если величина того уменьшится.
Другое отличие заключается во временном различии. Инвестиции - это всегда долгосрочно, относительно азартной игры. Сегодня ты вкладываешь свой капитал, а через недели, месяца или даже года получаешь выгоду. В случае ставки всё может произойти буквально в считанные минуты, то есть они являются гораздо более краткосрочными и высоко рисковыми. Азартный игрок, конечно, никогда не использует увесь свой капитал для одной ставки, он распределяет риск потери, поэтому достаточно маловероятно, что он потеряет всё.
Сходство между такой азартной игрой, основанной на риск-менеджменте, и традиционными инвестициями можно продемонстрировать на примере. Предположим, что инвестор покупает акции, 100 штук по 10 у.е. каждая, наблюдая за ценой в течении 200 дней. В конце периода цена становится 12 рублей. и прибыль инвестора равно 200 у.е. или 20%. В то же время азартный игрок ставит 1% от его банка в 1000 у.е. или 10 у.е. каждый день на то, что цена той же акции вырастет. Если он прав он выигрывает 10 рублей сверху, если проигрывает, то теряет 10, которые он поставил. Допустим за 200 дней 110 цена росла, а 90 падала, что делает прибыль игрока равной (110-90)*10=200 рублей., такая же как и у инвестора, 20% от изначального банка, но при этом, важно отметить, что процент от оборота (2000 рублей) будет всего 10%.
Ключевым моментом являются шансы потерять весь свой капитал для обоих случаев. Инвестор потеряет всё, если стоимость вложенного капитала опустится до нуля. Такое в принципе может произойти, но шансы крайне малы. А вот в случае с игроком нужно, чтобы в течение упомянутого периода цена падала на 100 дней больше, чем росла, то есть 150 дней падения и 50 дней роста. Если предположить, что рост был резким, а падение плавным, такая ситуация совсем не выглядит невозможной, при чём инвестор в этой реальности мог даже заработать.
Инвестиции и ставки далеко не так похожи с точки зрения рисков и вероятностей, как может показаться на первый взгляд. Более того, эти сферы почти не пересекаются в реальной жизни, что делает сравнительный подход ещё более проблематичным. И, наконец, ставки на спорт сопряжены с определёнными проблемами в виде букмекера. В базовом случае он просто всегда забирает себе часть дохода, в более редких могут возникать более сложные проблемы, часто незаконного характера. Но даже с учётом всего вышеперечисленного, профессиональный подход к прогнозированию, распоряжению деньгами и риск-менеджменту делает возможным для азартного игрока с высокими рисками стать некоего вида инвестором с низкими рисками потерь. Далее этот процесс будет рассмотрен более подробно.
4. О коэффициентах и вероятностях.
Когда совершена ставка на определённое событие, величина, которая разыгрывается между двумя сторонами, обычно заранее оговорена. К примеру, человек ставит 10 рублей на победу любимой команды и получает ещё 10 этом случае. В случае другого исхода он просто теряет свою ставку. Если шанс на победу 50%, то такое соотношение выигрышей будет честным. Но в случае более маловероятных событий выгода от ставки должна быть сбалансирована. Поэтому если поставить на аутсайдера, победа которого произойдёт с 5% шансом, то в честном примере, выигрыш от ставки в 10 рублей должен быть 200 рублей. …. Ещё надо расписать более чётко базовые понятия, возможно переписать для самого начала.
Количество поставленных денег - это ставка, 10 рублей в вышеописанных случаях. Выигрыш -- это прибыль в случае угадывания исхода события - 10 или 200 рублей. Соответственно, коэффициентом в дробной форме будет соотношение ставки и выигрыша - 1/1 или1/20. В честном споре он должен быть равен вероятности выигрыша. Но букмекер, безусловно, забирает себе часть прибыль, поэтому он становится меньше, даже, если достоверно известны вероятности исходов, чего в реальной жизни произойти не может. Сегодня больше используются десятичные коэффициенты, которые оформляются как десятичная дробь, равная соотношению (выигрыш+ставка)/ставка, в примере выше это 2 и 21.
5. Прибыль букмекера.
Ставки с фиксированными коэффициентами определяются вероятностями. Коэффициент на победу связан с вероятностью определённого исхода. Если они равны, то такой коэффициент называет честным или правильным. Конечно, почти во всех случаях никому не известно значение вероятности. Если бросать монетку или кубик, то и шансы, и коэффициенты очевидны. В спорте же вероятностное распределение может быть построено только на основе данных о выступлении и других влияющих на исход факторах из прошлого. Более того в каких-то видах спорта, например, в гольфе своё влияние может оказывать ветер, то есть неочевидный фактор из будущего. Поэтому точное прогнозирование и определение правильной вероятности является невозможным в подавляющем большинстве случаев.
При этом ставки, как и прочие азартные игры созданы так, что организатор не остаётся в минусе. Поэтому в любой коэффициент добавляется определённый процент, комиссия. К примеру, у нас есть событие с двумя равновероятностными исходами, честные коэффициенты будут равны 2 на оба исхода, но тогда букмекер будет иметь нулевую прибыль. Поэтому на самом деле они будут меньше, то есть по 1,95. То есть в любом случае букмекер останется с минимум 5% прибыли, даже если у тех, кто совершает ставки есть настолько же точный прогноз.
При этом прогнозирование все равно является важным инструментом, ведь чем точнее прогноз, тем больше будет прибыль, при чём не важно с какой стороны рассуждать. Если букмекер достаточно неаккуратно оценил вероятности и выставил соответствующие коэффициенты, то большое количество тех, кто ставит, сможет заработать на этом, потому что их прогноз окажется точнее и ближе к правильному. Также и наоборот, если букмекер обладает большим знанием и, вследствие этого более точной оценкой вероятности, то он выиграет не только на своей комиссии, заключенной в коэффициентах, но и на разнице в точности прогнозов. Если смотреть на примере то, предположим, что будут сыграны 100 матчей, с вероятностью победы 50% для одной из команд. Если букмекер поставит коэффициент в 2 (правильный с точки зрения вероятности, без комиссии), то поставив во всех них на победу, мы выиграем в среднем 0 (50*2-100*1). Если же букмекер неправильно оценит, поставив коэффициент 3, то мы выиграем бонусные 50, потому что мы более точно оценили исход.
6. Как обыграть букмекера.
Факт того, что букмекер никогда не будет в минусе определяется двумя составляющими. Первое - если извлечь из коэффициентов вероятность и просуммировать вероятности разных исходов, то это значение всегда будет меньше 1, то есть существует определённая комиссия. … Второе - у букмекеров, как заинтересованных лиц всегда будет более точный прогноз, чем у среднего обывателя, доля которых значительна в общей массе. Те, кто реально занимаются прогнозированием, грамотной оценкой составляют каплю в море. Обычный человек ставит, не задумываясь о таких сложных вещах, - на любимую команду, на ту, про которую чаще сказали в новостях и так далее. Это делает его вероятностное распределение настолько далёким от реальности и от оценки букмекера, что позволяет зарабатывать значительные суммы помимо комиссии. Если даже целый 1% будет обладать более правильной оценкой вероятности, чем букмекер, то это почти не повлияет на прибыль (в реальной жизни есть и другие инструменты взаимодействия такими людьми, например, могут возникнуть некоторые транзакционные проблемы). Резюмируя, чтобы обыграть букмекера, нужно обладать более точным прогнозом, нежели он сам, при чём с учётом комиссии, которая всегда присутствует.
2. Футбол
Футбол - это командный вид спорта, поэтому предсказать успех в нём не так легко, как в индивидуальных видах. К примеру, в теннисе есть рейтинг теннисистов и вполне реально строить прогноз на результат встречи на его основе. Большинство турниров выигрывается именно первой ракеткой текущего рейтинга. Но в футболе два набора футболистов, нельзя так тривиально предсказать результат матча между ними, потому что сила команды не тождественна сумме сил отдельных футболистов в своём составе. Именно поэтому ключевые турниры, особенно кубкового формата часто выигрывают не фавориты.
В этом исследовании рассматриваются именно круговые чемпионаты неслучайно. В кубковом формате одна-две ошибки в матчах ведут к вылету из турнира. Соответственно, важна не только сила команды как таковая, но и текущая готовность, физическая форма, настрой и другие случайные величины, которые невозможно предсказать заранее. Прогнозирование слишком затрудняется из-за случайности дисперсии этих величин. Конечно, это не делает результаты абсолютно случайными, но существенно снижает долю возможного прогноза в результате. Одно отклонение от ожидаемых значений сразу же значительно искажает прогноз (если, к примеру, фаворит проиграл аутсайдеру из-за неблагоприятной погоды). В круговом же формате эти колебания сглаживаются на дистанции, поэтому в результате распределение оказывается ближе к прогнозируемому. Если удаётся оценить именно математическое ожидание показателей, то роль случайности дисперсии частично компенсируется на протяжении целого сезона.
Но также стоит отметить, что здесь случайные колебания также могут сыграть свою роль, многие показатели серийны, поражения в одном матче влияют, например, на настрой или выбор состава на следующий, что опять приводит к поражению. А такие серии поражений могут привести к управленческим изменениям, таким как продажа или отстранение игрока, а, возможно, даже и тренера. Такие перемены, определённо, повлияют на ряд показателей и исказит прогноз, хотя возможно без них, за целый сезон это просто оказалось бы чёрной полосой и было бы компенсировано в другой его части. Именно такие моменты и являются ключевыми для искажения прогноза.
Для подсчёта силы именно команды нужно кроме характеристик отдельных футболистов учесть множество других свойств. Это и тренер, роль которого в выборе оптимального состава и тактики. При чём оптимальность заключается и в выборе наиболее подготовленных на текущий момент спортсменов, так и подбор игроков и тактики под конкретного соперника, который осуществляется на основе анализа игры противника. Также важную роль играет сочетаемость игроков, 11 игроков в сумме могут в результате синергии выдавать в целом лучший результат, чем ожидалось от индивидуальных характеристик каждого из них, впрочем, возможна и обратная ситуация.
Вследствие сложности подсчёта силы команды напрямую это сделать практически невозможно, можно только примерно прогнозировать. А это очевидно ключевой показатель для составления прогноза на сезон, и такая ситуация значительно осложняет положение. В связи с этим придётся компенсировать это отсутствие знаний значительным количеством других показателей, которые косвенным образом могут помочь с предсказанием силы команды, с этим и помогут факторы, рассмотренные в следующем разделе.
3. Исследовательская часть
Прежде всего хотелось бы описать алгоритм нижеописанной работы:
1) Выбор и сбор данных, которые влияют на результат
2) Выбор значимых и незначимых факторов для каждой группы данных.
3) Подбор наиболее подходящей модели для предсказания результата.
4) Построение прогноза, используя модель, построенную на тестовых данных.
5) Сравнение прогноза с реальными значениями.
6) Подбор стратегий для использования прогноза.
Достоверной оценки силы команды в грядущем сезоне не существует. Если бы её можно было бы определить, то это упростило бы исследование, с добавлением ещё некоторого количества факторов можно было бы получить почти идеальный прогноз. Однако выступление клуба определяется почти бесконечным количеством факторов, часть из которых, благодаря невозможности прогнозирования или оценки, придётся считать случайными. Основной задачей будет выделение наибольшего количества значимых факторов, которые смогут объяснить наибольшую долю вариации зависимой переменной. Ею будет либо место команды, либо количество очков за сезон. Независимые переменные будут рассмотрены далее.
Стоит отдельно отметить, что данные будут за 10 сезонов в топ пяти европейских чемпионатах, большее количество найти крайне затруднительно, при том, что баз данных не существует и эти данные приходилось забирать в полуавтоматическом режиме из различных источников.
В таких условиях за базовую характеристику клуба логично взять выступление команды в прошлом сезоне, это косвенно отражает относительную силу команды в прошлом сезоне. Для этого будут использованы очки клуба за предыдущий сезон, а также забитые и пропущенные голы.
Для измерения изменений, произошедших между сезонами нужно как минимум оценить изменения в составе команд. Количественно это можно оценить, как трансферный баланс, возможно даже по отдельности потраченные и полученные суммы. Но в трансферах учитывается не только сила игрока для будущего сезона, но также и ряд других факторов, таких как возраст, популярность, продолжительность контракта, результат переговоров между клубами, и т.д. Поэтому величина получается искажённой и не отражает реальное изменение состава.
Логичнее будет оценить именно ценность игрока, для этого использовалась теоретическая стоимость. В ней также присутствуют искажающие элементы, но оценка уже гораздо ближе к истинной, так как значительная часть таких элементов вычленена из неё. Для оценки будет использована сумма стоимостей ушедших и пришедших игроков, что позволит оценить переход силы команды между сезонами.
Ключевую роль в успехе клуба зачастую играют отдельные футболисты - лидеры, которые в следствие этого являются лакомым кусочком на трансферном рынке. Очевидно, что уход одного из таких игроков негативно скажется на результате, а приход - положительно. Чтобы оценить переходы таких игроков, для каждой команды взята статистика по 2-3 самым дорого оценённым игрокам, которые пришли и покинули команду.
Но изменения в составе не ограничиваются только игроками. Также могут меняться и тренеры. Эти изменения могут быть разноплановыми, но позиция главного тренера настолько ключевая, что определённо должна влиять на результат. Тренера могут уволить вследствие неисполнения им обязанностей, это обычно происходит по ходу сезона при неудовлетворительном выступлении команды. При этом важно отметить, что это может быть не так критично, может это просто влияние дисперсии, но психология руководства клуба, а также склонность к срыву с траектории команд, могут привести к увольнению даже тогда, когда по оценкам тренер должен был дать результат. Также присутствуют плановые смены тренера, они обычно происходят в межсезонье и могут быть обусловлены, как повышением статуса тренера и переходом его в более сильную команду, так и тем же недовольством, но в меньшей степени, что обычно отражает менее критические процессы, происходящие в команде. При этом важно отметить, что нужно как-то разделять различные смены тренера. Может уйти тренер, проработавший полгода и ничего не дающий команде в плане результата (поэтому и уволенный), а может уйти тренер, проработавший больше 20 лет. Во втором случае, конечно, будет спад, вне зависимости от остальных условий. Поэтому в качестве объяснения данного показателя будет использоваться временной период до смены тренера.
Ещё одним фактором будет возраст, он может абсолютно по-разному влиять на показатели команды, но отрицать само наличие влияния нельзя. Механизмы влияния могут быть такими, как способность переносить физические нагрузки длительный период времени и другие показатели, связанные с биологическими характеристиками организма, психологическая устойчивость, управляемость тренером, настрой или вовлеченность в тренировочный процесс. Используются отдельно возраста игроков стартового состава и всего, включая запасных и резервных.
Несмотря на то, что достоверно измерить силу команды фактически невозможно, все равно хотелось бы использовать какие-либо субъективные показатели, которые могут объяснить её с некоторой точностью. Для этого можно использовать два варианта: сумма теоретических трансферных стоимостей или рейтинг ФИФА. Трансферные суммы хуже, так как, к примеру, люди часто не меняют команду длительный период времени и эти оценки могут быть не так объективны. Второй метод заключается в оценке отдельных характеристик каждого игрока команды (скорость, точность и сила удара, дриблинг, отбор мяча, выносливость и т.д.) на определённой позиции, а затем агрегирование этих показателей для всей команды. Такой подсчёт -- это тема для отдельного исследования, но так как эти данные находятся в свободном доступе до начала сезона и включают в себя довольно качественную оценку и прогноз, то вполне разумно воспользоваться ими.
Аналогичные показатели, но не для игроков, а для игры команды в защите, полузащите и нападении также можно оценить сходным образом, и с учётом этих показателей рассчитать силу команды в отдельных компонентах. Это поможет разделить неопределённый показатель «сила команды» на компоненты, что может дать положительный результат для прогнозирования и оценки. Здесь будут использованы те же источники.
Дома почти все команды играют лучше. Не зря говорят, что болельщики на трибунах это 12й игрок. Поэтому нужно оценить этот вклад родного стадиона в успех команды. Логично включить оценку этого фактора в модель, адекватным показателем для оценки будет средняя посещаемость. Так как в текущем сезоне она неизвестна, можно взять её за прошлый сезон, ведь посещаемость обычно почти не колеблется настолько значительно чтобы исказить результаты модели. При этом важно отметить, что этот показатель отражает не только поддержку болельщиков в виде усиления игры дома. Также большая посещаемость напрямую повышают доходы клуба за счёт продажи билетов и сувенирной продукции. Кроме того, обычно относительная посещаемость незначительно отличается среди клубов, поэтому этот показатель отражает ещё и вместимость стадиона, то есть его величину. А это уже в свою очередь в какой-то степени определяет масштаб клуба, что тоже в определённой степени влияет на успех клуба. Под масштабом подразумевается, например, престижность, история клуба, его известность, величина фанатской базы. Это в свою очередь по своим каналам влияет на успешность, но не слишком очевидно, косвенно относительно изначального показателя, поэтому более глубоко оценивать смысла не имеется. Для оценки будут взяты средняя за сезон посещаемость и пиковая.
Переход к моделированию.
Для начала будут произведены некоторые доработки базы данных. В частности, будут рассмотрены совместные влияния факторов, а также другие производные элементы. Хотелось бы отметить относительную скудность данных, поэтому такие операции могут позволить отобразить недостающие характеристики клуба.
При анализе оказывается, что показатель, просто равный времени у руля команды ушедшего тренера, является совершенно незначимым. При этом его влияние на результат достаточно очевидно. В связи с этим, он будет рассмотрен совместно с другими показателями. Это количество очков в прошлом сезоне (показатель качества работы тренера), средняя посещаемость (отражает уровень клуба) и баланс пришедших и ушедших игроков (может показывать ситуацию в команде).
Хотелось бы иметь больше информации о стиле игры команды в прошлом, данных, которые как-то отражали это почти не существует на длительном отрезке времени. Одним из вариантов, который может как-то характеризовать это забитые и пропущенные голы. Но если рассматривать чистые показатели, то это больше схоже с простым количеством очков - чем больше забил и меньше пропустил, тем лучше. Поэтому, чтобы показать именно игру команды (атакующую или оборонительную) они будут взяты, как соотношение между количеством голов и количеством заработанных очков. Это позволит увидеть, насколько относительно много забивает и относительно мало пропускает команда, для того, чтобы заработать одно очко.
Также совместно будут рассмотрены другие факторы, такие как посещаемость, очки в прошлом сезоне, средний рейтинг и другие - см. список переменных.
Краткая справка, по использующейся базе данных (без её приведения дальнейшие рассуждения будут достаточно трудно понять):
- pts количество очков в текущем сезоне,
- win победа или нет в чемпионате текущего сезона,
- OVA средний рейтинг всех футболистов,
- ATT средний рейтинг нападающих,
- MID средний рейтинг полузащитников,
- DEF средний рейтинг защитников,
- TAA средний возраст всех игроков,
- SAA средний возраст игроков стартового состава,
- np количество игроков в заявке,
- vds суммарная ценность ушедших игроков летом перед сезоном,
- vas суммарная ценность пришедших игроков летом перед сезоном,
- vms разница между двумя показателями выше (vas-vds), отражает итоговую разницу в составе,
- vdw суммарная ценность ушедших игроков зимой прошлого сезона,
- vaw суммарная ценность пришедших игроков зимой прошлого сезона,
- vmw разница между двумя показателями выше (vaw-vdw), отражает итоговую разницу в составе, произошедшею в середине предыдущего сезона,
- exs потрачено на трансферы летом,
- is заработано на трансферах летом,
- exw потрачено на трансферы зимой,
- iw заработано на трансферах зимой,
- a1s, a2s рыночная цена двух самых дорогих игроков, пришедших перед сезоном,
- d1s, d2s рыночная цена двух самых дорогих игроков, ушедших перед сезоном,
- a1w, a2w рыночная цена двух самых дорогих игроков, пришедших в середине прошлого сезона,
- d1w, d2w рыночная цена двух самых дорогих игроков, ушедших в середине прошлого сезона,
- ptss количество очков, заработанных в прошлом сезоне,
- gfs забитые голы в прошлом сезоне,
- gas пропущенные голы в прошлом сезоне,
- pgf забитые голы за каждое заработанное очко в прошлом сезоне,
- pga пропущенные голы за каждое заработанное очко в прошлом сезоне,
- av средняя посещаемость в прошлом сезоне,
- hig пиковая посещаемость в прошлом сезоне,
- ptssaa произведение очков в прошлом сезоне на средний возраст,
- ptssav произведение очков в прошлом сезоне на посещаемость,
- val произведение суммарных рыночных цен игроков, пришедших летом и зимой,
- OVASAA произведение среднего рейтинга и возраста игроков,
- as произведение рыночных цен двух самых дорогих пришедших игроков,
- aw произведение рыночных цен двух самых дорогих пришедших игроков,
- md количество дней у руля команды для ушедшего перед сезоном тренера,
- mda произведение показателя выше (md) на суммарную рыночную цену пришедших игроков,
- mdd произведение показателя выше (md) на суммарную рыночную цену ушедших игроков,
- mdp произведение показателя выше (md) на количество очков в прошлом сезоне,
- mdav произведение показателя выше (md) на среднюю посещаемость в прошлом сезоне.
Выбор значимых и незначимых факторов для каждой группы данных.
Так как данные используются по 5 разным чемпионатам, то для каждого из них необходимо оценить значимость или незначимость отобранных факторов отдельно. Это можно легко увидеть просто с помощью обычной линейной регрессии. Расписывать абсолютно все шаги будет слишком долго и не имеет большого смысла. Далее пример этих действий для английского чемпионата.
Простая общая регрессия:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.510e+02 6.612e+02 -0.682 0.49617
OVA 7.591e+00 9.657e+00 0.786 0.43302
ATT -2.533e-01 2.974e-01 -0.852 0.39568
MID -2.632e-02 3.602e-01 -0.073 0.94184
DEF 2.027e-01 3.346e-01 0.606 0.54557
TAA -4.396e-01 8.442e-01 -0.521 0.60329
SAA 1.717e+01 2.478e+01 0.693 0.48925
np -2.388e-01 2.300e-01 -1.038 0.30077
vds 2.194e-08 6.463e-08 0.339 0.73472
vas 4.341e-09 7.486e-08 0.058 0.95383
vdw 9.277e-08 1.143e-07 0.811 0.41832
vaw -2.178e-07 1.629e-07 -1.337 0.18317
exs -5.776e-08 4.973e-08 -1.162 0.24715
is -4.248e-08 6.201e-08 -0.685 0.49431
exw 6.302e-09 1.127e-07 0.056 0.95547
iw -2.337e-07 1.257e-07 -1.859 0.06492
a1s 2.878e-08 1.573e-07 0.183 0.85504
a2s -4.714e-08 2.594e-07 -0.182 0.85602
d1s 1.223e-08 1.228e-07 0.100 0.92076
d2s 3.124e-07 1.890e-07 1.653 0.10036
a1w 2.416e-07 2.323e-07 1.040 0.29993
a2w 4.283e-07 2.946e-07 1.454 0.14799
d1w 4.995e-08 2.114e-07 0.236 0.81351
d2w -1.255e-07 4.069e-07 -0.308 0.75817
ptss -2.859e-01 1.763e+00 -0.162 0.87136
gfs 2.404e-02 3.683e-01 0.065 0.94804
gas -3.604e-01 1.693e-01 -2.129 0.03483*
pgf -5.006e+00 1.688e+01 -0.296 0.76724
pga 3.425e+00 4.009e+00 0.854 0.39430
av 6.148e-04 4.656e-04 1.321 0.18858
hig -7.245e-04 3.679e-04 -1.969 0.05069.
ptssaa 8.232e-03 6.599e-02 0.125 0.90089
ptssav 4.063e-06 3.384e-06 1.201 0.23172
val -9.130e-16 1.323e-15 -0.690 0.49124
OVASAA -2.422e-01 3.614e-01 -0.670 0.50377
as 1.344e-14 8.511e-15 1.579 0.11622
aw 8.192e-16 1.977e-14 0.041 0.96700
md -2.100e-04 3.969e-03 -0.053 0.95786
mda 1.330e-10 9.453e-11 1.407 0.16154
mdd -1.237e-10 7.225e-11 -1.713 0.08875.
mdp -1.699e-04 6.443e-05 -2.637 0.00920 **
mdav 2.858e-07 1.018e-07 2.807 0.00563 **
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 8.655 on 158 degrees of freedom
Multiple R-squared: 0.7919,Adjusted R-squared: 0.738
F-statistic: 14.67 on 41 and 158 DF, p-value: < 2.2e-16
Сразу видно, что существует значительная проблема мультиколлинеарности. А также переменных слишком много в том числе и для дальнейшей их обработки. В связи с этим нужно отобрать наиболее важные и весомые из них, объясняющие наибольшую часть изменчивости исходных данных. Построим попарную матрицу корреляции переменных между собой. Те из них, что имеют в наличии корреляцию близкую к 1 можно убрать без лишних забот. Также можно удалить переменные, которые практически не объясняют результат (r квадрат в одиночной регрессии совсем мал).
В результате этих операций количество переменных сократилось, следующий этап:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.721e+01 3.214e+01 -0.847 0.398333
OVA 1.809e+00 4.582e-01 3.948 0.000112 ***
vaw -1.250e-07 7.153e-08 -1.748 0.082173 .
exs -6.908e-08 2.884e-08 -2.395 0.017605 *
iw -1.992e-07 7.237e-08 -2.752 0.006517 **
d2s 2.595e-07 1.329e-07 1.953 0.052295 .
a2w 3.849e-07 1.933e-07 1.991 0.047946 *
gas -4.565e-01 1.007e-01 -4.534 1.04e-05 ***
pgf -6.093e+00 3.525e+00 -1.729 0.085538 .
av 6.096e-04 3.664e-04 1.664 0.097848 .
hig -7.230e-04 3.138e-04 -2.304 0.022326 *
ptssav 4.510e-06 1.741e-06 2.590 0.010360 *
OVASAA -1.640e-02 6.410e-03 -2.559 0.011301 *
as 1.292e-14 3.785e-15 3.413 0.000789 ***
mdp -1.030e-04 2.689e-05 -3.831 0.000175 ***
mdav 2.199e-07 5.711e-08 3.851 0.000162 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 8.299 on 184 degrees of freedom
Multiple R-squared: 0.7772,Adjusted R-squared: 0.759
F-statistic: 42.79 on 15 and 184 DF, p-value: < 2.2e-16
Здесь видно, что присутствует слишком много переменных, описывающих трансферы, их пять. Очевидно, что у них значительная корреляция между собой, поэтому упростим эту часть, оставив 1-2 переменные.
Если сравнивать между собой, то оптимальным выглядит оставление только iw и as (денег, полученных в середине прошлого сезона и произведения двух самых больших рыночных цен пришедших футболистов). Они достаточно полно описывают трансферную деятельность и при этом разносторонне: корреляция всего 0,3. Также здесь удалены ещё несколько переменных со значительной корреляцией с оставшимися переменными. В результате:
Call:
lm(formula = pts ~ OVA + iw + as + gas + pgf + ptssav + as +
mdav + mdp, data = eng)
Residuals:
Min 1Q Median 3Q Max
-24.2038 -5.4918 -0.2289 6.3476 29.3716
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.819e+01 2.964e+01 -1.289 0.199106
OVA 1.533e+00 3.806e-01 4.027 8.15e-05 ***
iw -1.480e-07 6.950e-08 -2.129 0.034539 *
as 7.275e-15 3.001e-15 2.424 0.016270 *
gas -5.009e-01 9.668e-02 -5.181 5.59e-07 ***
pgf -9.795e+00 3.221e+00 -3.041 0.002693 **
ptssav 3.373e-06 8.520e-07 3.959 0.000106 ***
mdav 2.181e-07 5.857e-08 3.723 0.000259 ***
mdp -1.029e-04 2.745e-05 -3.750 0.000234 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 8.595 on 191 degrees of freedom
Multiple R-squared: 0.7519,Adjusted R-squared: 0.7415
F-statistic: 72.37 on 8 and 191 DF, p-value: < 2.2e-16
Осталось всего 8 коэффициентов, оценим их матрицу попарных корреляций:
Табл. 1
OVA |
iw |
as |
gas |
pgf |
ptssav |
mdav |
mdp |
||
OVA |
1,0 |
0,2 |
0,5 |
-0,8 |
0,5 |
0,8 |
0,1 |
0,1 |
|
iw |
0,2 |
1,0 |
0,3 |
-0,2 |
0,2 |
0,1 |
0,0 |
0,0 |
|
as |
0,5 |
0,3 |
1,0 |
-0,3 |
0,1 |
0,4 |
0,0 |
0,0 |
|
gas |
-0,8 |
-0,2 |
-0,3 |
1,0 |
-0,6 |
-0,7 |
0,0 |
0,0 |
|
pgf |
0,5 |
0,2 |
0,1 |
-0,6 |
1,0 |
0,4 |
0,1 |
0,1 |
|
ptssav |
0,8 |
0,1 |
0,4 |
-0,7 |
0,4 |
1,0 |
0,1 |
0,2 |
|
mdav |
0,1 |
0,0 |
0,0 |
0,0 |
0,1 |
0,1 |
1,0 |
0,9 |
|
mdp |
0,1 |
0,0 |
0,0 |
0,0 |
0,1 |
0,2 |
0,9 |
1,0 |
Видно, что кроме искусственно созданных переменных корреляции в целом достаточно маленькие, меньше или равны 0,3 (mdav будет убран в конечной версии). Поэтому данный выбор факторов можно считать оптимальным - модель значительно упростилась, при этом, почти не потеряв в описательной силе.
Теперь попробуем оценить нелинейные зависимости выбранных переменных, улучшив тем самым описание объясняемой переменной. Для этого используем пакет mfp в R:
Call:
mfp(formula = pts ~ fp(OVA, df = 4, select = 0.1) + fp(iw, df = 4,
select = 0.1) + fp(as, df = 4, select = 0.1) + fp(gas, df = 4,
select = 0.1) + fp(pgf, df = 4, select = 0.1) + fp(ptssav,
df = 4, select = 0.1) + fp(mdav, df = 4, select = 0.1) +
fp(mdp, df = 4, select = 0.1), data = eng, family = gaussian)
Deviance table:
Resid. Dev
Null model 56881.5
Linear model 14110.19
Final model 14445.02
Fractional polynomials:
df.initial select alpha df.final power1 power2
gas 4 0.1 0.05 1 1 .
OVA 4 0.1 0.05 1 1 .
ptssav 4 0.1 0.05 1 1 .
mdp 4 0.1 0.05 1 1 .
mdav 4 0.1 0.05 1 1 .
pgf 4 0.1 0.05 1 1 .
as 4 0.1 0.05 1 1 .
iw 4 0.1 0.05 0 . .
Transformations of covariates:
formula
OVA I((OVA/100)1)
iw <NA>
as I(((as+2.5e+10)/1e+14)1)
gas I((gas/100)1)
pgf I(pgf1)
ptssav I((ptssav/1e+06)1)
mdav I(((mdav+1130)/1e+07)1)
mdp I(((mdp+3)/10000)1)
Re-Scaling:
Non-positive values in some of the covariates. No re-scaling was performed.
Coefficients:
Intercept gas.1 OVA.1 ptssav.1 mdp.1 mdav.1 pgf.1 as.1
-31.9801 -49.4646 144.2940 3.6246 -1.0524 2.2354 -10.4074 0.5902
Degrees of Freedom: 199 Total (i.e. Null); 192 Residual
Residual Deviance: 14450 AIC: 1442
Ни у одной из переменных не было найдено нелинейной зависимости, то есть можно сказать, что в данном случае линейность выглядит достаточно.
Попробуем перейти к панельным данным и посмотреть, даст ли это какие-то преимущества. Для этого будет использован пакет plm в R. Построим три модели по полученной ранее формуле и сравним их. Надо сравнить полученные модели. Для этого используем F-тест для фиксированных эффектов против сквозной регресии:
F test for individual effects
data: pform
F = 1.4487, df1 = 36, df2 = 155, p-value = 0.06426
alternative hypothesis: significant effects
И тест для случайных эффектов против сквозной регрессии - тест Бройша-Пагана:
Lagrange Multiplier Test - (Breusch-Pagan) for unbalanced panels
data: pform
chisq = 0.083558, df = 1, p-value = 0.7725
alternative hypothesis: significant effects
Анализ показывает, что использование панельных данных не даёт значимого преимущества в прогнозировании, поэтому от них было принято решение отказаться и использовать обычную логистическую регрессию.
Перейдём к логистической регрессии, необходимой для построения вероятностного распределения для сравнения с коэффициентами. Здесь в качестве объясняемой переменной будет победа в чемпионате.
Call:
glm(formula = win ~ OVA + iw + as + gas + pgf + ptssav + as +
mdp, family = binomial(link = "logit"), data = train)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.33615 -0.00108 -0.00002 0.00000 1.98449
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -8.856e+01 9.455e+01 -0.937 0.3489
OVA 1.136e+00 1.148e+00 0.989 0.3224
iw 1.258e-07 1.026e-07 1.227 0.2200
as 7.279e-15 5.141e-15 1.416 0.1568
gas -2.671e-01 2.341e-01 -1.141 0.2539
pgf -7.478e+00 8.165e+00 -0.916 0.3597
ptssav 1.766e-06 9.757e-07 1.810 0.0703 .
mdp -2.044e-05 8.345e-05 -0.245 0.8065
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 47.644 on 119 degrees of freedom
Residual deviance: 12.567 on 112 degrees of freedom
Number of Fisher Scoring iterations: 11
Оценка регрессии с помощью пакета Pscl в r:
llh llhNull G2 McFadden r2ML r2CU
-20.2413458 -39.7030487 38.9234058 0.4901816 0.1768502 0.5396932
Регрессия очевидно является адекватной, поэтому продолжим работу к построению прогноза. Разобьём данные на две части и попробуем мельком оценить прогноз на 4 сезона, основываясь на результатах 6 (более подробно далее):
Рис. 1
Чемпионы идут под номерами 1, 21, 41, 61.
На этом графике видно, что, не считая последнего сезона, где чемпионом абсолютно стал «Лестер Сити» модель правильно предсказывает чемпиона.
Для более правдоподобного прогноза разбивать данные следует не один раз, а для каждого сезона отдельно, чтобы получить больший объём тренировочных данных.
Проделав аналогичные действия для всех 5 чемпионатов, мы получим логистические регрессии и на их основе, разбивая данные на тренировочные и тестовые попробуем предсказать чемпиона (получим вероятность стать чемпионом для каждой из команд).
Букмекерские стратегии и прогнозирование.
В предыдущем пункте мы получили вероятности победы в чемпионате для каждой команды, теперь нужно проанализировать само получение прибыли на примере опять же Англии.
Существует несколько вариантов стратегий, попробуем выявить самую выгодную, путём сравнения величины дохода. Прежде всего о группах стратегий:
1) Базовая (чемпион будет тот же).
2) Ставим на команду с наибольшей предсказанной вероятностью.
3) Ставим на команду, если вероятность победы больше, чем у букмекера.
4) Вероятность победы больше фиксированного значения (0,2).
5) Распределение ставки между прогнозами в соответствии с вероятностями.
Рассмотрим данные, которые получены в сравнении с букмекерскими коэффициентами за 2015 сезон:
Табл. 2
Year |
Team |
pts |
win |
Коэффициент |
Вероятность букмекера |
Вероятность прогнозная |
|
2015 |
Leicester City F.C. |
81 |
1 |
5000 |
0,0002 |
0 |
|
2015 |
Arsenal F.C. |
71 |
0 |
7 |
0,142857143 |
0 |
|
2015 |
Tottenham Hotspur F.C. |
70 |
0 |
67 |
0,014925373 |
0 |
|
2015 |
Manchester City F.C. |
66 |
0 |
3,25 |
0,307692308 |
0 |
|
2015 |
Manchester United F.C. |
66 |
0 |
5,5 |
0,181818182 |
0,526316 |
|
2015 |
Southampton F.C. |
63 |
0 |
2001 |
0,00049975 |
0 |
|
2015 |
West Ham United F.C. |
62 |
0 |
2001 |
0,00049975 |
0 |
|
2015 |
Liverpool F.C. |
60 |
0 |
2001 |
0,00049975 |
0 |
|
2015 |
Stoke City F.C. |
51 |
0 |
2001 |
0,00049975 |
0 |
|
2015 |
Chelsea F.C. |
50 |
0 |
2,87 |
0,348432056 |
0,473684 |
|
Основываясь на этих данных, опишем на кого бы была сделана ставка в каждой из стратегий и какова была бы прибыль (прибыль получается, если чемпион угадан правильно, учитывая соответствующий коэффициент).
1) Челси - чемпион прошлого года - прибыль 0.
2) Манчестер Юнайтед - прибыль 0.
3) Челси и Манчестер Юнайтед - прибыль 0.
4) Челси и Манчестер Юнайтед - прибыль 0.
5) Челси и Манчестер Юнайтед - прибыль 0.
Здесь она будет нулевой потому что произошло совсем непредсказуемое никакими методами событие.
Проделав те же операции для четырёх сезонов (больше не позволяет наличие данных) получим следующие доходности для стратегий:
1) 0+0+0+0=0, доходность 0.
2) 0+1,73+3,25+2,5=7,48.
3) 0+1,73+3,25+1,81=6,79.
4) 0+1,73+2,19+1,81=5,73.
5) 0+1,57+2,19+1,81=5,57.
Соответственно видно, что стратегия со ставкой на наибольшую предсказанную вероятность наиболее прибыльна (7,48/4=1,87 или 87% за 4 года).
К сожалению, для остальных чемпионатов невозможно найти подобные коэффициенты, поэтому можно проанализировать только угадывание чемпиона или нет. Тем не менее модель успешно предсказывает (используя стратегию ставить на наибольшую вероятность) 14/20 чемпионов или 70%. То есть, если предположить, что коэффициенты такие же, как и для Англии, то ожидаемый выигрыш будет равен 14*2,5/20=1,75 или 75% доходности.
...Подобные документы
Проектирование регрессионной модели по панельным данным. Скрытые переменные и индивидуальные эффекты. Расчет коэффициентов однонаправленной модели с фиксированными эффектами по панельным данным в MS Excel. Выбор переменных для построения данной регрессии.
курсовая работа [2,3 M], добавлен 26.08.2013Процесс построения и анализа эконометрической модели в пакете Econometric Views. Составление, расчет и анализ существующей проблемы. Проверка адекватности модели реальной ситуации на числовых данных в среде Eviews. Построение регрессионного уравнения.
курсовая работа [1,3 M], добавлен 17.02.2014Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.
лекция [347,3 K], добавлен 23.12.2014Построение эконометрической модели спроса в виде уравнений парной и множественной регрессии. Отбор факторов для построения функции потребления. Расчет коэффициентов корреляции и детерминации, проверка правильности выбранных факторов и формы связи.
контрольная работа [523,7 K], добавлен 18.08.2010Расчет коэффициента корреляции, определение вида зависимости, параметров линии регрессии и оценка точности аппроксимации. Построение матрицы прибыли в зависимости от выбранной стратегии и состоянии факторов внешней среды. Индивидуальное отношение к риску.
контрольная работа [474,7 K], добавлен 01.12.2010Основы построения и тестирования адекватности экономических моделей множественной регрессии, проблема их спецификации и последствия ошибок. Методическое и информационное обеспечение множественной регрессии. Числовой пример модели множественной регрессии.
курсовая работа [3,4 M], добавлен 10.02.2014Алгоритм построения полиномиальной функции регрессии с оценкой степени полинома по заданному набору точек. Разработка программы, моделирующей выборку случайных пар чисел и выявление стохастической зависимости между ними при помощи уравнения регрессии.
контрольная работа [114,3 K], добавлен 19.02.2014Построение математической и электронной модели в MS Excel. Распределение средств по различным источникам для получения максимальной прибыли от рекламы. Смысл данных отчета по устойчивости. Условия составления оптимального плана распределения средств.
контрольная работа [47,7 K], добавлен 01.03.2011Выбор факторных признаков для двухфакторной модели с помощью корреляционного анализа. Расчет коэффициентов регрессии, корреляции и эластичности. Построение модели линейной регрессии производительности труда от факторов фондо- и энерговооруженности.
задача [142,0 K], добавлен 20.03.2010Построение линейной модели и уравнения регрессии зависимости цены на квартиры на вторичном рынке жилья в Москве в 2006 г. от влияющих факторов. Методика составления матрицы парных коэффициентов корреляции. Экономическая интерпретация модели регрессии.
лабораторная работа [1,8 M], добавлен 25.05.2009Исследование зависимости себестоимости 1 тонны литья от брака литья по 11 литейным цехам заводов. Линейная модель регрессии. Результаты вспомогательных расчетов для построения гиперболической и параболической модели регрессии. Спецификация модели.
курсовая работа [140,8 K], добавлен 15.01.2013Построение и анализ однофакторной и многофакторной эконометрической модели. Вычисление парных и частичных коэффициентов корреляции. Проверка адекватности модели по критерию Фишера. Исследование наличия мультиколлениарности по алгоритму Феррара-Глобера.
контрольная работа [172,4 K], добавлен 28.05.2010Экономическое моделирование хозяйственных процессов. Множественная модель уравнения регрессии. Уравнение парной линейной регрессии, поиск необходимых значений. Выбор одного из значимых признаков для построения парной модели, расчет показателей.
контрольная работа [117,6 K], добавлен 17.04.2015Характеристика методов прогнозирования, эконометрические методы. Сравнение показателей производства ВРП Бурятии, динамика среднедушевого производства, счет производства. Прогнозирование на основе эконометрической модели, выявление наличия тенденций.
курсовая работа [524,3 K], добавлен 15.10.2009Расчет уравнения линейной регрессии. Построение на экран графика и доверительной области уравнения. Разработка программы, генерирующей значения случайных величин, имеющих нормальный закон распределения для определения параметров уравнения регрессии.
лабораторная работа [18,4 K], добавлен 19.02.2014Модели, применяемые в производстве, их классификация, возможности и влияние информации на их сложность. Определение минимизации затрат и максимизации прибыли от реализации продукции с помощью "Excel" и оптимальных значений производственных процессов.
курсовая работа [2,1 M], добавлен 29.11.2014Анализ и выявление значимых факторов, влияющих на объект. Построение эконометрической модели затрат предприятия для обоснований принимаемых решений. Исследование трендов временных рядов. Оценка главных параметров качества эконометрической модели.
курсовая работа [821,1 K], добавлен 21.11.2013Расчет коэффициентов уравнения регрессии и оценка их значимости. Определение среднеквадратичного отклонения и среднеквадратичной ошибки, вычисление коэффициентов регрессии. Определение критериев Стьюдента. Расчет статистических характеристик модели.
контрольная работа [137,2 K], добавлен 14.09.2009Методологические основы эконометрики. Проблемы построения эконометрических моделей. Цели эконометрического исследования. Основные этапы эконометрического моделирования. Эконометрические модели парной линейной регрессии и методы оценки их параметров.
контрольная работа [176,4 K], добавлен 17.10.2014Описание классической линейной модели множественной регрессии. Анализ матрицы парных коэффициентов корреляции на наличие мультиколлинеарности. Оценка модели парной регрессии с наиболее значимым фактором. Графическое построение интервала прогноза.
курсовая работа [243,1 K], добавлен 17.01.2016