Повышение экономической эффективности деятельности экспедиторской компании на основе совершенствования прогноза и алгоритма выбора автотранспортного средства

Анализ методов и подходов к оценке стоимости транспортных услуг. Прогнозирование цены на грузоперевозки автомобильным транспортом. Организационная характеристика компании Торговый дом "Сезар". Оценка возможностей конкурентов на рынке экспедиторских услуг.

Рубрика Транспорт
Вид дипломная работа
Язык русский
Дата добавления 27.08.2018
Размер файла 5,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Санкт-Петербургский филиал федерального государственного автономного образовательного учреждения высшего образования «Национальный исследовательский университет

«Высшая школа экономики»

Факультет Санкт-Петербургская школа экономики и менеджмента

Департамент логистики и управления цепями поставок

БАКАЛАВРСКАЯ РАБОТА

Повышение экономической эффективности деятельности экспедиторской компании на основе совершенствования прогноза и алгоритма выбора автотранспортного средства

по направлению подготовки- «Менеджмент»

Образовательная программа «Логистика и управление цепями поставок»

Выполнил: Гаев Антон Павлович

Руководитель: к.ф.-м.н. Прохоров Владимир Михайлович

Санкт-Петербург

2018

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

ГЛАВА 1. АНАЛИЗ МЕТОДОВ ПРОГНОЗИРОВАНИЯ СТОИМОСТИ ПЕРЕВОЗКИ

1.1 Описание текущих подходов к оценке стоимости транспортных услуг

1.2 Описание методов машинного обучения

1.2.1 Метод главных компонент

1.2.3 Метод опорных векторов

1.2.4 Метод k ближайших соседей

1.2.5 Метод «случайный лес»

1.2.6 Методы обучения без учителя

1.3 Применение методов анализа больших данных и машинного обучения для прогноза цены на транспортировку груза

ГЛАВА 2. АНАЛИЗ ДЕЯТЕЛЬНОСТИ КОМПАНИИ «ТОРГОВЫЙ ДОМ «СЕЗАР»

2.1. Анализ состояния, общая характеристика компании «Торговый дом «Сезар»

2.2 Анализ рынка грузоперевозок автомобильным транспортом в РФ

2.3 Анализ конкурентов на рынке транспортно-экспедиторских услуг

2.4 Организационно-функциональная структура управления предприятия

2.5 SWOT-анализ деятельности предприятия

2.5.1 Сильные стороны организации

2.5.2 Слабые стороны организации

2.5.3 Возможности и перспективы организации

2.5.4 Угрозы для организации

2.6 Анализ основного бизнес-процесса экспедиторской компании

2.6.1 Первичное информирование о заказе

2.6.2 Уточнение параметров заказа

2.6.3 Поиск перевозчика

2.6.4 Формирование цены

2.6.5 Введение нового контрагента в систему

2.6.6 Создание договора

2.6.7 Создание заявки

2.7 Анализ финансово-хозяйственной деятельности компании

ГЛАВА 3. РАЗРАБОТКА ПРОГРАММЫ ПО ПРОГНОЗИРОВАНИЮ СТОИМОСТИ ГРУЗОПЕРЕВОЗКИ

3.1 Описание целей внедряемых изменений

3.2 Базовая информация о проекте

3.3 Обработка данных

3.4 Создание моделей прогноза

3.5 Результаты внедрения предлагаемой модели и оценка экономического эффекта на деятельность компании

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

ВВЕДЕНИЕ

Сильнейшая конкуренция на рынке транспортных услуг в Российской Федерации является одним из ключевых факторов развития в данном сегменте экономики. Значительная конкуренция обуславливается относительно легким доступом на данный рынок в России в сравнении с другими странами. В одном только Санкт-Петербурге зарегистрировано более тысячи компаний, предоставляющих транспортные услуги (согласно данным сайта ati.su).

Все данные организации можно разделить на 2 категории: экспедиторские и транспортные компании. Отличительная особенность экспедиторских компаний заключается в том, что собственного транспорта фирмы не имеют, и они нанимают владельцев транспорта для конкретных перевозок.

Таким образом, они становятся посредниками между заказчиками и транспортными компаниями. Последний экономический кризис заставил многие компании искать новые пути экономии средств, в частности за счет сокращения затрат на логистику. Еще 5 лет назад ситуация была критической: между заказчиком и владельцем транспорта могло быть до 4 посредников, и каждый из них включал собственную надбавку за перевозку. В итоге переплата заказчика могла составить до 100% от первоначальной стоимости перевозки.

Стремление как владельцев груза, так и владельцев транспорта, привело к ситуации, когда экспедиторские компании вытесняются с рынка, так как они больше не могут предоставлять транспорт по конкурентным ценам. Для того чтобы выжить в изменяющихся условиях транспортного рынка экспедиторы должны изменить свой подход к текущим бизнес-процессам.

Одним из путей решения данной проблемы является повышение эффективности основной деятельности экспедиторских компаний путем сокращения затрат на перевозку. Фактически, рынок транспортных услуг один из самых динамичных, поэтому экспедитор должен контролировать грузопотоки рынка перевозок. Например, иногда возникает ситуация, когда в московском регионе количество предложений на грузоперевозку возрастает настолько, что владельцы транспорта снижают цены до минимальных значений.

Например, грузопотоки могут изменять цены на перевозку из Москвы в Санкт-Петербург на 25% в зависимости от баланса спроса и предложения. Увеличение эффективности деятельности экспедиторских компаний возможно при прогнозировании оптимальной цены за перевозку с учетом текущей ситуации на рынке грузоперевозок в целом.

Все вышеперечисленное подчеркивает актуальность выбранной темы. Целью данного исследования является разработка программного продукта, позволяющего прогнозировать оптимальную цену за перевозку для экспедиторской компании «Торговый дом «Сезар», которая входит в первую пятёрку компаний в данной сфере экономики в Санкт-Петербурге согласно рейтингу крупнейшего транспортного портала СНГ ati.su.

Объектом исследования является экспедиторская компания «Торговый дом «Сезар».

Предметом исследования является логистическая операционная деятельность компании.

В ходе данного исследования сформулированы следующие задачи:

1. обработка предоставленной информации и её превращение в структурированные данные;

2. выбор наилучшего метода для прогнозирования;

3. разработка программного обеспечения;

4. внедрение разработанного программного обеспечения в компанию «Торговый дом «Сезар»;

5. оценка экономической эффективности нововведений.

Данная работа имеет проектно-исследовательский формат, и её результатом будет новая программа, которая должна повысить экономическую эффективность проводимых операций в транспортной логистике. При выполнении данной работы использовался анализ текущих подходов к вопросу по оценке транспортных затрат в сравнении с новыми подходами машинного обучения в прогнозировании цены в других областях экономики, а также опыт работы в компании «ТД Сезар» и экономические показатели ее деятельности.

Данная работа состоит из введения, в котором описана проблематика данного исследования. Первая глава содержит анализ теории по данному вопросу, вторая глава описывает компанию и её деятельность, в третьей главе представлены итоговые модели, используемые в новом программном обеспечении, и изменения экономических показателей в связи с внедрением новой программы. В заключении представлен вывод по результатам работы.

ГЛАВА 1. АНАЛИЗ МЕТОДОВ ПРОГНОЗИРОВАНИЯ СТОИМОСТИ ПЕРЕВОЗКИ

1.1 Описание текущих подходов к оценке стоимости транспортных услуг

Данная тема достаточно плохо исследована на текущий момент. Все исследования так или иначе относящиеся к данной теме не учитывают влияние текущих грузопотоков на цену транспортировки в данный момент времени. Гасанов [1] и Туренко [2] в своих исследованиях подходили к вопросу ценообразования на данном рынке исключительно исходя из калькуляции транспортных затрат. Простой пример из деятельности экспедиторской компании может продемонстрировать почему данный подход является неверным: стоимость полностью загруженной транспортной фуры из Москвы в Архангельск составляет около 57 тысяч рублей, в то время как стоимость такой же доставки в обратном направлении может стоить около 11 тысяч рублей. Несмотря на то, что транспортные расходы в обоих случаях примерно одинаковы, стоимость отличается более, чем в 5 раз, так как владельцы транспорта готовы брать груз практически за любые деньги, чтобы не возвращаться порожним ходом в Москву.

Туренко несколько шире подошел к данному вопросу: в своём исследовании он делал упор на постоянном бенчмаркинге цены на транспортные услуги для корректировки результата калькуляции себестоимости перевозки. Кузнецова в своем исследовании экспедиторских компаний изучала вопрос внедрения стороннего программного обеспечения в работу организации, но все анализируемые ПО концентрировались на автоматизации работы с документацией, а не на прогнозировании цен на транспортировку [3].

Анализ текущих данных по спросу и предложению на транспорт в конкретных городах, и, как следствие, влияния этих данных на стоимость услуг на перевозки, в своем исследовании описала группа под руководством Ю. В их работе они описывали применение данных из различных приложений для сокращения расходов на транспортировку. [4, c. 763]

Комплексное исследование экспедиторской деятельности было проведено в Германии Мартой Анной Краевска и Гербертом Копфером. В нем они решали проблему «делать или покупать» в рамках экспедиторской деятельности компании. Относительно ценообразования на рынке транспортных услуг, было отмечено, что расчет итоговой стоимости перевозки носит нелинейный характер и зависит не только от расстояния перевозки и объемов грузов. [5]

В своих расчетах они учли множество показателей, в том числе направление и количество грузопотоков между различными пунктами, количество транспортных средств в наличии у привлекаемых транспортных компаний, состояние и местоположение данных транспортных средств. В итоге они сформировали достаточно сложную систему тарификации, которая основывается в том числе на цикличности грузопотоков в стране исследования (в Германии).

Проблема применимости данного исследования очевидна: необходимо значительное количество исходных данных для расчета, которые в реальной экономике получить достаточно сложно. В качестве предлагаемого решения исследователи отмечали, что предполагается взаимодействие экспедитора только с несколькими транспортными компаниями. В экономических реалиях Российской Федерации работа только с несколькими транспортными компаниями значительно сужает потенциальные возможности экспедитора. Именно доступ ко всем действующим на рынке субъектам и возможность взаимодействия с ними являются ключевыми преимуществами экспедиторских компаний. [6, c. 741-751.]

1.2 Описание методов машинного обучения

Помимо традиционных методов расчета стоимости перевозки существует возможность применять методы машинного обучения для данной цели. Их применение оправдано достаточным количеством случайных факторов, влияющих на итоговую цену. При наличии большого объема данных для анализа существует возможность для обучения модели прогнозировать стоимость перевозки даже по маршрутам, по которым ранее не было совершено ни одной перевозки. [7]

В ходе выполнения данной работы будут протестированы следующие методы:

- регрессии;

- метод опорных векторов;

- метод k ближайших соседей;

- случайный лес;

- методы обучения без учителя.

Все методы кроме последнего относятся к группе методов обучения с учителем. Эта группа характеризуется тем, что для обучения в компьютер вносятся значения правильных ответов, и его главной целью становится подбор таких алгоритмов расчета, чтобы отклонение предсказанного результата от действительного отличалось настолько незначительно, насколько это возможно. [8]

Статистическое обучение относится к набору методов моделирования и понимания сложных наборов данных. Данная зона исследования была недавно разработана и особенно динамично развивается, пересекаясь с параллельными разработками в компьютерных науках, в частности связанные с машинным обучением.

Помимо всего прочего, статистическое обучение относится к огромному набору приспособлений для понимания сути самих данных. Особенностью статистического моделирования является то, что не существует единого решения для всех задач и необходимо тестирование многих моделей для выявления наилучшего результата.

Язык программирования R, на котором чаще всего пишутся модели обработки больших данных и машинного обучения, еще называет языком, разработанным статистиками для статистиков. На мировом уровне он признан лучшим с точки зрения визуализации выполнимых действий по работе с данными. Благодаря интеграции с многочисленными встроенными библиотеками данному языку доступно решение любых задач: от машинного обучения до разработки приложений.

Сам процесс машинного обучения состоит из следующих этапов:

- импорт данных;

- обработка данных;

- подбор статистической модели;

- оценка адекватности моделей;

- тестирование модели на новых данных;

- формирование конечной модели.

При использовании обучения с учителем необходимо избегать эффекта переобучения модели. Переобучение - это следствие слишком высокой приспособляемости модели к исходным данным. Так как цель модели при обучении снижение до минимума ошибки, она стремится быть как можно более похожей на данные, на которых происходит обучение. Но на самом деле будущая цель модели заключается в прогнозировании новых данных, на которых она ранее не обучалась. И в случае переобучения полученные результаты могут значительно отличаться от истинных значений в связи с тем, что модель плохо воспринимает новые данные [9, c. 68].

В связи с этим исходные данные принято делить на 2 выборки: обучающую и тестовую. Всё обучение происходит на первой выборке, но перед исследователем не стоит цели снизить ошибку на ней до минимума. Вместо этого происходит тестирование полученной модели на второй выборке. Данные в ней формируются за счет изъятия случайных данных из исходной выборки и их удаления из обучающей. Так как тестовые данные для модели совершенно новые, возникает ситуация, аналогичная реальному использованию данной модели. В итоге, модель с наименьшей ошибкой на тестовой выборке будет выбрана для последующего внедрения в деятельность компании. [10, c. 115]

Стоит также обратить внимание на то, что главной задачей расчета является прогнозирование цены. Все задачи в машинном обучении делятся на задачи классификации и задачи регрессии. При классификации главной целью модели является прогнозирование определенного кластера, к которому относятся данные. Для задачи регрессии необходимо прогнозирование численной характеристики определенного параметра. В данной работе будет решаться задача регрессии.

Для сравнения методов между собой будет использоваться коэффициент средней квадратичной ошибки (формула 1):

(1)

Представленный ниже график (1) описывает процесс переобучения модели. Чем больше модель подстраивается под обучающую выборку (параметр «гибкость» по оси ординат), тем меньше определяется ошибка для нее (серая кривая). Но процесс переобучения плохо влияет на полученный результат среднего квадрата ошибки для тестовой выборки, что отражается красной кривой. В связи с этим цель итоговой модели будет поиск баланса между гибкостью модели и её точностью.

Ziegler в своем исследовании [11, c. 716] сравнил возможные методы прогнозирования цены по их гибкости и интерпретируемости. Как следует из рисунка 2, представленного ниже, обычная линейная регрессия является не гибкой моделью, но её достаточно просто интерпретировать. Лассо регрессия является еще более легко интерпретируемой, так как лишние коэффициенты приравниваются к нулю и становится проще понять, как конкретный коэффициент влияет на конечный результат.

Рисунок 1 - Сравнение гибкости модели с её средним квадратом ошибки на тестовой выборке

Рисунок 2 - Определение выбросов [12, c. 97]

Различного рода деревья решений являются более гибкими моделями, но их интерпретируемость сложнее в сравнении с регрессиями, особенно когда речь идет о моделях случайного леса. Нелинейные модели, такие как бустинг и метод опорных векторов с нелинейным ядром являются очень гибкими моделями, чьи результаты очень сложно интерпретировать.

Другой проблемой при использовании статистических методов является доказательство того, что полученные результаты не являются случайностью. В статистике для этого используется индекс p-value. Согласно Krzywinski [13, c. 4], лучшим способом расчета данного показателя является метод переборов.

Нулевой гипотезой при использовании данного метода является случайность полученных результатов. Если результат действительно случаен, то при огромном количестве перемешиваний результат будет примерно соответствовать полученному. Но если при перемешивании данных пропадает исходная закономерность, то полученный результат будет выбиваться из полученного при перемешивании распределения.

Hothorn [14] в своём исследовании анализировал преимущества метода переборов в сравнении с традиционными методами расчета p-value. В отличии от метода переборов, традиционные методы достаточно сложны в расчете и понимании полученных результатов, в то время как метод переборов можно выполнить одной строчкой программного кода. Главной особенностью метода переборов является то, что отсутствует необходимость выбирать подходящее распределение для исходных данных.

Harris и его группа исследователей анализировали в своей работе bootstrapping методы для задач регрессии [15]. Bootstrapping считается альтернативой всем статистическим методам с точки зрения выбора распределения вероятности для данных. Вместо подбора наиболее подходящего распределения Bootstrapping позволяет данным самим определять, какое распределение они имеют. Данный метод производит новые данные, близкие к исходным, но не равным им.

1.2.1 Метод главных компонент

Метод главных компонент (principal component analysis (PCA)) - в многомерной статистике один из основных способов уменьшить размерность массива, сохранив при этом полноту информации первоначальных данных и группировки объектов исследования на связанные между собой группы. Вместо N независимых исходных признаков вычисляются N новых признаков, называемых главными компонентами, причем первая главная компонента в наибольшей степени коррелирована со всеми исходными признаками (описывает наибольшую часть их изменчивости), вторая главная компонента описывает вторую по значимости долю изменчивости и при этом характеризуется нулевой корреляцией с первой компонентой, третья главная компонента описывает третью по величине долю изменчивости и характеризуются нулевой корреляцией с первыми двумя компонентами и так далее. [16, c. 30]

Факторный анализ осуществляет выделение главных параметров по распределению их дисперсий. Совокупности этих дисперсий образуют матрицу, подобную корреляционной. При большом количестве независимых параметров возникает необходимость в сжатии информации, что означает описать исследуемый объект несколькими главными компонентами. На основе полученной корреляционной матрицы строятся уравнения регрессии, по которым интерпретируются окончательные результаты, позволяющие сгруппировать и классифицировать объекты по определенным факторам. [17, c. 255.]

1.2.2 Регрессии

Первым будет рассмотрен метод линейной регрессии. Это типичный метод, который в том числе применяется при расчетах стоимости перевозки. Его можно взять за основу для сравнения с остальными методами машинного обучения для проверки адекватности их деятельности.

В линейной регрессионной модели (формула 2) рассматривается линейное соотношение между значением y и переменными (предикторами) х1, …, хk-1.

(2)

где bk - коэффициент переменной,

е - погрешность наблюдений.

Для n значений переменной у можно ввести матрицу, тогда данное уравнение можно представить в матричном виде

Y=XB+е, где Y=[yi]n, X=[xij]n*k, B=[bj]k, е =[еi]n.

В рамках задач регрессионного анализа координаты вектора В считаются неизвестными, в связи с чем ставится задача построения оценки данного вектора. Традиционно для этого используется метод наименьших квадратов. Известно, что при det XtX > 0 вектор МНК-оценок вычисляется по формуле 3:

= (XtX)-1XtY (3)

Далее необходимо ввести стандартизированные переменные для центрирования и нормирования (формула 4):

(4)

Введем матричные обозначения (формула 5):

V = [vi]n, W = [wij]n*(k-1) (5)

В случае, когда det WtW > 0 вектор МНК-оценок коэффициентов стандартизированной модели вычисляется по формуле 6:

= (WtW)-1WtV (6)

Стандартизированная система регрессионных уравнений имеет ряд преимуществ: используются относительные величины вместо абсолютных. Величины различных предикторов хj могут иметь разные размерности и диапазоны изменения, а стандартизированные предикторы wj не имеют размерности. [18]

Если зависимость между переменными близка к линейной, и число предикторов k значительно меньше объема выборки (k<n), то метод наименьших квадратов будет давать хорошие результаты.

Однако, если k не значительно меньше размера выборки n, растет дисперсия прогноза, а его точность падает. В случае, когда k>n, МНК не дает единственного решения и дисперсия прогноза стремится к бесконечности. Когда модель содержит большое число предикторов k, многие из которых могут не оказывают влияния на значение отклика, существует необходимость исключить такие переменные из выборки. [19]

При построении линейной регрессии выделяются следующие проблемы:

- нелинейность взаимосвязей между предикторами и предсказуемым значением

- предположение об отсутствии корреляции между погрешностями

- выбросы

Важным предположением в модели регрессии является отсутствие корреляции между погрешностями е1, е2, …, еn. В случае отсутствия корреляции, к примеру, тот факт, что значение еi является положительным, дает ничтожно мало информации о знаке еi+1. Стандартные ошибки, рассчитываемые для оценки коэффициентов регрессии, основываются на предположении об отсутствии корреляции между ними. [20, c. 345]

Если в действительности существует корреляция между ошибками, то оценка стандартных ошибок может не соответствовать истинной стандартной ошибке. В результате доверительный интервал предсказания будет более узким. Например, 95% доверительный интервал в реальности будет иметь гораздо меньший уровень вероятности предсказания. Кроме того, значение р для данной модели будет заметно ниже необходимого, что может привести к неверному толкованию статистической значимости.

Выбросы - это данные yi, которые далеки от значений, предсказанных моделью. Выбросы могут появиться по различным причинам, одна из них - неверная запись наблюдений.

Красная точка на графике (наблюдение номер 20) на левом графике 1 демонстрирует типичный выброс. Красная линия отображает линейную регрессию, подобранную методом наименьших квадратов. Синяя прерывистая линия демонстрирует ту же самую регрессию при избавлении от выброса. В данном случае избавление от выброса не приносит больших изменений на линию регрессии. Но даже в этом случае возникают другие проблемы. К примеру, коэффициент RSE изменяется с 1.09 до 0.77 в данном случае при избавлении от выброса. Так как RSE используется для расчета доверительных интервалов и р, то такое сильное изменение данного показателя может влиять на интерпретацию выбранной модели. Одновременно, избавление от выброса приводит к снижению R2 с 0.892 до 0.805.

Выбросы можно определять по графикам данных. Но при большом количестве данных их проще определять по стьюдентизированным остаткам, рассчитанным делением остатков еi на оценочную стандартную ошибку. Наблюдения, стьюдентизированные остатки которых больше 3 в абсолютных значениях скорее всего являются выбросами. На графике описанный ранее выброс имеет стьюдентизированный остаток, превышающий 6, в то время, как все остальные наблюдение варьируются в диапазоне от -2 до 2 (рисунок 3).

Рисунок 3 - Определение выбросов [21, c. 97]

Методы регрессии Ридж и LASSO представляют в этом смысле альтернативу известной технике «выбора подмножества» для уменьшения числа предикторов. В результате применения этих методов коэффициент (вес) при некоторых предикторах линейной модели приближается к нулю (или становится равным нулю. [22]

При условии центрирования Y и стандартизации Х оптимизационную задачу можно представить в виде минимизации суммы квадратов отклонений модели без константы с наложением штрафа на величины коэффициентов (формула 6):

(V-WB)T(V-WB)+л => min, (7)

где параметр л - степень сжатия оценок коэффициентов модели.

Если л = 0, то параметры ридж-регрессии будут равны простым МНК-оценкам. В случае, когда л > ? - ридж-регрессия дает нулевые коэффициенты при предикторах, оставляя в изначальной модели только свободный член.

Для выбора оптимального значения параметра л используется кросс-валидация с разбиением входных данных на обучающую и тестовую выборки и последующим расчетом коэффициентов модели при заданном значении л, которые впоследствии используются на проверочной выборке для расчета критерия эффективности модели. Такая последовательность действий повторяется рекурсивно до достижения оптимального значения л, при котором критерий эффективности модели является наилучшим.

Метод LASSO является аналогом рижд-регрессии. Главное отличие данного метода заключается в том, что в качестве ограничений берутся не квадраты коэффициентов, а их значения по модулю (формула 8) [23]:

(V-WB)T(V-WB)+л => min (8)

Цель регрессионного анализа - построение математической модели, описывающей или объясняющей отношения, которые могут возникнуть между переменными. [24, с. 329.] В целом, суть регрессии заключается в линии, проведенной в n-мерном пространстве (n - число переменных), которая пролегает настолько близко к исходным данным, насколько это возможно. Естественно, точного совпадения добиться крайне трудно, так как не все аспекты моделирования возможно учитывать численными методам. [25] Но и при учете численных переменных сложно учитывать погрешность их измерения. Метод линейной регрессии легко использовать и его просто интерпретировать. Но, безусловно, линейные методы испытывают серьезные ограничения в отражении нелинейных зависимостей.

Было произведено сравнение регрессии и методов машинного обучения для прогноза цен на биржах. Формирование цен на биржах ценных бумаг имеет значительное сходство с транспортными биржами, на которых происходит поиск грузов и автомобилей. Естественно, оба вида бирж имеют динамичную, нелинейную, сложную многопараметрическую и хаотичную структуру. Кроме того, существует необходимость учитывать в моделях макроэкономические факторы, такие как политические события, общие экономические условия, особенности банковской системы страны и политики компании, решения инвесторов и т.д. [26]

Машинное обучение и нейронные сети считаются признанными научным сообществом качественными методами по прогнозированию цены на биржах. Регрессии относятся к параметрическим функциям. Их легко применять в связи с тем, что необходимо подобрать оценку для небольшого количества коэффициентов. В случае линейной регрессии данные коэффициенты легко интерпретируемы, а тесты по статистической значимости можно легко исполнить. Но у параметрических методов есть ряд недостатков: при их построении надо делать предположения о форме целевой функции f(x). В случае, если при этом были сделаны серьезные упрощения, в связи с чем значения функции стали заметно отличаться от истинных, то данная модель будет плохо работать в реальных условиях. Непараметрические модели не имеют подобных недостатков, в связи с чем с их помощью можно создавать более гибкие модели.

1.2.3 Метод опорных векторов

Главной идеей метода опорных векторов является построение такой гиперплоскости, чтобы разница между крайними значениями параметров была максимальной. Сам метод воплощает собой принцип структурной минимизации риска, который уменьшает эмпирический риск, основываясь на границах обобщенной ошибки. Простейшие SVM (support vector machine - метод опорных векторов) разделяют обучающие выборки гиперплоскостью, определенную количеством опорных векторов на два класса. В результате, опорные вектора содержат всю необходимую информацию для классификации. Это свойство делает SVM нечувствительной к количеству пространств гиперплоскости. [27]

SVM является линейным методом машинного обучения, это означает, что линейная функция будет являться ответом задачи регрессии. Для решения проблемы нелинейности SVM размечает исходные данные в n-мерном пространстве через нелинейный определитель ? и решает линейную регрессию в данном пространстве (формула 9).

, (9)

где b является свободным членом.

В линейных случаях ?(х) = х и f(xi) превращается в линейную функцию. Поэтому линейная регрессия в многомерном пространстве соответствует нелинейной регрессии в маломерном пространстве. Так как является ?(х) фиксированной величиной, щ определяется из исходных данных путем минимизации суммы эмпирического риска Remp[f]. [28, c. 3263]

Аналогично данный метод применяется для задач регрессии. В качестве функции ошибки потерь в начальную модель опорных векторов вводится е-интенсивная зона.

С точки зрения теории, данная зона представляет собой уровень точности, при которой применимы границы обобщения. Обучающие векторы, лежащие внутри этой зоны, считаются правильными, в то время как те, что находятся вне зоны считаются некорректными и прибавляются к функции потерь ошибки.

Данные некорректные вектора становятся опорными векторами. Всё пространство регрессии можно определить, используя исключительно опорные векторы, остальные векторы игнорируются. С помощью SVM можно решать как нелинейные регрессии, так и предсказания на временных рядах. [29, c. 303]

Метод опорных векторов применялся исследователями для предсказания цен на топливо, так как данный метод хорошо справляется с прогнозами на временных рядах.

Так же его успешно использовали для прогноза индексов на биржах ценных бумаг. В одной из своих последних работ Kowalczyk [30] рассчитывал цены на рекламные компании с использованием метода опорных векторов. Согласно данному методу в n-мерном пространстве формируется огромное количество векторов для группировки данных. Данные группы формируются на основе самой короткой дистанции от одного из значений данных до сформированных векторов.

1.2.4 Метод k ближайших соседей

Еще один применяемый метод - это метод K ближайших соседей. Данный классификатор определяет К соседей, ближайших к одному из наблюдений (x0). Затем происходит оценка вероятности принадлежности к классу j как отношение расстояний до другого ближайшего класса (формула 10).

(10)

Поиск числа K соседей, которое приведет к наибольшей точности, также осуществляется подбором. В случае K=1 модель становится очень гибкой к обучающим данным, что может привести к переобучению. При K=100 граница принятия решения становится практически прямой линией. В связи с этим поиск идеального K можно осуществлять только перебором (рисунок 4).

Рисунок 4 - Зависимость уровня ошибки от К [31]

Метод k ближайших соседей является непараметрической технологией. С развитием исследований нелинейной динамики многие исследователи начали применять KNN (k-nearest neighbor) для частого предсказывания временных рядов. Главная идея KNN заключается в похожести (соседстве) независимых переменных используемых предикторов.

Независимые переменные в исторической последовательности ряда наблюдений рассчитываются для получения лучшего оценочного параметра предиктора.

KNN применяет метрику на предикторы для поиска последовательности k прошедших ближайших соседей в исторической выборке для текущей ситуации. Для работы с задачами регрессии применяется следующая функция ядра модели (формула 11) [32, c. 7050]:

, (11)

где Yi является предсказанным значением,

Yi(j) является силой ближайшего соседа j в верхней формуле.

Необходимо обратить внимание на то, что порядковый номер ближайшего соседа j основывается на расстоянии от текущего состояния i. Схожесть между предикторами и историческими значениями зависит от расстояния по следующей формуле (12):

, (12)

где djt является t-ой независимой переменной Yj,

dit является t-ой независимой переменной Yi,

q является числом независимых переменных в формуле.

Тем не менее, исследователями было выявлено, что для задач регрессии одного метода KNN чаще всего бывает недостаточно. В комбинациях с другими методами машинного обучения можно добиться нужного результата.

К примеру, Weide Li создал модель по предсказыванию загруженности электрической сети, в которой совмещались методы KNN и Extreme Learning Machine [33, c. 694].

Chen и Hao описали в своей работе [34] попытки по прогнозированию цен на рынке ценных бумаг с использованием метода k ближайших соседей. KNN использует правило Байеса, которое считается золотым стандартом для методов предсказания, хотя его применение в реальной жизни ограничено. Согласно данному правилу классификация к определенному классу осуществляется по наибольшему значению вероятности. В целом, KNN формирует классификаторы близкие к Байесовским.

1.2.5 Метод «случайный лес»

Для описание данного метода прежде необходимо дать характеристику другого метода, развитием которого является «случайный лес». Деревья решений - это метод решения задач классификации и регрессии, при котором происходит разбиение большого количества возможных значений независимых переменных на непересекающиеся множества. [35]

Лучше всего описываются деревья решений с помощью теории графов. Допустим, граф G=(V,E) состоит из конечного непустого множества V, элементы которого являются вершинами, и множества пар вершин Е, называемых рёбрами. Путь в графе является последовательность ребер вида (v1, v2), (v3, v4), …, (vm-1, vm). Если пара вершин v, w, образующая ребро (v, w), является упорядоченной, то такое ребро называется ориентированным (или дугой), ведущим из v в w. Если все ребра графа ориентированы, то такой граф называется ориентированным. Деревом является ориентированный корневой граф без циклов, в котором все дуги направлены от корня. При этом, данное дерево характеризуется следующими условиями:

- существует только одна вершина, называемая корнем, в которую не ведет ни одна дуга;

- в каждую вершину, исключая корень, ведет одна дуга;

- существует единственный путь от корня к одной вершине.

Цель построения дерева решений состоит либо в классификации векторов х из распределения Р(х), либо в оценке условного математического ожидания отклика при данном значении х. Процесс принятия решений начинается с корневой вершины и состоит в последовательном применении правил, связанных с вершинами дерева. [36, c. 280]

Существенным недостатком полного дерева решений является его неточность для вывода конечного результата. Единственное полное дерево решений серьезно подвержено переобучению к обучающей выборке. В некоторой степени данную проблему решает усечение крайних разветвлений данных деревьев. Большинство методов усечения заключаются в оценке чувствительности поддеревьев по отношению к некотороймере и удалению поддеревьев, которые оказывают минимальное влияние на эту меру.

Суть метода «случайный лес» заключается в построении огромного числа деревьев решений, которые основываются на применении метода bootstrap на обучающей выборке. Количество данных деревьев является одним из параметров функции. При данном методе при каждой итерации строится новое дерево, в котором используется только доля случайно отбираемых признаков, а также формируется полное дерево решений (без усечений). Ответом задачи регрессии при использовании метода «случайный лес» является среднее значение из всех полученных деревьев решений. [37]

Одним из самых главных преимуществ данного метода в отличие от остальных является то, что он может одновременного работать с разными типами входных данных: с числовыми, факторными, логическими и другими измерителями. Различные меры информативности дают возможность выделения наиболее информативных признаков, что является одним из важнейших преимуществ для статистического анализа. Недостатком случайного леса, особенно в сравнении с деревьями решений, является отсутствие визуального представления процесса принятия решений и сложности их интерпретации.

Деревьям решения свойственна большая гибкость. В частности, если разделить данные на две половины и сделать дерево решения на основе каждого из них, то данные деревья могут получиться совершенно разными. Методы бустинга и bootstrap могут помочь избежать данного эффекта. Оба метода заключаются в делении общих данных на группы и их расширении за счет переборов. [38] Для каждого набора данных формируется собственное дерево решений и итоговое предсказание будет равняться среднему из предсказанных получившимися деревьями результатов. Итоговое количество используемых деревьев может составлять сотни и тысячи.

Данный метод использовался исследователями для прогнозирования цен на автомобили на вторичном рынке [39], а также для предсказания цен на газ [40, c. 4] и на электричество [41], при этом «случайный лес» оказался сравнительно лучше относительно других методов машинного обучения. При прогнозировании цен на недвижимость, «случайный лес» показал самую высокую точность для прогноза в краткосрочном периоде, но для долгосрочного прогноза другие методы, как KNN и регрессии, оказались точнее. [42]

1.2.6 Методы обучения без учителя

При использовании данного метода обучение происходит только за счет входных данных без указания на то, какие выводы являются правильными. В итоге, целью обучения без учителя ставится структуризация исходных данных без присвоения названий для получившихся классов. [43, c. 6] Задачей алгоритма в данном случае является подбор весов для коэффициентов таким образом, чтобы в итоге получались согласованные выводы. [44, с. 11] Модель должна самостоятельно находить интересные паттерны во входящих данных. Польза от обучения без учителя проявляется в том, что выходные данные проще обработать под другие задачи, пока еще неизвестные на данный момент.

Типичным заданием для обучения без учителя является кластеризация и сокращение размерности. При кластеризации входные данные разделяются на несколько групп на основе схожести данных. При сокращении размерности, как и следует из названия, происходит уменьшение количества пространств векторов переменных при сохранении всех важных характеристик изначальной выборки. Часто обучение без учителя применяется как один из этапов обработки данных, после которого следует обучение с учителем. Помимо этого, обучение без учителя применяется для лучшей интерпретации человеком больших и сложных наборов данных.

Кластеризация по методу обучения без учителя происходит за счет формирование N-мерного пространства, в котором N - это число независимых переменных. Кластеризация происходит по принципу наибольшего среднего расстояния между данными одной из групп относительно других. И кластеризация и метод главных компонент нацелены на упрощение данных путем введения небольшого числа обобщений, но механизмы достижения цели разные:

- метод главных компонент стремится найти малоразмерную репрезентацию наблюдений, которая делит исходный набор данных за счет достижения наибольшей корреляции;

- кластеризация стремится найти схожие подгруппы среди других наблюдений.

На живом примере метод кластеризации можно проиллюстрировать в маркетинге: при наличии большого количества переменных (средний доход, профессия, расстояния от центра города и т.д.) для большого количества людей целью ставится сегментирование рынка для идентификации подгрупп людей, заинтересованных в конкретном продукте. [45]

Так как кластеризация применяется в различных сферах, существует несколько методов её использования. В данной работе будут рассмотрены два наиболее популярных: кластеризация по К среднему (K-means) и иерархическая кластеризация. При кластеризации по К среднему целью является разделение исходных данных на заранее известное количество кластеров. При иерархической кластеризации количество кластеров заранее неизвестно. Результатом применения данного метода является древовидная структура, называемая дендрограммой, которая позволяет проследить за процессом кластеризации от самого перового деления.

Кластеризация методом К средних является простым решением для разделения исходных данных на заранее известное количество К непересекающихся кластеров. Таким образом, целью кластеризации является решение следующей задачи (формула 13):

(13)

Иными словами, требуется разделение исходных данных таким образом, чтобы суммарное внутрикластерное отклонение было минимальным. Для воплощения данной цели необходимо определить внутрикластерное отклонение. Наиболее частым решением для этого является применение квадратичного Евклидового расстояния (формула 14):

(14)

где |Ck| обозначает число наблюдений в k кластере.

Таким образом, внутрикластерное отклонение для k кластера - это сумма всех парных Евклидовых расстояний между наблюдениями данного кластера, разделенная на общее количество наблюдений в данном кластере. Обобщая описанные выше формулы, кластеризацию по К среднему можно представить следующим образом (формула 15):

(15)

В целом, решение данной задачи представляет собой огромное количество вычислений, так как существует около Кn способов разделить набор данных, состоящий из n наблюдений, на K кластеров. [48] Для упрощения этой задачи существует простой алгоритм нахождения локальных оптимумов для решения задачи оптимизации вычисления по методу К среднего:

1. Случайно назначить число от 1 до К для каждого наблюдения. Они являются кластерами по умолчанию.

2. Производить итерации до тех пор, пока кластеры не перестанут изменяться:

- для каждого из К кластеров вычислить центроид. Центроидом для k кластера является вектор средних значений по всем параметрам для наблюдений в данном кластере

- назначение для каждого наблюдения такого кластера, чей центроид является ближайшим (определяется по Евклидовому расстоянию).

Главным недостатком метода кластеризации по К среднему является то, что количество кластеров необходимо знать заранее.

Иерархическая кластеризация является альтернативным подходом к решению данной задачи.

При этом типе кластеризации отсутствует необходимость в выборе определенного количества К кластеров. Еще одним преимуществом данного типа кластеризации является построение дендрограмм.

Благодаря ним можно определять в том числе степень похожести между самими кластерами. Если разделение происходит на одном из первых делений, то выбранная пара кластеров сильно различается по своим характеристикам.

В случае, когда разделение происходит на одной из последних стадий, можно говорить о схожести двух кластеров и о возможностях их объединения в один.

В основе иерархической кластеризации так же заложен расчет Евклидового расстояния.

Процесс определения кластеров происходит за счет ряда итераций, которые начинаются с того, что за каждым отдельным значением закреплен собственный кластер.

Два самых похожих кластера объединяются, вследствие чего остаётся n-1 кластер. Следующие два кластера так же объединяются по принципу наименьшего Евклидового расстояния, в результате остаётся n-2 наблюдений. Процесс повторяется до тех пор, пока не останется один последний общий кластер [46].

В описанном выше процессе отсутствует объяснение одной особенности: как сравнивать кластер, состоящий из нескольких наблюдений с одним единственным наблюдением.

Для решения данной проблемы были выделены 4 основных вида связей: полная, средняя, единственная и центроидная. Их сравнение представлено в таблице 1.

Таблица 1 - Сравнение видов связей для иерархической кластеризации [26, c. 397]

Тип связи

Описание

полная

Максимальное различие между кластерами. Расчет всех парных различий между данными из кластера А и данными из кластера В и запись наибольшего из них.

единственная

Минимальное различие между кластерами. Расчет всех парных различий между данными из кластера А и данными из кластера В и запись наименьшего из них.

средняя

Среднее различие между кластерами. Расчет всех парных различий между данными из кластера А и данными из кластера В и запись среднего из них.

центроидная

Разница между центроидами кластера А и кластера В.

1.3 Применение методов анализа больших данных и машинного обучения для прогноза цены на транспортировку груза

Описанные ранее методы анализа больших данных и машинного обучения еще не применялись для прогноза стоимости на транспортировку груза. Тем не менее, их использование уже испытывалось для прогноза ценообразования на различных биржах. Модель поведения пользователей транспортных бирж схожа с поведением на любой другой бирже.

Тестирование данных методов и их сравнение с регрессионными моделями, которые на данный момент используются для прогноза цены на транспортные услуги, демонстрирует, что машинное обучение позволяет улучшить результаты прогнозов в рамках поставленной задачи.

ГЛАВА 2. АНАЛИЗ ДЕЯТЕЛЬНОСТИ КОМПАНИИ «ТОРГОВЫЙ ДОМ «СЕЗАР»

2.1 Анализ состояния, общая характеристика компании «Торговый дом «Сезар»

Компания «Торговый дом «Сезар» является многофункциональной фирмой Санкт-Петербурга. В рамках одной компании соединяются три различного рода вида деятельности: оптовая продажа технических масел, интернет-магазин товаров для автомобилей и экспедиторская компания.

Возможности фирмы связаны со значительными финансовыми ресурсами, получаемыми от бизнеса оптовой поставки масел. В результате компания обладает возможностью быть посредником между грузовладельцем и перевозчиком, так как первые, как правило, требуют отсрочки оплаты, в то время как перевозчикам необходим расчет как можно быстрее, желательно наличными и с предоплатой. Компания занимается экспедированием любого вида перевозок, включая перевозки всеми видами транспорта и в любой их комбинации.

Собственного транспорта у компании нет, весь транспорт привлекается со стороны. Возможность покупки транспорта есть и планируется, но приобретение не происходит в связи с невозможностью обеспечения постоянной циркуляции одного транспорта с текущим объёмом и географией заказов с целью минимизации порожних рейсов.

Большинство перевозок осуществляется по территории РФ, но осуществлялись и перевозки в страны ближнего зарубежья. Компания уже зарекомендовала себя как надежного поставщика экспедиторских услуг благодаря почти 10-летнему присутствию на рынке, безупречным отзывам, прозрачному ведению бухгалтерии.

Компания предоставляет услуги по экспедированию грузоперевозок любым видом транспорта. Основными заказами для фирмы являются междугородние грузоперевозки, преимущественно автомобильным транспортом. Вторым по количеству заказов являются грузоперевозки железнодорожным транспортом. Авиа и морские перевозки составляют относительно небольшую долю в деятельности компании, но также присутствуют в списке предоставляемых услуг.

Помимо всего перечисленного выше, в собственности компании имеется склад класса С в центре Санкт-Петербурга, часть которого используется для нужд отдела оптовой торговли техническими маслами и интернет-магазина. Остальная часть предназначена для клиентов логистического отдела и используется в основном как кросс-докинговая площадка. Таким образом, грузы по междугородним поставкам приходят на данный склад, а затем осуществляется развозка по городу. Благодаря удачному расположению, близко к центру города, минимизируются транспортные и временные затраты на доставку товаров по конечным пунктам назначения.

По данным сайта АвтоТрансИнфо компания занимает 6 место по Санкт-Петербургу и 24 место по России среди компаний такого же профиля. Всего в рейтинге по Санкт-Петербургу представлено более 1000 компаний, по России - 19 037 участников.

2.2 Анализ рынка грузоперевозок автомобильным транспортом в РФ

Россия обладает самой большой в мире территорией, и масштабы страны обуславливают большое значение грузоперевозок, в частности автомобильным транспортом. Состояние данного рынка напрямую зависит от таких ключевых факторов, как уровень развития промышленного производства и объемы розничной и оптовой торговли. Важнейшее значение для международных автомобильных грузоперевозок играют такие факторы, как экономические санкции, уровень экономической интеграции со странами-соседями, курс валют по отношению к рублю.

Если 2015 год охарактеризовался значительным падением объемов автомобильных грузоперевозок, сокращением рынка и ухода части игроков, то 2016 год прошел на фоне стагнации в данном сегменте перевозок. Об этом свидетельствую опубликованные данные Росстата РФ: если за 2015 год объемы автомобильных грузоперевозок сократились на 6,2% до 232 млрд тонна/км, то за прошедший 2016 год аналогичный показатель вырос на 1,1 % до отметки в 234,5 млрд тонна/км.

Отметим основные тенденции рынка, актуальные в период 2015-2017 гг.:

1. Значительное снижение рентабельности работы автотранспортных предприятий (перевозчиков) на фоне удорожания запчастей и ДТ, вместе с этим небольшого снижения тарифов на перевозки.

2. Снижение продаж новых грузовых автомобилей во всех сегментах (HCV, CV, LCV) ввиду значительного повышения курса валюты.

3. Снижение грузооборота со странами ЕС. В связи с ростом курса доллара и Евро в 2014/2015 гг., а также введённом продуктовом эмбарго со стороны РФ в августе 2014 года, грузопоток из ЕС в 2015-2016 гг. снизился по оценкам euroststica.com на 30-45%

4. Снижение доли «частников», небольших компаний в связи со снижением рентабельности данного рынка и усиления конкуренции.

5. Введение системы «Платон» для оплаты проезда по федеральным трассам. [48]

6. Переориентация потоков грузоперевозок с Запада и Северо-Запада РФ на внутренние направления: Юг России, Поволжье, Сибирь, Дальний Восток и Казахстан.

В натуральном выражении основными регионами автомобильных грузоперевозок в РФ являются ЦФО и СФО (рисунок 5). Драйверами развития внутренних автомобильных грузоперевозок являются такие факторы как:

- Активное развитие сетей FMCG в регионах (Х5 Retail, «Магнит», «Лента», и др.), строительство новых магазинов и логистических центров. [49]

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.