Разработка подхода к прогнозированию заработной платы по ключевым навыкам на основе вакансий на примере сайта hh.ru

Определение собственной ценности для организации, выраженной в заработной плате как одна из проблем для соискателей. Python - высокоуровневый язык программирования с высоким уровнем интерпретируемости кода. Алгоритм парсинга вакансий с сайта hh.ru.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 04.12.2019
Размер файла 990,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Как видно из рисунка 34, модель нашла очень сильную взаимосвязь между опытом и заработной платой.

Отрасль «Логистика»

Сравнение результатов моделирования

В таблице 10 отражено сравнение качества моделей.

Таблица 10. Сравнение качества моделей

Модель

Accuracy

SVM

0.542

Решающее дерево

0.521

Случайный лес

0.599

XGBoost

0.602

Из данной таблицы видно, что самое высокое качество даёт модель градиентного бустинга.

Значимость предикторов лучшей модели

10 наиболее значимых предикторов модели отражены на рисунке 35.

Рис. 35. Топ-10 предикторов

Отрасль «Производство»

Сравнение результатов моделирования

В таблице 10 отражено сравнение качества моделей.

Таблица 11. Сравнение качества моделей

Модель

Accuracy

SVM

0.589

Решающее дерево

0.602

Случайный лес

0.592

XGBoost

0.605

Из данной таблицы видно, что самое высокое качество даёт модель градиентного бустинга.

Значимость предикторов лучшей модели

10 наиболее значимых предикторов модели отражены на рисунке 36.

Рис. 36. Топ-10 предикторов

Оценка точности моделирования

В таблице 12 производится сравнение предиктивных моделей разных отраслей.

Таблица 12. Сводная таблица

Отрасль

Лучшая модель

Точность

IT

XGBoost

0.72

Продажи

XGBoost

0.63

Банки

XGBoost

0.71

Бизнес

XGBoost

0.575

Дизайн

Случайный лес

0.854

Образование

XGBoost

0.522

Фармакология

XGBoost

0.657

Госслужба

XGBoost

0.66

Юриспруденция

SVM

0.692

Логистика

XGBoost

0.602

Производство

XGBoost

0.605

Как видно из таблицы, чаще всего модель градиентного бустинга точнее других.

Стоит отметить, что наибольшая точность достигнута на следующих отраслях:

· Дизайн;

· IT;

· Банки;

· Юриспруденция.

В данной главе описана разработка подхода к прогнозированию заработной платы по ключевым компетенциям на основе вакансий hh.ru.

В рамках данной главы были выполнены следующие этапы:

1. Парсинг данных о вакансиях с сайта hh.ru;

2. Предварительный анализ данных;

3. Кластерный анализ;

4. Интеллектуальный анализ текста;

5. Построение предиктивных моделей и оценка качества.

Стоит отметить, что полученная точность редко превышала 0.7. Это может быть связано с малым объёмом выборки, сложной зависимостью между зарплатой и текстовым описанием вакансии, а также со сложностью анализа русскоязычных текстов.

Для 3 лучших моделей отражены наиболее значимые признаки на таблице 13.

Таблица 13. Значимость признаков

IT

Банки

Дизайн

1

Опыт работы

Опыт работы

Опыт работы

2

Локация: Москва

График: полный рабочий день

Adobe Afterefects

3

GIT

MS Excel

Adobe

4

SQL

Локация: Москва

Adobe Illustrator

5

График: полный рабочий день

CRM

Удалённая работа

6

Локация: Санкт-Петербург

MS Word

Adobe Photoshop

7

WEB

MS Office

Autocad

8

CSS

Локация: Санкт-Петербург

График: полный рабочий день

9

JS

График: сменный

Archicad

10

PHP

ERP

График: сменный

Как видно из таблицы опыт работы является важнейшим признаком для любой отрасли. Также стоит отметить, что расположение работодателя в Москве и Санкт-Петербурге, график работы: полный рабочий день, сильно влияют на уровень заработной платы практически во всех отраслях. В IT отрасли большая часть признаков относится к языкам программирования, в банковской отрасли к работе в MS Office, а в отрасли «Дизайн» - к работе в системах Adobe и Cad-подобных системах.

Стоит отметить, что в ходе работы получилось выявить значимые признаки для прогнозирования уровня заработной платы. Также данные исследования показывают, что на этапе оценки вакансии не влияют так называемые “softskills”. Это не значит, что данные навыки не ценятся и не влияют на заработную плату. Данные навыки описаны практически в каждой вакансии. Именно поэтому на оценку самой вакансии они не влияют. Однако, на собеседованиях эти навыки проверяются в первую очередь.

Заключение

В ходе данной работы было выполнено:

1. Парсинг данных о вакансиях с сайта www.hh.ru;

2. Анализ текстовой информации, указанной в объявлениях;

3. Применение различных алгоритмов для прогнозирования заработной платы по ключевым компетенциям на основе объявлений hh.ru;

4. Анализ качества работы моделей.

В ходе данной работы была выполнена цель работы - разработка подхода к прогнозированию заработной платы по ключевым компетенциям на основе объявлений hh.ru.

Стоит отметить, что гипотеза о зависимости зарплаты от текстового описания подтвердилась не полностью. На разных подвыборках (отраслях) получились разные результаты. Результаты отражены на таблице 12.

Для большинства отраслей полученные результаты говорят о сильной зависимости между текстовым описанием вакансии и указанной заработной платой.

Для отраслей Образование и Бизнес были получены результаты с точностью ниже 0.6. Это может быть связано с ограниченностью выборки. Пропорция размеченных данных и не размеченных примерно 1:9. Кроме того, в некоторых отраслях существует распространённая практика разделения заработных плат на оклад и бонусную часть, что усложняет прогнозирования.

Таким образом, разработанный подход может стать основой для системы прогнозирования заработной платы для части отраслей.

Список литературы

1. Итоги года и планы: соискатели. [Электронный ресурс] / hh.ru URL: https://hhcdn.ru/file/16708262.pdf. (дата обращения: 20.04.2019)

2. Исследование: 81% работодателей отмечают завышенные зарплатные ожидания соискателей/. [Электронный ресурс] / vestifinance.ru URL: https://www.vestifinance.ru/articles/111136. (дата обращения: 20.04.2019)

3. Как сравнить свою заработную плату с рыночной. [Электронный ресурс] / hh.ru URL: https://hh.ru/article/30154. (дата обращения: 10.01.2019)

4. Коваленко Е. Цена вопроса: как узнать свою стоимость на рынке труда /Forbes - Американский финансово-экономический журнал [Электронный ресурс] / forbes.ru URL: http://www.forbes.ru/karera-i-svoy-biznes/349257-cena-voprosa-kak-uznat-svoyu-stoimost-na-rynke-truda. (дата обращения: 10.01.2019)

5. Как искусственный интеллект изменит HR? [Электронный ресурс] / hh.ru URL: https://hhcdn.ru/file/16676170.pdf. (дата обращения: 21.04.2019)

6. How Much Am I Worth? - 5 Ways to Figure It Out. [Электронный ресурс] / salary.com URL: https://www.salary.com/articles/5-ways-what-youre-worth/. (дата обращения: 11.01.2019)

7. Payscale. [Электронный ресурс] / payscale.com URL: https://www.payscale.com/ (дата обращения: 15.01.2019)

8. Glassdor. [Электронный ресурс] / glassdoor.com URL: https://www.glassdoor.com/Salaries/know-your-worth.html. (дата обращения: 15.01.2019)

9. Two Step Cluster Analisys. [Электронный ресурс] / ibm.com URL: https://www.ibm.com/support/knowledgecenter/en/SSLVMB_24.0.0/spss/base/idh_twostep_main.html. (дата обращения: 18.01.2019)

10. Классификация данных методом опорных векторов. [Электронный ресурс] / habr.com URL: https://habr.com/ru/post/105220/. (дата обращения: 18.01.2019)

11. Соколов Е. А. Решающие деревья. Лекция 3. ФКН НИУ ВШЭ. 2018.

12. Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/ods/blog/322534/. (дата обращения 18.01.2019)

13. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/company/ods/blog/324402/#1-begging. (дата обращения 20.01.2019)

14. Открытый курс машинного обучения. Тема 10. Градиентный бустинг. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/company/ods/blog/327250/#1-vvedenie-i-istoriya-poyavleniya-bustinga. (дата обращения 26.01.2019).

15. Извлечение объектов и фактов из текста в Яндексе. [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/yandex/blog/205198/. (дата обращения: 01.02.2019)

16. Машинное обучение. [Электронный ресурс] / machinelearning.ru URL: http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение. (дата обращения: 22.04.2019)

17. sklearn.Metrics. [Электронный ресурс] / scikit-learn.org URL:
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics. (дата обращения: 22.04.2019)

18. Precision and recall. [Электронный ресурс] / wikipedia.org URL: https://en.wikipedia.org/wiki/Precision_and_recall. (дата обращения: 22.04.2019)

19. F1 score. [Электронный ресурс] / wikipedia.org URL: https://en.wikipedia.org/wiki/F1_score. (дата обращения: 23.04.2019)

20. Наиболее востребованные языки программирования - 2018 [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/hh/blog/418079/ (дата обращения 26.04.2019)

21. Сравнение топ-4 популярных BI платформ. Какую выбрать? [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/newprolab/blog/349186/ (дата обращения 26.04.2019)

22. TОП-5 инструментов для Text Mining [Электронный ресурс] / datareview.info URL: http://datareview.info/article/top-5-instrumentov-dlya-text-mining/ (дата обращения 14.03.2019)

23. Python. [Электронный ресурс] / wikipedia.org URL: https://ru.wikipedia.org/wiki/Python. (дата обращения 14.01.2019)

24. pandas: powerful Python data analysis toolkit. [Электронный ресурс] / pydata.org URL: https://pandas.pydata.org/pandas-docs/stable/. (дата обращения: 15.02.2019)

25. An introduction to machine learning with scikit-learn. Scikit learn. Machine learning in python. [Электронный ресурс] / scikit-learn.org URL: http://scikit-learn.org/stable/tutorial/basic/tutorial.html. (дата обращения 10.05.2019).

26. sklearn.tree.DecisionTreeClassifier. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html. (дата обращения: 10.02.2019)

27. sklearn.ensemble.RandomForestClassifier. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html. (дата обращения: 15.02.2019)

28. Support Vector Machines. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/svm.html. (дата обращения: 16.02.2019)

29. sklearn.model_selection. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection. (дата обращения: 23.02.2019)

30. Python 3 для начинающих. NumPy, часть 1: начало работы. [Электронный ресурс] / pythonworld.ru URL: https://pythonworld.ru/numpy/1.html. (дата обращения: 15.02.2019).

31. IBM SPSS Modeler 18.2 User's Guide. IBM. 2019.

32. HeadHunter API. [Электронный ресурс] / dev.hh.ru URL: https://dev.hh.ru/. (дата обращения: 16.01.2019)

Размещено на Allbest.ru

...

Подобные документы

  • Организационно-производственная структура университета. Обоснование проектных решений по созданию сайта. Проектирование сайта и базы данных "Центр содействия трудоустройству выпускников". Методика эксплуатации сайта, добавление и изменение вакансий.

    курсовая работа [1,9 M], добавлен 24.02.2013

  • Этапы развития, особенности и возможности языка программирования Java; происхождение названия. Приложения Sun Microsystems: идеи, примитивные типы. Python - высокоуровневый язык программирования общего назначения: структуры данных, синтаксис и семантика.

    реферат [79,0 K], добавлен 23.06.2012

  • Понятие web-сайта и их типы. Программы для создания web-сайта. Описание структуры проекта. Алгоритм создания сайта. Описание конструктора Jimdo. Языки программирования серверного выполнения. Создание полнофункционального веб-сайта для ОАО "КУЛЗ".

    курсовая работа [3,5 M], добавлен 05.06.2015

  • Анализ процесса взаимодействия студентов и работодателей при поиске вакансий. Преимущества трудоустройства студентов во время учебы в ВУЗе, методы поиска работы. Проектирование базы данных и разработка веб-сайта для поиска предложений работы студентам.

    курсовая работа [3,3 M], добавлен 03.07.2017

  • Практическая значимость создания сайта. Язык программирования JavaScript. Основные области использования языка JavaScript при создании интерактивных HTML-страниц. Язык программирования PHP. Программная основа сайта. Создание оформления дизайна сайта.

    дипломная работа [1,1 M], добавлен 05.03.2013

  • Отличительные особенности языка программирования Python: низкий порог вхождения, минималистичный язык, краткий код, поддержка математических вычислений, большое количество развитых web-фреймворков. Традиционная модель выполнения программ на языке Python.

    реферат [51,9 K], добавлен 18.01.2015

  • Разработка информативного, удобного и гибкого в управлении web-сайта, удовлетворяющего потребности посетителей и организации. Цепочка ценности индустрии компьютерных игр. Анализ и обоснование выбора среды проектирования и программирования сайта.

    дипломная работа [4,0 M], добавлен 20.05.2013

  • Основы моделирования и разработки Web-сайтов. Обзор и сравнительный анализ языков программирования. Фреймворки, используемые при создании сайта. Разработка графического дизайна, моделирование и создание Web-сайта, руководство по администрированию.

    курсовая работа [1,7 M], добавлен 07.11.2013

  • Характеристика отдела ЗАГСа Еловского района, его деятельности и структуры. Разработка сайта управления записью актов гражданского состояния. Обоснование выбора языков программирования и средств разработки сайта. Затраты на разработку и внедрение сайта.

    дипломная работа [4,7 M], добавлен 30.05.2014

  • Компоненты приложения Vue.js, использование шаблона MVVM. Характеристика Webpack и фреймворка NuxtJs. Python как язык программирования, модель MVC, компоненты и инструментарий фреймворка Django. Технология программирования Object Relational Mapping.

    контрольная работа [296,4 K], добавлен 22.03.2017

  • Анализ сетевых технологий в гостиничном деле. Официальные сайты компаний. Технологии при создании и поддержке сайтов. Разработка модели web-ресурса, шаблона, тестового примера. Основные этапы создания веб-сайта и презентации. Цены на разработку сайта.

    курсовая работа [3,6 M], добавлен 30.03.2014

  • Значение и обзор современных средств веб-программирования на основе языков четвертого поколения. Технологические особенности разработки структуры сайта Интернет-магазина средств связи. Способы форматирования контента, систем навигации и дизайна сайта.

    контрольная работа [3,2 M], добавлен 15.02.2011

  • Разработка сайта "Платные курсы", приложения базы данных которого исполняют функции управления данными заработной платы преподавателей, регистрации и хранения информации о студентах, курсах, дисциплинах, количестве проведенных занятий, их оплате.

    курсовая работа [45,4 K], добавлен 14.06.2010

  • Выбор сред разработки для реализации сайта. Основная концепция и содержание веб-сайта. Роль дизайна сайта в его создании и определение основных требований к его содержанию и внешнему виду. Особенности разработки удобного и красивого интерфейса сайта.

    курсовая работа [686,4 K], добавлен 13.06.2022

  • Проектирование сайта: сбор и компоновка информации, разработка технического задания; дизайн интерфейса, создание шаблонов и программных компонентов, интеграция сайта с системой управления, тестирование и отладка; сдача. Описание среды программирования.

    курсовая работа [60,2 K], добавлен 30.06.2014

  • Функциональные возможности веб-сайтов и их применение. Сравнительный анализ языков программирования для веб-разработки. Методические аспекты разработки образовательного веб-сайта. Определение трудозатрат на разработку и отладку программного продукта.

    дипломная работа [2,8 M], добавлен 03.09.2021

  • Понятие и характеристики облачных технологий, модели их развертывания, технологические процессы, аспекты экономики и критика. Язык программирования Python, оценка функциональности, сравнение с аналогами. Управление облаком в Python на примере libcloud.

    курсовая работа [43,0 K], добавлен 08.06.2014

  • Анализ методов разработки сайта с помощью веб-инструментов, конструктора, системы управления сайтом. Выбор языка веб-программирования, графического редактора. Разработка корпоративного сайта, его внедрение в интернет и тестирование на различных браузерах.

    курсовая работа [2,5 M], добавлен 22.03.2017

  • Формулировка требований к разработке и оформлению информационного сайта предприятия. Описание архитектуры сайта, меню навигации и алгоритма работы, листинг программного кода. Выбор серверной части и процесс отладки. Методы продвижения сайта в Интернете.

    курсовая работа [4,6 M], добавлен 18.01.2014

  • История развития информационных технологий. Появление Интернета, браузеры. Основы web-программирования: классификация сайтов, языки программирования. Создание сайта для кафедры высшего учебного заведения: технология создания и руководство пользователя.

    дипломная работа [471,5 K], добавлен 23.04.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.