Разработка подхода к прогнозированию заработной платы по ключевым навыкам на основе вакансий на примере сайта hh.ru
Определение собственной ценности для организации, выраженной в заработной плате как одна из проблем для соискателей. Python - высокоуровневый язык программирования с высоким уровнем интерпретируемости кода. Алгоритм парсинга вакансий с сайта hh.ru.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 04.12.2019 |
Размер файла | 990,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Как видно из рисунка 34, модель нашла очень сильную взаимосвязь между опытом и заработной платой.
Отрасль «Логистика»
Сравнение результатов моделирования
В таблице 10 отражено сравнение качества моделей.
Таблица 10. Сравнение качества моделей
Модель |
Accuracy |
|
SVM |
0.542 |
|
Решающее дерево |
0.521 |
|
Случайный лес |
0.599 |
|
XGBoost |
0.602 |
Из данной таблицы видно, что самое высокое качество даёт модель градиентного бустинга.
Значимость предикторов лучшей модели
10 наиболее значимых предикторов модели отражены на рисунке 35.
Рис. 35. Топ-10 предикторов
Отрасль «Производство»
Сравнение результатов моделирования
В таблице 10 отражено сравнение качества моделей.
Таблица 11. Сравнение качества моделей
Модель |
Accuracy |
|
SVM |
0.589 |
|
Решающее дерево |
0.602 |
|
Случайный лес |
0.592 |
|
XGBoost |
0.605 |
Из данной таблицы видно, что самое высокое качество даёт модель градиентного бустинга.
Значимость предикторов лучшей модели
10 наиболее значимых предикторов модели отражены на рисунке 36.
Рис. 36. Топ-10 предикторов
Оценка точности моделирования
В таблице 12 производится сравнение предиктивных моделей разных отраслей.
Таблица 12. Сводная таблица
Отрасль |
Лучшая модель |
Точность |
|
IT |
XGBoost |
0.72 |
|
Продажи |
XGBoost |
0.63 |
|
Банки |
XGBoost |
0.71 |
|
Бизнес |
XGBoost |
0.575 |
|
Дизайн |
Случайный лес |
0.854 |
|
Образование |
XGBoost |
0.522 |
|
Фармакология |
XGBoost |
0.657 |
|
Госслужба |
XGBoost |
0.66 |
|
Юриспруденция |
SVM |
0.692 |
|
Логистика |
XGBoost |
0.602 |
|
Производство |
XGBoost |
0.605 |
Как видно из таблицы, чаще всего модель градиентного бустинга точнее других.
Стоит отметить, что наибольшая точность достигнута на следующих отраслях:
· Дизайн;
· IT;
· Банки;
· Юриспруденция.
В данной главе описана разработка подхода к прогнозированию заработной платы по ключевым компетенциям на основе вакансий hh.ru.
В рамках данной главы были выполнены следующие этапы:
1. Парсинг данных о вакансиях с сайта hh.ru;
2. Предварительный анализ данных;
3. Кластерный анализ;
4. Интеллектуальный анализ текста;
5. Построение предиктивных моделей и оценка качества.
Стоит отметить, что полученная точность редко превышала 0.7. Это может быть связано с малым объёмом выборки, сложной зависимостью между зарплатой и текстовым описанием вакансии, а также со сложностью анализа русскоязычных текстов.
Для 3 лучших моделей отражены наиболее значимые признаки на таблице 13.
Таблица 13. Значимость признаков
№ |
IT |
Банки |
Дизайн |
|
1 |
Опыт работы |
Опыт работы |
Опыт работы |
|
2 |
Локация: Москва |
График: полный рабочий день |
Adobe Afterefects |
|
3 |
GIT |
MS Excel |
Adobe |
|
4 |
SQL |
Локация: Москва |
Adobe Illustrator |
|
5 |
График: полный рабочий день |
CRM |
Удалённая работа |
|
6 |
Локация: Санкт-Петербург |
MS Word |
Adobe Photoshop |
|
7 |
WEB |
MS Office |
Autocad |
|
8 |
CSS |
Локация: Санкт-Петербург |
График: полный рабочий день |
|
9 |
JS |
График: сменный |
Archicad |
|
10 |
PHP |
ERP |
График: сменный |
Как видно из таблицы опыт работы является важнейшим признаком для любой отрасли. Также стоит отметить, что расположение работодателя в Москве и Санкт-Петербурге, график работы: полный рабочий день, сильно влияют на уровень заработной платы практически во всех отраслях. В IT отрасли большая часть признаков относится к языкам программирования, в банковской отрасли к работе в MS Office, а в отрасли «Дизайн» - к работе в системах Adobe и Cad-подобных системах.
Стоит отметить, что в ходе работы получилось выявить значимые признаки для прогнозирования уровня заработной платы. Также данные исследования показывают, что на этапе оценки вакансии не влияют так называемые “softskills”. Это не значит, что данные навыки не ценятся и не влияют на заработную плату. Данные навыки описаны практически в каждой вакансии. Именно поэтому на оценку самой вакансии они не влияют. Однако, на собеседованиях эти навыки проверяются в первую очередь.
Заключение
В ходе данной работы было выполнено:
1. Парсинг данных о вакансиях с сайта www.hh.ru;
2. Анализ текстовой информации, указанной в объявлениях;
3. Применение различных алгоритмов для прогнозирования заработной платы по ключевым компетенциям на основе объявлений hh.ru;
4. Анализ качества работы моделей.
В ходе данной работы была выполнена цель работы - разработка подхода к прогнозированию заработной платы по ключевым компетенциям на основе объявлений hh.ru.
Стоит отметить, что гипотеза о зависимости зарплаты от текстового описания подтвердилась не полностью. На разных подвыборках (отраслях) получились разные результаты. Результаты отражены на таблице 12.
Для большинства отраслей полученные результаты говорят о сильной зависимости между текстовым описанием вакансии и указанной заработной платой.
Для отраслей Образование и Бизнес были получены результаты с точностью ниже 0.6. Это может быть связано с ограниченностью выборки. Пропорция размеченных данных и не размеченных примерно 1:9. Кроме того, в некоторых отраслях существует распространённая практика разделения заработных плат на оклад и бонусную часть, что усложняет прогнозирования.
Таким образом, разработанный подход может стать основой для системы прогнозирования заработной платы для части отраслей.
Список литературы
1. Итоги года и планы: соискатели. [Электронный ресурс] / hh.ru URL: https://hhcdn.ru/file/16708262.pdf. (дата обращения: 20.04.2019)
2. Исследование: 81% работодателей отмечают завышенные зарплатные ожидания соискателей/. [Электронный ресурс] / vestifinance.ru URL: https://www.vestifinance.ru/articles/111136. (дата обращения: 20.04.2019)
3. Как сравнить свою заработную плату с рыночной. [Электронный ресурс] / hh.ru URL: https://hh.ru/article/30154. (дата обращения: 10.01.2019)
4. Коваленко Е. Цена вопроса: как узнать свою стоимость на рынке труда /Forbes - Американский финансово-экономический журнал [Электронный ресурс] / forbes.ru URL: http://www.forbes.ru/karera-i-svoy-biznes/349257-cena-voprosa-kak-uznat-svoyu-stoimost-na-rynke-truda. (дата обращения: 10.01.2019)
5. Как искусственный интеллект изменит HR? [Электронный ресурс] / hh.ru URL: https://hhcdn.ru/file/16676170.pdf. (дата обращения: 21.04.2019)
6. How Much Am I Worth? - 5 Ways to Figure It Out. [Электронный ресурс] / salary.com URL: https://www.salary.com/articles/5-ways-what-youre-worth/. (дата обращения: 11.01.2019)
7. Payscale. [Электронный ресурс] / payscale.com URL: https://www.payscale.com/ (дата обращения: 15.01.2019)
8. Glassdor. [Электронный ресурс] / glassdoor.com URL: https://www.glassdoor.com/Salaries/know-your-worth.html. (дата обращения: 15.01.2019)
9. Two Step Cluster Analisys. [Электронный ресурс] / ibm.com URL: https://www.ibm.com/support/knowledgecenter/en/SSLVMB_24.0.0/spss/base/idh_twostep_main.html. (дата обращения: 18.01.2019)
10. Классификация данных методом опорных векторов. [Электронный ресурс] / habr.com URL: https://habr.com/ru/post/105220/. (дата обращения: 18.01.2019)
11. Соколов Е. А. Решающие деревья. Лекция 3. ФКН НИУ ВШЭ. 2018.
12. Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/ods/blog/322534/. (дата обращения 18.01.2019)
13. Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/company/ods/blog/324402/#1-begging. (дата обращения 20.01.2019)
14. Открытый курс машинного обучения. Тема 10. Градиентный бустинг. / Хабр - информационный ресурс для IT-специалистов. [Электронный ресурс] / habr.com URL: https://habr.com/company/ods/blog/327250/#1-vvedenie-i-istoriya-poyavleniya-bustinga. (дата обращения 26.01.2019).
15. Извлечение объектов и фактов из текста в Яндексе. [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/yandex/blog/205198/. (дата обращения: 01.02.2019)
16. Машинное обучение. [Электронный ресурс] / machinelearning.ru URL: http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение. (дата обращения: 22.04.2019)
17. sklearn.Metrics. [Электронный ресурс] / scikit-learn.org URL:
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics. (дата обращения: 22.04.2019)
18. Precision and recall. [Электронный ресурс] / wikipedia.org URL: https://en.wikipedia.org/wiki/Precision_and_recall. (дата обращения: 22.04.2019)
19. F1 score. [Электронный ресурс] / wikipedia.org URL: https://en.wikipedia.org/wiki/F1_score. (дата обращения: 23.04.2019)
20. Наиболее востребованные языки программирования - 2018 [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/hh/blog/418079/ (дата обращения 26.04.2019)
21. Сравнение топ-4 популярных BI платформ. Какую выбрать? [Электронный ресурс] / habr.com URL: https://habr.com/ru/company/newprolab/blog/349186/ (дата обращения 26.04.2019)
22. TОП-5 инструментов для Text Mining [Электронный ресурс] / datareview.info URL: http://datareview.info/article/top-5-instrumentov-dlya-text-mining/ (дата обращения 14.03.2019)
23. Python. [Электронный ресурс] / wikipedia.org URL: https://ru.wikipedia.org/wiki/Python. (дата обращения 14.01.2019)
24. pandas: powerful Python data analysis toolkit. [Электронный ресурс] / pydata.org URL: https://pandas.pydata.org/pandas-docs/stable/. (дата обращения: 15.02.2019)
25. An introduction to machine learning with scikit-learn. Scikit learn. Machine learning in python. [Электронный ресурс] / scikit-learn.org URL: http://scikit-learn.org/stable/tutorial/basic/tutorial.html. (дата обращения 10.05.2019).
26. sklearn.tree.DecisionTreeClassifier. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html. (дата обращения: 10.02.2019)
27. sklearn.ensemble.RandomForestClassifier. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html. (дата обращения: 15.02.2019)
28. Support Vector Machines. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/svm.html. (дата обращения: 16.02.2019)
29. sklearn.model_selection. [Электронный ресурс] / scikit-learn.org URL: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection. (дата обращения: 23.02.2019)
30. Python 3 для начинающих. NumPy, часть 1: начало работы. [Электронный ресурс] / pythonworld.ru URL: https://pythonworld.ru/numpy/1.html. (дата обращения: 15.02.2019).
31. IBM SPSS Modeler 18.2 User's Guide. IBM. 2019.
32. HeadHunter API. [Электронный ресурс] / dev.hh.ru URL: https://dev.hh.ru/. (дата обращения: 16.01.2019)
Размещено на Allbest.ru
...Подобные документы
Организационно-производственная структура университета. Обоснование проектных решений по созданию сайта. Проектирование сайта и базы данных "Центр содействия трудоустройству выпускников". Методика эксплуатации сайта, добавление и изменение вакансий.
курсовая работа [1,9 M], добавлен 24.02.2013Этапы развития, особенности и возможности языка программирования Java; происхождение названия. Приложения Sun Microsystems: идеи, примитивные типы. Python - высокоуровневый язык программирования общего назначения: структуры данных, синтаксис и семантика.
реферат [79,0 K], добавлен 23.06.2012Понятие web-сайта и их типы. Программы для создания web-сайта. Описание структуры проекта. Алгоритм создания сайта. Описание конструктора Jimdo. Языки программирования серверного выполнения. Создание полнофункционального веб-сайта для ОАО "КУЛЗ".
курсовая работа [3,5 M], добавлен 05.06.2015Анализ процесса взаимодействия студентов и работодателей при поиске вакансий. Преимущества трудоустройства студентов во время учебы в ВУЗе, методы поиска работы. Проектирование базы данных и разработка веб-сайта для поиска предложений работы студентам.
курсовая работа [3,3 M], добавлен 03.07.2017Практическая значимость создания сайта. Язык программирования JavaScript. Основные области использования языка JavaScript при создании интерактивных HTML-страниц. Язык программирования PHP. Программная основа сайта. Создание оформления дизайна сайта.
дипломная работа [1,1 M], добавлен 05.03.2013Отличительные особенности языка программирования Python: низкий порог вхождения, минималистичный язык, краткий код, поддержка математических вычислений, большое количество развитых web-фреймворков. Традиционная модель выполнения программ на языке Python.
реферат [51,9 K], добавлен 18.01.2015Разработка информативного, удобного и гибкого в управлении web-сайта, удовлетворяющего потребности посетителей и организации. Цепочка ценности индустрии компьютерных игр. Анализ и обоснование выбора среды проектирования и программирования сайта.
дипломная работа [4,0 M], добавлен 20.05.2013Основы моделирования и разработки Web-сайтов. Обзор и сравнительный анализ языков программирования. Фреймворки, используемые при создании сайта. Разработка графического дизайна, моделирование и создание Web-сайта, руководство по администрированию.
курсовая работа [1,7 M], добавлен 07.11.2013Характеристика отдела ЗАГСа Еловского района, его деятельности и структуры. Разработка сайта управления записью актов гражданского состояния. Обоснование выбора языков программирования и средств разработки сайта. Затраты на разработку и внедрение сайта.
дипломная работа [4,7 M], добавлен 30.05.2014Компоненты приложения Vue.js, использование шаблона MVVM. Характеристика Webpack и фреймворка NuxtJs. Python как язык программирования, модель MVC, компоненты и инструментарий фреймворка Django. Технология программирования Object Relational Mapping.
контрольная работа [296,4 K], добавлен 22.03.2017Анализ сетевых технологий в гостиничном деле. Официальные сайты компаний. Технологии при создании и поддержке сайтов. Разработка модели web-ресурса, шаблона, тестового примера. Основные этапы создания веб-сайта и презентации. Цены на разработку сайта.
курсовая работа [3,6 M], добавлен 30.03.2014Значение и обзор современных средств веб-программирования на основе языков четвертого поколения. Технологические особенности разработки структуры сайта Интернет-магазина средств связи. Способы форматирования контента, систем навигации и дизайна сайта.
контрольная работа [3,2 M], добавлен 15.02.2011Разработка сайта "Платные курсы", приложения базы данных которого исполняют функции управления данными заработной платы преподавателей, регистрации и хранения информации о студентах, курсах, дисциплинах, количестве проведенных занятий, их оплате.
курсовая работа [45,4 K], добавлен 14.06.2010Выбор сред разработки для реализации сайта. Основная концепция и содержание веб-сайта. Роль дизайна сайта в его создании и определение основных требований к его содержанию и внешнему виду. Особенности разработки удобного и красивого интерфейса сайта.
курсовая работа [686,4 K], добавлен 13.06.2022Проектирование сайта: сбор и компоновка информации, разработка технического задания; дизайн интерфейса, создание шаблонов и программных компонентов, интеграция сайта с системой управления, тестирование и отладка; сдача. Описание среды программирования.
курсовая работа [60,2 K], добавлен 30.06.2014Функциональные возможности веб-сайтов и их применение. Сравнительный анализ языков программирования для веб-разработки. Методические аспекты разработки образовательного веб-сайта. Определение трудозатрат на разработку и отладку программного продукта.
дипломная работа [2,8 M], добавлен 03.09.2021Понятие и характеристики облачных технологий, модели их развертывания, технологические процессы, аспекты экономики и критика. Язык программирования Python, оценка функциональности, сравнение с аналогами. Управление облаком в Python на примере libcloud.
курсовая работа [43,0 K], добавлен 08.06.2014Анализ методов разработки сайта с помощью веб-инструментов, конструктора, системы управления сайтом. Выбор языка веб-программирования, графического редактора. Разработка корпоративного сайта, его внедрение в интернет и тестирование на различных браузерах.
курсовая работа [2,5 M], добавлен 22.03.2017Формулировка требований к разработке и оформлению информационного сайта предприятия. Описание архитектуры сайта, меню навигации и алгоритма работы, листинг программного кода. Выбор серверной части и процесс отладки. Методы продвижения сайта в Интернете.
курсовая работа [4,6 M], добавлен 18.01.2014История развития информационных технологий. Появление Интернета, браузеры. Основы web-программирования: классификация сайтов, языки программирования. Создание сайта для кафедры высшего учебного заведения: технология создания и руководство пользователя.
дипломная работа [471,5 K], добавлен 23.04.2015