Исследование ценностных моделей организации методами анализа корпоративных коммуникаций
Внешние коммуникации — информация, которую компания распространяет среди общественности о самой организации, ее продуктах и услугах. Схема работы методов машинного обучения в сентимент-анализе. Нейронная сеть - определенная совокупность алгоритмов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 18.07.2020 |
Размер файла | 1,0 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
После этого необходимо проинициализировать и написать функции, которые из стандартного текстового набора сделают формат, подходящий для модели обучения. Ранее из текста были удалены все лишние знаки препинания, обозначающие конец предложения (такие как «!», «?» и пр.) После этого необходимо сделать:
· Лемматизацию - приведение слова к лемме - её нормальной форме.
Например, из существительного «better» сделать «good» (Приложение 1. Рис. 13)
· Стемминг - процесс, который отрезает у слов лишние части (например, суффиксы).Например, из глагола «stopped» сделать глагол «stop».
· Добавление N-грамм - последовательность из N слов, которые образуют особый смысл, отличный от случая отдельного использования слов. В нашем случае будем использовать биграммы. (Приложение 1. Рис. 13)
· Токенезацию - процесс, который разделяет предложения на слова-компоненты (Приложение 1. Рис 12). Например, если дано предложение «Heisoneofthebestemployees!», токенезация возвратит список из [`he','is','one','of','the','best','employees','!']
· Исключить стоп-слова - те, которые выкидываются и текста после его обработки для того, чтобы «шум» не мешал алгоритмам классификации. Существуют стандартные библиотеки, которые содержат стоп слова, в них часто входят местоимения, артикли, междометия, союзы, числительные и прочее. Этот список можно обогатить, например, фамилиями сотрудников или названием исследуемой компании. (Приложение 1. Рис. 13)
· Исключить регулярные выражения. Это ни что иное, как некий «шаблон поиска». Чаще всего это последовательность символов, которая искажает текст (точки, запятые, переносы строк и прочее)
Таким образом, если мы рассмотрим пример, который уже был дан «Heisoneofthebestemployees!», нам возродится список [`good', `employee'], что сильно улучшит обучение классификатора.
После этого применим все эти функции к нашей выборке и представим датасет в виде «категория»; «предложение» (Приложение 1. Рис. 14)
Данные, состоящие из предложений внутренних и внешних коммуникаций, где каждое из них вручную было отнесен к одному или нескольким классам (ценностям), готовы для обучения. Разделим их на три разных датасета в случайном порядке, чтобы избежать переобучения под конкретные слова.
3.5 LDA классификатор. Термы и биграммы
После того, как была получена выборка для обучения, воспользуемся программой Class.SDK для обучения классификатора Latent Dirichlet Allocation. Результаты обучения получились следующими:
1. Для ценности Innovativeness самыми значимыми оказались следующие термы и биграммы (Рис 15).Действительно, слова и словосочетания Developing, innovating, electronics, sciencetechnology, performancematerial, innovationhub можно отнести к описываемой ценности.
2. Для ценности Loyalty самыми значимыми оказались следующие термы и биграммы (Рис 15). Действительно, слова и словосочетания Developing, innovating, electronics, sciencetechnology, performancematerial, innovationhub можно отнести к описываемой ценности.
3. Для ценности Mutualrespect самыми значимыми оказались следующие термы и биграммы (Рис 15). Действительно, слова и словосочетания dear, regard, effective, joined, goodregard, dearcolleague, pleaseannounce можно отнести к описываемой ценности.
4. Для ценности Responsibility самыми значимыми оказались следующие термы и биграммы (Рис 15). Действительно, слова и словосочетания joined, aligned, supervisor, meetingroom, canparticipate можно отнести к описываемой ценности.
5. Для ценности Successdesire самыми значимыми оказались следующие термы и биграммы (Рис 15). В данном случае видно, что эту ценность гораздо лучше передают именно биграммы, по сравнению с термами. Recruitment process, development program, net sale, ebitda pre относятся к понятиям, связанным с успехом.
Рис. 4. Значимые термы и биграммы для ценностей
6. Для ценности Targeting самыми значимыми оказались следующие термы и биграммы. В данном случае также, как и в предыдущем, видно, что эту ценность гораздо лучше передают именно биграммы, по сравнению с термами. Havejoined, pleasedannounce, moredetail относятся к понятиям, связанным с нацеленностью.
Нейтральные ценности рассматривать особого смысла нет, так как туда попало всё, что не попало в 6 ценностей.
3.6 LDA классификатор. Интерпретация результатов
После обучения модели, я получил возможность использовать обученный тематический классификатор для проверки гипотезы исследования. В качестве объекта классификации для случая внутренней коммуникации брались не отдельные предложения, а всё письмо целиком. Такое решение было принято, в частности, из-за того, что одно письмо может нести не только несколько ценностей, но и доля этих ценностей внутри писем может и будет отличаться. Также и в случае внешних коммуникаций классификации подвергался целый текст пресс-релиза, не разделённый на отдельные предложения.
Для начала тестируем выборку с внешними коммуникациями. На выход подаётся таблица с текстом пресс релиза, количеством термов и биграмм, и вероятности от 0 до 1 вхождения термов и биграмм в ту или иную категорию (ценность). Соответственно, для каждого предложения из внешних коммуникации мы получили по 7 значений пронормированных значений принадлежности к каждой ценности по термам и биграммам. Для того, чтобы оценить пресс-релизы в общем и целом, следует найти среднее. Получили следующие величины:
Рис. 5. Термы и биграммы по внешним коммуникациям
Как было выяснено из предыдущего параграфа, наиболее эффективно использовать биграммы, нежели термы, так как они более точно отражают принадлежность текста к ценности. Проверим, как соотносятся термы и биграммы во внешних и внутренних коммуникациях.
Рис. 6. Ценности во внешних коммуникациях
Как мы можем видеть, разделение по термам и биграммам различается, но в среднем не более, чем 10 процентных пунктов.
Проведём тестирование классификатора с внутренними коммуникациями:
Рис. 7. Термы и биграммы по внутренним коммуникациям
Как было выяснено из предыдущего параграфа, наиболее эффективно использовать биграммы, нежели термы, так как они более точно отражают принадлежность текста к ценности. Проверим, как соотносятся термы и биграммы.
Рис. 8. Ценности во внутренних коммуникациях
Как мы видим, во внутренних коммуникациях существует иная разбивка ценностей в сообщениях. Для наглядности сравним биграммы двух типов коммуникаций.
Рис. 9. Сравнение ценностей внешних и внутренних коммуникаций по биграммам
По диаграмме хорошо видно, что имеет место быть разное проявление ценностей во внутренних и внешних информационных потоках. Выделим три группы ценностей:
1. Ценности, которые хорошо проявляются во внешних коммуникациях и плохо во внутренних: Innovativeness, Successdesire, Neutral. Объяснение этому может быть довольно простое - во внешних коммуникациях, таких как пресс релизы, часто упоминаются какие-то новинки медицины, новые изобретения, соответственно гораздо сильнее проявляется инновационность. Neutral - в пресс релизах чаще приводятся какие-то общие факты, которые не относятся к корпоративным ценностям, по сравнению с внутренними, где каждое сообщение от отдела персонала, менеджмента организации направлено с большим акцентом на сотрудников, соответственно проявляя какие-либо ценности.
2. Ценности, которые хорошо проявляются во внутренних коммуникациях и плохо во внешних: Mutualrespect. Действительно, в пресс-релизах редко более одного раза употребляются выражения типа “kindregards”, `sincerelyyours', `dearcolleagues', которые выражают взаимное уважение. Во внутренних, наоборот, многие предложения состоят из данных слов.
3. Ценности, которые примерно одинаково проявляются в разных каналах коммуникации: Responsibility, Targeting, Loyalty.
Оказалось, что всего 3 из 6 (7) ценностей, которые были выделены, одинаково проявляются во внутренних и внешних коммуникациях. Соответственно, стоит говорить о том, что в случае исследованного массива данных с учетом выбранных для анализа текстов корпоративные ценности организации проявляются в разной степени во внутренних и внешних коммуникациях.
Вывод:
По результатам исследования можно сказать, что выборка писем и пресс-релизов повлияла на конечный вывод исследования. Ввиду того, что представленные информационные потоки не охватывали всё поле корпоративных коммуникаций компании, следует оговориться, что все выводы, которые были сделаны, основывались на тех данных, которые были выбраны для анализа. Кроме того, количество писем и пресс-релизов, которые было взято для построения классификатора, не гарантирует высокой точности полученных результатов. В дальнейшем исследовании возможно применение того же самого подхода при наличии более широкой выборки с точки зрения количества объектов и более качественной с точки зрения расширения рассматриваемых источников внутренних и внешних корпоративных коммуникаций. Подход, применённый в данной работе, показал, что организация может оставаться гибкой в проявлениях ценностей относительно разных слоёв людей, будь то клиенты, инвесторы или другие заинтересованные люди. Одной категории будет важна целеустремлённость, другой - инновационность, третьей - уважительный микроклимат. Благодаря этому компания может нацеливаться на разную целевую аудиторию в разных информационных каналах, в зависимости от текущей и долгосрочной потребности.
Заключение
В рамках данной выпускной квалификационной работы были решены все поставленные задачи, а именно:
1. Проанализирована важность внутренних и внешних коммуникаций для бизнеса. Рассмотрены публикации, содержащие примеры того, как внутренние и внешние информационные потоки могут влиять на бизнес и атмосферу в коллективе.
2. Изучены теоретические основы алгоритмов классификации- Bayes Naпve Classifier, KNN, Decisiontrees, Latent Dirichlet Allocation.
Изучены алгоритмы обработки естественного языка. Были выделены их основные типы и разобраны схемы работы алгоритмов машинного обучения в сентимент-анализе.
3. Выделены ценности организации, которые соответствовали внутренним политикам, находились в брендбуке компании, а также эмпирически проявлялись:
Innovativeness
Mutual respect
Success desire
Responsibility
Loyalty
Targeting
4. Была произведена экспертная оценка каждого предложения внутренних и внешних коммуникаций на соответствие выделенных корпоративных ценностей, путём ручного проставления каждому объекту-предложению метки принадлежности к классу.
5. Была выбрана релевантная модель классификации Latent Dirichlet Allocation, с помощью которой каждому тексту была сопоставлена степень принадлежности к классу.
6. Удалось сопоставить результаты относительных ценностных моделей, выявленных при анализе внутренних и внешних коммуникаций.
Главный вывод, который можно сделать на основе данного исследования - гипотеза о том, что одни и те же ценности организации во внутренних и внешних коммуникациях проявляются в одинаковой силе, не подтвердилась.
Только 3 из 6 (7, если считать вместе с нейтральными текстами) ценности в равной силе проявлялись во внутренних и внешних коммуникациях. Результат в какой-то степени стал неожиданным, но тем интереснее дальнейшие выводы, которые можно сделать на основе данной работы.
Список литературы
1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. -- Stanford (2001).
2. Ivanov J.-B. Natural Language processing for Hackers (2018)
3. Stefano Baccianella. Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining. European Language Resources Association (ELRA) (2010)
4. Lafferty, John. Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003) 993-1022
5. T. Hofmann. Probabilistic latent semantic indexing. Proceedings of the Twenty-Second Annual International SIGIR Conference (2009). 50-57.
6. TextBlob documentation (https://textblob.readthedocs.io/).
7. Bannister K. - Understanding Sentiment Analysis: What It Is & Why It's Used (2018)
8. Tassi A, Mavromatis I., Piechoki R. Data in Brief (2019)
9. Senti World Net Interface (http://www.nltk.org/)
10. Bird, Steven, Edward Loper and Ewan Klein (2009), Natural Language Processing with Python. O'Reilly Media Inc.
11. Towards Data Science (https://towardsdatascience.com/) (Датаобращения 19.12.2019)
12. Class. SDK documentation (Class.API)
13. Zerfass, Ansgar, and Christine Viertmann. "Creating business value through corporate communication." Journal of Communication Management (2017).
14. Yeomans, Liz, and Liam FitzPatrick. "Internal communication." (2017).
15. Rogala, Anna. "The Dependencies Between Internal and External Communication of the Organization: The Problem of Coherence." Entrepreneurship, Business and Economics-Vol. 1. Springer, Cham, 2016. 485-500.
16. Peltonen, Tuulikki. "From" corporate mumbo jumbo" to relevancy: a case study of corporate values." (2016).
17. Ameer, Rashid, and Radiah Othman. "Corporate Values and Corporate Social Responsibility Communication Strategies in a Small Economy." Accounting for Sustainability: Asia Pacific Perspectives. Springer, Cham, 2018. 67-100.
18. Contreras, Alfredo, Aiyesha Dey, and Claire Hill. "Tone at the Top and the Communication of Corporate Values: Lost in Translation." Seattle UL Rev. 43 (2019): 497.
19. de Chernatony, Leslie; Drury, Susan and Segal-Horn, Susan (2004). Services brands' values: internal and external corporate communication. In: Academy of Marketing Conference, Jul 2004, Cheltenhem, UK.
20. Springer International Publishing Switzerland 2016 M.H. Bilgin, H. Danis (eds.), Entrepreneurship, Business and Economics - Vol. 1, Eurasian Studies in Business and Economics 3/1, DOI 10.1007/978-3-319-27570-3_36
21. Valeau, Patrick &Mignonac, Karim &Vandenberghe, Christian & Anne-Laure, Gatignon. (2013). A Study of the Relationships Between Volunteers' Commitments to Organizations and Beneficiaries and Turnover Intentions. Canadian Journal of Behavioural Science/Revue canadienne des sciences du comportement
22. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR. -- 2013a.
23. Rokach, Lior; Maimon, O. (2008). Data mining with decision trees: theory and applications. World Scientific Pub Co Inc.
24. Daniel T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining (2009)
25. David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation (2013)
26. Kanaev P. Program for Evaluating Students Performance Based on Fuzzy Clusterization Approach (2018)
Приложение
Программный код
Рис. 10. Получение данных из писем
Рис. 11. Преобразователь предложений
Рис. 12. Генерация обучающей выборки
Рис. 13. Реализация модели Байесовского Классификатора и подсчёт качества
Рис. 14. Конкатенирование источников данных
Рис. 15. Выгрузка очищенных данных
Рис. 16. Подключение библиотек
Рис. 17. Токенезация предложений
Рис. 18. Биграммы, стоп слова, лемматизация
Рис. 19. Преобразование в формат классификатора
Размещено на Allbest.ru
...Подобные документы
Механизм работы нервной системы и мозга человека. Схема биологического нейрона и его математическая модель. Принцип работы искусственной нейронной сети, этапы ее построения и обучения. Применение нейронных сетей в интеллектуальных системах управления.
презентация [98,6 K], добавлен 16.10.2013Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Искусственные нейронные сети как одна из широко известных и используемых моделей машинного обучения. Знакомство с особенностями разработки системы распознавания изображений на основе аппарата искусственных нейронных сетей. Анализ типов машинного обучения.
дипломная работа [1,8 M], добавлен 08.02.2017Изучение пространственных характеристик АГК и структур НС при обработке ими стохастических сред, подбор алгоритмов. Рекомендаций по использованию разработанных адаптивных алгоритмов с корреляционными методами получения оценок для регрессионных моделей.
дипломная работа [5,1 M], добавлен 06.05.2011Выбор публичных показателей для построения, обучения и тестирования модели нейронной сети, которая будет использована в основе информационной системы прогнозирования банкротства банков. Обзор моделей прогнозирования банкротства кредитных организаций.
дипломная работа [1,2 M], добавлен 30.06.2017Популярность алгоритмов машинного обучения для компьютерных игр. Основные техники обучения с подкреплением в динамической среде (компьютерная игра "Snake") с экспериментальным сравнением алгоритмов. Обучение с подкреплением как тип обучения без учителя.
курсовая работа [1020,6 K], добавлен 30.11.2016Искусственные нейронные сети как вид математических моделей, построенных по принципу организации и функционирования сетей нервных клеток мозга. Виды сетей: полносвязные, многослойные. Классификация и аппроксимация. Алгоритм обратного распространения.
реферат [270,4 K], добавлен 07.03.2009Эффективность применения объектного подхода для программных систем. Детальное проектирование и реализация системы, реализующей процессы создания и взаимодействия объектов. Распознавание компьютером печатных букв с помощью многослойной нейронной сети.
курсовая работа [38,0 K], добавлен 09.03.2009Характеристика моделей обучения. Общие сведения о нейроне. Искусственные нейронные сети, персептрон. Проблема XOR и пути ее решения. Нейронные сети обратного распространения. Подготовка входных и выходных данных. Нейронные сети Хопфилда и Хэмминга.
контрольная работа [1,4 M], добавлен 28.01.2011Обзор существующий решений в области электронного обучения. Исследование архитектурных и технологических аспектов построения виртуальных корпоративных университетов. Анализ возможностей системы дистанционного обучения Sakai, отличительные особенности.
дипломная работа [2,7 M], добавлен 09.04.2011Применение теории графов и алгоритмов на графах среди дисциплин и методов дискретной математики. Граф как совокупность двух множеств. Основные способы численного представления графа. Элементы и изоморфизмы графов. Требования к представлению графов в ЭВМ.
курсовая работа [162,2 K], добавлен 04.02.2011Изучение основных аспектов моделирования операционной системы. Исследование принципов организации псевдопараллельной работы процессов. Анализ алгоритмов диспетчеризации процессов. Проектирование подсистемы управления памятью и запоминающими устройствами.
курсовая работа [1,7 M], добавлен 12.01.2014Функция приема и передачи сообщений, которую выполняют маршрутизаторы в сетях коммутации пакетов. Доменная служба имен. Информация, которую содержат строки таблицы маршрутизаторов. Категории протоколов по обслуживанию среды, используемые алгоритмы.
лекция [131,1 K], добавлен 15.04.2014Компьютерная сеть предприятия, ее схема и конфигурация, возможные угрозы сети и степень ее защищенности. Анализ методов и средств обеспечения безопасности сети. Организация защиты информации криптографическими методами, разработка программного модуля.
курсовая работа [780,7 K], добавлен 06.06.2011Обзор программных продуктов для анализа изображений: ABBYY FineReader и OCR CuneiForm. Понятие и виды нейронных сетей. Алгоритм обучения персептрона. Результаты исследований и описание интерфейса программы. Расчет себестоимости программного обеспечения.
дипломная работа [590,7 K], добавлен 17.08.2011Программная реализация статической нейронной сети Хемминга, распознающей символы текста. Описание реализации алгоритма. Реализация и обучение сети, входные символы. Локализация и масштабирование изображения, его искажение. Алгоритм распознавания текста.
контрольная работа [102,3 K], добавлен 29.06.2010Использование понятий из теории графов при разработке сетей и алгоритмов маршрутизации. Построение матрицы смежности и взвешенного ориентировочного графа. Результаты работы алгоритмов Дейкстры и Беллмана-Форда. Протоколы обмена маршрутной информацией.
курсовая работа [334,1 K], добавлен 20.01.2013Создание схем алгоритмов и составление программы на языке Pascal для вычисления значений заданных функций. Сущность и порядок нахождения значения определенного интеграла. Анализ работы подпрограмм. Разработка тестов для проверки правильности алгоритмов.
контрольная работа [831,0 K], добавлен 24.11.2013Структура локальной компьютерной сети организации. Расчет стоимости построения локальной сети. Локальная сеть организации, спроектированная по технологии. Построение локальной сети Ethernet организации. Схема локальной сети 10Base-T.
курсовая работа [126,7 K], добавлен 30.06.2007Алгоритм - определенная последовательность действий для получения решения задачи, его сущность и свойства. Основные характеристики разветвляющегося, циклического и линейного алгоритмов. Применение базовых алгоритмов при написании программных продуктов.
презентация [221,5 K], добавлен 01.03.2012