Методы восстановления пропущенных данных для оценки предпринимательской активности

Модель предпринимательских намерений и методы восстановления данных. Определение наиболее эффективного метода борьбы с пропущенными данными. Основное содержание, а также оптимальность и условия применения принципа их множественного восстановления.

Рубрика Менеджмент и трудовые отношения
Вид курсовая работа
Язык русский
Дата добавления 30.08.2016
Размер файла 103,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Методы восстановления пропущенных данных для оценки предпринимательской активности

Введение

Предпринимательство является важной составляющей продолжающегося развития современной рыночной экономики, и появление новых компаний на рынке благоприятствует конкуренции и экономическому росту.

По данным «Глобального мониторинга предпринимательства» (TheGlobalEntrepreneurshipMonitor (GEM)) Россия имеет низкие показатели предпринимательской активности. Среди опрошенного населения 18-64 лет начинающими предпринимателями и владельцами нового бизнеса являются только 5,8% по данным за 2013 год, а владельцами бизнеса, работающего более 42 месяцев, всего 3,4% опрошенного населения. При этом только 2,6% респондентов рассматривают возможность начать предпринимательскую деятельность. Это самый низкий уровень предпринимательских намерений среди 70 стран, участвующих в проекте. Например, в США этот показатель равен 12,2%, начинающих предпринимателей из опрошенного населения - 12,7%, владельцев устоявшегося бизнеса - 7,5%.

Таким образом, крайне необходимо в России стимулировать предпринимательские намерения. Такие программы возможно разработать, только достоверно поняв, что влияет на предпринимательские намерения.

Выделяют множество факторов, которые могут повлиять на намерение человека начать свой бизнес. К ним относятся как индивидуальные характеристики, так и экономические, культурные и другие особенности региона, в котором живет индивид. Существует множество работ исследующих такие факторы. Однако в своих работах исследователи сталкиваются с проблемой пропущенных данных.

Простое удаление неполных наблюдений может сильно сократить выборку, и оценки получатся смещенными. Так, например, в одной из последних работ исследующих предпринимательские намерения россиян Александровой Е.А. и Верховской О.Р. при проверке одной из гипотез размер выборки уменьшился почти в три раза. Простое удаление неполных данных могло оказать негативное влияние на достоверность полученных итогов исследования. Альтернативным удалению методом борьбы с пропущенными данными является их восстановление.

Целью настоящей работы является оценка предпринимательских намерений на данных, пропущенные значения которых были восстановлены.Для реализации этой цели предполагается решение следующих задач:

1. Анализ исследованийфакторов, влияющих на предпринимательские намерения, в литературе;

2. Обзор существующих методов восстановления пропущенных данных;

3. Анализ неполных данных исследуемой выборки;

4. Выявление наиболее эффективного метода восстановления пропущенных данных для исследуемой выборки;

5. Применение выбранного метода на исследуемой выборке данных;

6. Сравнительный анализ результатов оценки предпринимательских намерений россиян при восстановлении и при удалении пропущенных данных.

Объектом данного исследования является предпринимательские намерения россиян, а предметом - восстановление пропущенных данных в выборке исследования предпринимательских намерений.

В работе используются данные Глобального мониторинга предпринимательства (GEM) за 2013 год.

Научная новизна диссертационной работы заключается в том, что в ней впервые осуществлен анализ предпринимательских намерений россиян на восстановленных данных базы GEM.

Первая глава работы посвящена обзору существующих исследований факторов, влияющих на предпринимательские намерения, а также известных в литературе методов восстановления пропущенных данных. Во второй главе представлен анализ исследуемых данных на пропуски. Также в этой главе представлена процедура определения наиболее эффективного метода восстановления для исследуемых данных. Третья глава включает в себя результаты восстановления неполных данных факторов, влияющих на предпринимательские намерения. Более того в данной главе проведено сравнение результатов оценок намерений россиян создать собственный бизнес при удалении неполных данных и при их восстановлении.

1. Теоретические основы восстановления неполных данныхдля оценивания модели предпринимательских намерений

1.1 Модель предпринимательских намерений

Предпринимательские намерения это готовность индивида создать свой бизнес в будущем (Gelderenetal, 2008). В исследовании факторов, влияющих на предпринимательские намерения, предпочтения отдаются Теории запланированного поведения (Ajzen, 1991) и Теория попыток (Bagozzi, Warshaw, 1992). Данные теории являются основой многих работ, изучающих предпринимательские намерения.

Согласно Теории запланированного поведения (ТЗП), намерения предсказывают поведение, а сами намерения определяются отношением к поведению (Attitudetowardbehavior), субъективными нормами (Subjectivenorms) и воспринимаемым поведенческим контролем (Perceivedbehavioralcontrol). Отношение к поведению включает такие факторы, как понимание, каких результатов можно достичь, следуя данному поведению, и оценка этих результатов индивидом, насколько они для него ценны. К субъективным нормам относятся общественные нормы, то есть то, как общество относится к данному поведению. Воспринимаемый поведенческий контроль показывает насколько трудным или легким человек видит достижение своей цели. Последний фактор влияет не только на намерения, но и напрямую на само поведение. Таким образом, если человек думает, что он сможет достичь поставленной цели, более вероятно, что он перейдет к действиям, обусловленным определенным поведением.

Теория попыток Р.П. Багоцци состоит в том, что человек осознает возможные проблемы при осуществлении определенного поведения. Таким образом, индивид должен понимать, что его целенаправленные действия требуют определенных усилий. Авторы в своей теории помимо воздействия ожиданий на действия вводят фактор опыта прошлого поведения, который оказывает влияние на действия потребителя.

Согласно рассмотренным теориям индивиды с большей вероятностью будут создавать новый бизнес, если они положительно относятся к предпринимательской деятельности, если данная деятельность вызывает одобрительные оценки окружающих, и если они уверены в их предпринимательских способностях (KruegerandCarsrud, 1993; Kruegeretal., 2000).

Многие исследователи изучали влияние пола на предпринимательские намерения (Brush (1992), Hughesetal. (2012), Hindle, KlyverandJennings (2009) и другие). Все приходили к выводу о том, что мужчины всегда имеют более высокий уровень предпринимательских намерений. При этом SantosF.J. et. Al (2016) в свой работе показал, что общественное признание оказывает большое влияние на намерения стать предпринимателем именно у мужчин. Именно для мужчин важно, чтобы в обществе предприниматель имел высокий статус и пользовался уважением.

Многие исследования доказывают, что у молодых людей более высокий уровень предпринимательских намерений [Kollinger, Minniti, Shade, 2004; Reynolds, 2003].Молодые люди более открыты ко всему новому и более склонны к риску.

В некоторых работах, исследующих влияние образования на предпринимательские намерения, выявляют негативную связь этих двух переменных [Blanchflower, 2004; Reynolds, 2003].Люди с высшим образованием могут достичь больших успехов в карьерной лестнице, работая на кого-то. В связи с этим работа на самого себя может не являться привлекательной для них.

Одной из последних работ исследующих предпринимательские намерения россиян является исследование Александровой Е.А. и Верховской О.Р.Результаты их исследования показали, что предпринимательские намерения положительно зависят в первую очередь от восприятия своих знаний как достаточных. Также большое влияние оказывает ожидание индивидом благоприятных условий в ближайшем будущем для создания бизнеса. Если индивид недавно закрыл свой бизнес, по результатам исследования также более вероятно, что он снова попробует начать свое дело. Более того уровень предпринимательских намерений выше у тех россиян, которые лично знакомы с успешным предпринимателем. Согласно исследованию неудовлетворенность достижениями в жизни позитивно влияет на желание стать предпринимателем. Однако статистически незначимым оказался фактор страха провала бизнеса.

Исследование было проведено на основе базы GEM на индивидуальных данных россиян за 2013г. Всего выборка состоит из 1847 наблюдений, при этом на вопрос, планирует ли индивид в ближайшем будущем начать свой бизнес положительно ответили всего 2.6%. При проверке рассмотрении модели, включающей все факторы, объем выборки сократился до 678 человек. Это могло привести к смещению оценок. Альтернативным удалению наблюдений методом является их восстановление.

1.2 Методы восстановления данных

Во всех областях науки исследователи сталкиваются с проблемой пропущенных данных, которые возникают, например, по причине того, что участники опроса не могут ответить на некоторые вопросы.

Дональд Рубин (1976) и коллеги (LittleR.J.A., RubinD.B., 2002) разработали классификацию пропущенных данных, которая используется и сегодня. В классификации выделено три типа:

1) полностьюслучайныепропуски (missing completely at random (MCAR));

2) случайныепропуски (missing at random (MAR));

3) неигнорируемыепропуски (non-ignorable missingness).

Указанные три типа различаются по причинам, почему данные пропущены.

Данные являются MCAR, если вероятность пропуска данных в переменной X не связана с другими переменными и значениями самих X. Другими словами отсутствие данных полностью несистематично.

Тип MAR требует менее строгого предположения о причине пропуска данных, чем MCAR. Такой тип встречается, когда пропуски во всей совокупности данных случайно распределены не по всем переменным, а внутри определенных подгрупп этих переменных. Примером таких данных служит ситуация, когда пропуски в какой-то конкретной переменной чаще встречаются у мужчин, нежели чем у женщин, однако внутри подгрупп этой переменной, определенных по половому признаку, эти пропуски распределены случайно.

Наконец, данные являются MNAR, если вероятность пропуска данных систематично связана с предполагаемыми значениями этих пропущенных данных. Таким образом, такие данные отсутствуют из-за их значений. Например, при медицинском осмотре взвешивали только людей с избыточным весом.

В целом, цель анализа данных состоит в определении несмещенных оценок параметров и обеспечении точного безошибочноготестирования гипотез. Пропущенные данные приводят к двум главным проблемам: смещение и ошибки в результатах статистических тестов. Смещение относится к систематическому недо- или переоцениванию параметров. Ошибки при проверках гипотез могут быть вызваны неточными стандартными ошибками (SEs), которые возникают, когда конкретный параметр, тестируемый на значимость, связан с размером выборки. Таким образом, пропущенные данные являются важной проблемой в исследованиях.

Существует несколько методов восстановления пропущенных данных. Среди них можно выделить традиционные и современные методы. К традиционным относятся:

1) Методы удаления (deletionmethods). Первый метод -listwisedeletion- это удаление полностью наблюдений, которые содержат хотя бы одну пропущенную переменную.Таким образом, анализ ограничивается полными наблюдениями. Главные недостатки данного метода заключаются в том, что удаление неполных наблюдений сильно уменьшает размер выборки, в результате чего снижается мощность тестов на значимость. Второй - pairwisedeletion- это удаление наблюдений по необходимости, т.е. при анализе зависимости двух переменных будут удалены неполные наблюдения, в которых нет данных именно по этим двум переменным, однако они могут использоваться в другом анализе по этой выборке. Второй метод является улучшением первого, поскольку минимизирует объем не включаемых в анализ наблюдений. Методы удаления дают несмещенные оценки только при MCAR данных.

2) Методы однократной подстановки (singleimputationmethods). К данной группе относятся следующие методы: подстановка среднего значения (meanimputation- на места пропущенных данных в переменной проставляется среднее арифметическое значение по выборке), подстановка с помощью регрессии (regressionimputation- вместо пропущенных данных проставляются предсказанные значения с помощью регрессии, где переменная с неполными данными выступает в качестве зависимой переменной, а переменные с полными данными - в качестве независимых), стохастическая регрессионная подстановка (stochasticregressionimputation- также вместо пропущенных данных проставляются предсказанные регрессией значения, однако к этим значениям добавляются случайные ошибки, сгенерированные с нормальным распределением, где среднее равно нулю, а дисперсия равна дисперсии остатков из полученной ранее регрессии). Методы данной группы возможно использовать, если пропуски имеют случайное распределение.

Исследователями доказано, что рассмотренные традиционные методы чаще всего приводят к смещенным оценкам (BaraldiA.N., EndersC.K., 2010). В связи с этим необходимо рассмотрение современных методов восстановления - метода множественного восстановления данных (multipleimputation - MI метод) и метода максимального правдоподобия (maximumlikelihoodestimation - MLE метод). Преимущество данных методов заключается в том, что они дают несмещенные оценки как с MCAR данными, так и с MAR. Более того они не требуют исключения неполных наблюдений. Оба метода на сегодняшний день могут быть реализованы с помощью многих статистических пакетов (MI - Stata, SPSS, R, SAS; MLE - SAS, SPSS (AMOS), R (cat)).

Метод множественного восстановлениягенерирует несколько значений пропущенной величины. Множественное восстановление данных содержит 3 этапа:

Imputationphase

В рамках данной фазы генерируются на основе выбранной модели несколько наборов данных для неполных переменных, каждый из которых содержит различные оценки пропущенных данных. Множество алгоритмовпредлагаются для первой фазы, но процедура приращения данных(dataaugmentation), возможно, является самой широко распространенной для нормально распределенных данных (BaraldiA.N., EndersC.K., 2010). При приращении данных используется двухшаговый итерационный алгоритм. Первый шаг (I-step = imputationstep) по своей процедуре идентичен стохастической регрессионной подстановке. В частности, для создания набора уравнений регрессии, которые прогнозируют значения для неполных переменных на основе полных, используются оценки средних и ковариаций (начальные значения параметровдля первых подстановок можно получить с помощью алгоритма максимизации правдоподобия). Эти уравнения регрессии предсказывают значения для пропущенных данных, и к каждому полученному значению добавляется нормально распределенный остаточныйчлен. Заполненные данные переносятся на следующий шаг (P-step-posteriorstep), гдедля создания новых оценок средних и ковариаций (параметры, которые являются основополагающими в I-step) используютсябайесовские принципы оценки. На втором шагеоцениваются средние и ковариациина основе заполненных на первом шагу данных, а затем к каждой из полученных оценок добавляются случайные остатки. Эта процедура создает новый набор значений параметров, которые случайным образом отличаются от тех, которые были использованы для создания восстановленных значений на первом шаге. Используя эти обновленные значения параметров для создания нового набора уравнений регрессии,второй I-шаг производит новый набор оценочных значений, которые также отличаются отполученных, на предыдущем I-шаге. Повторяя этот двухступенчатый процесс много раз,получаем несколько копий набора данных, каждый из которых содержит уникальные оценки пропущенных значений.

Analysesphase

На данном этапе каждая база данных, с заполненными пропусками сгенерированными значениями, статистически анализируется с помощью одинаковых техник, которые использовались бы, если данные были бы полные изначально. Таким образом, данная фаза определяется исследовательским вопросом.

Poolingphase

На финальной стадии полученные оценки и их стандартные ошибки усредняются. Согласно Дональду Рубину (1987) агрегированные оценки параметров рассчитываются как среднее арифметическое оценок каждого набора данных. Агрегированные стандартные ошибки рассчитываются с помощью внутригрупповой и межгрупповой дисперсий.

Внутригрупповая дисперсия:

W =

где t - индекс каждого набора данных, а m-общее число таких наборов.

Межгрупповая дисперсия:

B = ,

где оценка необходимого нам в целях исследовательского вопроса параметра набора данных t, - среднее значение оценок параметра по всем наборам данных (агрегированное среднее).

В итоге агрегированная стандартная ошибка оценки параметра равна:

SE =

Одной из проблем методов однократной подстановки является то, что они недооценивают стандартные ошибки, поскольку считают подставленные значения реальными данными. Метод множественного восстановления данных борется с этой проблемой путем включения межгрупповой дисперсии в стандартную ошибку (этот член представляет собой дополнительный шум, который является результатом подстановки в набор данных с разными оценками пропущенных значений). Таким образом, стандартные ошибки, полученные методом множественного восстановления, учитывают тот факт, что восстановленные значения являются подверженными ошибкам догадками об истинных значениях пропущенных данных.

Метод максимального правдоподобияиспользует все доступные данные как полные, так и неполные. Неизвестные данные определяются таким образом, чтобы они как можно лучше согласовывались с уже имеющимися данными.

Метод максимального правдоподобия состоит из двух шагов: Expectation (E-шаг) и Maximization(M-шаг) - EMалгоритм. На первом шаге пропущенные значения заполняются условными ожиданиями этих значений, заданных исследуемыми данными и начальными оценками ковариационной матрицы.

Для иллюстрации первого шага предположим, что вектор средних и ковариационная матрица, и = (µ, У), найдены для матрица данных (Y)nxk, которая содержит наблюдаемые (Yobs) и пропущенные (Ymis) значения. Используя Yobsи текущие оценки параметров и(t), получаем, что вычисления статистик в t-итерации на E-шаге выглядит следующим образом:

= j=1,…,K

= j=1,…,K

где

,

.

На втором шаге, на основе существующих и подставленных ожидаемых значений максимизируется функция правдоподобия. Данная процедура оценивает вектор средних значений и ковариационную матрицу, используя оценки, полученные на первом шаге. Полученные значения ковариационной матрицы и коэффициентов регрессии на шаге M затем используются для выведения новых оценок пропущенных данных на шаге E. Данный алгоритм повторяется до тех пор, пока разница между ковариационными матрицами в последующих шагах Mне достигнет определенного уровня, задаваемого необходимым уровнем точности. Таким образом, в результате решение приходит к локальномумаксимуму логистической вероятности математического ожидания наблюдаемых значений.

2. Сравнение методов восстановления данных для оценки предпринимательских намерений

2.1 Анализ неполных данных

Каждый год, в рамках AdultPopulationSurvey, TheGlobalEntrepreneurshipMonitor (GEM) проводит сотни тысяч интервью с людьми во всем мире, что дает понимание о предпринимательстве на мировом и национальном уровнях. GEM - это новый и очень важный инструмент для исследования предпринимательской деятельности разных стран.

В настоящем исследовании будут использованы данные базы GEM, а именно результаты опроса населения России в возрасте от 18 до 64 лет за 2013 год. В целом выборка составляет 1909 наблюдений.

Согласно Теории запланированного поведения и Теории попыток, в модель исследования предпринимательских намерений россиян включены такие факторы, как:

1. Личное отношение к предпринимательской деятельности:

a. Страх провала бизнеса. Если индивид боится провала собственного бизнеса, то вероятность, что он возьмет на себя риски, связанные с предпринимательством очень низкая.

b. Достижения в жизни. Если индивид не удовлетворен достижениями в своей жизни, он может рассматривать создание собственного бизнеса как вариант улучшения его жизни, самореализации.

c. Поиск работы. Неудовлетворенность своей трудовой деятельностью, вынуждающая искать новую работу, также может делать предпринимательскую деятельность привлекательной в глазах индивида.

2. Отношение окружающих:

a. Знакомство с начинающими предпринимателями. Возможные взаимодействия с предпринимателями могут дать знания необходимые для создания бизнеса.

b. Согласие с тем, что успешные предприниматели в России имеют высокий статус и Согласие с тем, что предпринимательство является хорошим карьерным выбором. Данные переменные отражают мнение окружающих, которое важно для человека, живущего в обществе. Одобрительно отношение положительно влияет на предпринимательские намерения.

3. Сложность ведения собственного бизнеса:

a. Возможности для нового бизнеса. Благоприятная среда в регионе проживания для создания бизнеса положительно влияет на предпринимательские намерения, поскольку облегчает данный процесс.

b. Наличие дополнительного дохода. Наличие дополнительной работы свидетельствует о нехватке денежных средств и усилиях для их приобретения. Таким образом, люди, имеющие дополнительный доход более вероятно будут рассматривать для себя создание собственного бизнеса, нежели те, которым хватает для обеспечения жизни основной работы.

c. Предпринимательские навыки. Уверенность в своих знаниях и навыках ведения собственного бизнеса положительно влияет на предпринимательские намерения.

4. Закрытие в последний год своего бизнеса. Независимо от того был прошлый опыт предпринимательства у индивида положительным или отрицательным, он дает понять все преимущества собственного бизнеса и ошибки, совершенные ранее, которые возможно будет избежать в будущем.

Также в модель данного исследования включен перекрестный эффект пола с переменными BSN_AsStatusи BSN_AsCareer в соответствии с результатами исследования SantosF.J. et. Al (2016).

В качестве контрольных переменных в модели использованы такие характеристики индивидов как пол, возраст и уровень образования.

Предварительным этапом в борьбе с пропущенными данными является их анализ. Рассмотрим полную выборку ответов россиян, которые не являются предпринимателями и владельцами бизнеса, за 2013 год.

Пропущенные данные распространены по всей выборке.Наибольшее количество пропусков данных присутствует в таких переменных, как возможности нового бизнеса (26% выборки), страх или недостаточные способности (13%), согласие с тем, что предпринимательство является хорошим карьерным выбором (11%), согласие с тем, что успешные предприниматели имеют высокий статус и пользуются уважением (11%). Пропущенные данные отсутствуют в контрольных переменных: пол, возраст, образование, и почти отсутствуют в переменной закрытия за последний год своего бизнеса - всего 1 пропущенное значение (количество пропущенных значений указано в Приложении 1).

Следующим этапом в анализе является проверка пропусков на случайность. На данном этапе будет определен их тип. Причиной неслучайных пропусков, как было рассмотрено ранее, являются сами их значения. В исследуемых данных пропуски в одном случае могут быть по объективной причине: те респонденты, которые ответили на вопрос о поиске работы положительно, должно быть не ответили на вопрос о дополнительном доходе помимо заработка с основной работы. Если предположение подтверждается, то целесообразно рассматривать отдельно тех, кто находится в поиске работы, и тех, кто ее имеют. Чтобы проверить это, необходимо вычислить, сколько пропусков значений фактора дополнительного дохода находится в подвыборке респондентов, которые ищут работу. В результате получили, что их количество равно всего 6, что является 10% всех пропусков в этой переменной. Таким образом, предположение о неслучайности не подтверждается.

Пропуски в остальных переменных также являются случайными. Далее необходимо определить к какому типу они относятся: MARили MCAR. Для этого создадим новые переменные для каждого фактора, в которых значения будут равны 1, если в наблюдении стоит пропуск, и 0 в обратном случае. Далее строятся регрессии зависимости каждой новой бинарной переменной от остальных имеющихся факторов. При обнаружении значимости какого-либо фактора на созданную переменную, отвечающую за наличие пропусков, приходим к выводу, что пропуски в данной переменной не являются полностью случайными (MCAR). В таблице 1 представлены определенные значимые эффекты.

Табл.1. Зависимость пропусков от переменных

ПЕРЕМЕННЫЕ

(бинарные: 1 - пропущенное значение, 0 - нет)

Значимые эффекты остальных факторов

MV_FearFail

Gender

MV_LiveAchievment

-

MV_WorkSearch

EDU, LiveAchievement

MV_BSN_AsStatus

OpportForBSN

MV_BSN_AsCareer

LiveAchievement, MeetEntr

MV_OpportForBSN

FearFail

MV_SecondIncome

BSN_AsCareer

MV_SkillsAvailab

EDU, FearFail

Таким образом, значимые эффекты были выявлены. Однако в каждом отдельном случае в подгруппах пропуски случайно распределены. Например, в первом случае вероятность не ответить на вопрос о страхе провала бизнеса выше у мужчин, нежели чем у женщин. А отдельно среди мужчин и среди женщин пропуски случайны. В итоге, пропущенные данные в исследуемой базе данных являются MAR.На таких данных возможны все рассмотренные ранее методы восстановления.

2.2 Определение наиболее эффективного метода борьбы с пропущенными данными

Традиционно исследователи используют множество техник для борьбы с пропущенными данными. Наиболее распространенными являются метод удаления наблюдений с пропущенными данными и методы однократной подстановки. Однако считается, что данные методы приводят к смещенным оценкам. Для того чтобы выявить наиболее эффективный метод восстановления данных для оценки предпринимательской деятельности воспользуемся индивидуальными данными россиян базы GEM за 2013 год (Приложение 1 - описание данных). Из них создадим вспомогательную выборку - удалим все наблюдения с пропущенными данными, тем самым получим выборку с полными данными. Затем искусственно вновь создадим пропущенные данные по следующему алгоритму:

1) На вопрос «Можете ли вы сказать, что страх или недостаточные способности к предпринимательству могут препятствовать вам в организации бизнеса?» не ответили респонденты, которые согласились с тем, что они достигли всего, что хотели.

2) На вопрос «Можете ли вы сказать, что в следующие 6 месяцев в местности, где вы живете, будут хорошие условия для начала бизнеса?» не ответили респонденты, которые не считают создание нового бизнеса хорошим карьерным выбором.

Таким образом, будут созданы пропуски в тех переменных, в которых при изначальной выборке было больше всего пропущенных данных. Новые переменные приведены в таблице 2.

Табл.2. Созданные переменные с пропусками

Первоначальная переменная (в выборке с полными данными)

Новая переменная (с добавленными пропусками)

FearFail

FearFail_new

Да

Нет

Всего наблюдений

да

Нет

Всего наблюдений

Всего пропусков

428

618

1046

369

493

862

184

OpportForBSN

OpportForBSN_new

177

869

1046

154

509

663

383

На полученном массиве данных применим несколько методов восстановления данных, рассмотренных в предыдущей главе. Тот метод, который приведет к наиболее близким к истинным значениям, будет использован на всей изначальной совокупности данных. Метод подстановки среднего значения использован не будет поскольку он требует подстановки дробного значения, а переменные с пропущенными данными являются бинарными.

Подстановка с помощью регрессии

В данном случае вместо пропущенных данных проставляются предсказанные значения с помощью регрессии, где переменная с неполными данными выступает в качестве зависимой переменной, а переменные с полными данными - в качестве независимых. При этом регрессия строится на полных данных. Таким образом, на первом этапе метода вновь удаляются наблюдения с пропущенными данными.

1) FearFail

Поскольку зависимая переменная в данном случае является бинарной будут построены пробит и логит модели.

Pr{X=1}=F(y)

Логит: F(y) =

Пробит: F(y) = Ц0;1(y)

Оставив в регрессии только факторы, значимые на 10%-м уровне, получим следующее уравнение:

Logit:P (FearFail_new=1) = F(-0.142211 -0,3161131* LifeAchivement - 0,4378949*SecondIncome + 0.685994*BSN_AsStatus)

Probit: P(FearFail_new=1) = F(-0.0080661 - 0.1960339*LifeAchivement- 0.2660939*SecondIncome + 0.4239997*BSN_AsStatus)

Рассчитаем по данным уравнениям значения для пропусков и сравним результаты с исходными данными. Поскольку переменная может принимать только 2 значения: 0 или 1, необходимо определить пороговое значение вероятности. Рассчитаем долю правильно определенных как 0 или 1 данных при различных пороговых значениях вероятности на полных данных. Поскольку предсказанные значения с помощью логит и пробит моделей очень близкие (в среднем разница предсказанных по модели значений = 0,000027), результаты получились одинаковые. В соответствии с результатами, указанными в таблице 3, оптимальным пороговым значением вероятности является 0,5.

Табл.3. Выбор порогового значения вероятности

Логит/пробит модель (FearFail)

Пороговое значение вероятности

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

% правильно классифицированных

42.8

43.3

49.5

53.3

60.6

57.2

57.2

57.2

57.2

Таким образом, при значении вероятности больше и равное 0.5, пропущенное значение заполняется как 1. Восстановленные значения для переменной FearFail идентичны для логит и пробит моделей.

Табл.4. Сравнение результатов восстановления регрессионной подстановкой с истиннымизначениями переменной FearFail

Переменная

Кол-во наблюдений

Среднее

Стандартное отклонение

Корреляция с предпринимательскими намерениями

FearFail

1046

0.4092

0.4919

0.0065

FearFail_RI

1046

0.3528

0.4781

0.0139

В соответствии с результатами, приведенными в таблице 4, среднее значение получилось ниже истинного. Разница между значениями стандартных отклонений небольшая, при этом более низкое значение говорит о снижении вариативности данных. Значение корреляции получилось завышенным.

2) OpportForBSN

Проделав те же самые процедуры, получили уравнения регрессии:

Probit: P (OpportForBSN_new=1) = F(-1.412121 + 0.433708*MeetEntr + 0.1384645*LifeAchivement + 0.3481889*SkillsAvailab)

Logit: P (OpportForBSN_new=1) = F(-2.407393 + 0.7479105*MeetEntr+ 0.2479216*LifeAchivement + 0.5819029*SkillsAvailab)

При этом оптимальное значение пороговой вероятности равно 0.5в случае логит модели и 0.4 в случае пробит модели. Восстановленные значения как и в предыдущем случае идентичны в логит и пробит моделях.

Сравним результаты с истинными значениями (Табл. 5).

Табл.5. Сравнение результатов восстановления регрессионной подстановкой с истинными значениями переменной OpportForBSN

Переменная

Кол-во наблюдений

Среднее

Стандартное отклонение

Корреляция с предпринимательскими намерениями

OpportForBSN

1046

0.1692

0.3751

0.0989

OpportForBSN_RI

1046

0.1472

0.3545

0.0815

Значения среднего и стандартного отклонения, значение корреляции ниже истинных значений.

Стохастическая регрессионная подстановка

Как и в предыдущем методе вместо пропущенных данных проставляются предсказанные регрессией значения, однако к этим значениям добавляются случайные ошибки, сгенерированные с нормальным распределением, где среднее равно нулю, а дисперсия равна дисперсии остатков из полученной ранее регрессии.

В регрессии, определяющей фактор FearFail, дисперсия остатков в логит модели = 0,7748, пробит модели = 0,7856, а в регрессии, где зависимая переменная - OpportForBSNв логит модели =1,2079, в пробит = 1,2048. Сгенерированные случайные ошибки добавим следующим образом:

Logit:P (FearFail_new=1) = F(-0.142211 -0,3161131* LifeAchivement - 0,4378949*SecondIncome + 0.685994*BSN_AsStatus+err_FF_l)

Probit: P(FearFail_new=1) = F(-0.0080661 - 0.1960339*LifeAchivement - 0.2660939*SecondIncome + 0.4239997*BSN_AsStatus+err_FF_pr)

Probit: P (OpportForBSN_new=1) = F(-1.412121 + 0.433708*MeetEntr + 0.1384645*LifeAchivement + 0.3481889*SkillsAvailab+err_Opp_pr)

Logit: P (OpportForBSN_new=1) = F(-2.407393 + 0.7479105*MeetEntr+ 0.2479216*LifeAchivement + 0.5819029*SkillsAvailab+err_Opp_l)

Рассмотрим полученные результаты и сравним их с предыдущими.

Табл.6. Сравнение результатов применения традиционных методов восстановления для переменной FearFail

Переменная

Кол-во наблюдений

Среднее

Стандартное отклонение

Корреляция с предпринимательскими намерениями

FearFail

1046

0.4092

0.4919

0.0065

FearFail_RI

1046

0.3528

0.4781

0.0139

FearFail_SRI_l

1046

0.3738

0.4840

0.0065

FearFail_SRI_pr

1046

0.3939

0.4888

0.0239

Стохастическая регрессионная подстановка в обоих случаях дала более близкие к истинным значения среднего и стандартного отклонения. Значение корреляции с предпринимательскими намерениямив случае логит модели получилось равным истинному, а в случае пробит модели значительно превысило его.

Табл.7. Сравнение результатов применения традиционных методов восстановления для переменной OpportForBSN

Переменная

Кол-во наблюдений

Среднее

Стандартное отклонение

Корреляция с предпринимательскими намерениями

OpportForBSN

1046

0.1692

0.3751

0.0989

OpportForBSN_RI

1046

0.1472

0.3545

0.0815

OpportForBSN_SRI_l

1046

0.1836

0.3873

0.0591

OpportForBSN_SRI_pr

1046

0.2457

0.4307

0.0705

В данном случае ближе кистинным получились значения среднего и стандартного отклонения стохастической регрессионной подстановки при логит модели. Сравним также количество ошибок, которые могут быть двух типов: 1) восстановленное значение 0 при истинном значении 1; 2) восстановленное значение 1 при истинном значении 0.

Табл. 8.1 Ошибки в восстановленных значениях переменной FearFailметодом стохастической регрессионной подстановки (логит модель)

Fearoffailure:

1=yes

0=no

FearFail_SRI_l

Total

0

1

0

602

16

618

1

53

375

428

Total

655

391

1046

Табл. 8.2. Ошибки в восстановленных значениях переменной FearFailметодом стохастической регрессионной подстановки (пробит модель)

Fearoffailure:

1=yes

0=no

FearFail_SRI_pr

Total

0

1

0

595

23

618

1

39

389

428

Total

634

412

1046

Табл. 8.3. Ошибки в восстановленных значениях переменной FearFailметодом регрессионной подстановки

Fearoffailure:

1=yes

0=no

FearFail_RI

Total

0

1

0

618

0

618

1

59

369

428

Total

677

369

1046

Всего в сумме ошибок обоих типов в случае регрессионной подстановки - 59, в случае стохастической регрессионной подстановки - 69 (логит) / 62 (пробит). При этом при простой регрессионной подстановке совсем нет ошибок 2-го типа.

Табл. 8.4. Ошибки в восстановленных значениях переменной OpportForBSNметодом стохастической регрессионной подстановки (логит модель)

ExpectationsofgoodconditionsfordoingBSN:

1=yes

0=no

OpportForBSN_SRI_l

Total

0

1

0

835

34

869

1

19

158

177

Total

854

192

1046

Табл. 8.5. Ошибки в восстановленных значениях переменной OpportForBSNметодом стохастической регрессионной подстановки (пробит модель)

ExpectationsofgoodconditionsfordoingBSN:

1=yes

0=no

OpportForBSN_SRI_pr

Total

0

1

0

777

92

869

1

12

165

177

Total

789

257

1046

Табл. 8.6. Ошибки в восстановленных значениях переменной OpportForBSNметодом регрессионной подстановки

ExpectationsofgoodconditionsfordoingBSN:

1=yes

0=no

OpportForBSN_RI

Total

0

1

0

869

0

869

1

23

154

177

Total

892

154

1046

В переменной видения возможностей для начала бизнеса ошибок обоих типов незначительно меньше при простой регрессионной подстановке = 23. При стохастической регрессионной подстановке при логит модели количество ошибок = 53, пробит = 104. Таким образом в случае данной переменной показатели пробит модели стохастической регрессионной подстановки значительно хуже остальных.

Метод множественного восстановления

Данный метод в отличие от предыдущих генерирует несколько значений пропущенной величины. В данный работе на практике применен только данный метод, из рассмотренных современных методов. Вработе «ComparisonofMethodsofHandlingMissingData: ACaseStudyofKDHS 2010 Data» авторамибылодоказано, чтовслучаеданныхпропущенных случайно (MAR) и при достаточно большой доле таких пропусков, метод множественного восстановления более предпочтителен нежели метод максимизации ожиданий.

Данный процесс был выполнен в статистическом пакете STATA. При этом второй и третий шаги в функции пакета объединены в один. Таким образом, на первом шаге восстановления данных STATA генерирует m баз данных, а на втором оценивает их и усредняет коэффициенты, полученные на основе модели исследовательского вопроса. Количество баз m рекомендуется устанавливать минимум 20. John W. Graham (2007) в своей работе разработал рекомендации по количеству восстанавливаемых баз для различной доли пропущенных значений. В настоящей работе было определено m = 20, что соответствует доли пропусков = 30% (36% данных пропущено в переменной возможностей старта бизнеса).

Поскольку результатом восстановления данных являются коэффициенты и стандартные ошибки модели исследовательского вопроса, данные оценки были выявлены на полных данных, для данных, восстановленных с помощью регрессионной подстановки, стохастической регрессионной подстановки.

Тип регрессии complementarylog-logвыбран поскольку значения зависимой переменной являются ассиметрично распределенными. Так нулевых значений данной переменной 1018, что равно примерно 97% выборки.

В соответствии с таблицей 9 коэффициенты перед восстанавливаемой переменной страха наиболее близкие к истинным значения получились в случае регрессионной подстановки и множественного восстановления. Метод удаления дал намного превышающий результат. В случае переменной возможностей создания бизнеса наиболее близкие результаты показали метод удаления, метод регрессионной подстановки и метод множественного восстановления.

Таким образом, если рассматривать именно восстанавливаемые переменные, то наиболее эффективными оказались метод регрессионной подстановки и метод множественного восстановления. Если рассматривать все остальные коэффициенты перед другими переменными, то нельзя точно сказать, какой метод из данных двух дал более близкие результаты. Однако если рассматривать факторы значимые на 5%-м уровне, то наиболее эффективным методом оказался метод множественного восстановления.

Коэффициенты перед восстанавливаемой переменной страха наиболее близкие к истинным значения получились в случае регрессионной подстановки и множественного восстановления. Метод удаления дал намного превышающий результат. В случае переменной возможностей создания бизнеса наиболее близкие результаты показали метод удаления, метод регрессионной подстановки и метод множественного восстановления.

Табл. 9. Сравнение результатов построения регрессий по исследовательскому вопросу

INTEN-TIONS

Модель с полными данными

Метод удаления

Регрессионная подстановка

Стохастическая регрессионная подстановка

Множественная подстановка

Логит модель

Пробит модель

Gender

0,192

 

-1,074

 

0,151

 

0,079

 

0,075

 

0,121

 

(0,939)

 

(1,179)

 

(0,937)

 

(0,936)

 

(0,937)

 

(0,940)

 

Age

-0,003

 

-0,017

 

-0,004

 

-0,005

 

-0,004

 

-0,004

 

(0,016)

 

(0,021)

 

(0,016)

 

(0,016)

 

(0,016)

 

(0,016)

 

FearFail

0,189

 

0,354

 

0,186

 

0,054

 

0,354

 

0,196

 

(0,397)

 

(0,483)

 

(0,410)

 

(0,398)

 

(0,389)

 

(0,426)

 

LifeAchi-vement

-0,198

 

0,125

 

-0,165

 

-0,180

 

-0,156

 

-0,184

 

(0,194)

 

(0,365)

 

(0,202)

 

(0,198)

 

(0,197)

 

(0,194)

 

Work-Search

1,176

**

1,586

**

1,145

*

1,157

**

1,192

**

1,171

**

(0,572)

 

(0,706)

 

(0,572)

 

(0,573)

 

(0,575)

 

(0,576)

 

StopBSN

1,619

**

1,590

 

1,512

*

1,415

*

1,524

*

1,529

**

(0,788)

 

(0,706)

 

(0,783)

 

(0,780)

 

(0,781)

 

(0,788)

 

MeetEntr

1,103

**

1,686

**

1,134

**

1,173

**

1,105

**

1,106

**

(0,481)

 

(0,661)

 

(0,482)

 

(0,483)

 

(0,485)

 

(0,487)

 

BSN_As-Status

-1,548

**

-1,495

*

-1,542

**

-1,533

**

-1,557

**

-1,546

**

(0,680)

 

(0,767)

 

(0,680)

 

(0,680)

 

(0,680)

 

(0,682)

 

m_status

2,237

**

1,312

 

2,239

**

2,269

**

2,285

**

2,238

**

(1,002)

 

(1,322)

 

(1,003)

 

(1,003)

 

(1,001)

 

(1,006)

 

BSN_As-Career

1,359

 

(omit.)

 

1,295

 

1,416

 

1,518

 

1,497

*

(0,883)

 

 

 

(0,892)

 

(0,880)

 

(0,878)

 

(0,884)

 

m_career

-1,876

*

(omit.)

 

-1,827

*

-1,763

 

-1,781

*

-1,799

*

(1,078)

 

 

 

(1,077)

 

(1,074)

 

(1,068)

 

(1,095)

 

OpportForBSN

0,848

*

0,810

 

0,649

 

0,340

 

0,613

 

0,658

 

(0,439)

 

(0,515)

 

(0,471)

 

(0,440)

 

(0,413)

 

(0,492)

 

Second-Income

-0,001

 

0,295

 

0,009

 

0,017

 

0,021

 

0,053

 

(0,480)

 

(0,597)

 

(0,480)

 

(0,480)

 

(0,480)

 

(0,482)

 

Skills-Availab

0,945

**

0,267

 

0,982

**

1,001

**

0,978

**

0,972

**

(0,449)

 

(0,538)

 

(0,449)

 

(0,450)

 

(0,451)

 

(0,450)

 

EDU2

0,112

 

0,087

 

0,108

 

0,101

 

0,105

 

0,111

 

(0,629)

 

(0,747)

 

(0,628)

 

(0,629)

 

(0,628)

 

(0,629)

 

EDU3

-0,972

*

-1,176

 

-0,977

*

-0,969

*

-1,001

*

-0,974

*

(0,578)

 

(0,737)

 

(0,577)

 

(0,579)

 

(0,577)

 

(0,579)

 

EDU4

-0,187

 

-0,320

 

-0,213

 

-0,215

<...

Подобные документы

  • Сущность и содержание управленческого учета, его методы, способы и основополагающие принципы. Экономические методы, которые выделяют при принятии предпринимательских решений. Основные принципы управленческого учета в предпринимательской деятельности.

    курсовая работа [490,4 K], добавлен 07.04.2014

  • Сущность и содержание управленческих решений, их классификация и типы, подходы и методы их разработки и принятия. Ограничения и критерии оценки данного процесса, и влияющие на него факторы. Определение метода бинарных сравнений, условия использования.

    курсовая работа [240,4 K], добавлен 12.04.2016

  • Характерные черты квалитативного исследования данных. Особенности применения индексного метода при изучении сложных явлений, отдельные элементы которых неизмеримы. Анализ необходимости сбора управленческой информации. Методы сравнения и элиминирования.

    презентация [522,8 K], добавлен 14.10.2014

  • Оценка структуры баланса предприятия. Анализ реальных возможностей восстановления платежеспособных организации. Определение вероятности наступления кризиса по модели У. Бивера. Особенности оценки рискованности бизнеса. Общая рентабельность активов.

    контрольная работа [50,3 K], добавлен 06.05.2015

  • Понятие и виды стресса, причины его возникновения и негативные последствия для жизни человека. Рекомендации для минимизации уровня стрессов в рабочем коллективе. Методы и принципы восстановления психического равновесия в условиях кризисной ситуации.

    курсовая работа [1,6 M], добавлен 29.04.2012

  • Характеристика и основные отличительные особенности методик и теорий управления, представленных учеными разных эпох: директивная и недирективная модель, кооперативная и другие. Оценка достоинств и недостатков данных моделей, критерии и факторы их выбора.

    реферат [24,2 K], добавлен 02.02.2010

  • Определение понятия информации как основного условия конкурентной способности организации. Основные виды управленческой информации, ее источники и этапы обмена данными. Использование локальных компьютерных систем для работы с данными и методы их защиты.

    реферат [59,3 K], добавлен 19.02.2012

  • Контрольный листок (форма для регистрации и подсчета данных) как один из инструментов контроля качества. Основные достоинства метода: легкость применения, систематизация данных, применение единой формы для регистрации. Сущность метода стратификации.

    презентация [134,9 K], добавлен 29.05.2015

  • Сущность риск-менеджмента, его основное содержание и принципы организации. Классификация и разновидности рисков, их сравнительная характеристика, методы снижения и управления. Анализ предпринимательских рисков на предприятии, способы их минимизации.

    курсовая работа [46,5 K], добавлен 23.08.2014

  • Экспертные оценки: общее понятие, функции в системе управления. Достоинства метода рангов. Метод последовательного сопоставления. Достоинства "мозговой атаки". Моделирование деловых игр. Обработка экспериментальных данных. Коэффициент конкордации.

    контрольная работа [33,5 K], добавлен 21.01.2015

  • Понятия, этапы создания и реализации инновационного проекта. Основные показатели его эффективности. Содержание, методы, процедура оценки и отбора проекта. Критерии, связанные со стратегией и политикой корпорации. Определение срока окупаемости инвестиций.

    курсовая работа [89,1 K], добавлен 29.06.2010

  • Сущность риск-менеджмента, особенности оценки системы. Классификация рисков предпринимательской деятельности, методы управления. Анализ эффективности риск-менеджмента и разработка рекомендаций по его совершенствованию (на примере ООО "Столичные Огни").

    дипломная работа [549,2 K], добавлен 04.06.2012

  • Квалиметрия как наука, ее роль в управлении качеством. Концептуальные положения и задачи современной квалиметрии. Показатели качества продукции. Методы квалиметрии, используемые для оценки уровня качества, их особенности, условия и области применения.

    курсовая работа [40,2 K], добавлен 14.02.2012

  • Оценка управленческого персонала: цели и подходы. Система и методы оценки управленческого персонала на предприятии. Количественные методы оценки : экспертные оценки. Качественные методы оценки. Применение комплексной оценки управленческого персонала.

    курсовая работа [60,9 K], добавлен 06.10.2006

  • Характеристика и направления деятельности ОАО "ИПП "Курск", определение внешних условий и основных потребителей продукции. Положение дел в отрасли, анализ и оценка конкурентов. Финансовое положение предприятия и меры по восстановлению платежеспособности.

    курсовая работа [113,8 K], добавлен 16.07.2010

  • Методы изучения структуры затрат рабочего времени руководителя. Содержание, назначение и условия применения. Сущность управления, его функции и специфика в производстве. Эффективность социального управления. Технологические схемы оценки эффективности.

    реферат [24,9 K], добавлен 21.11.2013

  • Содержание, основные этапы и методы оценки персонала в системе управления организацией, а также современные подходы к подобному процессу. Изучение главных проблем и разработка способов совершенствования данной системы в муниципальном учреждении.

    дипломная работа [699,9 K], добавлен 21.07.2011

  • Проведение корреляционного анализа данных и оценка полученных результатов. Особенности и условия, возможности применения статистического приемочного контроля поставщиком и потребителем, а также продукции по количественному и альтернативному признаку.

    курсовая работа [1,1 M], добавлен 16.12.2014

  • Виды оценки персонала в сравнительном анализе. Наиболее эффективные методы сравнительного анализа в организациях здравоохранения. Оценка подбора и расстановки персонала. Мотивация и компенсации, обучение и развитие кадров. Работа с кадровым резервом.

    курсовая работа [329,4 K], добавлен 04.06.2013

  • Рассмотрение проблемы эффективного управления имуществом государства. Определение понятия и видов унитарных предприятий, планирования их деятельности, а также особенностей правового статуса имущества. Раскрытие основ финансирования данных организаций.

    контрольная работа [26,9 K], добавлен 13.05.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.