Классификация методов обработки статистических данных с пропусками

Методы восстановления пропусков данных, их классификация. Выявление основных достоинств и недостатков каждого из методов для выбора наиболее оптимального, согласно имеющимся у исследователя исходных данных, технических возможностей и целей исследования.

Рубрика Математика
Вид статья
Язык русский
Дата добавления 30.01.2018
Размер файла 74,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ФГБОУ ВПО «Оренбургский государственный университет»

КЛАССИФИКАЦИЯ МЕТОДОВ ОБРАБОТКИ СТАТИСТИЧЕСКИХ ДАННЫХ С ПРОПУСКАМИ

Рыженкова Кира Викторовна, к.э.н., доцент кафедры статистики и эконометрики

Оренбург

Зачастую при проведении социально-экономических и социологических исследований приходится сталкиваться с проблемой обработки пропусков в массивах данных. Традиционными причинами, приводящими к появлению пропусков, являются невозможность получения или обработки, искажение или сокрытие информации.

Большинство известных статистических методов анализа данных не могут обрабатывать такую информацию. Поэтому явно или неявно возникает необходимость в процедуре заполнения данных - процедуре предобработки.

Следует отметить, что, рассматривая данные проблемы, невозможно говорить ни об истинных значениях данных, ни даже о статистической доказательности, но только о правдоподобии. Особую трудность описанные задачи имеют в тех случаях, когда плотность пробелов высока, расположены они нерегулярно, а данных немного, например, число строк таблицы примерно равно числу столбцов.

Возможность использования методов разной степени сложности связана с тем, насколько простым или сложным является механизм, согласно которому данные оказываются пропущенными. Будем называть пропуски в данных полностью случайными (data are missing completely at random - MCAR), если условная вероятность не зависит ни от yi, ни от прочих y (то есть эта вероятность постоянна для всех наблюдений, и наблюдаемые yi являются случайной подвыборкой тех yi, которые должны были получиться в эксперименте). Пропуски в данных называются случайными (missing at random - MAR), если вероятность не зависит от yi, но может зависеть от других y. В таких случаях механизм пропусков несущественен (ignorable), и к данным применимы вариации методов восстановления пропусков. Наконец, если зависит от самого yi, то механизм пропусков является существенным (non-ignorable), и для корректного анализа данных необходимо знать этот механизм. Введенные понятия относятся к отдельным переменным, и в пределах одной и той же базы данных можно, в принципе, наблюдать все приведенные варианты. Можно построить тесты, отличающие MAR от MCAR, однако по данным невозможно отличить, являются ли они MAR, или же механизм пропусков существенен [4].

Данные вопросы были рассмотрены нами в работе [7], на данном этапе исследования была осуществлена классификация методов восстановления пропусков данных, а так же выявлены основные достоинства и недостатки каждого из методов.

Классификация методов представлена в виде схемы, изображенной на рисунке 1:

Рисунок 1 - Классификация методов восстановления пропусков данных

I. Первый возможный подход к обработке данных с пропусками - это исключение некомплектных объектов. Данный метод легко реализуется, но необходимым условием его применения является следование данных требованию MCAR. Кроме того, необходимо, чтобы количество пропусков было небольшим, иначе происходят сильные смещения, кроме того, как показывает практика, данный метод не очень эффективен.

II. Альтернативным подходом, реализованным в большом числе алгоритмов, является подход с заполнением пропусков. Наряду с очевидными преимуществами данного подхода ему присущи недостатки: опасность этого подхода в том, что он не позволяет отличать ситуации, где задача не очень трудна и может быть корректно решена таким способом, от ситуаций, где обычные оценки по реальным и подставленным данным сильно смещены [3].

Выделяют следующие два принципиальных недостатка данного подхода:

- во-первых, параметры для алгоритма заполнения пропусков вычисляются по присутствующим данным, что вносит зависимость между наблюдениями. Конечно, такой искусственной зависимости не возникает, если проводится заполнение константой или случайными значениями, не зависящими от присутствующих наблюдений в выборке, или методом подстановки без подбора. Но на практике эти методы представляют малую ценность. Зависимости можно также избежать, разделяя исходную выборку на две подвыборки и вычисляя подстановки (например, средневыборочные значения) для анализируемой подвыборки по значениям наблюдений во второй подвыборке. При таком подходе приходится жертвовать частью информации, чтобы заполнить пропущенные значения.

- во-вторых, распределение данных после заполнения будет отличаться от истинного, даже если пренебречь зависимостью, указанной выше. Этот факт особенно нагляден для простых методов заполнения (средневыборочных, по регрессии и т.п.). Различные варианты данных методов заполнения приведут к смеси истинного и вырожденных распределений с вырождением на гиперплоскостях, на которых располагаются предсказываемые значения.

Отметим, что анализ подобных полных данных стандартными методами неправомерен и приводит к таким недостаткам, как несостоятельность и смещенность оценок параметров. Однако методы данной группы широко применяются. Приведем особенности наиболее известных методов глобального заполнения (то есть заполнения с использованием данных всей выборки).

1. Заполнение средними по присутствующим значениям в выборке. Средние могут формироваться и внутри групп аналогично группам, образуемым для взвешивающих процедур. При таком подходе заполнение средними ведет к оценкам, сходным с оценками методами взвешивания при условии постоянства выборочных весов в классах взвешивания.

Метод заполнения средними реализуется просто, но он обладает нежелательными свойствами. Во-первых, правильные оценки дисперсий нельзя получить с помощью обычных формул для дисперсии, примененных к заполненным данным. Реально объем выборки занижен из-за отсутствия ответов, поэтому обычные формулы приводят к заниженной оценке истинной дисперсии. Во-вторых, величины, не линейные по данным, такие, как дисперсия или корреляция между двумя переменными, нельзя состоятельно оценить с помощью стандартных методов для полных данных, если их применить к заполненным данным. В-третьих, подстановка средних искажает эмпирическое распределение значений Y, что важно при исследовании распределения Y по гистограммам или по другим графикам, отображающим данные. Аналогичная проблема возникает, если значения Y объединены в группы для образования частотной таблицы, потому что пропуски в группах заполняются общим средним значением и, следовательно, относятся в результате к одной и той же группе Y.

2. Процедуру заполнения пропусков с (пристрастным) подбором можно, в общем, описать как метод, при котором подстановка выбирается для каждого пропущенного значения по оценке распределения в отличие от заполнения пропусков средними, когда подставляется среднее распределения. В большинстве приложений эмпирическое распределение задается присутствующими значениями, поэтому при заполнении с подбором подставляются различные значения из данных для сходных объектов без пропусков. Заполнение с подбором широко распространено. Оно может включать очень сложные схемы отбора объектов. Недостаток метода - выявление распределения обрабатываемой генеральной совокупности данных по полученной выборке комплектных данных. Хотя практика подтвердила достоинства этого метода, литературы, посвященной его теоретическим свойствам, явно недостаточно.

3. Заполнение без подбора. Пропуск заполняется постоянным значением из внешнего источника, например значением предыдущего наблюдения из этого же обследования. Как и при замене, полученные данные принято рассматривать как полную выборку, т. е. последствия заполнения игнорируют. Удовлетворительной теории анализа данных, полученных при заполнении без подбора, не существует.

4. Замена - метод обработки пропусков на этапе сбора данных при обследовании. Он состоит в замене объекта с отсутствием ответа на другой объект, не включенный в выборку. Например, если невозможен опрос домовладельца, то можно опросить его соседа, не включенного в списки опрашиваемых. Было бы неверно рассматривать получаемую таким образом выборку как полную, поскольку те, кто дает ответы, могут систематически отличаться от тех, кого не удается опросить. Поэтому при анализе следует рассматривать эту замену как заполнение определенного вида.

5. Заполнение по регрессии основано на замене пропуска значением, подставляемым при заполнении по регрессии, в сумме с остатком, отражающим неопределенность предсказываемого значения. Заполнение средними можно рассматривать как частный случай заполнения по регрессии, если считать предикторами фиктивные переменные, указывающие группу, внутри которой происходит подстановка средних. Регрессионное заполнение является, по существу, модельным методом [2]. При нормальной линейной регрессионной модели естественны нормальные остатки с нулевым средним и дисперсией, равной остаточной дисперсии регрессии. При бинарной переменной, как в логистической регрессии, предсказываемое значение - вероятность наблюдения 1 или 0, а подставляемые значения (1 или 0) выбираются с этой вероятностью.

6. Метод сплайн-интерполяции - обоснованный математически метод интерполяции, показывающий хорошие результаты. Для успешного применения необходимо, чтобы данные следовали условию MAR. Недостатки метода следуют из самой его идеи. Например, в случае восстановления группы пропусков, следующих подряд друг за другом, результат аппроксимации сплайном данной группы не всегда может дать оценки, приближающиеся с достаточной точностью к значениям, которые могли бы быть на месте пропусков [4].

7. При методах многократного заполнения пропуск заполняется несколькими значениями. Основное их преимущество в том, что они преодолевают недостаток методов однократного заполнения в смысле большего разброса дисперсии оценки; посылки применимости данного метода полностью определяются используемыми методами формирования множества вариантов восстановления пропуска. Существенный недостаток методов однократного заполнения заключается в том, что обычные формулы приводят для заполненных данных к систематически заниженным оценкам дисперсии оценок, даже если верна модель, применяемая для вычисления подставляемых значений. При многократном заполнении получаются правильные оценки дисперсии, которые можно получать обычными методами анализа полных данных [5].

8. Составные методы основаны на идеях нескольких методов. Например, можно объединить заполнение с подбором и заполнение по регрессии, вычисляя предсказываемое регрессией значение и добавляя затем остаток, случайно выбираемый из эмпирических остатков для предсказанных величин при формировании значений для подстановки.

10. Метод Бартлета имеет следующие полезные свойства. Во-первых, он неитеративный, следовательно, снимается вопрос о сходимости. Во-вторых, если структура пропусков обладает вырожденностью (например, в том случае, когда нельзя оценить некоторые параметры, как при отсутствии всех значений для какой-то обработки), этот метод «предупреждает» исследователя, тогда как итеративные методы приводят к ответу, возможно, недопустимому. Еще одно достоинство заключается в том, что метод, как указано выше, дает не только правильные оценки и остаточные суммы квадратов, но и верные стандартные ошибки, суммы квадратов, F- критерии [5].

11. МП-оценивание (EM-алгоритм) - относится к категории методов моделирования. Особенность данных методов - построение модели порождения пропусков с последующим получением выводов на основании функции правдоподобия, построенной при условии справедливости данной модели, с оцениванием параметров методами типа максимального правдоподобия. Отметим, что если другие методы восстановления пропусков требуют, чтобы данные отвечали условию MAR (или MCAR как более жесткому), то для данных методов возможно построение моделей, учитывающих конкретную специфику области, как следствие, возможна постановка более слабых условий к данным. Недостаток - необходимость построения модели порождения пропусков [1].

12. Использование методов факторного анализа. Особенности метода: отсутствие требования априорного заполнения пропусков, необходимость в предварительной нормировке данных, наличие требований факторного анализа. В случае использования нелинейных моделей данных метод имеет очевидное преимущество по сравнению с регрессионными методами. В связи с большим количеством шагов алгоритма данному методу присуща некоторая трудоемкость реализации.

13. Использование методов кластерного анализа. Особенность метода - его применение не опирается на какую-либо вероятностную модель, но при этом оценить его свойства в статистических терминах не представляется возможным. Однако данный метод обладает существенным достоинством, а именно, он позволяет указать предпочтительный порядок восстановления данных и выявить случаи, когда пропуски не могут быть восстановлены по имеющимся данным [4]. восстановление пропуск исследование

14. Как один из подходов к восстановлению данных используются нейросетевые методы. Основными условиями применения данного метода как и во многих других случаях являются: между данными должна прослеживаться причинно-следственная (вероятностная) связь, количество существующих наблюдений, по которым восстанавливаются пропуски, не должно быть малым. Если данные сильно зашумлены и искажены, обладают большой долей пропусков, то результат восстановления, естественно, будет некорректен: здесь как нельзя более ясно работает правило "мусор на входе - мусор на выходе". Однако даже в такой ситуации описываемый алгоритм будет искать закономерности в присутствующих данных и осуществлять восстановление пропусков, в отличие от других методов, для которых в подобной ситуации пропуск заполняется совершенно фантастическими значениями.

15. Локальные алгоритмы восстановления пропусков. Алгоритмы семейства Zet (Wanga), по сути, являются детально проработанной и апробированной технологией верификации экспериментальных данных, основанной на гипотезе их избыточности. Внешне они сходны с методом локального заполнения. Данные алгоритмы хорошо показали себя, но необходимость задания ряда важных параметров приводит к необходимости убедиться в правдоподобности восстановленных значений [6].

Рассмотренные методы восстановления пропусков в массивах данных позволяют выбрать наиболее оптимальный, согласно имеющимся у исследователя исходным данным, техническим возможностям и целям исследования.

Список литературы

1. Браверман, Э. М., Мучник, И. Б. Структурные методы обработки эмпирических данных / Э. М. Браверманн, И. Б. Мучник. - 2-е изд., перераб. и доп. - М. : «ЁЁ Медиа», 2012. - 464 с. - ISBN 978-5-458-31012-3.

2. Дрейпер, Н., Смит, Г. Прикладной регрессионный анализ. Множественная регрессия / Н. Дрейпер, Г. Смит. - 3-е изд. - М. : «Диалектика», 2007. - 912 с. - ISBN 0-471-17082-8.

3. Злоба, Е., Яцкив, И. Статистические методы восстановления пропущенных данных / Е. Злоба, И. Яцкив - Латвия : Инст. транспорта и связи, 2002. - 61 с.

4. Круглов, В. В., Абраменкова, И.В. Методы восстановления пропусков в массивах данных / В. В. Круглов // Программные продукты и системы, 2005. - № 2. - С. 4.

5. Литтл, Р. Дж. А., Рубин Д. Б. Статистический анализ данных с пропусками : Пер.с англ. / Р. Дж. А. Литтл, Д. Б. Рубин - М. : Финансы и статистика, 1990. - 336 с. - ISBN 5-279-00443-X.

6. Россиев, А. А. Итерационное моделирование неполных данных с помощью многообразий малой размерности / А. А. Россиев - Красноярск : КГТУ, 2000. - 83 с.

7. Рыженкова, К.В. Методы восстановления пропуска данных при проведении статистических исследований / К.В. Рыженкова // Интеллект. Инновации. Инвестиции, 2011. № 3. - С. 127-133.

Размещено на Allbest.ru

...

Подобные документы

  • Табличный метод представления данных правовой статистики. Абсолютные и обобщающие показатели. Относительные величины, их основные виды и применение. Среднее геометрическое, мода и медиана. Метод выборочного наблюдения. Классификация рядов динамики.

    контрольная работа [756,5 K], добавлен 29.03.2013

  • Статистика – наука о массовых явлениях в природе и обществе; получение, обработка, анализ данных. Демографическая статистика, прогноз численности населения России. Методы обработки статистических данных: элементы логики, комбинаторики, теории вероятности.

    презентация [2,3 M], добавлен 19.12.2012

  • Методы исследования операций для количественного анализа сложных целенаправленных процессов. Решение задач методом полного перебора и оптимальной вставки (определение всевозможных расписаний, их очередности, выбор оптимального). Генератор исходных данных.

    курсовая работа [476,3 K], добавлен 01.05.2011

  • Изучение прямых методов решения вариационных и краевых задач математического анализа. Основные идеи методов Ритца и Галеркина для нахождения приближенного обобщенного решения задачи минимизации функционала. Особенности, сходство и отличие данных методов.

    презентация [187,9 K], добавлен 30.10.2013

  • Получение статистических данных для обобщенной характеристики состояния и развития явления. Виды, способы и организационные формы статистического наблюдения. Статистический формуляр, сводка и группировка данных. Статистические таблицы и графики.

    реферат [33,3 K], добавлен 12.11.2009

  • Основные этапы обработки данных натуральных наблюдений методом математической статистики. Оценка полученных результатов, их использование при принятии управленческих решений в области охраны природы и природопользования. Проверка статистических гипотез.

    практическая работа [132,1 K], добавлен 24.05.2013

  • Простейшие способы обработки опытных данных. Подбор параметров способом средних. Подбор параметров способом наименьших квадратов. Применение простейших способов обработки опытных данных к конкретным процессам.

    дипломная работа [63,9 K], добавлен 08.08.2007

  • Порядок преобразования исходных данных и построения математической модели оптимального плана доставки газет. Выбор метода решения и основные этапы его реализации. Принципы освоения и практического применения оптимизационного пакета прикладных программ.

    курсовая работа [235,0 K], добавлен 25.03.2017

  • Medsmooth и supsmooth, линейное сглаживание данных по трем, пяти и семи точкам. Численное дифференцирование исходных и сглаженных данных с помощью второй формулы Гаусса и Бесселя, первая и вторая производная. Вычисление коэффициентов обусловленности.

    лабораторная работа [205,8 K], добавлен 16.06.2014

  • Понятие и оценка необходимости в статистической обработке психологических данных. Методика и основные этапы математической обработки полученных данных, его критерии и параметры: признаки и переменные, шкалы измерения, анализ и оценка уровня значимости.

    презентация [443,1 K], добавлен 28.02.2014

  • Законы алгебры Буля и их применение для преобразования логических выражений. Расчет информационной емкости документов предметной области. Построение инфологической, реляционной и даталогической моделей. Применение методов поиска и сортировки данных.

    курсовая работа [261,7 K], добавлен 05.01.2013

  • Математические методы систематизации и использования статистических данных для научных и практических выводов. Закон распределения дискретной случайной величины. Понятие генеральной совокупности. Задачи статистических наблюдений. Выборочное распределение.

    реферат [332,8 K], добавлен 10.12.2010

  • Аппроксимация экспериментальных зависимостей методом наименьших квадратов. Правило Крамера. Графическое отображение точек экспериментальных данных. Аномалии и допустимые значения исходных данных. Листинг программы на С++. Результаты выполнения задания.

    курсовая работа [166,7 K], добавлен 03.02.2011

  • Определение математического ожидания и среднеквадратического отклонения с целью подбора закона распределения к выборке статистических данных об отказах элементов автомобиля. Нахождения числа событий в заданном интервале; расчет значения критерия Пирсона.

    контрольная работа [336,3 K], добавлен 01.04.2014

  • Математическая статистика как наука о математических методах систематизации статистических данных, ее показатели. Составление интегральных статистических распределений выборочной совокупности, построение гистограмм. Вычисление точечных оценок параметров.

    курсовая работа [241,3 K], добавлен 10.04.2011

  • Понятие о статистической сводке и группировке. Типологическая, аналитическая, структурная группировка. Понятие структурных сдвигов: сопоставление данных структурных группировок. Техника выполнения группировок: интервальные и дискретные вариационные ряды.

    контрольная работа [26,9 K], добавлен 23.07.2009

  • Первичный анализ и основные характеристики статистических данных. Точечные оценки параметров распределения. Доверительные интервалы для неизвестного математического ожидания и для среднего квадратического отклонения. Проверка статистических гипотез.

    дипломная работа [850,9 K], добавлен 18.01.2016

  • Классификация методов кластеризации и их характеристика. Метод горной кластеризации в Matlab. Возможная область применения кластеризации в различных предметных областях. Математическое описание метода. Пример использования метода на реальных данных.

    реферат [187,0 K], добавлен 28.10.2010

  • Характеристика основных методов определения высоты физических тел: с помощью вращающейся планки, теней предмета и человека, зеркала, чертежного прямоугольного треугольника. Суть каждого из методов, обоснование расчетов и используемых материалов.

    презентация [69,9 K], добавлен 17.04.2011

  • Применение в статистике конкретных методов в зависимости от заданий. Методы массовых наблюдений, группировок, обобщающих показателей, динамических рядов, индексный метод. Корреляционный и дисперсный анализ. Расчет средних статистических величин.

    контрольная работа [29,5 K], добавлен 21.09.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.