Описательные статистики

Концепция сжатия экспериментальных данных. Особенности распределения численностей. Требования к индикаторам, используемым для компактного описания исследовательской информации. Свойства показателей центральной тенденции, изменчивости и асимметрии.

Рубрика Экономика и экономическая теория
Вид реферат
Язык русский
Дата добавления 26.08.2015
Размер файла 63,0 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Реферат

на тему: "Описательные статистики"

1. Концепция сжатия экспериментальных данных

Графические представления распределения численностей очень существенно отличаются друг от друга. Однако у всех этих графиков существуют и общие характерные особенности, которые позволяют их сравнивать между собой.

Прежде всего видно, что все распределения группируются относительно некоторого центра. Для измерения положения этого центра существует группа показателей, носящих название мер центральной тенденции. К ним относятся средние (среднее арифметическое, среднее геометрическое, среднее гармоническое), мода и медиана.

Другой характерной особенностью распределений численностей является разброс экспериментальных значений относительно центра распределения. Количественная оценка этого разброса осуществляется с помощью мер рассеяния, важнейшими из которых являются размах, дисперсия, среднеквадратическое отклонение и коэффициент вариации.

Визуальный анализ графических изображений показывает, что некоторые распределения асимметричны, т.е. по обе стороны от центра расположено неравное количество значений, причем асимметрия может быть как право-, так и левосторонней. Наконец, графики некоторых распределений более заострены, а других - уплощены. Эти характерные особенности распределений экспериментальных данных - скошенность и островершинность - также могут быть описаны с помощью показателей асимметрии и эксцесса (островершинности).

Оказывается, что для описания практически любого встречающегося на практике распределения численностей достаточно этих четырех групп мер: показателей центральной тенденции, показателей рассеяния (вариации), показателей асимметрии и показателей эксцесса, вся совокупность которых получила название статистик свертки.

Эти статистики должны отвечать целому ряду интуитивно понятных требований. В самом деле, ясно, что когда множество результатов измерений редуцируется, т.е. описывается небольшим числом показателей, то естественно потребовать, чтобы эти показатели извлекали максимум содержащейся в данных информации. Это в свою очередь предъявляет определенные требования к статистикам свертки. Более подробно об этих требованиях будет говориться в главе 44, посвященной статистическому оцениванию. Здесь же попытаемся обсудить свойства статистик свертки и проблемы, которые при этом возникают, в содержательных понятиях.

Как указывалось выше, для оценки каждой из характерных особенностей распределений численности существует по несколько различных показателей. Отдельные из этих показателей позволяют извлечь из исходных данных разное количество информации в зависимости от формы кривой распределения, от объема экспериментальных данных и т.д. Естественно, для количественного описания распределения численностей в конкретных условиях нужно выбирать такие показатели, которые позволяют извлечь из имеющихся данных максимум информации. Такие показателями будут те, и это интуитивно понятно, которые по мере увеличения числа наблюдений все более точно описывают соответствующие особенности кривых распределений.

В каждом конкретном случае экспериментатор имеет дело с ограниченным числом данных, составляющих, как правило, небольшую часть объема данных, который мог бы быть получен при исследовании всех объектов, представляющих интерес для исследования. Причем с данными объектами, например, определенным видом животных или растений может работать как один исследователь в течение нескольких сезонов, так и целые группы ученых. В силу присущей природным объектам изменчивости получаемые каждый раз совокупности данных будут несколько отличаться как у одного, так и у разных экспериментаторов. Получаемые данные описываются некоторыми из упомянутых выше показателей. Естественно потребовать, чтобы вычисляемые показатели при работе с одними и теми же объектами отличались друг от друга как можно меньше. Так как для оценки какой-либо характерной особенности распределения численностей может быть использовано несколько показателей, то целесообразно выбрать тот, у которого разброс значения для множества совокупностей экспериментальных данных будет минимальным.

Приведенные соображения о свойствах показателей, с помощью которых можно сжато представлять весь объем опытных данных, должны учитываться при выборе тех из них, которые наилучшим образом соответствуют сформулированным требованиям и, следовательно, позволяют извлечь максимум информации из экспериментальных данных. К сожалению, в силу разных причин не всегда можно построить такие оценки, которые удовлетворяли бы указанным свойствам, поэтому приходится идти на компромисс.

Конечно, для всех используемых в математической статистике показателей теоретически исследованы их свойства, поэтому экспериментатору следует лишь знать и осмысленно выбирать наиболее подходящие из них.

Кроме приведенных соображений, в значительной мере представляющих интерес для теоретических статистических исследований, существует и ряд сугубо практических требований к показателям, используемым для более компактного описания экспериментальных данных. Некоторые из них мы перечислим.

Во-первых, любой из показателей должен рассчитываться с помощью строго определенного правила, исключающего субъективную оценку.

Во-вторых, при вычислении показателя, как правило, должны использоваться все имеющиеся данные.

В-третьих, любой показатель не должен иметь слишком абстрактный характер и должен обладать достаточно простыми и ясными свойствами, чтобы была возможна его содержательная интерпретация.

И, наконец, в-четвертых, отдельные показатели должны быть достаточно устойчивы, т.е. не очень различаться для отдельных выборок, взятых из одного и того же множества данных.

В последующих параграфах этой главы будут рассмотрен все основные показатели, используемые для описания распределения численностей, причем в соответствующих местах будет обсуждено, насколько каждый из них соответствует требованиям, вытекающим из концепции сжатия экспериментальных данных.

2. Показатели центральной тенденции

Среднее арифметическое. Пусть имеется объектов, для которых после измерения некоторой характеристики получаем ряд значений .

Величина:

(1)

носит название среднего арифметического или выборочного среднего. В дальнейшем будем называть его просто средним. Среднее, как и требуется от меры центральной тенденции, представляет собой координату точки, относительно которой группируются все значения ряда данных. Эта мера в полном объеме соответствует тем требованиям к статистикам свертки, о которых говорилось выше, и в силу этого является наиболее употребительной.

Среднее обладает рядом интересных свойств, которые представляют интерес сами по себе и понадобятся при дальнейшем изложении.

Сформулируем несколько вопросов. Если найти разности между всеми значениями ряда и средним, а затем сложить эти отклонения, то чему будет равна эта сумма? Оказывается, что:

.

т.е. сумма отклонений всех значений ряда от собственного среднего равна нулю. Доказательство этого и двух других свойств, излагаемых ниже, предлагается в качестве самостоятельного упражнения.

А что будет с величиной среднего, если ко всем значениям ряда прибавит некоторую константу или умножить на некоторую константу ? Ответы на эти вопросы представляют собой формулировки еще двух свойств среднего.

Если ко всем значениям ряда прибавить константу , то новое среднее станет равным +. Если все значения ряда умножить на некоторую константу , то новое среднее станет равным .

Еще одно свойство среднего формулируется так:

Сумма квадратов отклонений всех значений ряда от их среднего меньше суммы квадратов отклонений от любого другого значения.

Что в этом контексте означает выражение "любое другое значение"? Это значит, что такое значение отличается от среднего на произвольную константу . Докажем справедливость сформулированного свойства:

так как:

в силу указанного выше свойства среднего. Величина всегда больше или равна 0, следовательно:

. (2)

Это свойство среднего может иметь интересные приложения в приближенных решениях задач следующего вида. Пусть, например, на основании достаточно обширного экспериментального материала известны средние характеристики одного и того вида животных или растений, занимающих разные экологические ниши. Экземпляры из разных мест обитания будут, как правило, отличаться по численным значениям некоторых характеристик. Если в распоряжении исследователя оказалась одна или несколько особей, для которых известно, что они взяты из одного какого-то местообитания, но неизвестно, из какого именно, то как решить вопрос об их принадлежности к той или иной экологической нише? Впервые поставил и решил такую задачу немецкий ихтиолог Ф. Гейнике при изучении принадлежности отдельных особей к той или иной расе сельдей Северного моря. При этом было использовано приведенной выше свойство среднего.

Как практически его использовать, покажем на следующем примере. Были использованы данные о количестве язычковых цветков в соцветиях нивяника, произрастающего на сыром лугу (X) и на опушке леса (Y). По длинным рядам наблюдений были получены соответствующие средние значения: Затем из каждого набора данных случайно было выбрано по 10 значений: х: 28, 26, 22, 27, 27, 28, 21, 28, 23, 33 и y: 23, 25, 31, 26, 24, 21, 22, 23, 23, 22. Здесь важно подчеркнуть, что значения в выборках перекрываются, так что качественный анализ не позволяет ответить на вопрос, к какому местообитанию относятся растения по данному признаку.

Если же рассчитать , то получим соответственно 114,6; 137,7; 78,9; 152,4. Отсюда следует, что сумма квадратов отклонений значений ряда от собственного среднего меньше, чем от среднего другого ряда. Следовательно, можно однозначно определить, из какого местообитания взяты растения.

В данном примере заранее была известна принадлежность обеих выборок к тому или иному местообитанию. Однако и в реальной ситуации используется тот же самый подход. Для имеющейся в распоряжении исследователя выборки подсчитывается сумма квадратов отклонений всех ее значений от двух или более средних, соответствующих известным местообитаниям (видам, группам крови, образцам почв и т.д.), и выборка считается принадлежащей к той совокупности, для которой эта сумма минимальна.

Статистическое моделирование показывает, что если в расчет принимается только одна характеристика объекта, то достаточно в выборке, принадлежность к определенной совокупности неизвестна, иметь 6-8 значений, чтобы использование обсуждаемого здесь свойства среднего позволило решить задачу идентификации, т.е. отнесения взятой выборки к определенной совокупности.

Их полученных результатов можно сделать предположение о том, что даже один объект достаточно обоснованно может быть отнесен к той или иной совокупности, если он характеризуется 6-8 независимыми или, по крайней мере, некоррелированными признаками, и если известны средние по этим же признакам для всех совокупностей. Так, в одной работе приводится пример определения вида по 8 краниологическим характеристикам черепа. Были найдены отклонения этих характеристик для черепа зайца неизвестного вида от соответствующих средних для зайца-беляка и зайца-русака. Ряды модулей отклонений выглядят так: от беляка - 1,7; 4,2; 0; 2; 1,8; 3,4; 0,6; 6,1, от русака - 2,8; 2,5; 1; 0; 0,8; 2,1; 2,1; 2. Суммы квадратов этих отклонений равны соответственно 60,05 и 28,55, поэтому сделан вывод о том, что неизвестный череп принадлежал зайцу-русаку.

Медиана. Медиана (Md) определяется как срединное значение в ранжированном ряду данных. Это значит, что по обе стороны от нее расположено ровно по половине данных. Применительно к кривой распределения медиана представляет такую точку на оси абсцисс, что ордината, проходящая через нее, делит площадь под кривой на две равные части.

Если число данных n в выборке нечетно, то медиана соответствует ( по порядку значению в ранжированном ряду. Если же n четно, то медиана выбирается равной среднему арифметическому из двух значений, занимающих в этом ряду и места по порядку.

В тех случаях, когда в выборке относительно немного данных, медиана ищется по указанному правилу. Если же данных много, и они представлены в виде таблицы распределения численностей, то медиана определяется приближенно в том класс-интервале, для которого накоплено более половины значений анализируемого ряда данных.

Рассмотрим вычисление медианы по данным о длительности сердечного цикла у детей, приведенным в табл.1. Так как число значений в выборке четно, то медиана равна среднему из 63 и 64 значений в ранжированном ряду. Из таблицы видно, что эти значения лежат во втором класс-интервале. Предположим, что все 40 значений этого интервала распределены внутри него равномерно, так что на каждое значение приходится 1/40 ширины интервала, т.е. 0,124/40=0,003 (этой точности в данном случае достаточно). К началу второго интервала было уже накоплено 27 значений, значит, интересующие нас 63 и 64 порядковые значения занимают во втором интервале соответственно 63-27=36 и 64-27=37 места и, следовательно, отстоят от нижней границы интервала на 0,108 и 0,111. Таким образом, чтобы найти медиану, необходимо к нижней границе второго интервала прибавить 0,108 и 0,111 и для полученных таким образом значений найти среднее: Md=((0,614+0,108)+(0,614+0,111))/2=0,723 c.

Медиана обладает одним интересным свойством, на котором основывается ее теоретическое и практическое применение. Это свойство состоит в том, что сумма абсолютных значений отклонений всех значений ряда от его медианы есть величина наименьшая. Докажем это.

Пусть даны значения , расположенные в порядке возрастания. Найдем величину M такую, что и:

.

Предположим, что . Тогда:

.

Продифференцировав это выражение и приравняв производную нулю, получим k-(n- k)=0, откуда k=n/2. Таким образом, сумма абсолютных отклонений ранжированного ряда от некоторого значения минимальна в том случае, если это значение занимает срединное положение в таком ряду. А это не что иное, как медиана, что и требовалось доказать.

Вообще говоря, как показатель центральной тенденции медиана имеет смысл только для распределений непрерывных величин. В случае же дискретных величин значение ее крайне неопределенно и вычислять его не рекомендуется, так как полученное значение может привести в этом случае к заблуждениям относительно центральной тенденции.

Мода. Мода (Mo) представляет собой наиболее часто встречающееся в распределении значение. Если к данным таблицы распределения численностей подобрать теоретическую кривую распределения, то мода равна абсциссе точки, имеющей максимальную для этой кривой ординату. Иногда кривая распределения имеет две или более вершин, в этом случае кривая называется би- или полимодальной. При этом только одно значение удовлетворяет определению моды, и это значения носит название наибольшей моды.

На практике вычисление моды затруднено, так как ее значение будет меняться в зависимости от выбранной ширины класс-интервала, что, естественно, недопустимо.

Существует несколько приближенных способов оценки моды. Один из них состоит в том, что гистограмма тем или иным способом аппроксимируется непрерывной кривой, и затем находится абсцисса, соответствующая максимальной ординате. Она и будет численно равна моде.

Другой способ состоит в том, что существует определенное соотношение между рассмотренными показателями центральной тенденции, которое позволяет в подавляющем числе реальных ситуаций приближенно оценить моду:

(3)

Сравнительные характеристики показателей центральной тенденции. Прежде всего рассмотри, как оценивать среднее, моду и медиану по объединенным выборкам. Пусть известны средние значения диаметров эритроцитов (в мкм) для трех групп людей:

и необходимо найти среднее для объединения всех трех групп.

Общее число значений Среднее объединенной выборки есть сумма всех 246 значений, деленная на 246. Сумма значений группы A, в соответствии с формулой (1) равна . Аналогично для групп В и С: .

Таким образом, , или символически:

(4)

Получение формул для среднего объединения любого числа выборок с учетом (4) очевидно.

Что касается моды и медианы, то для их определения в объединенной выборке, к сожалению, приходится вернуться к исходным данным, так как формул, подобных (4), не существует.

В симметричных распределениях совпадают, в умеренно асимметричных распределениях Md находится между и Мо на расстоянии от , равном примерно одной третьей расстояния от до Мо (рис. 1). На этом и построено эмпирическое соотношение (3).

На величину среднего влияют все значения ряда, поэтому появление "выбросов", т.е. данных, значения которых находятся далеко от центра группирования, может существенно исказить величину среднего, особенно в выборках небольшого объема. В таких ситуациях, если речь идет о выборках из непрерывных распределений, более предпочтительной является медиана, которая нечувствительна к выбросам. К выбросам нечувствительна и мода, но если число значений в выборке невелико, она непоказательна, особенно когда данные не обладают явно выраженной тенденцией группироваться у центра.

Представим себе ситуацию, когда имеющийся в нашем распоряжении прибор не позволяет получить точные количественные значения для некоторых измерений либо за счет малой чувствительности, либо за счет ограниченности верхнего предела шкалы. В этом случае средне не может быть вычислено, однако и мода, и медиана могут быть оценены, если известно общее число значений, выходящих за оба предела измерительной шкалы прибора, и в этом их преимущество.

Вычисление показателей центральной тенденции, в частности, среднего арифметического предусматривается не только в пакетах прикладных программ для ПЭВМ, но и "зашито" в аппаратную часть большинства даже относительно простых калькуляторов и поэтому не представляет никакой сложности. Однако при выборе конкретной меры для описания и интерпретации полученных данных необходимо учитывать те свойства и характерные особенности, которые обсуждались в этом параграфе. Как правило, используется среднее, но и две другие статистики могут оказаться полезными.

В предыдущем параграфе при перечислении мер центральной тенденции были упомянуты еще два вида средних: среднее геометрическое и среднее гармоническое. Эти средние, в основном, используются в экономических и финансовых расчетах, а в естественнонаучных исследованиях используются весьма ограниченно и потому здесь не рассматриваются.

3. Показатели изменчивости

В предыдущем параграфе были рассмотрены некоторые показатели, с помощью которых можно судить, относительно каких значений группируется все множество данных. Однако ни один из этих показателей сам по себе не может дать достаточно исчерпывающего описания распределения численностей. Дело в том, что практически любая совокупность экспериментальных данных, независимо от области исследования, в которой она получена, характеризуется изменчивостью, т.е. количественными различиями между отдельными элементами. Эта изменчивость является характерной особенностью подавляющего числа природных и социальных явлений. Поэтому никакое описание совокупности данных не будет законченным, если в нем отсутствует оценка изменчивости этой совокупности.

В самом деле, если степень рассеяния или изменчивости данных очень велика, то средние вообще теряют свой смысл, так как нельзя указать никакой ясно выраженной центральной тенденции.

Изучение и количественное описание изменчивости (вариации) осуществляется различными методами, и без преувеличения можно сказать, что разработанные в математической статистике методы и приемы анализа экспериментальных данных в значительной своей части предназначены именно для оценки вариации.

Рассмотрим несколько основных показателей изменчивости, которые достаточно широко используются для описания распределения численностей.

Размах. Размах представляет собой просто разность между максимальным и минимальным значениями ряда данных:

. (5)

Из определения размаха видно, что он является довольно грубой мерой изменчивости, так как не несет никакой информации о характере изменчивости распределения численностей внутри диапазона возможных изменений измеряемого признака. Кроме того, величина размаха зависит только от значений двух крайних членов ряда, так что появление хотя бы одного резко выделяющегося наблюдения существенно изменяет размах. Эта неустойчивость сужает возможности использования размаха как показателя изменчивости, несмотря на очень ясный смысл и простоту вычисления.

Тем не менее развитие теории порядковых статистик позволило использовать размах как промежуточную величину при расчете более эффективных показателей вариации. Наиболее целесообразно использовать размах в тех случаях, когда в распоряжении исследователя оказывается достаточно большое число совокупностей данных небольшого объема ().

Дисперсия. Размах, как видно из (5), не учитывает всех значений анализируемого ряда и, как следствие, не несет информацию об их вариации. Такую информацию можно получить, измеряя отклонения всех значений от среднего арифметического совокупности экспериментальных данных, т.е. значения вида . Однако сумму использовать в качестве показателя изменчивости нельзя, так как она, как мы выяснили, равна нулю. Чтобы обойти это ограничение, можно возвести каждое отклонение в квадрат. При этом, как известно из свойств среднего, полученная сумма будет минимальна. Но сумма квадратов отклонений зависит от того, сколько имеется данных, поэтому сравнение изменчивости двух совокупностей, например, не может быть осуществлено, если они разного объема. Чтобы снять и это ограничение, в качестве показателя вариации используют величину:

, (6)

которая носит название дисперсии. (Почему мы делим на n-1, а не на n, станет ясно из материала, приведенного в главе 44, при описании свойств различных оценок.) Формула для вычисления дисперсии путем алгебраических преобразований может быть представлена в виде, более удобном для вычислений:

. (7)

Доказательство эквивалентности (6) и (7) предлагается в качестве самостоятельного упражнения.

Мерой изменчивости, тесно связанной с дисперсией, является среднее квадратическое (стандартное) отклонение, представляющее собой положительное значение корня квадратного из дисперсии:

. (8)

Дисперсия и особенно стандартное отклонение в достаточно полной мере отвечают требованиям, предъявляемым к показателям, характеризующим распределения численностей. Поэтому эти показатели получили наиболее широкое применение, как в теоретических исследованиях, так и в практике статистического анализа.

Дисперсия характеризуется некоторыми свойствами, которые, как и в случае среднего арифметического, могут быть использованы для преобразования данных и реализации упрощенного метода ее расчета по сгруппированным данным.

Как повлияет на дисперсию ряда наблюдений Х добавление некоторой константы c? Добавив константу с ко всем значениям ряда Х, мы получим новый ряд Y, где каждое значение . Рассчитаем дисперсию для этого нового ряда:

Таким образом, добавление константы ко всем значениям исходного ряда данных не изменяет его дисперсии.

А как изменится дисперсия, если все значения ряда умножить на некоторую константу? Имеем:

.

Отсюда видно, что умножение всех значений исходного ряда данных на некоторую константу приводит к тому, что начальная дисперсия изменяется в квадрат раз этой константы.

Несмотря на наличие пакетов прикладных программ, иногда возникают ситуации, когда необходимо рассчитать некоторые описательные статистики, пользуясь простейшими калькуляторами. В этих случаях, особенно когда данные представлены таблицей распределения численности в сгруппированном виде, целесообразно использовать упрощенный метод вычисления среднего арифметического, а также дисперсии и стандартного отклонения. Технику вычислений, использующую свойства среднего и дисперсии, проиллюстрируем на данных, представляющих собой измеренные значения кардиоцикла у детей.

Суть предлагаемого метода состоит в следующем. Будем считать, что все наблюдения, попавшие в соответствующий интервал, имеют значения, равные среднему значению этого интервала, а его ширину примем равной единице. Выберем в качестве условного начала срединную точку одного из класс-интервалов поблизости от центра распределения. Тогда отклонения в условных единицах относительно выбранного условного начала будут равны соответственно, -1,-2,-3 и т.д.; +1,+2,+3 и т.д. для интервалов, расположенных выше и ниже условного начала. Если все отклонения умножить на численность соответствующих интервалов, найти алгебраическую сумму этих произведений и разделить ее на общее число членов, то получим условное среднее в единицах интервала. Фактически предыдущие действия означают вычитание от всех значений исходного ряда некоторой константы, равной срединному значению класс-интервала, выбранного в качестве начального, и деление всех значений ряда на константу, численно равную ширине класс-интервала. С учетом свойств среднего, умножив полученную величину условного среднего на величину класс-интервала, определим условное среднее в первоначальных единицах. Если теперь к полученному значению прибавить срединное значение класс-интервала, принятого в качестве условного, то получим истинное значение среднего. Естественно, что упрощенный способ расчета дает приближенное значение среднего. Однако погрешность, возникающая за счет допущения, что все значения в каждом интервале равны срединному значению соответствующего интервала, не превышает, как правило, 1-2 %, что вполне допустимо.

Если мы согласны с такой ошибкой, то в знаменателе формулы (6) можно заменить (n-1) на n, и формула для вычисления дисперсии будет выглядеть так:

Из этой формулы видно, что если рассчитать значения обоих входящих в нее членов в условных единицах, например, в единицах интервала относительно условного начала, то значение дисперсии в истинных единицах можно получить, умножив полученные значения на квадрат ширины класс-интервала. Это соответствует одному свойству дисперсии. А из другого следует, что выбор начала, относительно которого рассчитываются отклонения не оказывает влияния на величину дисперсии.

Вычисления по данным табл.1:

условное среднее в единицах интервала) (ширина интервала)=0,124; С(условное среднее в первоначальных единицах) = =дисперсия в единицах интервала) =

Иногда возникает ситуация, когда объединяют две или более совокупности в одну, и для этой объединенной совокупности надо найти показатели, которые характеризовали бы ее, и в том числе дисперсию. В предыдущем параграфе было показано, как отыскать среднее в этом случае (формула 4). С дисперсией объединенной совокупности дело обстоит сложнее. В этом случае нельзя отыскать эту дисперсию, используя только дисперсии совокупностей ее составляющих. В самом деле, возьмем предельный случай, когда обе частичные совокупности состоят из одинаковых значений, например, 2; 2; 2 и 7; 7; 7; 7. Очевидно, что дисперсии каждой из этих выборок равны нулю. Однако дисперсия объединенной совокупности будет равна 7,143. Несложно показать, что дисперсия объединенной совокупности из двух выборок может быть рассчитана по формуле:

(10)

где - численности первой и второй выборок соответственно;

- средние и дисперсии первой и второй выборок;

- среднее объединенной совокупности, равное:

Вывод формулы (10) предлагается в качестве упражнения для самостоятельной работы.

Из приведенной формулы следует, что дисперсия объединенной совокупности зависит как от дисперсий, так и от средних составляющих ее выборок. Обобщение формулы (10) на любое число выборок очевидно.

Рассчитаем дисперсию для искусственной совокупности, приведенной выше. Имеем:

Как и должно быть, ответы, полученные с помощью формулы (10) и формулы (7), совпадают.

Коэффициент вариации. Рассмотренные до сих пор показатели изменчивости: размах, дисперсия, стандартное отклонение определяют вариацию в абсолютных единицах, имеют размерность такую же или в квадрате (для дисперсии), как и сама измеряемая величина. При описании распределений численности это удобно, но если есть необходимость сравнить показатели рассеяния двух распределений, данные которых имеют разные размерности, то естественно возникают затруднения. Такие же затруднения возникают иногда даже в тех случаях, когда измеряемые величины имеют одну и ту же размерность. Например, показатели рассеяния в распределениях количества выпавших осадков и роста людей вычислены в сантиметрах. Однако из того, что стандартное отклонение роста людей больше, чем стандартное отклонение выпавших осадков, не следует, что изменчивость в первом случае больше. Меры изменчивости при сравнении показательны лишь в соотношении со средними, от которых измеряются отклонения. показатель тенденция изменчивость асимметрия

Поэтому возникает необходимость в таком показателе рассеяния, который был бы безразмерным и указывал на изменчивость по отношению к среднему, относительно которого вычисляются отклонения. Наиболее часто используемым показателем, удовлетворяющим этим требованиям, является коэффициент вариации:

(11)

Применяя эту формулу к данным табл. 1, получаем, что:

Пусть для той же возрастной группы, для которой измерялась длительность сердечного цикла по кардиограмме, известно и количество сульфгидрильных групп сыворотки крови (ммоль/100 мл). Эти данные приведены в табл.2.

Для этих данных и, значит, .

Полученные коэффициенты вариации показывают, что измеренные показатели для одной возрастной группы имеют примерно одинаковую изменчивость.

Из формулы (11) видно, что на величину коэффициента вариации влияет как стандартное отклонение, так и среднее. Причем так как среднее стоит в знаменателе, то при стремлении его к нулю коэффициент вариации становиться неопределенным. Поэтому для распределений численностей со средними, близкими к нулю, использование коэффициента вариации в качестве показателя изменчивости нежелательно.

Стандартизованные данные. Таблица 2 построена по 85 значениям, одно из которых было равно 31,5. Из этой информации и знания того, что среднее всей совокупности равно 39,41, не очевидно относительное положение интересующего нас значения. Тем не менее достаточно часто желательно иметь возможность описать место некоторого значения в совокупности данных. Это можно сделать, измеряя его отклонение от среднего в единицах стандартного отклонения, т.е.

. (12)

Величины носят название стандартизированных величин. Характерной чертой стандартизированных данных является то, что они преобразуют любое распределение численностей в распределение со средним, равным нулю, и единичной дисперсией. Докажем это:

Равенство нулю второго сомножителя следует из известного свойства среднего.

Стандартизованные данные являются, как и коэффициент вариации, безразмерными величинами, поэтому с их помощью можно сравнивать между собой по форме распределения численностей данных, имеющих даже разную размерность.

4. Показатели асимметрии и эксцесса

При анализе распределения численностей значительный интерес представляет оценка отклонения данного распределения от симметричного, или, иначе говоря, его скошенность. Степень скошенности (асимметрия) является одним из наиболее важных свойств распределения численностей. Существует целый ряд статистических показателей, предназначенных для вычисления асимметрии. Все они отвечают как минимум двум требованиям, предъявляемым к любому показателю скошенности: он должен быть безразмерным и равным нулю, если распределение симметрично.

На рис. 2 а, б приведены кривые двух асимметричных распределений численностей, одна из которых скошена влево, а другая -вправо. Качественно показано взаимное расположение моды, медианы и среднего. Видно, что один из возможных показателей скошенности может быть построен с учетом расстояния на котором находятся друг от друга средняя и мода. Но учитывая сложность определения моды по эмпирическим данным, а с другой стороны, известное соотношение (3) между модой, медианой и средним, была предложена следующая формула для вычисления показателя асимметрии:

(13)

Из этой формулы следует, что распределения скошенные влево, имеют положительную асимметрию, а скошенные вправо - отрицательную. Естественно, что для симметричных распределений, для которых среднее и медиана совпадают, асимметрия равна нулю.

Вычислим показатели асимметрии для данных, приведенных в табл. 1 и 2. Для распределения длительности сердечного цикла имеем:

.

Таким образом, это распределение имеет небольшую левостороннюю скошенность. Полученное значение для асимметрии является приближенным, а не точным, так как для ее расчета использовались значения и , рассчитанные упрощенным способом.

Для распределения сульфгидрильных групп сыворотки крови имеем:

.

Таким образом, это распределение имеет отрицательную асимметрию, т.е. скошено вправо.

Теоретически показано, что величина, определяемая по формуле 13, лежит в пределах 3. Но практически эта величина очень редко достигает своих предельных значений, и для умеренно асимметричных одновершинных распределений она по модулю обычно меньше единицы.

Показатель асимметрии может быть использован не только для формального описания распределения численностей, но и для содержательной интерпретации полученных данных.

В самом деле, если наблюдаемый нами признак формируется под воздействием большого числа независимых друг от друга причин, каждая из которых вносит относительно небольшой вклад в величину этого признака, то в соответствии с некоторыми теоретическими предпосылками, обсуждавшимися в разделе по теории вероятностей, мы вправе ожидать, что получаемое в результате эксперимента распределение численностей будет симметричным. Однако, если для экспериментальных данных получена значительная величина асимметрии (численное значение As по модулю в пределах нескольких десятых), то можно предположить, что условия, указанные выше, не соблюдаются.

В этом случае имеет смысл предположить либо существование какого-то одного или двух факторов, вклад которых в формирование наблюдаемой в эксперименте величины существенно больше, чем остальных, либо постулировать наличие специального механизма, отличного от механизма независимого влияния множества причин на величину наблюдаемого признака.

Так, например, если изменения интересующей нас величины, соответствующие действию некоторого фактора, пропорциональны самой этой величине и интенсивности действия причины, то получаемое при этом распределение будет всегда скошено влево, т.е. иметь положительную асимметрию. С таким механизмом сталкиваются, например, биологи, оценивая величины, связанные с ростом растений и животных.

Другой способ оценки асимметрии основан на методе моментов, который будет обсуждаться в главе 44. В соответствии с этим методом для расчета асимметрии используют сумму отклонений всех значений ряда данных относительно средней, возведенных в третью степень, т.е.:

(14)

Третья степень обеспечивает равенство нулю числителя этого выражения для симметричных распределений, так как в этом случае суммы отклонений в большую и меньшую сторону от средней в третьей степени будут равны и иметь противоположные знаки. Деление на обеспечивает безразмерность для показателя асимметрии.

Формула (14) может быть преобразована следующим образом. В предыдущем параграфе были введены стандартизованные величины:

,

,

(15)

Таким образом, мера скошенности представляет собой среднее значение стандартизованных данных, возведенных в куб.

Для тех же данных, для которых по формуле (13) была рассчитана асимметрия, найдем показатель по формуле (15). Имеем:

Естественно, что показатели асимметрии, вычисленные по разным формулам, отличаются друг от друга по величине, но одинаково указывают на характер скошенности. В пакетах прикладных программ для статистического анализа при расчете асимметрии используют формулу (15), как дающую более точные значения. Для предварительных же расчетов с использованием простейших калькуляторов можно пользоваться формулой (13).

Эксцесс. Итак, мы рассмотрели три из четырех групп показателей, с помощью которых описываются распределения численностей. Последней из них является группа показателей островершинности, или эксцесса (от греческого - горбатый). Для вычисления одного из возможных показателей эксцесса используется следующая формула:

(16)

Используя тот же подход, который был применен при преобразовании формулы асимметрии (14) легко показать, что:

(17)

Теоретически было показано, что величина эксцесса для нормальной (гауссовой) кривой распределения, играющей в статистике, также как и в теории вероятностей большую роль, численно равна 3. Исходя из целого ряда соображений заостренность этой кривой принимают за стандарт, и поэтому в качестве показателя эксцесса используют величину:

. (18)

Найдем значение островершинности для данных, приведенных в табл. 1. Имеем:

Таким образом, кривая распределения длительности сердечных циклов уплощена по сравнению с нормальной кривой, для которой .

В табл. 3 приведено распределение числа краевых цветков у одного из видов хризантем. Для этого распределения

Эксцесс может принимать очень большие значения, как это видно из приведенного примера, но его нижняя граница не может быть меньше единицы. Оказывается, что если распределение двувершинно (бимодально), то значение эксцесса приближается к своей нижней границе, так что стремится к -2. Таким образом, если в результате расчетов оказывается, что значение меньше -1-1,4, можно быть уверенным, что имеющиеся в нашем распоряжении распределение численностей по крайней мере бимодально. Это особенно важно учитывать, когда экспериментальные данные, минуя стадию предварительной обработки, анализируются с помощью ЦВМ и перед глазами исследователя нет непосредственно графического изображения распределения численностей.

Двувершинность кривой распределения опытных данных может возникать по многим причина. В частности, такое распределение может появиться за счет объединения в единую совокупность двух наборов разнородных данных. Для иллюстрации этого мы искусственно объединили данные о ширине раковин двух видов ископаемых моллюсков в одну совокупность (табл. 4, рис. 3).

На рисунке явно видно наличие двух мод, так как смешаны два набора данных из разных совокупностей. Расчет дает для величины эксцесса 1,74, и, следовательно, =-1,26. Таким образом, расчетная величина показателя островершинности указывает, в соответствии с ранее высказанным положением, что распределение имеет две вершины.

Здесь нужно сделать одно предостережение. Действительно, во всех случаях, когда распределение численностей будет иметь два максимума, величина эксцесса будет близка к единице. Однако из этого факта нельзя автоматически делать вывод о том, что анализируемая совокупность данных представляет собой смесь двух разнородных выборок. Во-первых, такая смесь в зависимости от численности составляющих ее совокупностей может и не иметь двух вершин, и показатель эксцесса будет значительно больше единицы. Во-вторых, две моды может иметь и однородная выборка, если, например, нарушены требования к отбору экспериментальных данных. Таким образом, в этом, как, впрочем, и в других случаях вслед за формальным расчетом различных статистик должен осуществляться тщательный профессиональный анализ, который позволит дать полученным данным содержательную интерпретацию.

Литература

1. Елисеева И.И. Общая теория статистики: учебник для вузов / И.И. Елисеева, М.М. Юзбашев; под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2009. - 656 с.

2. Ефимова М.Р. Практикум по общей теории статистики: учебное пособие для вузов / М.Р. Ефимова и др. - М.: Финансы и статистика, 2007. - 368 с.

3. Мелкумов Я.С. Социально-экономическая статистика: учебно-методическое пособие. - М.: ИМПЭ-ПАБЛИШ, 2007. - 200 с.

4. Общая теория статистики: Статистическая методология в изучении коммерческой деятельности: учебник для вузов / О.Э. Башина и др.; под ред. О.Э. Башиной, А.А. Спирина. - М.: Финансы и статистика, 2008. - 440 с.

5. Салин В.Н. Курс теории статистики для подготовки специалистов финансово-экономического профиля: учебник / В.Н. Салин, Э.Ю. Чурилова. - М.: Финансы и статистика, 2007. - 480 с.

6. Социально-экономическая статистика: практикум: учебное пособие / В.Н. Салин и др.; под ред. В.Н. Салина, Е.П. Шпаковской. - М.: Финансы и статистика, 2009. - 192 с.

7. Статистика: учебное пособие / А.В. Багат и др.; под ред. В.М. Симчеры. - М.: Финансы и статистика, 2007. - 368 с.

8. Статистика: учебник / И.И. Елисеева и др.; под ред. И.И. Елисеевой. - М.: Высшее образование, 2008. - 566 с.

9. Теория статистики: учебник для вузов / Р.А. Шмойлова и др.; под ред. Р.А. Шмойловой. - М.: Финансы и статистика, 2007. - 656 с.

10. Шмойлова Р.А. Практикум по теории статистики: учебное пособие для вузов / Р.А. Шмойлова и др.; под ред. Р.А. Шмойловой. - М.: Финансы и статистика, 2007. - 416 с.

Размещено на Allbest.ru

...

Подобные документы

  • Назначение мер центральной тенденции для замены множества значений признака, измеренного на выборке. Выбор и особенности мер центральной тенденции. Графическое соотношение среднего, моды, медианы. Сравнение преимуществ мер центральной тенденции.

    презентация [93,6 K], добавлен 27.05.2019

  • Значимость информации для принятия решений. Типы асимметрии информации: скрытые характеристики и действия. Формы проявления влияния асимметрии информации на рынок. Суть неблагоприятного отбора. Информационные асимметрии сделок по секьюритизации.

    курсовая работа [242,5 K], добавлен 15.03.2014

  • Группировка организаций по степени износа основных фондов в виде интервалов. Расчет среднего значения, модального и медианного значения ряда. Форма распределения на основе показателей асимметрии и эксцесса. Определение степени однородности распределения.

    контрольная работа [341,6 K], добавлен 07.12.2016

  • Первичный анализ экспериментальных данных. Построение эмпирической плотности распределения случайной анализируемой величины и расчет ее характеристик. Определение вида закона распределения величины и расчёт его параметров при помощи метода моментов.

    курсовая работа [1,2 M], добавлен 23.05.2009

  • Виды временных рядов. Требования, предъявляемые к исходной информации. Описательные характеристики динамики социально-экономических явлений. Прогнозирование по методу экспоненциальных средних. Основные показатели динамики экономических показателей.

    контрольная работа [84,3 K], добавлен 02.03.2012

  • Основные категории статистики. Группировка - основа научной обработки данных статистики. Содержание сводки и статистическая совокупность. Построение вариационного, ранжированного и дискретного рядов распределения. Группировка предприятий по числу рабочих.

    контрольная работа [23,3 K], добавлен 17.03.2015

  • Предмет и задачи статистики, ее категории. Статистические ряды распределения и их элементы. Виды статистических таблиц и графиков. Основные свойства арифметической, геометрической и хронологической средней. Показатели вариации и классификация индексов.

    шпаргалка [65,8 K], добавлен 26.12.2010

  • Задачи статистики и основыне принципы ее организации в рыночной экономике. Федеральная служба государственной статистики, ее функции и основные публикации. Система показателей (порядок расчета) демографической статистики рождаемости, смертности, миграция.

    реферат [29,1 K], добавлен 17.12.2009

  • Краткая история зарождения и развития статистики как науки. Предмет изучения и характеристика основных задач статистики. Статистические методы сбора и обработки данных для получения достоверных оценок и результатов. Источники статистических данных.

    лекция [23,7 K], добавлен 13.02.2011

  • Сбор и регистрация исходных статистических данных. Расчет числовых характеристик экспериментальных данных. Проверка согласия опытного распределения с теоретическим нормальным. Построение и анализ контрольных карт средних арифметических и размахов.

    курсовая работа [244,9 K], добавлен 04.04.2014

  • Исследование направлений движения статистической информации. Сбор первичных данных в ходе статистического наблюдения. Сводка, группировка, обработка данных, осуществляемая органами государственной статистики. Использование статистической информации.

    реферат [193,0 K], добавлен 26.05.2014

  • Законы распределения случайных величин. Закон распределения Пуассона. Свойства плотности вероятности. Критериальные случайные величины. Свойство коэффициента корреляции. Закон больших чисел и его следствия. Предельные теоремы теории вероятностей.

    курс лекций [774,3 K], добавлен 11.03.2011

  • Основные понятия статистики. Организация статистического наблюдения. Ряды распределения, табличный метод представления данных. Статистическая сводка и группировка. Объекты уголовно-правовой, гражданско-правовой и административно-правовой статистики.

    реферат [24,7 K], добавлен 29.03.2013

  • Задачи и структура статистики политической и общественной жизни, источники данных. Роль органов государственной статистики, история их деятельности в РФ. Анализ показателей статистики политической и общественной жизни. Характеристика общественного мнения.

    реферат [29,0 K], добавлен 25.09.2011

  • История возникновения и развития статистики. Предмет, основные понятия и категории статистики. Методы сбора, обобщения и анализа статистических данных. Экономическая статистика и ее отрасли. Современная организация статистики в Российской Федерации.

    лекция [16,5 K], добавлен 02.05.2012

  • Генеральная совокупность случайной величины, подчиняющаяся нормальному распределению. Определение способа отбора и процедуры выборки; тесноты связи; показателей макро- и микроэкономической статистики; координации и вариации. Параметры уравнения регрессии.

    курсовая работа [1,2 M], добавлен 13.03.2013

  • Предмет и метод статистики как общественной науки. Основные задачи и виды группировок. Точность наблюдения и методы проверки достоверности данных. Понятие о статистическом наблюдении, этапы его проведения. Виды статистических показателей и величин.

    курсовая работа [1,5 M], добавлен 09.02.2014

  • Расчет показателей эксцесса и асимметрии для характеристики степени отклонения распределения частот от симметричной формы. Группировка статей актива и пассива баланса для оценок его структуры. Индексный и выборочный методы в статистических исследованиях.

    контрольная работа [170,6 K], добавлен 16.01.2011

  • Оформление результатов сводки и группировки материалов статистического наблюдения в виде рядов распределения (атрибутивных и вариационных). Расчет средних величин и показателей вариации, моды и меридианы. Графическое изображение статистических данных.

    контрольная работа [226,8 K], добавлен 31.07.2011

  • Статистика в медицине как один из инструментов анализа экспериментальных данных и клинических наблюдений. Понятие количественных (числовых) данных. Выборки численных переменных. Виды критериев для независимых выборок, особенности их использования.

    презентация [750,1 K], добавлен 16.10.2016

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.