Статистические методы изучения взаимосвязи социально-экономических явлений

Средние степенные и структурные величины. Моменты и кривые распределения. Выборочное наблюдение в статистике. Регрессионный и корреляционный анализ. Вариационные и динамические ряды. Прогнозирование на основе экстраполяции тренда. Экономические индексы.

Рубрика Экономика и экономическая теория
Вид дипломная работа
Язык русский
Дата добавления 22.05.2015
Размер файла 632,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Введение

Статистическая наука сложилась в результате теоретических обобщений накопленных человечеством опыта учетно-расчетных работ, обусловленных потребностями управления обществом.

Термин «статистика» произошел от латинских слов stato (государство) status (положение вещей, политическое состояние).

Статистика - это наука, изучающая количественную сторону массовых явлений и процессов в неразрывной связи с их качественной стороной, количественное выражение закономерностей общественного развития в конкретных условиях места и времени.

Статистика - это отрасль практической деятельности по сбору, накоплению, обработке и анализ цифровых данных, характеризующих население, экономику, культуру, образование и другие явления общественной жизни и предназначенную для задач государственного регулирования и управления.

Статистика - это собственно данные (цифровой материал), который обрабатывается определенными методами.

Объектом исследования статистики как науки являются:

· общество;

· массовые социально-экономические явления;

· влияние природных и технических факторов на изменение количественных характеристик социально-экономических явлений;

· влияние жизнедеятельности общества на среду обитания.

Предметом статистики выступают количественные характеристики и соотношения

качественно определенных социально-экономических явлений, закономерности их связей и развития в конкретных условиях места и времени.

Основой для разработки и применения статистической методологии (совокупности методов и приемов) является диалектический метод познания, когда общественные явления и процессы рассматриваются в развитии, взаимной связи и причинной обусловленности.

Статистика опирается на диалектические категории:

· случайного и необходимого;

· единичного и массового;

· индивидуального и общего;

· причинность и закономерность.

Многообразие статистических методов обусловлено сложностью объекта и сложностью и многоэтапностью трех стадий исследования экономических явлений:

1 стадия - сбор первичной информации - метод массового статистического наблюдения, обеспечивающий репрезентативность информации;

2 стадия - сводка, группировка, обработка первичной информации - метод статистических группировок математической статистики и теории вероятности;

3 стадия - обобщение и интерпретация статистической информации - метод обобщения и анализа на основе показателей абсолютных относительных и средних величин, вариаций динамики, индексов.

На всех стадиях применяются графические, табличные и математические методы.

Задачи статистики в современных условиях:

исследование происходящих в обществе преобразований социальных и экономических процессов на основе системы специальных показателей;

обобщение и прогнозирование тенденций развития народного хозяйства и его составляющих;

влияние имеющихся резервов эффективности общественного производства;

создание единого информационного пространства органов государственной власти;

организация статистики отраслей народного хозяйства и общества (прикладной статистики).

Теория статистки - методологическая основа всех отраслевых (прикладных) статистик: экономической; социальной; труда; государственной; финансов.

1. Средние величины

Средняя величина является обобщающей характеристикой совокупности однотипных явлений по изучаемому признаку. Средняя величина должна вычисляться с учетом экономического содержания определяемого показателя.

Все виды средних делятся на:

· степенные (аналитические, порядковые) средние (арифметическая, гармоническая, геометрическая, квадратическая);

· структурные (позиционные) средние (мода и медиана) - применяются для изучения структуры рядов распределения.

1.1 Средние степенные величины

Средняя степенная (при различной величине k) определяется:

. (1.1)

Таблица 1.1 - Виды средних степенных величин

k

Наименование средней

Формула средней

Когда используется

1

Средняя арифметическая простая (невзвешенная)

(1.2)

гдеxi - i-й вариант осредняемого признака (); n - число вариант

Используется, когда расчет осуществляется по несгруппированным данным

1

Средняя арифметическая взвешенная

, (1.3)

где fi - частота повторяемости i-го варианта

Используется, когда данные представлены в виде рядов распределения или группировок

-1

Средняя гармоническая взвешенная

(1.4),где .(1.5)

Используется, когда известны индивидуальные значения признака и веса W за ряд временных интервалов

-1

Средняя гармоническая невзвешенная

Используется в случае, когда веса равны

0

Средняя геометрическая невзвешенная

(1.6)

Используется в анализе динамики для определения среднего темпа роста

0

Средняя геометрическая взвешенная

(1.7)

2

Средняя квадратическая невзвешенная

(1.8)

Используется при расчете показателей вариации

2

Средняя квадратическая взвешенная

(1.9)

В статистическом анализе также применяются степенные средние 3-го и более высоких порядков.

Правило мажорантности средних: с ростом показателя степени значения средних возрастают.

(1.10)

Средняя прогрессивная - средняя для “лучших” значений признака.

Свойства средней арифметической

Средняя арифметическая постоянной величины равна самой величине.

Если все варианты xi увеличить (уменьшить) на одно и тоже число c, увеличится (уменьшится) на то же число.

. (1.11)

Если все варианты xi увеличить (уменьшить) в одно и то же число раз k, увеличится (уменьшится) в то же число раз.

. (1.12)

Средняя арифметическая отклонений вариантов от средней арифметической равна 0.

. (1.13)

По свойству 2 при : .

Средняя арифметическая алгебраической суммы признаков равна такой же сумме средней арифметической этих признаков.

. (1.14)

Если ряд состоит из нескольких групп, общая средняя равна средней арифметической групповых средних, причем весами являются объемы группы.

, (1.15)

где - средняя арифметическая группы i;

N - общий объем ряда ();

ni - объем группы i ().

. (1.16)

1.2 Средние структурные величины

В условиях недостаточности средних используют структурные средние величины - моду и медиану.

Медиана (Ме) - это вариант, который находится а середине вариационного ряда. Медиана делит ряд на две равные (по числу наблюдений) части. В ранжированных рядах не сгруппированных данных нахождение медианы сводится к отысканию порядкового номера и значения варианта у этого номера.

Медиана в интервальных вариационных рядах рассчитывается по формуле:

, (1.17)

где х0 - нижняя граница медианного интервала (накопленная частота которого превышает половину общей суммы частот);

- величина медианного интервала;

- накопленная частота интервала, предшествующего медианному;

- частота медианного интервала.

Также в интервальных вариационных рядах медиана может быть найдена с помощью кумуляты как значение признака, для которого

или .

Главное свойство медианы заключается в том, что сумма абсолютных отклонений значений признака от медианы меньше, чем от любой другой величины:

.

Модой (Мо) вариационного ряда называется вариант, которому соответствует наибольшая частота.

Для вычисления моды в интервальном ряду сначала находится модальный интервал, имеющий наибольшую частоту (или наибольшую плотность распределения - отношение частоты интервала к его величине ni/hi - в интервальном ряду с неравными интервалами), а значение моды определяется линейной интерполяцией:

, (1.18)

где хо - нижняя граница модального интервала;

- величина модального интервала;

, , - частота ni (в интервальном ряду с равными интервалами) или плотность распределения ni/hi (в интервальном ряду с неравными интервалами) модального, до и послемодального интервала.

Мода так же, как и медиана обладает определенной устойчивостью к вариации признака. Если в совокупности первичных признаков нет повторяющихся значений, то для определения моды проводят группировку.

Графически отобразить моду по гистограмме можно следующим образом: нужно взять столбец, имеющий наибольшую высоту, и из его левого верхнего угла провести отрезок в угол последующего столбца, а из правого угла - в верхний правый угол предыдущего столбца, абсцисса точки пересечения отрезков и будет соответствовать модальному значению признака в изучаемой совокупности. Медиану приближенно можно определить графически - по кумуляте. Для этого высоту наибольшей ординаты, которая соответствует общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения и есть медиана (рисунок 1.1)

Рис. 1.1 Графическое отображение интервального вариационного ряда

В симметричных рядах имеет место следующее соотношение моды, медианы и средней арифметической .

В случае, если , имеет место левосторонняя асимметрия ряда.

В случае, если , имеет место правосторонняя асимметрия ряда.

Мода и медиана, в отличие от степенных средних, являются конкретными характеристиками ряда. Медиана - характеризует центр, вычисляется проще и не чувствительна к концам интервала. Мода - наиболее вероятное значение в изучаемой совокупности (например, наиболее возможные результаты).

2. Анализ вариационных рядов

2.1 Показатели вариации

Вариацией называется изменяемость, колеблемость величины признака. Вариация проявляется в отклонениях от средних и зависит от множества факторов, влияющих на социально-экономическое явление. Вариация бывает случайной и систематической, существует в пространстве и во времени. Показатели вариации делятся на абсолютные и относительные (таблица 2.1).

Таблица 2.1 - Показатели вариации

Показатель

Формула расчета показателя

простой

взвешенный

Абсолютные

Размах

(2.1)

Среднее линейное отклонение

(2.2)

* (2.3)

Дисперсия

?2 (2.4)

(2.5)

Среднее квадратическое отклонение

(2.6)

(2.7)

относительные

Коэффициент вариации

(2.8)

Линейный коэффициент вариации

(2.9)

Коэффициент

осцилляции

(2.10)

* - Здесь fi - частота ().

Относительные показатели (коэффициент вариации, линейный коэффициент вариации, коэффициент осцилляции) строятся с учетом базы (в виде средней), выражаются в процентах и дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации

.(2.11)

Для расчета дисперсии можно использовать модифицированную формулу:

.(2.12)

Выведем эту формулу из формулы (2.5)

Для расчета дисперсии можно использовать способ отсчета от условного нуля, который позволяет упростить вычисления при больших значениях признака. Тогда дисперсия вычисляется по формуле:

,(2.13)

где h - величина интервала;

А - условный нуль, в качестве которого можно использовать как середину серединного интервала, так и середину интервала с наибольшей частотой.

2.1.1 Свойства дисперсии

Дисперсия постоянной величины равна нулю.

Если у всех значений вариантов отнять какое-то постоянное число А, то средний квадрат отклонений (дисперсия) от этого не изменится

.(2.14)

Это значит, что дисперсию можно вычислить не по заданным значениям признака, а по их отклонениям от какого-то постоянного числа, например условного нуля (см. формулу 2.13).

Если все значения вариантов разделить на какое-то постоянное число А, то дисперсия уменьшится в А2 раз:

.(2.15)

Если распределение признака близко к нормальному или симметричному, то по правилу мажорантности (т.к. среднее квадратическое отклонение - средняя геометрическая величина, а среднее линейное отклонение - средняя арифметическая) среднее квадратическое отклонение больше среднего линейного отклонения (), причем

,.(2.16)

Размах вариации, среднее линейное и среднее квадратичное отклонение - это именованные величины. Единицей измерения у них и у исходных значений признака совпадают. Дисперсия может быть задана в ед.2 признака или в % отклонений.

2.1.2 Вариация альтернативного признака

Альтернативные признаки - два противоположных, взаимоисключающих друг друга качественных признака, которыми одни единицы совокупности обладают (значение варианта 1), а другие не обладают (значение варианта 0) (например, пол - мужской и женский, население - городское и сельское, продукция - годная и бракованная).

Частостью (p) является доля единиц, обладающих данным признаком, в общей численности совокупности и (q = 1 - p) - доля единиц, не обладающих данным признаком, в общей численности совокупности.

xi

fi

1

p

0

q = 1 - p

Средняя арифметическая альтернативного признака

.(2.18)

Дисперсия альтернативного признака

,(2.19)

т.е. дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, и доли единиц, не обладающих этим признаком.

Исходя из того, что p + q = 1:

;.(2.20)

2.2 Виды дисперсий в совокупности, разделенной на части. Правило сложения дисперсий

Если исходная совокупность является такой, что по значениям признака она делится на l групп, то общая дисперсия складывается из частных дисперсий. В таблице 2.2 представлен анализ такой совокупности.

Таблица 2.2 - Определение исходной совокупности по группам

Значение признака х

Число единиц в j-й группе

Итого

1

j

l

х1

f11

f1j

f1l

хi

fi1

fij

fil

хk

fk1

fkj

fkl

Итого

Здесь j - номер группы ();

хi - i-е значение признака ();

fij - частота i-го значения признака, число единиц в j-й группе;

mi - сумма частот i-го значения признака в каждой группе;

nj - сумма частот всех значений признака в j-й группе;

N - сумма частот всех значений признака во всех группах (объем совокупности).

Сначала вычисляем l частных средних (), т.е. среднее значение признака в каждой группе:

.(2.22)

На основе частных средних определяем общую среднюю () по формулам

или.(2.23)

Общая дисперсия совокупности

.(2.24)

Общая дисперсия отражает вариацию признака за счет всех факторов, действующих в данной совокупности.

Вариацию между группами за счет признака-фактора, положенного в основу группировки, отражает межгрупповая дисперсия, которая исчисляется как средний квадрат отклонений групповой средней от общей средней:

.(2.25)

Межгрупповая дисперсия характеризует систематическую вариацию результативного признака, т.е. вариацию между группами за счет признака-фактора, положенного в основу группировки.

Вариацию внутри каждой группы изучаемой совокупности отражает внутригрупповая дисперсия, которая исчисляется как средний квадрат отклонений значений признака х от частной средней :

или .(2.26)

Для всей совокупности внутригрупповую вариацию будет выражать средняя из внутригрупповых дисперсий, которая рассчитывается как средняя арифметическая из внутригрупповых дисперсий:

.(2.27)

Внутригрупповая дисперсия отражает случайную вариацию, т.е. часть вариации обусловленную влиянием неучтенных факторов и не зависящую от признака-фактора, положенного в основу группировки.

Между представленными видами дисперсий существует определенное соотношение, которое известно как правило сложения дисперсий:

.(2.28)

Таким образом, общая дисперсия складывается из двух слагаемых: первое - средняя из внутригрупповых дисперсий - измеряет вариацию внутри частей совокупности, второе - межгрупповая дисперсия - вариацию между средними этих частей.

Правило сложения дисперсий позволяет выявить зависимость результатов от определяющих факторов с помощью соотношения межгрупповой и общей дисперсий. Это соотношение называется эмпирическим коэффициентом детерминации (?2) и показывает долю вариации результативного признака под влиянием факторного.

.(2.29)

Эмпирическое корреляционное отношение (?) показывает тесноту связи между исследуемым явлением и группировочным признаком.

.(2.30)

?2 и ? [0, 1]. (2.31)

Если связь отсутствует, то = 0. В этом случае межгрупповая дисперсия равна нулю (?2=0), т.е. все групповые средние равны между собой и межгрупповой вариации нет. Это означает, что группировочный признак не влияет на вариацию исследуемого признака х.

Если связь функциональная, то = 1. В этом случае дисперсия групповых средних равна общей дисперсии (). Это означает, что группировочный признак полностью определяет характер изменения изучаемого признака.

Чем больше значение корреляционного отношения приближается к единице, тем полнее (сильнее) корреляционная связь между признаками (таблица 2.3).

Таблица 2.3 - Качественная оценка связи между признаками (шкала Чэддока)

Значение

Характер связи

Значение

Характер связи

? = 0

Отсутствует

0,5 ? ? < 0,7

Заметная

0 < ? < 0,2

Очень слабая

0,7 ? ? < 0,9

Сильная

0,2 ? ? < 0,3

Слабая

0,9 ? ? < 1

Весьма сильная

0,3 ? ? < 0,5

Умеренная

? = 1

Функциональная

Пример 2.1.

Определим групповые дисперсии, среднюю из групповых дисперсий, межгрупповую дисперсию, общую дисперсию по данным о производительности труда в двух бригадах:

Таблица 2.4

Изготовлено деталей за час, шт. (производительность труда)

Количество рабочих, имеющих соответствующую производительность труда

в бригаде 1

в бригаде 2

хi

fi1

fi2

10

1

0

12

3

0

14

3

1

16

2

3

18

1

2

20

0

4

Промежуточные расчеты занесем в таблицы:

Таблица 2.5

хi

Бр. 1

Бр. 2

mi

Промежуточные расчеты для определения средних величин

fi1

fi2

хi·fi1

хi·fi2

хi·mi

10

1

0

1

10

0

10

12

3

0

3

36

0

36

14

3

1

4

42

14

56

16

2

3

5

32

48

80

18

1

2

3

18

36

54

20

0

4

4

0

80

80

?

n1=10

n2=10

N=20

?хi·fi1=138

?хi·fi2=178

?хi· mi =316

хi

Промежуточные расчеты для определения дисперсий

(хi -)

(хi -)

(хi -)

(хi -)2·fi1

(хi -)2·fi2

(хi -)2·mi

10

-3,8

-7,8

-5,8

14,44

0,00

33,64

12

-1,8

-5,8

-3,8

9,72

0,00

43,32

14

0,2

-3,8

-1,8

0,12

14,44

12,96

16

2,2

-1,8

0,2

9,68

9,72

0,20

18

4,2

0,2

2,2

17,64

0,08

14,52

20

6,2

2,2

4,2

0,00

19,36

70,56

?

-

-

-

51,60

43,60

175,20

Средняя производительность труда для 1-й бригады:

= 13,8 шт./ч.

Средняя производительность труда для 2-й бригады:

= 17,8 шт./ч.

Средняя производительность труда для 1-й и 2-й бригады:

= 15,8 шт./ч.

Таблица 2.6

Дисперсия 1-й группы (бригады) = 5,16

Дисперсия 2-й группы (бригады) = 4,36

Средняя из групповых дисперсий

= 4,76

Межгрупповая дисперсия

= 4,0

Общая дисперсия

=8,76

Проверка по правилу сложения дисперсий:

= 4,76 + 4,00 = 8,76

Эмпирический коэффициент детерминации:

= 0,457 = 45,7%.

Отсюда можно сделать вывод, что общая вариация производительности труда на 45,7% обусловлена вариацией между группами.

Эмпирическое корреляционное отношение

= 0,6757.

Значение = 0,6757 показывает заметную связь по шкале Чэддока (см. таблицу 2.3) между исследуемым явлением (производительностью труда) и группировочным признаком (бригады).

3. Моменты распределения. Показатели формы распределения

3.1 Моменты распределения

Для подробного описания особенностей распределения используют дополнительные характеристики - моменты распределения.

Момент распределения k-го порядка - средняя величина отклонений k-й степени от некоторой постоянной величины А:

.(3.1)

Практически используют моменты первых четырех порядков. Если А = , то моменты центральные; А = 0, то моменты начальные; А - произвольное число, то моменты условные.

Таблица 3.1

Начальные моменты

Центральные моменты

Нормированные моменты

(3.2)

m0 = 1;

m1 - средняя арифметическая ()

(3.3)

= 1; = 0

- средний квадрат отклонений, дисперсия (2)

(3.4)

?0=1; ?1=0; ?2=1;

- показатель асимметрии

3.2 Показатели формы распределения

Нормированный момент третьего порядка является показателем асимметрии распределения :

.(3.5)

Степень существенности асимметрии характеризуется средней квадратической ошибкой, которая зависит от объема наблюдения:

, (3.6)

Если , то асимметрия существенна.

При симметричном распределении варианты, равноудаленные от , имеют одинаковую частоту, поэтому = 0, а следовательно, и ?3=0.

Если ?3 < 0, то в вариационном ряду преобладают (имеют большую частоту) варианты, которые меньше , т.е. ряд отрицательно ассиметричен (или с левосторонней скошенностью - более длинная ветвь влево). Положительная асимметрия (правосторонняя скошенность - более длинная ветвь вправо) характеризуется значением ?3 > 0 (рис. 2.1). В качестве показателя асимметрии применяется и коэффициент асимметрии Пирсона (As):

.(3.7)

Если As= 0, (т.е. ), то распределение симметричное (нормальное).

Если As < 0, то имеет место левосторонняя асимметрия.

Если As > 0,то имеет место правосторонняя асимметрия.

Если |As| > 0,25, то асимметрия значительна; если |As| < 0,25 - незначительна.

Рис. 2.1 Асимметрия распределения

Нормированный момент четвертого порядка характеризует крутизну (заостренность) графика распределения:

.(3.8)

Для нормального распределения ?4 = 3, поэтому для оценки крутизны исследуемого распределения в сравнении с нормальным из ?4 вычитается 3 и таким образом рассчитывается показатель эксцесса:

.(3.9)

Если Ex = 0, то распределение симметрично;

Ex > 0, то распределение островершинное;

Ex < 0, то распределение плосковершинное (рис. 3.2).

Рис. 3.2. Эксцесс распределения

3.3 Теоретические кривые распределения

Анализ вариационных рядов предполагает выявление закономерностей распределения, определение и построение (получение) некой теоретической (вероятностной) формы распределения. Характер распределения лучше всего проявляется при большом числе наблюдений и малых интервалах. В этом случае графическое отображение эмпирического вариационного ряда принимает вид плавной кривой, именуемой кривой распределения. Кривая распределения может рассматриваться как некая теоретическая (вероятностная) форма распределения, свойственная определенной совокупности в конкретных условиях.

Таким образом, анализируя частоты в эмпирическом распределении, можно описать его с помощью математической модели - закона распределения, установить по исходным данным параметры теоретической кривой и проверить правильность выдвинутой гипотезы и типе распределения данного ряда.

При исследовании закономерностей распределения очень важно выдвинуть верную гипотезу о типе кривой распределения, так как, если кривая описана математически (с помощью уравнения) верно, она более точно отражает закономерности данного распределения и может быть использована в различных практических расчетах и прогнозах. Кроме того, в этом случае можно сформулировать рекомендации для принятия практических решений.

Теоретическое распределение случайной величины - это математическое выражение функциональной зависимости значений случайной величины x и вероятности ее попадания в соответствующий интервал.

Для построения функции теоретического распределения необходимо знать и и обосновать вид кривой из сведений об экономическом явлении или процессе. Рассмотрим только нормальное распределение, поскольку именно оно наиболее широко применяется при построении статистических моделей.

Распределение непрерывной случайной величины x называют нормальным, если соответствующая ей плотность распределения выражается формулой

,(3.10)

или ,

где x - значение изучаемого признака;

- средняя арифметическая ряда;

2 - дисперсия значений изучаемого признака;

- среднее квадратическое отклонение изучаемого признака;

? = 3,1415926;е = 2,7182;

- нормированное отклонение.

Кривая нормального распределения (рис. 3.3) симметрична относительно вертикальной прямой , поэтому среднюю арифметическую ряда называют центром распределения.

Случайные величины, распределенные по нормальному закону, различаются значениями параметров и , поэтому важно выяснить, как эти параметры влияют на вид кривой нормального распределения.

Если не меняется, а изменяется только , то:

1) чем меньше , тем более вытянута кривая (рис. 3.3, а), а так как площадь, ограниченная осью и данной кривой, равна 1, то вытягивание вверх компенсируется сжатием около центра распределения и более быстрым приближением кривой к оси абсцисс;

2) чем больше , тем более плоской и растянутой вдоль оси абсцисс становится кривая.

Если остается неизменной, а изменяется, то кривые нормального распределения имеют одинаковую форму, но отличаются друг от друга положением максимальной ординаты (рис 3.3, б).

Особенности кривой нормального распределения.

1) Кривая симметрична и имеет максимум в точке, соответствующей значению .

2) Кривая асимптотически приближается к оси абсцисс, продолжаясь в обе стороны до бесконечности. Чем больше отдельные значения x отклоняются от , тем реже они встречаются.

3) Кривая имеет две точки перегиба на расстоянии от .

4) Площадь между ординатами, проведенными на расстоянии (заштрихованная область на рис 3.3, б), составляет 0,683. Это означает, что 68,3% всех исследуемых единиц (частот) отклоняется от средней арифметической не более, чем на , т.е. находится в пределах . В промежутке 2 находится 95,4%, а в промежутке 3 соответственно, 99,7% всех единиц исследуемой совокупности.

5) Коэффициенты асимметрии и эксцесса равны нулю.

Рис. 3.3 Кривые нормального распределения

4. Выборочное наблюдение в статистике

Наиболее широко распространенным видом несплошного наблюдения является выборочное наблюдение, при котором обследуются не все единицы изучаемой совокупности, а лишь определенным образом отобранная их часть.

Вся подлежащая изучению совокупность объектов (наблюдений) называется генеральной совокупностью. Выборочной совокупностью или выборкой называется часть генеральной совокупности, отобранная для изучения свойств обеспечивающая репрезентативность.

Отбор из генеральной совокупности проводится таким образом, чтобы на основе выборки можно было получить достаточно точное представление об основных параметрах совокупности в целом. При этом речь идет как о точечной оценке, в качестве которой принимается соответствующее значение средней, доли и т.д., полученное в результате выборки, так и об интервальной оценке, т.е. о тех пределах, в которых с определенной вероятностью может находиться значение искомого параметра в генеральной совокупности. Главное требование, которому должна отвечать выборочная совокупность, -- это требование ее репрезентативности, т.е. представительности.

В статистике результаты сплошного наблюдения иногда оцениваются как выборочные характеристики. Такая трактовка полученных данных имеет место в тех случаях, когда число обследованных единиц невелико и нет твердой уверенности в том, что изучаемые характеристики не могут принимать иных значений, кроме выявленных в результате наблюдения. При проведении экспериментов число значений может быть бесконечно большим, поэтому, формулируя выводы на основе ограниченного их числа, необходимо рассматривать полученные данные как выборочные характеристики.

Распространяя результаты выборочного обследования на генеральную совокупность, следует иметь в виду, что между характеристиками генеральной и выборочной совокупности возможно расхождение, обусловленное тем, что обследуется не, вся совокупность, а лишь ее часть.

Ошибкой статистического наблюдения считается величина отклонения между расчетным и фактическим значениями признаков изучаемых объектов.

Выборочный метод обеспечивает значительную экономию материальных и финансовых ресурсов при проведении статистического наблюдения, что позволяет расширить программу обследования и повысить его оперативность. Второе преимущество - высокая достоверность получаемых данных, так как при относительно небольшом объеме выборки можно организовать эффективный контроль за качеством собираемой информации. Таким образом, снижается вероятность появления ошибок регистрации и необнаружения их на стадии проверки первичной информации. И наконец, в ряде случаев, когда сплошное наблюдение связано с уничтожением или порчей обследуемых единиц (например, при проверке качества поступающих в продажу продуктов питания), возможно только выборочное обследование.

Точность оценок, полученных на основе выборочного метода, зависит не от доли обследованных единиц, а от их числа.

Основные этапы выборочного наблюдения;

1) определение цели, задач и составление программы наблюдения;

2) формирование выборки;

3) сбор данных на основе разработанной программы;

4) анализ полученных результатов и расчет основных характеристик выборочной совокупности;

5) расчет ошибки выборки и распространение ее результатов на генеральную совокупность.

Различают виды выборки:

случайная (собственно-случайная);

механическая (например, каждый 10, 20 и т.д.);

типическая (стратифицированная), когда генеральная совокупность разбита на группы и в каждой группе обследуются по нескольку объектов));

серийная (гнездовая), когда случайным образом отбираются целые серии.

Наиболее простой способ формирования выборочной совокупности - собственно случайный отбор. Теоретические основы выборочного метода, первоначально разработанные применительно к собственно случайному отбору, используют и для определения ошибок выборки при других способах наблюдения.

Собственно случайный отбор может быть повторным и бесповторным. При повторном отборе каждая единица, отобранная в случайном порядке из генеральной совокупности, после проведения наблюдения возвращается в эту совокупность и может быть вновь подвергнута обследованию. На практике такой способ отбора встречается редко. Гораздо более распространен собственно случайный бесповторный отбор, при котором обследованные единицы в генеральную совокупность не возвращаются и не могут быть обследованы повторно. При повторном отборе вероятность попадания в выборку для каждой единицы генеральной совокупности остается неизменной. При бесповторном отборе она меняется, но для всех единиц, оставшихся в генеральной совокупности после отбора из нее нескольких единиц, вероятность попадания в выборку одинакова.

4.1 Закон больших чисел и предельные теоремы

Под законом больших чисел в широком смысле понимается общий принцип, согласно которому, по формулировке академика Колмогорова, совокупное действие большого числа случайных факторов приводит к результату, почти не зависящему от случая. Или иначе: При большом числе случайных величин их средней результат перестает быть случайным и может быть предсказан с большой степенью определенности.

Под законом больших чисел в узком смысле понимается ряд математических теорем, в каждой из которых для тех или иных условий устанавливается факт приближения средних характеристик большого числа испытаний к некоторым определенным постоянным.

Неравенство Чебышева: для любой случайной величины, имеющей математическое ожидание M(X) и дисперсию D(X) справедливо:

,(4.1)

или

,(4.2)

Если формула (6.1) устанавливает верхнюю границу рассматриваемого события, то (4.2) - нижнюю границу вероятности события, состоящего в том, что отклонения значения случайной величины от математического ожидания не превысит (не будет менее) величины , где - достаточно малая величина.

В приложении к выборочному методу неравенство Чебышева может быть сформулировано так: при неограниченном увеличении числа наблюдений () в генеральной совокупности с ограниченной дисперсией с вероятностью близкой к единице можно ожидать, что отклонение выборочной средней () от генеральной средней будет сколь угодно мало: при . Эту вероятность в теореме А.М. Ляпунова (1901г.) используют для определения ошибки наблюдений.

,(4.3)

где - нормированная формула Лапласа.

- средняя квадратическая или стандартная ошибка выборки.

.(4.4)

Пусть надо измерить некоторою величину, истинное значение которой равно a. Пусть результат каждого измерения - случайная величина Xi (i=1,2,…,n). Если при измерениях отсутствует систематические погрешности, то M(Xi)=a при любом i. Тогда средняя арифметическая результатов и измерений сходится по вероятности к истинному значению a.

(4.5)

Дисперсия средней случайной величины Xi равна

(4.6)

Среднее квадратическое отклонение ошибок выборки

,(4.7)

.(4.8).

Зная выборочную среднюю и предельную ошибку выборки можно определить границы, в которых размещена генеральная средняя .

Величина средней квадратической ошибки простой случайной повторной выборки может быть определена по формуле:

,(4.9)

т.е. чем больше вариация признака в генеральной совокупности, тем больше ошибка выборки.

Величину называют предельной ошибкой для определения значения вероятности. Если требуется оценить среднюю генеральной совокупности с вероятностью 0,9545, то надо получить значение выборочной средней из соотношения (функция Лапласа).

Для выборки объема предельная ошибка может быть определена из соотношения .

Таблица 4.1

t

1,00

1,96

2,00

2,58

3,00

F(t)

0,683

0,9500

0,9545

0,9901

0,9973

- это предел возможной ошибки (правило «трех сигм»).

Формула предельной ошибки выборки используется не только для оценки пределов, в которых находится изучаемый признак в генеральной совокупности, но и для определения необходимого объема выборки при заданной ее ошибке. Третий тип задач, которые могут быть решены с использованием предельной ошибки выборки, - это определение вероятности, с которой можно гарантировать, что ошибка выборки не выйдет за заданные пределы.

Величина дисперсии генеральной совокупности принципиально не известна и можно говорить лишь о ее оценке по результатам одной выборки.

-для простой случайной выборки.

При , поправка становится 3,5% (30/(30-1)), поэтому ею можно пренебречь.

Таблица 4.2 Выборочное наблюдение

Наименование показателя

Вид выборки

повторная

бесповторная

Случайная выборка

Средняя (стандартная) ошибка

Средняя ошибка доли признака

Объем выборки

Типическая выборка

Средняя ошибка

Объем выборки

Серийная выборка

Средняя ошибка

Объем выборки

Величина ошибки зависит от колеблемости признака в генеральной совокупности и от объема выборки. Т.е. чем больше вариация тем больше ошибка, чем больше выборка, тем меньше ошибка. Величину называют предельной ошибкой выборки. Следовательно, предельная ошибка выборки , т.е. предельная ошибка равна t-кратному числу средних ошибок выборки.

t - коэффициент доверия

n - объем выборки;

N - объем генеральной совокупности;

s - число отобранных серий;

S - общее число серий;

- средняя из групповых дисперсий;

- межгрупповая дисперсия.

4.3 Ошибка выборки для альтернативного признака

Теорема Бернулли утверждает, что при достаточно большом объеме выборки вероятность P расхождения между долей признака в выборочной совокупности р и долей в генеральной совокупности Pг будет стремиться к 1.

,(4.10)

Для альтернативного признака среднее квадратическое отклонение равно, где . Тогда средняя ошибки выборки для альтернативного признака равна

,(4.11)

,(4.12)

Доля в генеральной совокупности Pг неизвестна и может быть только оценена при выборочном наблюдении

,(4.13)

При простой случайной выборке средняя квадратическая ошибки определяется по формулам:

Таблица 4.3

Средняя квадратическая ошибка

Повторная выборка

Бесповторная выборка

При определении среднего размера признака

, (4.14)

, (4.16)

При определении доли признака

,(4.15)

. (4.17)

4.3 Определение необходимой численности выборки

Численность стандартной и предельной ошибки выборки связано с увеличением объема выборки n. При проектировании выборочного наблюдения заранее задается величина допустимой ошибки и доверительная вероятность для определения предельной ошибки .

Если P=0,954, то (2?)

Если P=0,997, то (3?)

,(4.18)

.(6.19)

Для определения дисперсии признака в генеральной совокупности используются приближенные методы.

Можно провести несколько пробных обследований и по ним выбирать наибольшее значение дисперсии , где достаточно пробных наблюдений.

Можно использовать данные прошлых или аналогичных обследований.

Можно использовать размах вариации , если распределение нормальное, то , т.е. .

Таблица 4.4

Объем выборки N

Повторный отбор

Бесповторный отбор

При определении среднего размера признака

, (4.20)

, (4.22)

При определении доли признака

, (4.21)

. (4.23)

4.4 Формы организации выборочного наблюдения

Типическая (стратифицированная) выборка: общий список разбивается на отдельные списки (однородной группы). Общий объем выборки n разбивается пропорционально между списками:

1-й вариант

,(4.24)

где n - объем выборки

N - объем генеральной совокупности

ni - число наблюдений из i-ой типической группы

Ni - объем i-ой типической группы в генеральной совокупности.

2-й вариант - равномерный (из каждой группы поровну)

,(4.25)

где k - число групп.

3-й вариант - оптимальный (для групп с большей вариацией признака объем наблюдений увеличивается)

.(4.26)

Серийная (гнездовая) выборка - в случайном порядке отбираются серии сплошного контроля. Тогда в сериях определяется без случайной ошибки. При равновеликих сериях стандартная ошибка выборки определяется

,(4.27)

где s - число серий;

? - межгрупповая дисперсия.

При бесповторном отборе

,(4.28)

где S - общее число серий в генеральной совокупности.

Механическая выборка - при ранжировании генеральной совокупности устанавливается шаг отбора в зависимости от предполагаемого % отбора. Если совокупность не ранжирована, то это случайный отбор, т.е. по известным формулам.

,(4.29)

Механический отбор удобен, прост и широко применяется, так при 2%-й выборке отбирается каждая 500-я единица (1:0,02), при 5%-й - каждая 20-я.

Пример

Исходя требований ГОСТа необходимо установить оптимальный размер выборки из партии изделий 2000 штук, чтобы с вероятностью 0,997 предельная ошибка не превысила 3% от веса 500 гр. Изделия (батона).

Решение.

гр для средней количественного признака

шт.

наблюдение корреляционный вариационный тренд

5. Статистические методы изучения взаимосвязи социально-экономических явлений

Корреляционная связь (частный случай стохастической) - связь, проявляющаяся при достаточно большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами.

Задача корреляционного анализа - измерение тесноты связи между варьируемыми признаками и оценка факторов, оказывающих наибольшее влияние.

Задача регрессионного анализа - выбор типа модели (формы связи), устанавливающих степени влияния независимых переменных.

Связь признаков проявляется в их согласованной вариации, при этом одни признаки выступают как факторные, а другие - как результативные. Причинно-следственная связь факторных и результативных признаков характеризуется по степени:

· тесноты;

· направлению;

· аналитическому выражению.

5.1 Регрессионный анализ

Для оценки параметров уравнений регрессии наиболее часто используется метод наименьших квадратов (МНК), суть которого заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических (фактических) значений, т.е.

.(5.1)

При изучении связей показателей применяются различного вида уравнения прямолинейной и криволинейной связи. Так, при анализе прямолинейной зависимости применяется уравнение:

(5.2)

Это наиболее часто используемая форма связи между коррелируемыми признаками, при парной корреляции она выражается уравнением (6.2), где а0 - среднее значение в точке x=0, поэтому экономической интерпретации коэффициента нет; а1 - коэффициент регрессии, показывает, на сколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.

При криволинейной зависимости применяется ряд математических функций:

полулогарифмическая (5.3)

показательная(5.4)

степенная(5.5)

параболическая(5.6)

гиперболическая(5.7)

Система нормальных уравнений МНК для линейной парной регрессии имеет следующий вид:

(5.8)

Отсюда можно выразить коэффициенты регрессии:

;

.(5.9)

При численности объектов анализа до 30 единиц возникает необходимость проверить, насколько вычисленные параметры типичны для отображаемого комплекса условий, не являются ли полученные значения параметров результатом действия случайных причин. Значимость коэффициентов регрессии применительно к совокупности n<30 определяется с помощью t-критерия Стьюдента. При этом вычисляются фактические значения t-критерия:

для параметра а0: , (5.10)

для параметра а1: .(5.11)

В формулах (5.10) и (5.11):

- среднее квадратическое отклонение результативного признака от выровненных значений .(5.12)

- среднее квадратическое отклонение факторного признака от общей средней .(5.13)

Полученные по формулам (5.10) и (5.11) фактические значения и сравниваются с критическим , который получают по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы ? (?=n-k-1, где n - число наблюдений, k - число факторов, включенных в уравнение регрессии). Рассчитанные параметры а0 и а1 уравнения регрессии признаются типичными, если t фактическое больше t критического.

На практике часто приходится исследовать зависимость результативного признака от нескольких факторных признаков. Аналитическая форма связи результативного признака от ряда факторных признаков выражается и называется многофакторным (множественным) уравнением регрессии.

Линейное уравнение множественной регрессии

.(5.14)

Система нормальных линейных уравнений МНК для оценки коэффициентов двухфакторной регрессии имеет вид:

(5.15)

5.2 Корреляционный анализ

Различают:

· парную корреляцию - это зависимость между результативным и факторным признаком;

· частную корреляцию - это зависимость между результативным и одним факторным признаком при фиксированном значении других факторных признаков;

· множественную - многофакторное влияние в статической модели .

Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента корреляции, который рассчитывается по одной из формул:

(5.16)

. (5.17)

Таблица 5.1 Оценка линейного коэффициента корреляции

Значение r

Характер связи

Интерпретация связи

r = 0

Отсутствует

Изменение x не влияет на изменения y

0 < r < 1

Прямая

С увеличением x увеличивается y

-1 > r > 0

Обратная

С увеличением x уменьшается y и наоборот

r = 1

Функциональная

Каждому значению факторного признака строго соответствует одно значение результативного

Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента. Для этого определяется фактическое значение критерия :

, (5.18)

Вычисленное по формуле (6.18) значение сравнивается с критическим , который получают по таблице Стьюдента с учетом принятого уровня значимости и числа степеней свободы ?. Коэффициент корреляции считается статистически значимым, если tрасч превышает : tрасч > .

Универсальным показателем тесноты связи является теоретическое корреляционное отношение:

,(5.19)

где - общая дисперсия эмпирических значений y, характеризует вариацию результативного признака за счет всех факторов, включая х;

- факторная дисперсия теоретических значений результативного признака, отражает влияние фактора х на вариацию у;

- остаточная дисперсия эмпирических значений результативного признака, отражает влияние на вариацию у всех остальных факторов кроме х.

По правилу сложения дисперсий:

, т.е. .(5.19)

Оценка связи на основе теоретического корреляционного отношения (шкала Чеддока)

Таблица 5.2

Значение

Характер связи

Значение

Характер связи

? = 0

Отсутствует

0,5 ? ? < 0,7

Заметная

0 < ? < 0,2

Очень слабая

0,7 ? ? < 0,9

Сильная

0,2 ? ? < 0,3

Слабая

0,9 ? ? < 1

Весьма сильная

0,3 ? ? < 0,5

Умеренная

? = 1

Функциональная

Для линейной зависимости теоретическое корреляционное отношение тождественно линейному коэффициенту корреляции, т.е. ? = |r|.

Множественный коэффициент корреляции в случае зависимости результативного признака от двух факторов вычисляется по формуле:

,(5.20)

где - парные коэффициенты корреляции между признаками.

Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: .

Условие включения факторных признаков в регрессионную модель - наличие тесной связи между результативным и факторными признаками и как можно менее существенная связь между факторными признаками.

Значимость коэффициента множественной детерминации, а соответственно и адекватность всей модели и правильность выбора формы связи можно проверить с помощью критерия Фишера:

, (5.21)

гдеR2 - коэффициент множественной детерминации (R2 );

k - число факторных признаков, включенных в уравнение регрессии.

Связь считается существенной, если Fрасч > Fтабл - табличного значения F-критерия для заданного уровня значимости ? и числе степеней свободы ?1 = k, ?2 = n - k - 1.

Частные коэффициенты корреляции характеризуют степень тесноты связи результативного признака и фактора, при элиминировании его взаимосвязи с остальными факторами, включенными в анализ. Расчет частных коэффициентов корреляции в случае двухфакторной регрессии (в первом случае исключено влияние факторного признака х2, во втором - х1):

; ,(5.22)

гдеr - парные коэффициенты корреляции между указанными в индексе переменными.

Для оценки сравнительной силы влияния факторов, по каждому фактору рассчитывают частные коэффициенты эластичности:

,(5.23)

где - среднее значение соответствующего факторного признака;

- среднее значение результативного признака;

- коэффициент регрессии при i-м факторном признаке.

Данный коэффициент показывает, на сколько процентов следует ожидать изменения результативного показателя при изменении фактора на 1% и неизменном значении других факторов.

Частный коэффициент детерминации показывает, на сколько процентов вариация результативного признака объясняется вариацией i-го признака, входящего в множественное урав...


Подобные документы

  • Ряды распределения, их построение по количественному или по атрибутивному признаку. Выборочное метод наблюдения при сборе информации в условиях развитой рыночной экономики. Статистические методы изучения взаимосвязей социально-экономических явлений.

    реферат [66,2 K], добавлен 03.02.2010

  • Статистическое наблюдение; классификация признаков явлений; сводка и группировка. Ряды распределения и их графическое изображение; уровневые и интегральные графики. Динамические ряды, статистические таблицы, абсолютные, относительные и средние величины.

    учебное пособие [217,1 K], добавлен 23.12.2009

  • Предмет и метод статистической науки. Методология наблюдения, статистическая сводка, группировка, таблицы и графики, показатели и средние величины. Показатели вариации, выборочное наблюдение. Корреляционно-регрессионный анализ. Экономические индексы.

    лекция [1,2 M], добавлен 02.01.2014

  • Предмет и метод статистики. Группировка и ряд распределения. Абсолютные, относительные, средние величины, показатели вариации. Выборочное наблюдение, ряды динамики. Основы корреляционного и регрессионного анализа. Статистика населения и рынка труда.

    методичка [2,2 M], добавлен 16.02.2011

  • Технико-экономические показатели групп заводов; ряды распределения. Относительные величины интенсивности, цепные и базисные индексы товарооборота. Расчет средней величины, моды и медианы. Среднее квадратическое отклонение; дисперсия, коэффициент вариации.

    контрольная работа [88,8 K], добавлен 06.10.2013

  • Виды и формы связей между явлениями. Методы изучения взаимосвязи экономических явлений. Статистические методы изучения взаимосвязи. Метод аналитических группировок. Дисперсионный и корреляционно-регрессионный анализ. Непараметрические методы оценки связи.

    курсовая работа [235,9 K], добавлен 10.12.2008

  • Корреляционный и регрессионный приемы выявления связей между признаками. Оценка значимости параметров и взаимосвязи. Виды, формы (открытая, подавленная), способы измерения инфляции. Методология расчета и сезонной корректировки индекса потребительских цен.

    курсовая работа [223,3 K], добавлен 25.08.2010

  • Статистические ряды распределения, их виды. Статистические таблицы. Индексы индивидуальные и общие. Динамические характеристики и погрешности приборов для измерения и контроля финансово-экономических показателей. Функции управления качеством продукции.

    курсовая работа [1,0 M], добавлен 07.03.2011

  • Сводка и группировка материалов статистического наблюдения. Абсолютные, относительные и средние величины, показатели вариации. Ряды динамики, индексный анализ. Проведение корреляционно-регрессионного анализа таблиц о сборе урожая и внесении удобрений.

    курсовая работа [667,1 K], добавлен 14.05.2013

  • Виды и формы связей социально-экономических явлений. Корреляционно-регрессионный анализ. Уравнение парной регрессии: экономическая интерпретация и оценка значимости. Качество однофакторных линейных моделей. Прогнозирование экономических показателей.

    реферат [154,7 K], добавлен 19.12.2010

  • Группы средних величин: степенные, структурные. Особенности применения средних величин, виды. Рассмотрение основных свойств средней арифметической. Характеристика структурных средних величин. Анализ примеров на основе реальных статистических данных.

    курсовая работа [230,6 K], добавлен 24.09.2012

  • Виды и методы взаимосвязи. Виды взаимосвязи. Методы взаимосвязи. Аналитические группировки. Метод параллельных рядов. Балансовый метод. Корреляционно-регрессионный анализ. Графики, характеризующие связь социальных явлений.

    курсовая работа [141,7 K], добавлен 26.03.2007

  • Индексы и их классификация, субиндексы. Индивидуальные и общие индексы, индексный метод. Общие индексы количественных и качественных показателей, средние арифметические и средние гармонические. Применение средневзвешенных индексов в статистике.

    курсовая работа [1,1 M], добавлен 24.07.2008

  • Понятие статистических рядов распределения и их виды: атрибутивные и вариационные. Графическое изображение статистических данных: расчет показателей вариации, моды и медианы. Анализ группы предприятий по признакам Товарооборот и Средние товарные запасы.

    курсовая работа [498,5 K], добавлен 09.01.2011

  • Понятие абсолютной и относительной величины в статистике. Виды и взаимосвязи относительных величин. Средние величины и общие принципы их применения. Расчет средней через показатели структуры, по результатам группировки. Определение показателей вариации.

    лекция [29,1 K], добавлен 25.09.2011

  • Особенности построения статистических сводок и рядов распределения в экономическом исследовании. Практическое применение метода группировок при анализе кадрового состава современной организации. Этапы изучения взаимосвязей социально-экономических явлений.

    курсовая работа [240,4 K], добавлен 20.01.2015

  • Многомерный корреляционный, регрессионный анализ. Многошаговый регрессионный анализ. Метод отсева факторов по t-критерию. Вариационные характеристики. Корреляционный анализ. Многомерный регрессионный анализ. Многошаговый регрессионный анализ.

    курсовая работа [80,1 K], добавлен 01.10.2005

  • Средние показатели в рядах динамики. Проверка ряда на наличие тренда. Непосредственное выделение тренда. Анализ сезонных колебаний. Анализ взаимосвязанных рядов динамики. Статистико-детерминированный характер социально-экономических явлений.

    реферат [98,1 K], добавлен 07.12.2006

  • Основные этапы и методы статистического исследования. Важнейшие экономические индексы и их взаимосвязи. Сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве.

    контрольная работа [191,2 K], добавлен 08.12.2014

  • Классификация признаков в статистике. Основные требования к организации сбора первичной информации об исследованиях социально-экономических явлений. Формы и виды статистических наблюдений. Методы контроля за соблюдением достоверности полученных сведений.

    презентация [226,3 K], добавлен 20.12.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.