Методы прикладной статистики
Понятие измерения в социологии. Принцип применения шкал в социологии, их типы и описание средних тенденций. Выборочные данные, их графические представления и статистика. Определение связи между случайными величинами. Проверка статистических гипотез.
Рубрика | Экономика и экономическая теория |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 30.01.2015 |
Размер файла | 35,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Методы прикладной статистики
Задача 1. Шкалы в социологических измерениях
Привести определения:
- понятие измерения в социологии;
- шкалы в социологии;
- типы шкал и характеристики их средних тенденций.
Привести примеры для каждого вида шкалы (название переменной, значение, число случаев).
По данным табл.1 составить адекватные типам шкал выборки, определить для них значения средних тенденций, в терминах шкального измерения. Рассчитать числовые значения средних тенденций.
Вариант 4 |
9,8,6,5,8,7,5,4,3,5 |
8,10,6,5,4,3 |
56,87,97,54,63,13,67,59,62 |
Решение:
Измерением (в широком смысле) в социологической науке можно назвать любое социологическое исследование, так как его задачей является отбор, изучение, представление социальных фактов, явлений, процессов, их наиболее точное описание с использованием математического аппарата.
Измерение означает, каким образом, с помощью каких средств и в какой форме социолог может получить необходимую информацию.
Шкала - некая система показателей, присваеваемых изучаемому объекту, т.е. это переменная с вариантами ответов.
Показатели в шкалах называют шкальными значениями или совокупностью шкальных значений. Совокупность шкальных значений в общем виде представляет собой определенную модель социальной реальности и образует одномерный континуум.
Континуум - это протяженность изучаемого свойства объекта с указанием его крайних значений. Термин континуум означает непрерывность. Он может быть представлен в виде непрерывной линии (оси), на которой размещены объекты измерения с указанными (приписанными) им числами.
Шкалы бывают разных видов и типов.
По своему виду они могут быть вербальными (словесными), числовыми (в баллах), графическими (изобразительными).
По своему содержанию и предназначению выделяют в основном следующие типы шкал: номинальную, порядковую (ранговую), интервальную (шкалу равных интервалов Терстоуна), шкалы для измерения установок и отношений, оценочные шкалы, метрические шкалы.
а) 9,8,6,5,8,7,5,4,3,5
Проранжируем ряд. Для этого сортируем его значения по возрастанию. 3, 4, 5, 5, 5, 6, 7, 8, 8, 9.
Мода - наиболее часто встречающееся значение признака у единиц данной совокупности.
Значение ряда 5 встречается всех больше (3 раз). Следовательно, мода равна x = 5
Медиана - значение признака, которое делит единицы ранжированного ряда на две части. Медиана соответствует варианту, стоящему в середине ранжированного ряда. социология шкала статистика гипотеза
Находим середину ранжированного ряда: h = n/2 = 10/2 = 5. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (5 + 6)/2 = 5.5
б) 8,10,6,5,4,3
Проранжируем ряд. Для этого сортируем его значения по возрастанию. 3, 4, 5, 6, 8, 10.
Мода отсутствует (все значения ряда индивидуальные).
Находим середину ранжированного ряда: h = n/2 = 6/2 = 3. Ранжированный ряд включает четное число единиц, следовательно медиана определяется как средняя из двух центральных значений: (5 + 6)/2 = 5.5
в) 56,87,97,54,63,13,67,59,62
Проранжируем ряд. Для этого сортируем его значения по возрастанию. 13, 54, 56, 59, 62, 63, 67, 87, 97.
Мода отсутствует (все значения ряда индивидуальные).
Находим середину ранжированного ряда: h = (n+1)/2 = (9+1)/2 = 5. Этому номеру соответствует значение ряда 62. Следовательно, медиана Me = 62
Задача 2. Выборочные данные, их графические представления и статистики
- по данным табл.1 для каждого типа шкал построить (полигон частот, кумуляту, гистограмму);
- проверить графическим способом значения средних тенденций, рассчитанных в первой задаче;
- рассчитать величину дисперсии для каждого вида шкалы (коэффициент вариации, коэффициент Кендэлла, выборочная дисперсия).
Решение: а) 9,8,6,5,8,7,5,4,3,5
Таблица для расчета показателей.
X |
|x - xср| |
(x - xср)2 |
|
3 |
3 |
9 |
|
4 |
2 |
4 |
|
5 |
1 |
1 |
|
5 |
1 |
1 |
|
5 |
1 |
1 |
|
6 |
0 |
0 |
|
7 |
1 |
1 |
|
8 |
2 |
4 |
|
8 |
2 |
4 |
|
9 |
3 |
9 |
|
60 |
16 |
34 |
Среднее линейное отклонение - вычисляют для того, чтобы учесть различия всех единиц исследуемой совокупности.
Каждое значение ряда отличается от другого в среднем на 1.6
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).
Несмещенная оценка дисперсии - состоятельная оценка дисперсии (исправленная дисперсия).
Среднее квадратическое отклонение (средняя ошибка выборки).
Коэффициент вариации - мера относительного разброса значений совокупности: показывает, какую долю среднего значения этой величины составляет ее средний разброс.
Поскольку v>30% ,но v<70%, то вариация умеренная.
Линейный коэффициент вариации или Относительное линейное отклонение - характеризует долю усредненного значения признака абсолютных отклонений от средней величины. б) 8,10,6,5,4,3
Таблица для расчета показателей.
X |
|x - xср| |
(x - xср)2 |
|
3 |
3 |
9 |
|
4 |
2 |
4 |
|
5 |
1 |
1 |
|
6 |
0 |
0 |
|
8 |
2 |
4 |
|
10 |
4 |
16 |
|
36 |
12 |
34 |
(вариация умеренная).
в) 56,87,97,54,63,13,67,59,62
Таблица для расчета показателей.
x |
|x - xср| |
(x - xср)2 |
|
13 |
49 |
2401 |
|
54 |
8 |
64 |
|
56 |
6 |
36 |
|
59 |
3 |
9 |
|
62 |
0 |
0 |
|
63 |
1 |
1 |
|
67 |
5 |
25 |
|
87 |
25 |
625 |
|
97 |
35 |
1225 |
|
558 |
132 |
4386 |
(вариация умеренная).
Задача 3. Определение связи между случайными величинами
В компании работают 10 человек. В табл.2 приведены данные по стажу их работы и месячному окладу.
Рассчитайте по этим данным - величину оценки выборочной ковариации; - значение выборочного коэффициента корреляции Пирсона;
- оцените по полученным значениям направление и силу связи;
- определите, насколько правомерно утверждение о том, что данная компания использует японскую модель управления, заключающуюся в предположении, что чем больше времени сотрудник проводит в данной компании, тем выше должен быть у него оклад.
Решение:
На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.
Для расчета параметров регрессии построим расчетную таблицу.
x |
Y |
x2 |
y2 |
x * y |
|
10 |
1800 |
100 |
3240000 |
18000 |
|
12 |
2400 |
144 |
5760000 |
28800 |
|
34 |
4700 |
1156 |
22090000 |
159800 |
|
45 |
5000 |
2025 |
25000000 |
225000 |
|
30 |
2700 |
900 |
7290000 |
81000 |
|
25 |
2300 |
625 |
5290000 |
57500 |
|
31 |
3500 |
961 |
12250000 |
108500 |
|
32 |
3000 |
1024 |
9000000 |
96000 |
|
49 |
4500 |
2401 |
20250000 |
220500 |
|
39 |
3400 |
1521 |
11560000 |
132600 |
|
307 |
33300 |
10857 |
121730000 |
1127700 |
Выборочные средние
.
Выборочные дисперсии:
Среднеквадратическое отклонение
Линейное уравнение регрессии имеет вид
y = bx + a
Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид
y = bx + a + е
где ei - наблюдаемые значения (оценки) ошибок еi, а и b соответственно оценки параметров б и в регрессионной модели, которые следует найти.
Для оценки параметров б и в - используют МНК (метод наименьших квадратов).
Система нормальных уравнений.
a*n + b?x = ?y
a?x + b?x2 = ?y*x
Для наших данных система уравнений имеет вид
10a + 307 b = 33300
307 a + 10857 b = 1127700
Домножим уравнение (1) системы на (-30.7), получим систему, которую решим методом алгебраического сложения.
-307a -9424.9 b = -1022310
307 a + 10857 b = 1127700
Получаем:
1432.1 b = 105390
Откуда b = 73.5912
Теперь найдем коэффициент «a» из уравнения (1):
10a + 307 b = 33300
10a + 307 * 73.5912 = 33300
10a = 10707.49
a = 1070.7492
Получаем эмпирические коэффициенты регрессии: b = 73.5912, a = 1070.7492
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 73.5912 x + 1070.7492
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
Ковариация.
Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от -1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X высокая и пряма я.
Следовательно, можно смело утверждать, что чем больше времени сотрудник работает в данной компании, тем выше у него оклад.
Задача 4. Проверка статистических гипотез. При решении этой задачи первым шагом необходимо сформулировать проверяемую гипотезу и альтернативную ей.
Проверка равенства генеральных долей.
Проведено исследование по вопросам успеваемости студентов на двух факультетах. Результаты по вариантам приведены в табл.3. Можно ли утверждать, что на обоих факультетах одинаковый процент отличников?
Решение:
Простая средняя арифметическая
Проводим проверку гипотезы о равенстве генеральных долей:
Найдём экспериментальное значение критерия Стьюдента:
Число степеней свободы
f = nх + nу - 2 = 2 + 2 - 2 = 2
Определяем значение tkp по таблице распределения Стьюдента
По таблице Стьюдента находим:
Tтабл(f;б/2) = Tтабл(2;0.025) = 4.303
По таблице критических точек распределения Стьюдента при уровне значимости б = 0.05 и данному числу степеней свободы находим tкр = 4.303
Т.к. tнабл > tкр, то нулевая гипотеза отвергается, генеральные доли двух выборок не равны.
Проверка равномерности генерального распределения.
Руководство университета хочет выяснить, как со временем менялась популярность гуманитарного факультета. Анализировалось количество абитуриентов, подавших заявление на этот факультет, по отношению к общему количеству абитуриентов в соответствующем году. Данные приведены в табл.4). Если считать число абитуриентов репрезентативной выборкой из общего количества выпускников школ года, можно ли утверждать, что интерес школьников к специальностям данного факультета не изменяется с течением времени? Для оценки ряда распределения найдем следующие показатели: Средняя взвешенная
Размах вариации - разность между максимальным и минимальным значениями признака первичного ряда.
R = Xmax - Xmin
R = 2008 - 1988 = 20
Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).
Среднее квадратическое отклонение (средняя ошибка выборки).
Каждое значение ряда отличается от среднего значения 2002.66 в среднем на 6.32
Проверка гипотезы о равномерном распределении генеральной совокупности.
Для того чтобы проверить гипотезу о равномерном распределении X,т.е. по закону:
f(x) = 1/(b-a)
в интервале (a,b) надо:
Оценить параметры a и b - концы интервала, в котором наблюдались возможные значения X, по формулам (через знак * обозначены оценки параметров):
Найти плотность вероятности предполагаемого распределения f(x) = 1/(b* - a*)
Найти теоретические частоты:
n1 = nP1 = n[f(x)*(x1 - a*)] = n*1/(b* - a*)*(x1 - a*)
n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)
ns = n*1/(b* - a*)*(b* - xs-1)
Сравнить эмпирические и теоретические частоты с помощью критерия Пирсона, приняв число степеней свободы
k = s-3
где s - число первоначальных интервалов выборки; если же было произведено объединение малочисленных частот, следовательно, и самих интервалов, то s - число интервалов, оставшихся после объединения.
Найдем оценки параметров a* и b* равномерного распределения по формулам:
Найдем плотность предполагаемого равномерного распределения:
f(x) = 1/(b* - a*) = 1/(2013.62 - 1991.71) = 0.0456
Найдем теоретические частоты:
n1 = n*f(x)(x1 - a*) = 0.77 * 0.0456(1992-1991.71) = 0.0102
n5 = n*f(x)(b* - x4) = 0.77 * 0.0456(2013.62-2008) = 0.2
Остальные ns будут равны:
ns = n*f(x)(xi - xi-1)
Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение Kнабл, тем сильнее довод против основной гипотезы.
Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+?).
Её границу
Kkp = ч2(k-r-1
б) находим по таблицам распределения ч2 и заданным значениям s, k (число интервалов), r=2 (параметры a и b).
Kkp = 5.99146; Kнабл = 0.29
Наблюдаемое значение статистики Пирсона не попадает в критическую область: Кнабл < Kkp, поэтому нет оснований отвергать основную гипотезу. Справедливо предположение о том, что данные выборки имеют равномерный закон.
Проверка равенства нулю генерального коэффициента корреляции.
Получена статистика оценок (по 100 балльной шкале) студентов за работу в семестре и на экзамене. Можно ли утверждать, что существует связь между работой в семестре и оценкой, полученной на экзамене?
Решение:
Для расчета параметров регрессии построим расчетную таблицу
x |
y |
x2 |
y2 |
x * y |
|
44 |
29 |
1936 |
841 |
1276 |
|
84 |
94 |
7056 |
8836 |
7896 |
|
24 |
61 |
576 |
3721 |
1464 |
|
73 |
53 |
5329 |
2809 |
3869 |
|
49 |
61 |
2401 |
3721 |
2989 |
|
69 |
42 |
4761 |
1764 |
2898 |
|
55 |
45 |
3025 |
2025 |
2475 |
|
88 |
84 |
7744 |
7056 |
7392 |
|
486 |
469 |
32828 |
30773 |
30259 |
Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
Ковариация.
Рассчитываем показатель тесноты связи. Таким показат
елем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:
Линейный коэффициент корреляции принимает значения от -1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 < rxy < 0.3: слабая;
0.3 < rxy < 0.5: умеренная;
0.5 < rxy < 0.7: заметная;
0.7 < rxy < 0.9: высокая;
0.9 < rxy < 1: весьма высокая;
В нашем примере связь между признаком Y фактором X заметна и прямая.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:
Уравнение регрессии.
Линейное уравнение регрессии имеет вид y = 0.53 x + 26.13
Коэффициентам уравнения линейной регрессии можно придать экономический смысл.
Коэффициент регрессии b = 0.53 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y повышается в среднем на 0.53.
Коэффициент a = 26.13 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.
Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.
Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.
Связь между у и х определяет знак коэффициента регрессии b (если > 0 - прямая связь, иначе - обратная). В нашем примере связь прямая.
Выдвигаем гипотезы: H0: rxy = 0, нет линейной взаимосвязи между переменными; H1: rxy ? 0, есть линейная взаимосвязь между переменными;
Для того чтобы при уровне значимости б проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ? 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости б и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит -- нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости б=0.05 и степенями
tкрит (n-m-1;б/2) = (6;0.025) = 2.447
где m = 1 - количество объясняющих переменных.
Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку |tнабл| < tкрит, то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - не значим
Размещено на Allbest.ru
...Подобные документы
Понятие статистики как науки, предмет и методы ее изучения, основные цели и задачи. Категории статистики и ее показатели, способы представления результатов. Сущность и классификация относительных и средних величин. Понятие ряда динамики и его анализ.
реферат [192,6 K], добавлен 15.05.2009Организация статистики и источники статистических данных. Наблюдение по способу регистрации данных. Выявление и изучение связи и взаимозависимости между явлениями. Система статистических показателей. Определение средних и относительных величин.
контрольная работа [53,6 K], добавлен 27.01.2011Анализ этапов проверки статистических гипотез. Сравнение центров распределений. Концепция объектно-ориентированного программирования. Проверка неразличимости дисперсий с помощью критерия Кохрена. Определение границ существования математического ожидания.
курсовая работа [793,5 K], добавлен 16.05.2013История возникновения и развития статистики. Предмет, основные понятия и категории статистики. Методы сбора, обобщения и анализа статистических данных. Экономическая статистика и ее отрасли. Современная организация статистики в Российской Федерации.
лекция [16,5 K], добавлен 02.05.2012Общее понятие про гипотезы, их классификация. Выбор и основные принципы расчета критериев для проверки статистических гипотез. Проверка гипотезы о законе распределения генеральной совокупности с использованием функции Лапласа, критерия Фишера-Снедекора.
курсовая работа [2,6 M], добавлен 01.04.2011Краткая история зарождения и развития статистики как науки. Предмет изучения и характеристика основных задач статистики. Статистические методы сбора и обработки данных для получения достоверных оценок и результатов. Источники статистических данных.
лекция [23,7 K], добавлен 13.02.2011Понятие, цель и задачи статистики внешней торговли Российской Федерации. Основные источники статистических данных и показатели статистики внешней торговли РФ. Определение основных тенденций в изменении показателей динамики экспорта и импорта России.
курсовая работа [783,9 K], добавлен 24.06.2014Исторические корни экономической социологии. К. Маркс и М. Вебер – две значительные фигуры в области экономической социологии. Проблемы и перспективы развития экономической социологии. Особенности новосибирского "варианта" экономической социологии.
реферат [21,5 K], добавлен 03.07.2007Статистика как одна из древнейших отраслей знаний, возникшая на базе хозяйственного учета. Развитие статистики как науки. Определение предмета статистики. Статистическое наблюдение как этап статистического исследования. Методы и показатели статистики.
контрольная работа [38,9 K], добавлен 20.01.2010Предмет и метод статистики. Сводка и группировка статистических данных. Функции статистических показателей. Статистические ряды, вариация и дисперсия. Преимущества выборочного наблюдения. Методы анализа корреляционных связей, экономические индексы.
методичка [371,4 K], добавлен 15.01.2010Исследование типа регрессии между случайными переменными. Построение эмпирического уравнения регрессии. Расчет выборочных средних, дисперсий и среднеквадратического отклонения. Определение показателя тесноты связи как линейного коэффициента корреляции.
контрольная работа [513,5 K], добавлен 02.05.2015История развития статистики в России. Деятельность видных ученых в развитии статистики как науки. Основные задачи статистики. Общая теория статистики, экономическая статистика, социальная статистика. Отраслевая статистика.
реферат [23,9 K], добавлен 12.12.2006Структурная группировка статистических наблюдений на предприятиях по объёму перевезённого груза. Расчет показателей вариации. Оценка значимости коэффициента корреляции. Расчет связей между случайными величинами и для линейной парной зависимости.
курсовая работа [411,3 K], добавлен 13.01.2014Понятие и свойства средних величин. Характеристика и расчет их видов (средних арифметической, гармонической, геометрической, квадратической, кубической и структурных). Сфера их применения в экономическом анализе хозяйственной деятельности отраслей.
курсовая работа [56,8 K], добавлен 21.05.2014Способы сбора и группировки статистических сведений, полученных в результате наблюдений или экспериментов. Методы анализа статистических данных в зависимости от целей исследования. Проверка статистических гипотез, оценка неизвестной вероятности события.
курсовая работа [172,8 K], добавлен 15.11.2009Понятие статистики, история ее развития. Организация статистики в Российской Федерации. Понятие о статистическом наблюдении. Виды экономических индексов. Виды статистических показателей. Абсолютные и относительные величины. Этапы построения группировки.
лекция [92,0 K], добавлен 20.10.2010Порядок проведения проверки статистических гипотез. Проверка однородности результатов эксперимента в целях исключения грубых ошибок. Расчет теоретических частот для нормального распределения. Уравнение линейной регрессии и метод наименьших квадратов.
курсовая работа [349,5 K], добавлен 09.01.2011Изучение свойств расположения статистических групп и понятие статистической совокупности. Определение состава показателей для измерения структуры совокупности, обобщающие индексы сравнения. Статистическая проверка гипотез и эмпирическое распределение.
лекция [290,8 K], добавлен 27.04.2013Статистика занятости и безработицы. Определение численности и состава занятых лиц. Выборочное наблюдение, сводка и группировка, ряд распределения. Характеристика статистических показателей. Расчет средних величин и показателей вариации, ошибок выборки.
курсовая работа [180,5 K], добавлен 10.08.2009Схемы решений практических заданий по разделам "Теория статистики" и "Статистика предприятия". Правила и требования к составлению статистических таблиц. Критерии оценки контрольной работы. Относительные величины плановой и фактической динамики.
методичка [417,0 K], добавлен 08.02.2011