Эконометрические исследования
Подготовка статистической базы эконометрического исследования. Детерминированные и стохастические процессы. Модели дискретного выбора. Бинарные модели, прогнозирование. Иерархический кластерный анализ, производственная функция. Метод наименьших квадратов.
Рубрика | Экономико-математическое моделирование |
Вид | шпаргалка |
Язык | русский |
Дата добавления | 18.03.2016 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Включение в модель регрессии фактора времени
В корреляционно-регрессионном анализе устранить воздействие какого-либо фактора можно, если зафиксировать воздействие этого фактора на результат и другие включенные в модель факторы. Этот прием используется в анализе временных рядов, когда тенденция фиксируется через включение фактора времени в модель в качестве независимой переменной.
Модель вида , относится к группе моделей, включающих фактор времени. Очевидно, что число независимых переменных в такой модели может быть больше единицы. Кроме того, это могут быть не только текущие, но и лаговые значения независимой переменной, а также лаговые значения результативной переменной.
Преимущество данной модели по сравнению с методами отклонений от трендов и последовательных разностей в том, что она позволяет учесть всю информацию, содержащуюся в исходных данных, т.к и есть уровни исходных временных рядов. Кроме того, модель строится по всей совокупности данных за рассматриваемый период в отличие от метода последовательных разностей, который приводит к потере числа наблюдений. Параметры a и b модели с включением фактора времени определяются обычным МНК.
42. Виды моделей систем эконометрических уравнений
Если экономический процесс не поддаётся описанию посредством одной модели регрессии, то в подобных ситуациях прибегают к построению нескольких эконометрических уравнений, которые в совокупности образуют систему.
В состав системы эконометрических уравнений входят множество зависимых или эндогенных переменных и множество предопределённых переменных (лаговые и текущие независимые переменные, а также лаговые эндогенные переменные).
Системы эконометрических уравнений используются для объяснения текущих значений эндогенных переменных в зависимости от значений предопределённых переменных.
Системы эконометрических уравнений, которые используются в эконометрическом моделировании, подразделяются на три типа.
1. Система независимых эконометрических уравнений вида:
Данная система характеризуется тем, что каждая эндогенная переменная y является функцией от одних и тех же переменных x;
2. Система рекурсивных эконометрических уравнений вида:
Данная система характеризуется тем, что в каждом последующем уравнении эндогенная переменная выступает в качестве экзогенной переменной;
3. Система взаимозависимых эконометрических уравнений вида:
Данная система характеризуется тем, что эндогенные переменные в одних уравнениях входят в левую часть (т. е. являются результативными переменными), а в других уравнениях - в правую часть (т. е. являются факторными переменными).
В системе взаимозависимых уравнений значения результативных и факторных переменных формируются одновременно под влиянием внешних факторов. Поэтому данная система также называется системой одновременных или совместных уравнений.
В системах независимых и рекурсивных уравнений каждое уравнение может рассматриваться самостоятельно, поэтому оценки неизвестных коэффициентов этих уравнений можно рассчитать с помощью классического метода наименьших квадратов.
В системе одновременных уравнений каждое уравнение не может рассматриваться как самостоятельная часть системы, поэтому оценки неизвестных коэффициентов данных уравнений нельзя определить с помощью классического метода наименьших квадратов, т. к.нарушаются три основных условия применения этого метода:
а) между переменными системы уравнений существует одновременная зависимость, т. е. в первом уравнении системы y1 является функцией от y2, а во втором уравнении уже y2является функцией от y1;
б) наличие проблема мультиколлинеарности, т. е. во втором уравнении системы y2 зависит от x1, а в других уравнениях обе переменные являются факторными;
в) случайные ошибки уравнения коррелируют с результативными переменными.
Следовательно, если неизвестные коэффициенты системы одновременных уравнений оценивать с помощью классического метода наименьших квадратов, то в результате мы получим смещённые и несостоятельные оценки.
43. Структурная и приведенная форма модели
Экономическая модель как система одновременных уравнений может быть представлена в структурной или в приведенной форме. В структурной форме ее уравнения имеют исходный вид, отражая непосредственные связи между переменными. Приведенная форма получается после решения модели относительно эндогенных (внутренних) переменных, то есть выражения этих переменных только через экзогенные (задаваемые извне) переменные и параметры модели.
Структурная форма модели содержит эндогенные переменные - . Это зависимые переменные, число которых равно числу уравнений в системе, и (которые определяются внутри системы). Экзогенные переменные - . Это независимые переменные, которые определяются вне системы и влияющие на эндогенные переменные, но независящие от них. Лаговые переменные - независимые переменные за предыдущие моменты времени. Лаговыми могут быть эндогенные переменные за предшествующий период времени, и тогда они являются экзогенными.
Предопределённые переменные - это экзогенные и лаговые. Структурные коэффициенты модели: и при переменных x и y. Все переменные в модели выражены в отклонениях от среднего уровня, то есть под xподразумеваются (- ), под - (-). Поэтому свободный член в каждом уравнении отсутствует.
Использование МНК для оценивания структурных коэффициентов модели дает, как принято считать в теории, смещенные и несостоятельные оценки. Поэтому обычно для определения структурных коэффициентов модели структурная форма модели преобразуется в приведенную форму модели:
;
; (4)
…
По своему виду приведённая форма модели идентична системе (1), поэтому параметры системы (4) оцениваются традиционным МНК. А затем оценить значение эндогенных переменных через экзогенные.
Коэффициенты приведённой формы модели (4) представляют собой нелинейные функции коэффициентов структурной формы модели. Пример простейшей структурной модели:
.
Приведенная форма получается так:
систему одновременных уравнений имеем
, .
Отсюда ,
,
Аналогично, получается второе уравнение приведённой формы:
,
,
44. Проблема идентификации параметров структурных уравнений
Идентификация - единственность соответствия между приведенной и структурной формами модели.
С позиции идентифицируемости структурные модели можно подразделить на три вида:
идентифицируемые;
неидентифицируемые;
сверхидентифицируемые
Модель идентифицируема, если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т. е. если число параметров структурной модели равно числу параметров приведенной формы модели.
Модель неидентифицируема, если число приведенных коэффициентов меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели.
Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо.
Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой.
Сверхидентифицируемая модель содержит хотя бы одно сверхидентифицируемое уравнение.
Обозначим
H - число эндогенных переменных в j - м уравнении системы,
D - число экзогенных переменных, которые содержатся в системе, но не входят в данное уравнение.
Условие идентифицируемости модели может быть записано в виде:
-- уравнение идентифицируемо;
-- уравнение неидентифицируемо;
-- уравнение сверхидентифицируемо.
Неравенства, приведенные выше, является необходимым условием идентифицируемости уравнения. Это значит, что, когда неравенство несправедливо, то уравнение заведомо неидентифицируемо.
Однако при выполнении неравенства ещё нельзя сделать вывод о идентифицируемости данного уравнения.
45. Необходимое и достаточное условие идентификации
Правила идентификации- необходимое и достаточное условия идентификации (применяются только к структурной форме модели).
Введем следующие обозначения:
M - число предопределенных переменных в модели;
m - число предопределенных переменных в данном уравнении;
K - число эндогенных переменных в модели;
k - число эндогенных переменных в данном уравнении.
Необходимое (но недостаточное) условие идентификации уравнения модели:
Для того чтобы уравнение модели было идентифицируемо, необходимо, чтобы число предопределенных переменных, не входящих в уравнение, было не меньше «числа эндогенных переменных, входящих в уравнение минус 1», т.е. : M-m>=k-1;
Если M-m=k-1 , уравнение точно идентифицированно.
Если M-m>k-1, уравнение сверхидентифицированно.
Эти правила следует применять в структурной форме модели.
Достаточное условие идентификации уравнения модели.
Введем обозначения: А - матрица коэффициентов при переменных не входящих в данное уравнение.
Достаточное условие идентификации заключается в том, что ранг матрицы А должен быть равен (К-1). Ранг матрицы - размер наибольшей ее квадратной подматрицы, определитель которой не равен нулю.
Сформулируем необходимое и достаточное условия идентификации уравнения модели:
1) Если M-m>k-1 и ранг матрицы А равен К-1, то уравнение сверхидентифицированно.
2) Если M-m=k-1 и ранг матрицы А равен К-1, то уравнение точно идентифицированно.
3) Если M-m>=k-1 и ранг матрицы А меньше К-1, то уравнение неидентифицированно.
4) Если M-m<k-1, то уравнение неидентифицированно. В этом случае ранг матрицы А будет меньше К-1.
Оценка точно идентифицированного уравнения осуществляется с помощью косвенного метода наименьших квадратов (КМНК).
Алгоритм КМНК включает 3 шага:
1) составление приведенной формы модели и выражение каждого коэффициента приведенной формы через структурные параметры;
2) применение обычного МНК к каждому уравнению приведенной формы и получение численных оценок приведенных параметров;
3) определение оценок параметров структурной формы по оценкам приведенных коэффициентов, используя соотношения, найденные на шаге 1.
Оценка сверхидентифицированного уравнения осуществляется при помощи двухшагового метода наименьших квадратов.
Алгоритм двухшагового МНК включает следующие шаги:
1) составление приведенной формы модели;
2) применение обычного МНК к каждому уравнению приведенной формы и получение численных оценок приведенных параметров;
3) определение расчетных значений эндогенных переменных, которые фигурируют в качестве факторов в структурной форме модели;
4) определение структурных параметров каждого уравнения в отдельности обычным МНК, используя в качестве факторов входящие в это уравнение предопределенные переменные и расчетные значения эндогенных переменных, полученные на шаге 1.
46. Общие понятия о системах одновременных уравнений
Система одновременных уравнений -- совокупность эконометрических уравнений (часто линейных), определяющих взаимозависимость экономических переменных. Важным отличительным признаком системы «одновременных» уравнений от прочих систем уравнений заключается в наличии одних и тех же переменных в правых и левых частях разных уравнений системы (речь идет о так называемой структурной форме модели).
Эндогенными называются переменные, значения которых определяются в процессе функционирования изучаемой экономической системы. Их значения определяются «одновременно» исходя из значений некоторых экзогенных переменных, значения которых определяются вне модели, задаются извне. В системах одновременных уравнений эндогенные переменные зависят как от экзогенных переменных, так и от эндогенных.
Измерение тесноты связи между переменными, построение изолированных уравнений регрессии недостаточно для объяснения функционирования сложных экономических систем. Изменение одной переменной не может происходить при абсолютной неизменности других. Её изменение повлечет за собой изменения во всей системе взаимосвязанных признаков. Таким образом отдельно взятое уравнение регрессии не может характеризовать истинное влияние отдельных признаков на вариацию результирующей переменной. Поэтому в экономических исследованиях важное место заняла проблема описания структуры связей между системой переменных.
Примером системы одновременных уравнений может служить модель динамики цены и заработной платы вида:
где у1 -- темп изменения месячной заработной платы;
у2 -- темп изменения цен;
х1 -- процент безработных;
х2 -- темп изменения постоянного капитала;
х3 -- темп изменения цен на импорт сырья.
47. Методы оценки параметров систем уравнений
Система одновременных уравнений -- совокупность эконометрических уравнений (часто линейных), определяющих взаимозависимость экономических переменных. Важным отличительным признаком системы «одновременных» уравнений от прочих систем уравнений заключается в наличии одних и тех же переменных в правых и левых частях разных уравнений системы.
Эндогенными называются переменные, значения которых определяются в процессе функционирования изучаемой экономической системы. Их значения определяются «одновременно» исходя из значений некоторых экзогенных переменных, значения которых определяются вне модели, задаются извне. В системах одновременных уравнений эндогенные переменные зависят как от экзогенных переменных, так и от эндогенных.
Методы оценки систем одновременных уравнений
Непосредственное применение обычного метода наименьших квадратов для оценки уравнений системы (в структурной форме) нецелесообразно, так как в системах одновременных уравнений нарушается важнейшее условие регрессионного анализа -- экзогенность факторов. Это приводит к тому, что оценки параметров будутсмещёнными и несостоятельными.
Коэффициенты структурной модели могут быть оценены разными способами в зависимости от вида системы одновременных уравнений. Наибольшее распространение в литературе получили следующие методы оценивания коэффициентов структурной модели:
косвенный метод наименьших квадратов;
двухшаговый метод наименьших квадратов;
трехшаговый метод наименьших квадратов;
метод максимального правдоподобия с полной информацией;
метод максимального правдоподобия при ограниченной информации.
Рассмотрим кратко сущность каждого из этих методов.
Косвенный метод наименьших квадратов (КМНК) применяется в случае точно идентифицируемой структурной модели. Процедура применения КМНК предполагает выполнение следующих этапов работы.
Структурная модель преобразовывается в приведенную форму модели.
Для каждого уравнения приведенной формы модели обычным МНК оцениваются приведенные коэффициенты .
Коэффициенты приведенной формы модели трансформируются в параметры структурной модели.
Если система сверхидентифицируема, то КМНК не используется, ибо он не дает однозначных оценок для параметров структурной модели. В этом случае могут использоваться разные методы оценивания, среди которых наиболее распространенным и простым является двухшаговый метод наименьших квадратов (ДМНК).
Основная идея ДМНК - на основе приведенной формы модели получить для сверхидентифицируемого уравнения теоретические значения эндогенных переменных, содержащихся в правой части уравнения.
Далее, подставив их вместо фактических значений, можно применить обычный МНК к структурной форме сверхидентифицируемого уравнения. Метод получил название двухшагового МНК, ибо дважды используется МНК: на первом шаге при определении приведенной формы модели и нахождении на ее основе оценок теоретических значений эндогенной переменной и на втором шаге применительно к структурному сверхидентифицируемому уравнению при определении структурных коэффициентов модели по данным теоретических (расчетных) значений эндогенных переменных.
Сверхидентифицируемая структурная модель может быть двух типов:
все уравнения системы сверхидентифицируемы;
система содержит наряду со сверхидентифицируемыми точно идентифицируемые уравнения.
Если все уравнения системы сверхидентифицируемые, то для оценки структурных коэффициентов каждого уравнения используется ДМНК. Если в системе есть точно идентифицируемые уравнения, то структурные коэффициенты по ним находятся из системы приведенных уравнений.
Косвенный и двухшаговый методы наименьших квадратов подробно описаны в литературе и рассматриваются как традиционные методы оценки коэффициентов структурной модели. Эти методы достаточно легко реализуемы.
Метод максимального правдоподобия рассматривается как наиболее общий метод оценивания, результаты которого при нормальном распределении признаков совпадают с МНК. Однако при большом числе уравнений системы этот метод приводит к достаточно сложным вычислительным процедурам. Поэтому в качестве модификации используется метод максимального правдоподобия при ограниченной информации (метод наименьшего дисперсионного отношения), разработанный в 1949 г. Т.Андерсоном и Н.Рубиным.
В отличие от метода максимального правдоподобия в данном методе сняты ограничения на параметры, связанные с функционированием системы в целом. Это делает решение более простым, но трудоемкость вычислений остается достаточно высокой. Несмотря на его значительную популярность, к середине 60-х годов он был практически вытеснен двухшаговым методом наименьших квадратов (ДМНК) в связи с гораздо большей простотой последнего.
Дальнейшим развитием ДМНК является трехшаговый МНК (ТМНК), предложенный в 1962 г. А.Зельнером и Г.Тейлом. Этот метод оценивания пригоден для всех видов уравнений структурной модели. Однако при некоторых ограничениях на параметры более эффективным оказывается ДМНК.
48. Косвенный метод наименьших квадратов
Обычный метод наименьших квадратов можно применить для приведённой формы системы, так как в этой форме все факторы предполагаются экзогенными. Сущность косвенного метода наименьших квадратов (КМНК, ILS) заключается в том, чтобы оценить структурные коэффициенты, подставив в аналитическое выражение их зависимости от приведённых оценок последних, полученных обычным методом наименьших квадратов. Полученные оценки будут состоятельными.
Применение косвенного метода наименьших квадратов возможно только при точной идентифицируемости системы. Однако, часто уравнения системы оказываются сверхидентифицированными. В этом случае существуют несколько асимптотически эквивалентных, но разных оценок параметров структурной формы и в общем случае нет критерия выбора между ними.
49. Двухшаговый метод наименьших квадратов
Суть двухшагового метода наименьших квадратов (ДМНК, TSLS, 2SLS) заключается в следующем:
Шаг 1. Обычным методом наименьших квадратов оценивается зависимость эндогенных переменных от всех экзогенных (фактически оценивается неограниченнаяприведённая форма).
Шаг 2. Обычным методом наименьших квадратов оценивается структурная форма модели, где вместо эндогенных переменных используются их оценки, полученные на первом шаге
При точной идентифицируемости системы ДМНК-оценки совпадают с КМНК-оценками.
Можно показать, что ДМНК-оценки параметров каждого уравнения фактически равны:
где Z - матрица всех переменных правой части данного уравнения, X - матрица всех экзогенных переменных системы.
50. Трехшаговый метод наименьших квадратов
В двухшаговом методе наименьших квадратов по сути каждое уравнение структурной формы оценивается независимо от других уравнений, то есть не учитывается возможная взаимосвязь случайных ошибок уравнений структурной формы между собой. В трёхшаговом методе наименьших квадратов (ТМНК, 3SLS) первые два шага совпадают с ДМНК и добавляется:
Шаг 3. На основе ДМНК-оценок остатков структурных уравнений получают оценку ковариационной матрицы вектора случайных ошибок системы и с её помощью получают новую оценку коэффициентов с помощью обобщенного метода наименьших квадратов.
При наличии корреляций между уравнениями ТМНК-оценки теоретически должны быть лучше ДМНК-оценок.
51. Применение моделей систем эконометрических уравнений
Под системой эконометрических уравнений обычно понимается система одновременных, совместных уравнений. Ее применение имеет ряд сложностей, которые связаны с ошибками спецификации модели. В виду большого числа факторов, влияющих на экономические переменные, исследователь, как правило, не уверен в точности предполагаемой модели для описания экономических процессов. Набор эндогенных и экзогенных переменных модели соответствует теоретическому представлению исследователя о моделируемом объекте, которое сложилось на данный момент и может измениться. Соответственно может меняться и вид модели с точки зрения ее идентифицируемости. Наличие множества прикладных моделей для решения одного и того же класса задач не случайно. Наиболее ярко это проявляется при построении макроэкономических моделей, когда, например, одна и та же функция потребления может включать в себя разный набор экономических переменных. Основные направления практического использования эконометрических систем уравнений.
Наиболее широко системы эконометрических уравнений используются для построения макроэкономических моделей функционирования той или иной страны. Большинство из них представляют собой мультипликаторные модели кейнсианского типа с той ил иной мерой сложности.
Пример: статистическая модель Кейнса для описания народного хозяйства страны в простом варианте имеет следующий вид:
где С - личное потребление в постоянных ценах,
у - национальный доход в постоянных ценах;
I - инвестиции;
- случайная величина.
В силу наличия тождества в модели (второе уравнение системы) структурный коэффициент b не может быть больше 1. Он характеризует предельную склонность к потреблению. Если он равен 0,65, то из каждой дополнительной тысячи дохода на потребление расходуется в среднем 650 руб., и 350руб. инвестируется, т.е. С и у выражены в тыс.руб. Если b>1, то y<C+I, т.е. на потребление расходуются не только доходы, но и сбережения.
Параметр Кейнс истолковал как прирост потребления за счет др. факторов. Т.к. прирост во времени может быть не только положительным, но и отрицательным, то такой вывод возможен. Однако суждение о том, что параметр характеризует конкретный уровень потребления, обусловленный влиянием др. факторов, неправильно.
Структурный коэффициент b используется для расчета мультипликаторов. По данной функции потребления можно опр-ть 2 мультипликатора - инвестиционный мультипликатор потребления Mc и инвестиционный мультипликатор национального дохода - .
Модель Кейнса точно идентифицируема, и для получения величины структурного коэффициента bиспользуется КМНК.
В более поздних исследованиях статистическая модель Кейнса включала уже не только функцию потребления, но и функцию сбережений r:
52. Многомерные статистические группировки. Кластерный анализ
Многомерные группировки и их виды: на основе многомерной средней, кластерного анализа, методов дендритов и шаров. Важнейшие группировки и классификации, применяемые в практике статистики.
Сущность способа многомерной группировки заключается в том, что объекты классифицируют одновременно по всему набору признаков. Этот фиксированный набор признаков образует так называемое признаковое пространство, в котором каждому из них придается смысл координаты. Если в набор входит р признаков, то любой объект рассматривается как точка в р-мерном признаковом пространстве и задача рационального группирования сводится к выделению сгущений точек в этом пространстве. В этом случае группы формируются на основании близости объектов по большому числу признаков. При этом ни один из признаков, входящих в набор, не является необходимым или достаточным условием принаделжности конкретного объекта к группе.
Достоинство способа многомерной группировки заключается в том, что он позволяет с той или иной степенью точности формализовать задачу классификации, используя при этом различные алгоритмы таксономии, и выделить реально существующие в признаковом пространстве скопления точек - объектов с одновременной их группировкой по большому числу признаков.
Недостатком способа многомерной группировки является то, что он может быть применен только для классификации объектов, характеризуемых большим набором количественных признаков.
Кластерный анализ -- многомерная статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации относится к статистической обработке, а также к широкому классу задач обучения без учителя.
Кластерный анализ выполняет следующие основные задачи:
Разработка типологии или классификации.
Исследование полезных концептуальных схем группирования объектов.
Порождение гипотез на основе исследования данных.
Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Независимо от предмета изучения применение кластерного анализа предполагает следующие этапы:
Отбор выборки для кластеризации. Подразумевается, что имеет смысл кластеризовать только количественные данные.
Определение множества переменных, по которым будут оцениваться объекты в выборке, то есть признакового пространства.
Вычисление значений той или иной меры сходства (или различия) между объектами.
Применение метода кластерного анализа для создания групп сходных объектов.
Проверка достоверности результатов кластерного решения.
Можно встретить описание двух фундаментальных требований предъявляемых к данным -- однородность и полнота. Однородность требует, чтобы все кластеризуемые сущности были одной природы, описываться сходным набором характеристик. Если кластерному анализу предшествует факторный анализ, то выборка не нуждается в «ремонте» -- изложенные требования выполняются автоматически самой процедурой факторного моделирования (есть ещё одно достоинство -- z-стандартизация без негативных последствий для выборки; если её проводить непосредственно для кластерного анализа, она может повлечь за собой уменьшение чёткости разделения групп). В противном случае выборку нужно корректировать.
Формальная постановка задачи кластеризации
Пусть -- множество объектов, -- множество номеров (имён, меток) кластеров. Задана функция расстояния между объектами . Имеется конечная обучающая выборка объектов . Требуется разбить выборку на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из объектов, близких по метрике , а объекты разных кластеров существенно отличались. При этом каждому объекту приписывается номер кластера .
Алгоритм кластеризации -- это функция , которая любому объекту ставит в соответствие номер кластера . Множество в некоторых случаях известно заранее, однако чаще ставится задача определить оптимальное число кластеров, с точки зрения того или иного критерия качества кластеризации.
Кластеризация (обучение без учителя) отличается от классификации (обучения с учителем) тем, что метки исходных объектов изначально не заданы, и даже может быть неизвестно само множество .
Решение задачи кластеризации принципиально неоднозначно, и тому есть несколько причин (как считает ряд авторов):
не существует однозначно наилучшего критерия качества кластеризации. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию «по построению». Все они могут давать разные результаты. Следовательно, для определения качества кластеризации требуется эксперт предметной области, который бы мог оценить осмысленность выделения кластеров.
число кластеров, как правило, неизвестно заранее и устанавливается в соответствии с некоторым субъективным критерием. Это справедливо только для методов дискриминации, так как в методах кластеризации выделение кластеров идёт за счёт формализованного подхода на основе мер близости.
результат кластеризации существенно зависит от метрики, выбор которой, как правило, также субъективен и определяется экспертом. Но стоит отметить, что есть ряд рекомендаций к выбору мер близости для различных задач.
53. Методика проведения иерархического кластерного анализа
Методы кластерного анализа
Методы кластерного анализа можно разделить на две группы:
· иерархические;
· неиерархические.
Каждая из групп включает множество подходов и алгоритмов.
Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением.
Иерархические методы кластерного анализа
Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.
Иерархические агломеративные методы (Agglomerative Nesting, AGNES)
В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер.
Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA)
Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.
Иерархические методы кластеризации различаются правилами построения кластеров. В качестве правил выступают критерии, которые используются при решении вопроса о "схожести" объектов при их объединении в группу (агломеративные методы) либо разделения на группы (дивизимные методы).
Иерархические методы кластерного анализа используются при небольших объемах наборов данных.
Преимуществом иерархических методов кластеризации является их наглядность.
Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron - "дерево"), которые являются результатом иерархического кластерного анализа. Дендрограмма описывает близость отдельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров.
Дендрограмма (dendrogram) - древовидная диаграмма, содержащая n уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров.
Дендрограмму также называют древовидной схемой, деревом объединения кластеров, деревом иерархической структуры.
Дендрограмма представляет собой вложенную группировку объектов, которая изменяется на различных уровнях иерархии.
Существует много способов построения дендограмм. В дендограмме объекты могут располагаться вертикально или горизонтально. Пример вертикальной дендрограммы приведен на рис. 13.4.
Квадрат евклидова расстояния.
Для придания больших весов более отдаленным друг от друга объектам можем воспользоваться квадратом евклидова расстояния путем возведения в квадрат стандартного евклидова расстояния.
Манхэттенское расстояние (расстояние городских кварталов), также называемое "хэмминговым" или "сити-блок" расстоянием.
Это расстояние рассчитывается как среднее разностей по координатам. В большинстве случаев эта мера расстояния приводит к результатам, подобным расчетам расстояния евклида. Однако, для этой меры влияние отдельных выбросов меньше, чем при использовании евклидова расстояния, поскольку здесь координаты не возводятся в квадрат.
Расстояние Чебышева. Это расстояние стоит использовать, когда необходимо определить два объекта как "различные", если они отличаются по какому-то одному измерению.
Процент несогласия. Это расстояние вычисляется, если данные являются категориальными.
Методы объединения или связи
Когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Возникает следующий вопрос - как определить расстояния между кластерами? Существуют различные правила, называемые методами объединения или связи для двух кластеров.
Метод ближнего соседа или одиночная связь. Здесь расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Этот метод позволяет выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. В результате работы этого метода кластеры представляются длинными "цепочками" или "волокнистыми" кластерами, "сцепленными вместе" только отдельными элементами, которые случайно оказались ближе остальных друг к другу.
Метод наиболее удаленных соседей или полная связь. Здесь расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Метод хорошо использовать, когда объекты действительно происходят из различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод не следует использовать.
Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения (Ward, 1963). В отличие от других методов кластерного анализа для оценки расстояний между кластерами, здесь используются методы дисперсионного анализа. На каждом шаге алгоритма объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров и "стремится" создавать кластеры малого размера.
Метод невзвешенного попарного среднего (метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages, UPGMA (Sneath, Sokal, 1973)).
В качестве расстояния между двумя кластерами берется среднее расстояние между всеми парами объектов в них. Этот метод следует использовать, если объекты действительно происходят из различных "рощ", в случаях присутствия кластеров "цепочного" типа, при предположении неравных размеров кластеров.
Метод взвешенного попарного среднего (метод взвешенного попарного арифметического среднего). Этот метод похож на метод невзвешенного попарного среднего, разница состоит лишь в том, что здесь в качестве весового коэффициента используется размер кластера (число объектов, содержащихся в кластере).
Этот метод рекомендуется использовать именно при наличии предположения о кластерах разных размеров.
Невзвешенный центроидный метод (метод невзвешенного попарного центроидного усреднения ).
В качестве расстояния между двумя кластерами в этом методе берется расстояние между их центрами тяжести.
Взвешенный центроидный метод (метод взвешенного попарного центроидного усреднения )Этот метод похож на предыдущий, разница состоит в том, что для учета разницы между размерами кластеров (числе объектов в них), используются веса. Этот метод предпочтительно использовать в случаях, если имеются предположения относительно существенных отличий в размерах кластеров.
54. Модели производственной функции
Производственной функцией называется экономико-математическая модель, с помощью которой можно охарактеризовать зависимость результатов производственной деятельности предприятия, отрасли или национальной экономики в целом от повлиявших на эти результаты факторов.
Факторами производственной функции могут являться следующие переменные:
1) объём выпущенной продукции (в стоимостном или натуральном выражении);
2) объём основного капитала или основных фондов;
3) объём трудовых ресурсов или трудовых затрат (измеряемое количеством рабочих или количеством человеко-дней);
4) затраты электроэнергии;
5) количество станков, потребляемое в производстве и др.
Однофакторные производственные функции (т. е. функции с одной факторной переменной) относятся к наиболее простым производственным функциям. В данном случае результативной переменной является объём производства у, который зависит от единственной факторной переменной х. В качестве факторной переменной может выступать любая из вышеназванных переменных.
Основными разновидностями однофакторных производственных функций являются:
1) линейная однофакторная производственная функция вида:
y=в0+в1x,
Линейная однофакторная производственная функция характеризуется двумя особенностями:
а) если величина факторной переменной х равна нулю, то объём производства у не будет нулевым, потому что y=в0(в0›0);
б) объём произведённой продукции у неограниченно возрастает при увеличении затрат определённого фактора х на постоянную величину в1 (в1›0). Однако данное свойство линейной однофакторной производственной функции чаще всего справедливо только на практике;
2) параболическая однофакторная производственная функция вида:
при условиях в0›0, в1›0, в2›0.
Данная функция характеризуется тем, что при росте затрат ресурса х, объём произведённой продукции у вначале возрастает до некоторой максимальной величины, а затем снижается до нуля;
3) степенная однофакторная производственная функция вида:
при условиях в0›0, в1›0.
Данная функция характеризуется тем, что с ростом затрат ресурса х, объём производства у возрастает без ограничений;
4) показательная однофакторная производственная функция вида:
при условиях 0‹в1‹0.
Данная функция характеризуется тем, что с ростом затрат ресурса х объём произведённой продукции у также растёт, стремясь при этом к значению параметра в0.
5) гиперболическая однофакторная производственная функция вида:
Данная функция практически не применяется при изучении зависимости объёма производства от затрат какого-либо ресурса, потому что нет необходимости в изучении ресурсов, увеличение которых приводит к уменьшению объёма производства.
Двухфакторные производственные функции (функции с двумя факторными переменными) характеризуют зависимость объёма производства от каких-либо двух факторов, чаще от факторов объёма основного капитала и трудовых ресурсов. Чаще всего используются такие двухфакторные производственные функции как функции Кобба-Дугласа и Солоу.
Изоквантой называется сочетание минимально необходимых ресурсных затрат для заданного уровня объёма производства.
Многофакторные производственные функции используются для изучения зависимости объёма производства от n-го количества факторов производства.
Общий вид многофакторной производственной функции:
y=f(xi),
где
55. Модели дискретного выбора. Бинарные модели
Модели дискретного выбора (иначе называемые моделями качественного отклика -- определяют вероятностное распределение дискретных зависимых переменных как функцию независимых переменных и неизвестных параметров. Их применение в эконометрике определяется тем, что решение экономического субъекта часто включает дискретный выбор(напр., решение поступать на работу или не поступать, выбор занятия, выбор маршрута перевозки груза и т. п.). В каком-то смысле эти модели противоположны агрегированным макроэкономическим моделям, которые описывают массовые, а не индивидуальные факты. В разных постановках М. д. в. в качестве математического аппарата применяются цепи Маркова (см. Марковские процессы), модели с бинарными переменными, многомерные модели (совместное распределение вероятностей для двух или большего числа дискретных зависимых переменных), случайные выборки и др.
Модели бинарного выбора
Результативная переменная у в нормальной линейной модели регрессии является непрерывной величиной, способной принимать любые значения из заданного множества. Но помимо нормальных линейных моделей регрессии существуют модели регрессии, в которых переменная у должна принимать определённый узкий круг заранее заданных значений.
Моделью бинарного выбора называется модель регрессии, в которой результативная переменная может принимать только узкий круг заранее заданных значений
Если стоит задача построения модели регрессии, включающей результативную бинарную переменную, то прогнозные значения yi прогноз, полученные с помощью данной модели, будут выходить за пределы интервала [0;+1] и не будут поддаваться интерпретации. В этом случае задача построения модели регрессии формулируется не как предсказание конкретных значений бинарной переменной, а как предсказание непрерывной переменной, значения которой заключаются в интервале [0;+1].
Решением данной задачи будет являться кривая, удовлетворяющая следующим трём свойствам:
1) 1) F(-?)=0;
2) F(+?)=1;
3) F(x1)>F(x2) при условии, чтоx1> x2.
Данным трём свойствам удовлетворяет функция распределения вероятности.
Модель парной регрессии с результативной бинарной переменной с помощью функции распределения вероятности можно представить в следующем виде:
prob(yi=1)=F(?0+?1xi),
где prob(yi=1) - это вероятность того, что результативная переменная yi примет значение, равное единице.
В этом случае прогнозные значения yi прогноз, полученные с помощью данной модели, будут лежать в пределах интервала [0;+1].
Модель бинарного выбора может быть представлена с помощью скрытой или латентной переменной следующим образом:
Векторная форма модели бинарного выбора с латентной переменной:
В данном случае результативная бинарная переменная yi принимает значения в зависимости от латентной переменной yi*:
Модель бинарного выбора называется пробит-моделью или пробит-регрессией (probit regression), если она удовлетворяет двум условиям:
1) остатки модели бинарного выбора ?i являются случайными нормально распределёнными величинами;
2) функция распределения вероятностей является нормальной вероятностной функцией.
Пробит-регрессия может быть представлена с помощью выражения:
NP(yi)=NP(?0+?1x1i+…+?kxki),
где NP - это нормальная вероятность (normal probability).
Модель бинарного выбора называется логит-моделью или логит-регрессией (logit regression), если случайные остатки ?iподчиняются логистическому закону распределения.
Логит-регрессия может быть представлена с помощью выражения:
Данная модель логит-регрессии характеризуется тем, что при любых значениях факторных переменных и коэффициентов регрессии, значения результативной переменной yi будут всегда лежать в интервале [0;+1].
Обобщённый вид модели логит-регрессии:
Достоинством данной модели является то, что результативная переменная yi может произвольно меняться внутри заданного числового интервала (не только от нуля до плюс единицы).
Логит-регрессия относится к классу функций, которые можно привести к линейному виду. Это осуществляется с помощью преобразования, носящего название логистического или логит преобразования, которое можно проиллюстрировать на примере преобразования обычной вероятности р:
Качество построенной логит-регрессии или пробит-регрессии характеризуется с помощью псевдо коэффициента детерминации, который рассчитывается по формуле:
Если значение данного коэффициента близко к единице, то модель регрессии считается адекватной реальным данным.
56. Методы прогнозирования на основе эконометрических моделей
Прогнозирование является одной из основных сфер практического применения эконометрических моделей.
Термин “эконометрическое прогнозирование” обычно означает процедуру получения на основе эконометрических моделей некоторых характеристик зависимого процесса у (совокупности зависимых процессов), относящихся к следующим за моментом Т (последней точкой периода наблюдения) моментам Т+1, Т+2,... . Для “типовой” эконометрической модели, состоящей из единственного уравнения, к числу важнейших таких характеристик относятся непосредственно прогнозные значения зависимой переменной ...(точечные прогнозы) и показатели их точности - обычно дисперсии прогнозов 2(уТ+1), 2(уТ+1),..., доверительные интервалы, в которых с заданной вероятностью будут находиться “истинные” значения рассматриваемого процесса уT+1, уT+2,... (интервальные прогнозы).
прогнозы, полученные с использованием различных (предполагаемых) вариантов значений независимых переменных в будущие моменты времени, часто называют “условными”, “вариантными”, подчеркивая тот факт, что значения рассчитываются в зависимости от предполагаемых вариантов значений хi, T+1, i=1, 2,..., n; т. е. “условий” прогноза.
Значения независимых факторов, используемых при определении прогнозных значений зависимой переменной ... образуют так называемый “прогнозный фон”, характеризующий совокупность исходных данных, необходимых для получения прогнозов. В общем случае отметим, что прогнозный фон может иметь как экзогенную, так и эндогенную природу.
при разработке прогнозов важную роль играет процедура их верификации. Верификация предполагает обоснование достоверности прогноза, оценки его точности, качества. Одним из важнейших этапов верификации является выявление (или невыявление) систематической ошибки при формализованном описании (экстраполяции) тенденций развития исследуемого процесса.
“высокое качество” прогнозной эконометрической модели не является достаточной гарантией обоснованности эконометрических прогнозов, особенно в отдаленной перспективе. Дело в том, что в будущем тенденции развития рассматриваемых процессов, структура и сила взаимосвязей между ними могут существенно изменяться. Эти изменения могут носить эволюционный характер, накапливаясь постепенно, например, вследствие роста масштабов явлений. Они могут происходить и скачкообразно вслед за финансовыми кризисами, революционными преобразованиями в обществе и т. п.
В некоторых случаях обоснованность и достоверность эконометрических прогнозов могут быть повышены путем либо корректировки самих результатов формальной экстраполяции, т. е. “предварительных” прогнозных значений ..., полученных непосредственно с использованием построенной эконометрической модели, либо предварительной (до прогноза) корректировки самой модели, исходя из некоторых дополнительных сведений, предположений.
Если прогноз разрабатывается на основе неуправляемых факторов (погодные условия, состояние мировой экономики и т. п.), то и сам процесс является неуправляемым. Прогнозы таких процессов часто называют поисковыми (исследовательскими). В этом случае система управления имеет возможность только приспособиться к его тенденциям прогнозируемого процесса, учесть их при обосновании управляющих мер для соответствующего объекта.
Если факторы являются управляемыми, то система управления может сознательно выбирать, формировать их уровни, определяя тем самым наиболее рациональную, “оптимальную” для объекта тенденцию развития процесса в прогнозном периоде. Такие прогнозы обычно называют нормативными.
При частично управляемых факторах, возможности регулирования развития процесса в прогнозный период являются ограниченными.
Другие составляющие эффективности (стоимость затрат на реализацию управления, результаты, выгоды, к которым оно приводит) выявляются на основе экономического анализа рассматриваемой проблемы.
Одной из важнейших характеристик качества прогноза является величина его доверительного интервала. Очевидно, что при прочих равных условиях чем уже этот интервал, тем более обоснованным представляется и сам прогноз, и мероприятия по управлению рассматриваемым
57. Модели причинного анализа
Анализ причинный - методы моделирования причинных отношений между признаками с помощью систем статистич. уравнений, чаще всего регрессионных. Причинные отношения иногда наз. структурными, каузальными и исследуются исходя из трех аспектов: правильности отображения направленности влияний признаков и возможного осуществления двух целей - прогнозирования и объяснения, решаемых для каждого из уравнений системы, описывающей причинные отношения. Каждый из трех аспектов требует разъяснения, тщательной проработки с применением содержательных и формальных соображений.
Основными понятиями А.п. являются: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компоненты связи между признаками. Путевая диаграмма отражает графически гипотетически предполагаемые причинные, направленные связи между признаками модели. Система признаков с однонаправленными связями наз. рекурсивной, матрица параметров статистич. уравнений, соответствующих такой системе, имеет треугольный вид. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы могут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-следствия (зависимые, эндогенные) и признаки-причины (независимые, экзогенные). Однако в системе уравнений эндогенные признаки одного из уравнений могут быть экзогенными признаками др-уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:
Соблюдение предположений, к-рым должны удовлетворять данные. Перечислим эти предположения.
1. Отношения между признаками модели должны быть линейными, аддитивными и по возможности отвечающими изучаемым причинным связям.
2. Признаки-ошибки измерения не коррелируют между собой и с др. признаками системы. Экзогенные признаки в уравнениях могут коррелировать между собой, более того, метод призван объяснить корреляцию двух признаков с помощью компонент прямых и косвенных связей, существующих между ними.
3. Все переменные имеют интервальный уровень измерения.
4. Система признаков имеет только однонаправленные связи, обратные связи между признаками изучаются с помощью специальных методов для нерекурсивных систем. При выполнении всех указанных условий система регрессионных уравнений в стандартизованном виде имеет решение, коэффициенты bij можно определить методом наименьших квадратов, и они наз. причинными коэффициентами, обозначаемыми часто Рг. Т.обр., причинный коэффициент Р.
...Подобные документы
Методологические основы эконометрики. Проблемы построения эконометрических моделей. Цели эконометрического исследования. Основные этапы эконометрического моделирования. Эконометрические модели парной линейной регрессии и методы оценки их параметров.
контрольная работа [176,4 K], добавлен 17.10.2014Основные проблемы эконометрического моделирования. Использование фиктивных переменных и гармонических трендов. Метод наименьших квадратов и выборочная дисперсия. Смысл коэффициента детерминации. Расчет функции эластичности. Свойства линейной модели.
контрольная работа [18,6 K], добавлен 06.11.2009Эконометрические регрессионные модели и прогнозирование на их основе. Построение множественной линейной регрессии с использованием метода наименьших квадратов. Расчет минеральных удобрений сельскохозяйственной организации по полям и кормовым угодьям.
курсовая работа [2,6 M], добавлен 29.11.2014Эффективность линейной несмещенной оценки вектора для обобщенной регрессионной модели, теорема Айткена. Обобщенный метод наименьших квадратов. Преобразования Фурье, их применение; разложение временного ряда. Ряды Фурье, многомерные преобразования.
реферат [345,4 K], добавлен 09.05.2012Основные элементы эконометрического анализа временных рядов. Задачи анализа и их первоначальная обработка. Решение задач кратко- и среднесрочного прогноза значений временного ряда. Методы нахождения параметров уравнения тренда. Метод наименьших квадратов.
контрольная работа [37,6 K], добавлен 03.06.2009Общее понятие о прогнозировании, методы. Абсолютные, сравнительные и качественные показатели оценки качества прогноза. Метод наименьших квадратов. Модели линейного роста. Новшества программы Excel 5.0. Пример решения задачи по прогнозу объема кредита.
курсовая работа [1,1 M], добавлен 07.08.2013Оценка влияния разных факторов на среднюю ожидаемую продолжительность жизни по методу наименьших квадратов. Анализ параметров линейной двухфакторной эконометрической модели с помощью метода наименьших квадратов. Графическое изображение данной зависимости.
практическая работа [79,4 K], добавлен 20.10.2015Эконометрика как наука, позволяющая анализировать связи между различными экономическими показателями на основании реальных статистических данных. Структурная форма эконометрической модели. Метод наименьших квадратов: общее понятие, главные функции.
курсовая работа [135,1 K], добавлен 05.12.2014Оценка коэффициентов парной линейной регрессии, авторегрессионное преобразование. Трехшаговый и двухшаговый метод наименьших квадратов, его гипотеза и предпосылки. Системы одновременных уравнений в статистическом моделировании экономических ситуаций.
курсовая работа [477,2 K], добавлен 05.12.2009Метод наименьших квадратов; регрессионный анализ для оценки неизвестных величин по результатам измерений. Приближённое представление заданной функции другими; обработка количественных результатов естественнонаучных опытов, технических данных, наблюдений.
контрольная работа [382,4 K], добавлен 16.03.2011Суть эконометрики как научной дисциплины, ее предмет и метод. Парная и множественная регрессия в экономических исследованиях. Регрессионные модели с переменной структурой. Обобщенный метод наименьших квадратов. Анализ систем экономических уравнений.
реферат [279,2 K], добавлен 11.09.2013Построение качественной и адекватной эконометрической модели по методу наименьших квадратов и ее анализ на наличие автокорреляции, мультиколлинеарности, гетероскедастичности с применением статистики Дарвина-Уотсона, тестов Парка и Голдфелда-Квандта.
курсовая работа [434,0 K], добавлен 04.12.2013Характеристика методов прогнозирования, эконометрические методы. Сравнение показателей производства ВРП Бурятии, динамика среднедушевого производства, счет производства. Прогнозирование на основе эконометрической модели, выявление наличия тенденций.
курсовая работа [524,3 K], добавлен 15.10.2009Статические детерминированные модели управления запасами. Задача о замене оборудования. Модель Солоу, золотое правило накопления. Оптимальное распределение ресурсов между предприятиями (отраслями) на n лет. Мультипликативная производственная функция.
контрольная работа [2,1 M], добавлен 22.09.2015Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.
курсовая работа [1,1 M], добавлен 22.05.2015Основы управления грузовыми перевозками в транспортных системах. Расчет параметров уравнений степенной и показательной парной регрессии. Расчет прогнозного значения расходов на железнодорожные перевозки по линейной модели при увеличении длины дороги.
курсовая работа [93,2 K], добавлен 29.11.2014Разработка проектных решений по информационно-методическому обеспечению исследования в области эконометрического моделирования. Анализ тенденций миграционных процессов в странах ЕС и их зависимость от имеющихся факторов, учитываемых при построении модели.
курсовая работа [2,6 M], добавлен 30.10.2015Прогнозирование, его основные подходы и виды. Текущее состояние российского кинематографа, его проблемы и тенденции. Прогнозирование числа выходящих кинофильмов в Российской Федерации методом экстраполяции временного ряда и методом наименьших квадратов.
курсовая работа [280,0 K], добавлен 20.06.2014Взаимосвязи экономических переменных. Понятие эконометрической модели. Коэффициент корреляции и его свойства. Линейная парная регрессия. Метод наименьших квадратов. Основные предпосылки и принципы регрессионного анализа. Статистика Дарбина-Уотсона.
шпаргалка [142,4 K], добавлен 22.12.2011Трендовые экономические процессы и их анализ: итерационные методы фильтрации, метод Четверикова, Шискина—Эйзенпресса. Ряд Фурье и его использование для прогнозирования динамики с сезонными колебаниями. Аддитивная и мультипликативная модели сезонности.
курсовая работа [1,2 M], добавлен 14.07.2012