Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в них (математические аспекты)

Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в них (математические аспекты)

Исследование и анализ математической модели и методики численных расчетов количества информации в наблюдениях. Ознакомление с экранной формой задания параметров режима системы "Эйдос". Рассмотрение баз данных для визуализации когнитивных функций.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	20.05.2017
Размер файла	321,8 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Кубанский государственный аграрный университет

Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в них (математические аспекты)

Луценко Евгений Вениаминович, д.э.н., к.т.н., профессор

Краснодар

Содержание

Аннотация

1. Формулировка проблемы

2. Идея предлагаемого решения проблемы

3. Математическая сущность предлагаемого решения проблемы

4. Математическая модель и методика численных расчетов количества информации в наблюдениях

5. Численный пример

Выводы

Литература

Аннотация
В данной статье кратко рассматриваются математическая сущность предложенной автором модификации взвешенного метода наименьших квадратов (ВМНК), в котором в качестве весов наблюдений применяется количество информации в них. Предлагается два варианта данной модификации ВМНК. В первом варианте взвешивание наблюдений производится путем замены одного наблюдения с определенным количеством информации в нем соответствующим количеством наблюдений единичного веса, а затем к ним применяется стандартный метод наименьших квадратов (МНК). Во втором варианте взвешивание наблюдений производится для каждого значения аргумента путем замены всех наблюдений с определенным количеством информации в них одним наблюдением единичного веса, полученным как средневзвешенное от них, а затем к ним применяется стандартный МНК. Подробно описана методика численных расчетов количества информации в наблюдениях, основанная на теории автоматизированного системно-когнитивного анализа (АСК-анализ) и реализованная в его программном инструментарии - интеллектуальной системе «Эйдос». Приводится иллюстрация предлагаемого подхода на простом численном примере. В будущем планируется дать более развернутое математическое обоснование метода взвешенных наименьших квадратов, модифицированного путем применения в качестве весов наблюдений количества информации в них, а также исследовать его свойства.
Ключевые слова: метод взвешенных наименьших квадратов, модифицированный путем применения в качестве весов наблюдений количества информации в них, АСК-анализ, система «Эйдос».

1. Формулировка проблемы

Данная статья посвящена математическим аспектам нового варианта взвешенного метода наименьших квадратов (ВМНК), модифицированного путем применения в качестве весов наблюдений количества информации в них. Данный подход предложен автором, в теоретическом плане основан на автоматизированном системно-когнитивном анализе (АСК-анализ) и реализован в его программном инструментарии - системе «Эйдос» [36].

В работе [36] подробно описаны проблемы стандартного (классического) метода наименьших квадратов (МНК), состоящей в том, что в исходных данных обычно есть такие, которые хуже, чем остальные вписываются в регрессионную модель, т.е. описываются ей с большей погрешностью. По мнению автора, причина этого состоит не только в самих данных, но и в способе их отражения в модели.

Иначе говоря, по-видимому, в принципе возможно построение разных моделей, отражающих одни и те же эмпирические данные, причем количество этих моделей не ограничено, и в одних моделях эта погрешность будет больше, а в других, более удачных - меньше. Но фактически, т.е. на практике, часто выбор возможных моделей ограничен одной. Поэтому актуальным является каждый новый метод построения моделей, который может иметь некоторые преимущества перед уже известными.

Традиционным решением этой проблемы является взвешенный метод наименьших квадратов. В той же работе [36] обосновывается, что подход, реализованный в ВМНК, на самом деле лишь создает видимость решения, а фактически основан просто на игнорировании данных, причем тем в большей степени, чем хуже они вписывающихся в регрессионную модель.

Рассмотрим еще две проблемы, дополнительно к уже описанным в [36], которые обуславливают актуальность предложенной модификации взвешенного метода наименьших квадратов.

Первая проблема ВМНК состоит в том, что на практике ошибки наблюдений являются неизвестными, поэтому их обычно принимают пропорциональными значениям переменных. «Суть взвешенного метода наименьших квадратов состоит в том, что остаткам обобщённой модели регрессии придаются определённые веса, которые равны обратным величинам соответствующих дисперсий G2(еi).Однако на практике значения дисперсий являются величинами неизвестными, поэтому для вычисления наиболее подходящих весов используется предположение о том, что они пропорциональны значениям факторных переменных xt» (курсив мой, авт.).

Вторая проблема ВМНК состоит в применении евклидовой меры расстояния при определении ошибки наблюдений. Но эта мера адекватна только для ортонормированных пространств, которые на практике вообще никогда не встречаются, как, кстати, и линейные системы. «Если случайные ошибки модели регрессии подвержены гетероскедастичности (но являются неавтокоррелированными), то для оценивания неизвестных коэффициентов модели регрессии применяется взвешенный метод наименьших квадратов».

2. Идея предлагаемого решения проблемы

В качестве возможного решения поставленной проблемы в работе [36] и предлагается модификация ВМНК, в которой:

- в качестве весов наблюдений используется количество информации в них;

- в качестве меры расстояния применяется суммарное количество информации (т.е. по сути свертка или скалярное произведение), т.е. информационное расстояние, мера расстояния неметрической природы, вообще не предполагающая ортонормированность пространства.

Кроме того очень важно, что АСК-анализе все факторы рассматриваются с одной единственной точки зрения: сколько информации содержится в их значениях о переходе объекта, на который они действуют, в определенные будущие состояния, и при этом сила и направление влияния всех значений факторов на объект измеряется в одних общих для всех факторов единицах измерения: единицах количества информации [3]. Именно по этой причине вполне корректно складывать силу и направление влияния всех действующих на объект значений факторов, независимо от их природы, и определять результат совместного влияния на объект системы значений факторов. При этом в общем случае объект является нелинейным и факторы внутри него взаимодействуют друг с другом, т.е. для них не выполняется принцип суперпозиции. Если же разные факторы измеряются в различных единицах измерения, то результаты сравнения объектов будут зависеть от этих единиц измерения, что совершенно недопустимо с теоретической точки зрения [3].

Введем определение когнитивной функции: когда функция используется для отображения причинно-следственной зависимости, т.е. информации (согласно концепции Шенка-Абельсона [34]), или знаний, если эта информация полезна для достижении целей [35], то будем называть такую функцию когнитивной функцией, от англ. «cognition» [3].

Смысл когнитивной функциональной зависимости в том, что в значении аргумента содержится определенное количество информации о том, какое значение примет функция, т.е. когнитивная функция отражает знания о степени соответствия значений функции значениям аргумента [3].

Очень важно, что этот подход позволяет автоматически решить проблему сопоставимой обработки многих факторов, измеряемых в различных единицах измерения, т.к. в этом подходе рассматриваются не сами факторы, какой бы природы они не были и какими бы шкалами не формализовались, а количество информации, которое в них содержится о поведении моделируемого объекта [3].

Необходимо также отметить, что представление о полностью линейных объектах (системах) является абстракцией и реально все объекты являются принципиально нелинейными. Вместе с тем для большинства систем нелинейные эффекты можно считать эффектами второго и более высоких порядков и такие системы в первом приближении можно считать линейными. Возможны различные модели взаимодействия факторов, в частности, развиваемые в форме системного обобщения теории множеств. Этот подход в перспективе может стать одним из вариантов развития теории нелинейных систем [3].

Отметим, что математическая модель АСК-анализа (системная теория информации) органично учитывает принципиальную нелинейность всех объектов. Это проявляется в нелокальности нейронной сети системы «Эйдос» [46], приводящей к зависимости всех информативностей от любого изменения в исходных данных, а не как в методе обратного распространения ошибки. В результате значения матрицы информативностей количественно отражают факторы не как множество, а как систему.

В АСК-анализе ставится задача метризации шкал, т.е. преобразования к наиболее формализованному виду, и предлагается 7 способов метризации всех типов шкал, обеспечивающих совместную сопоставимую количественную обработку разнородных факторов, измеряемых в различных единицах измерения за счет преобразования всех шкал к одним универсальным единицам измерения в качестве которых выбраны единицы измерения количества информации. Все эти способы метризации реализованы в АСК-анализе и системе «Эйдос» [3]. В работах [4, 5, 6] кратко описаны суть и история появления и развития метода АСК-анализа и его программного инструментария - интеллектуальной системы «Эйдос», поэтому здесь мы их излагать не будем. Отметим лишь, что эти методы созданы довольно давно и уже в 1987 году были акты внедрения интеллектуальных приложений, в которых формировались информационные портреты классов и и значений факторов [7].

Поэтому для нас является вполне естественным предположить, что в качестве весов наблюдений целесообразно использовать количество информации, которое содержится в этих наблюдениях о том, что интересующие нас выходные параметры объекта моделирования примут те или иные значения или сам объект моделирования перейдет в состояния, соответствующие тем или иным классам или окажется принадлежащим к определенным обобщающим категориям (группам). В этом и состоит основная идея предлагаемого решения поставленной проблемы.

В АСК-анализе на основе системной теории информации [7, 17] развит математический аппарат, обеспечивающий формальное описание поведения сложных нелинейных объектов моделирования под воздействием систем управляющих факторов и окружающей среды, а также созданы инструментальные средства, реализующие этот математический аппарат.

В частности в АСК-анализе предложено понятие когнитивных функций, которое рассмотрено и развито в ряде работ автора и соавторов [8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18] и поэтому здесь нет смысла подробно останавливаться на этом понятии. Отметим лишь суть. В работе [16] кратко рассматриваются классическое понятие функциональной зависимости в математике, определяются ограничения применимости этого понятия для адекватного моделирования реальности и формулируется проблема, состоящая в поиске такого обобщения понятия функции, которое было бы более пригодно для адекватного отражения причинно-следственных связей в реальной области. Далее рассматривается теоретическое и практическое решения поставленной проблемы, состоящие в том, что:

а) предлагается универсальный не зависящий от предметной области способ вычисления количества информации в значении аргумента о значении функции, т.е. когнитивные функции;

б) предлагается программный инструментарий: интеллектуальная система «Эйдос», позволяющая на практике осуществлять эти расчеты, т.е. строить когнитивные функции на основе фрагментированных зашумленных эмпирических данных большой размерности.

Предлагаются понятия нередуцированных, частично и полностью редуцированных прямых и обратных, позитивных и негативных когнитивных функций и метод формирования редуцированных когнитивных функций, являющийся вариантом известного взвешенного метода наименьших квадратов, отличающимся от стандартного ВМНК учетом в качестве весов наблюдений количества информации в значениях аргумента о значениях функции.

Конечно, применение теории информации для решения проблем и развития статистики не является абсолютно новой идеей. Как указывает в своих работах [1, 2] профессор А.И.Орлов, сходные идеи развивал еще в середине XX века С.Кульбак [19], а в эпиграф данной статьи вынесено программное высказывание выдающегося российского математика А.Н. Колмогорова: «... навыки мысли и аналитический аппарат теории информации должны, по-видимому, привести к заметной перестройке здания математической статистики», которые содержится в его предисловии к той же книге С.Кульбака и также приведенное в работах [1, 2]. В наше время в этом направлении продуктивно работают Дуглас Хаббард [20], а также российский математик В.Б.Вяткин [21-28].

Кроме того, иногда авторы, излагающие в частности взвешенный метод наименьших квадратов, может быть не вполне осознанно используют слово «информация» не как научный термин, а в обиходном разговорном смысле. Например, в работе, приведенной на сайте: http://lib.alnam.ru/book_prs2.php?id=38, автор пишет: «Чтобы учесть разницу в информации, которую несет каждое наблюдение, для нахождения оценки необходимо минимизировать взвешенную сумму квадратов отклонений» (отмечено мной, авт.). Казалось бы, остается «лишь» посчитать это количество информации и вариант взвешенного метода наименьших квадратов, основанный на теории информации, готов, но, однако мы видим, что ниже идет изложение стандартного ВМНК.

В работе [37] автор пишет: «…по схеме скользящей средней оценкой текущего уровня является взвешенное среднее всех предшествующих уровней, причем веса при наблюдениях убывают по мере удаления от последнего (текущего) уровня, т. е. информационная ценность наблюдений тем больше, чем ближе они к концу периода наблюдений» (отмечено мной, авт.). Здесь мы тоже видим пример применения слова «информация» и сочетания «информационная ценность наблюдений» в каком-то бытовом смысле, а не в качестве научных терминов. Этот вывод можно сделать на основе подхода, примененного для их расчета или оценки. Казалось бы, нужные слова произнесены и даже написаны и опубликованы, и остается «только» а) прочитать их, б) понять, что буквально сказано и в) сделать это. Однако почему-то это никому не приходит в голову, т.е. никто не собирается действительно взять да и посчитать это количество информации. Ведь ясно, что эти подходы, описанные в приведенных выше статьях, не основаны на теории информации. Примерно также на бытовом уровне все понимают, что когда мы спрашиваем о том, какая температура на улице и нам отвечают, то этим самым сообщают нам определенное количество информации. Но никому не приходит в голову посчитать, какое именно количество информации нам сообщают в этом случае, как и в других случаях.

Таким образом, даже если принять в принципе изложенные выше идеи о применении количества информации в наблюдении в качестве веса наблюдения во взвешенном методе наименьших квадратов, то все равно остается очень существенный и принципиальный вопрос о том, каким способом возможно реально посчитать это количество информации. Этот вопрос разбивается на две части:

- с помощью какого математического аппарата возможно посчитать количество информации в наблюдении?

- с помощью какого программного инструментария, реализующего этот математический аппарат, возможно реально посчитать количество информации в наблюдении?

Основная идея решения проблемы и предложение автора состоит в том, что для этой цели вполне подходят Автоматизированный системно-когнитивный анализ (АСК-анализ), его математическая модель (системная теория информации), а также реализующий их программный инструментарий АСК-анализа - система «Эйдос». АСК-анализ и система «Эйдос» представляют собой современную интеллектуальную инновационную (полностью готовую к внедрению) технологию взвешенного метода наименьших квадратов, модифицированного путем применения в качестве весов наблюдений количества информации в них.

У интеллектуальных технологий есть одно слабое место: их никто не понимает, по крайней мере, почти никто из тех, для кого они предназначены и кому они объективно необходимы. А это значит, что для того, чтобы довести их до практики необходимо придать им такую форму, в которой их и не надо понимать, а можно сразу применять. Это пытается сделать автор в своих разработках, ведущихся в течение многих лет [5], т.е. пытается создать универсальную инновационную (готовую к внедрению) интеллектуальную технологию персонального уровня, т.е. не требующую от пользователя специальной квалификации в области технологий искусственного интеллекта. Результатом этих усилий и являются АСК-анализ и система «Эйдос».

При принятии решений о применении для решения поставленной проблемы этой интеллектуальной инновационной технологии естественно возникает вопрос о степени точности восстановления в создаваемых с помощью нее моделях исследуемых эмпирических зависимостей в АСК-анализе и системе «Эйдос».

Традиционно точность восстановления зависимости оценивается дисперсиями и доверительным интервалами. В АСК-анализе смысловым аналогом доверительного интервала, в определенной степени, конечно, является количество информации в аргументе о значении функции. Поэтому необходимо исследовать соотношение смыслового содержания этих понятий: доверительного интервала и количества информации.

На математическом уровне это планируется сделать в будущем, а в данной статье отметим лишь, что чем больше доверительный интервал, тем выше неопределенность наших знаний о значении функции, соответствующем значению аргумента, а чем он меньше, тем эта определенность выше. Но информация и определяется как количественная мера степени снятия неопределенности. Учитывая это можно утверждать, что чем больше доверительный интервал, тем меньше информации о значении функции, соответствующем значению аргумента мы получаем, а чем он меньше, тем это количество информации больше. Забегая вперед, отметим, что в частично-редуцированных когнитивных функциях количество информации в значениях аргумента о значениях функции наглядно изображено шириной полосы функции, что не только по смыслу, но внешне очень сходно с доверительным интервалом. При этом отметим еще один интересный момент, который состоит в том, что если традиционный доверительный интервал при экстраполяции при удалении от эмпирических значений ко все далее отстоящим от них в будущим все время увеличивается, то в степень редукции когнитивной функции то увеличивается, то уменьшается. Это связано с тем, что АСК-анализ и система «Эйдос» позволяют не только прогнозировать будущие события, но и прогнозировать достоверность или риски этих прогнозов [7], т.е. прогнозировать продолжительность периодов эргодичности и точки бифуркации (качественного изменения закономерностей в моделируемой предметной области), что наглядно и отображается в такой форме.

В частности при этом при нулевом доверительном интервале формально получается, что мы имеем бесконечное количество информации о значении функции, но на практике это вообще невозможно [17] и даже в теории возможно только для отдельных точек целых значений аргумента и функции. При бесконечном доверительном интервале в значении аргумента функции содержится ноль информации о значении функции.

В переписке по содержанию статьи профессор А.И.Орлов пишет: «Погрешность средства измерения в ряде случаев меняется с изменением значения измеряемой величины. Если закон изменения характеристик погрешностей известен (например, внесен в паспорт средства измерения), то он дает обоснованные веса. Из подобных соображений вытекает предложение Копаева изменить минимизируемый функционал - вместо суммы квадратов абсолютных расхождений минимизировать сумму квадратов относительных отклонений [40]» (курсив мой. авт.).

Это очень глубокое замечание, из которого вытекают интересные выводы, некоторые из которых мы кратко рассмотрим ниже.

В статье [41] предлагается применить автоматизированный системно-когнитивный анализ как для синтеза адаптивной интеллектуальной измерительной системы, так и для ее использования не с целью измерения параметров объектов, а для идентификации состояний измеряемых систем, т.е. для так называемой системной идентификации. При этом задача измерения рассматривается как предельно упрощенный вариант задачи идентификации или распознавания образов, а задача синтеза измерительной системы - как предельно упрощенный вариант синтеза системы распознавания образов. Программный инструментарий автоматизированного системно-когнитивного анализа - интеллектуальную систему «Эйдос» предлагается применить как универсальное средство для синтеза и эксплуатации адаптивных интеллектуальных измерительных систем в различных предметных областях. Эта система позволяет вычислять количество информации, содержащейся в результатах измерения, о том, что измеряемая величина примет то или иное значение или объект системной идентификации находится в том или ином состоянии. Применение данного подхода является корректным для измерения состояния сложных многофакторных нелинейных динамических систем.

Упрощенно говоря, система «Эйдос» является интеллектуальной измерительной системой и может рассматриваться в этом качестве. При этом для нее «закон изменения характеристик погрешностей известен», так как в ней роль погрешностей выполняет количество информации, а количество информации тесно связано с понятиями неопределенности и погрешности. Общепринятым является представление об информации, как количественной мере степени снятия неопределенности. Погрешность также является мерой неопределенности наших знаний об истинном значении измеряемой величины. Чем больше погрешность измерения, тем меньше информации мы получаем в процессе измерения о значении измеряемой величины, чем меньше погрешность - тем больше информации в наблюдении (измерении). Поэтому подход, реализованный в предлагаемом варианте ВМНК, находится в согласии с предложением работы [40]. Подобные аргументы создают теоретическое обоснование корректности использования количества информации в наблюдениях в качестве их «обоснованных весов» в предлагаемом варианте взвешенного метода наименьших квадратов.

3. Математическая сущность предлагаемого решения проблемы

В описании математического аппарата стандартного метода наименьших квадратов (МНК) в данной статье нет никакой необходимости, т.к. этому посвящено большое количество общедоступных работ.

Поэтому в данной статье мы рассмотрим только ключевые моменты, позволяющие так преобразовать исходные данные о наблюдениях, чтобы они учитывали количество информации в них, рассчитанное по методике численных расчетов АСК-анализа, и чтобы к ним было возможно применить стандартный МНК и при этом учитывалось количество информации в наблюдениях.

В работе [9] предлагается два варианта данной модификации взвешенного метода наименьших квадратов.

В первом варианте взвешивание наблюдений производится путем замены одного наблюдения с определенным количеством информации в нем соответствующим количеством наблюдений единичного веса, а затем к ним применяется стандартный метод наименьших квадратов (МНК). Фактически в этом варианте решение задачи взвешивания наблюдений решается самим методом наименьших квадратов. Алгоритм и программная реализация данного подхода подробно описаны в статье [36].

В данной же работе, как и планировалось в [36], кратко рассмотрим математические аспекты предлагаемого решения.

В стандартном методе наименьших квадратов минимизируется сумма квадратов отклонений эмпирических значений аппроксимируемой величины от расчетных значений , вычисленных в соответствии с моделью (1):

(1)

Во взвешенном методе наименьших квадратов минимизируется сумма квадратов отклонений эмпирических значений аппроксимируемой величины от расчетных значений , вычисленных в соответствии с моделью, причем разным наблюдениям приписывается разный вес (2):

(2)

Ключевым моментом при применении взвешенного МНК является способ выбора и задания весов наблюдений.

Традиционно считается, что разумным вариантом является выбор весов пропорционально ошибкам не взвешенной регрессии [38, 39]. Предполагается, что этим самым более надежным наблюдениям придается больший вес, а сомнительным - меньший. Вроде выглядит разумно. Но проблема в том, что к более надежными и или к сомнительными эмпирические наблюдения относятся путем их сравнения с расчетными значениями, полученными с применением создаваемой модели. Получается, что если модель хорошо описывает эмпирические данные, то они считаются надежными, а если нет, то ненадежными. Как говорится «если факты не соответствуют теории, то тем хуже для фактов». Автор не склонен придерживаться подобной логики и поэтому видит возможность сделать из этого и другой вывод: если модель хорошо описывает эмпирические данные, то эта модель надежная, а если нет, то ненадежная, и этот вывод выглядит гораздо более убедительным и разумным.

Подбор этих весов наблюдений вручную может являться сложной и практически неразрешимой задачей, как из-за сложной структуры данных (например, непостоянства дисперсии и среднего ошибок наблюдений), так и из-за возможной очень большой размерности данных. Таким образом, возникает задача автоматического определения весов наблюдений и разработка алгоритмов и программного инструментария, обеспечивающего автоматизацию определения и взвешивания весов наблюдений в МНК.

Предлагается новое, ранее не встречавшееся в литературе, решение этой задачи и соответствующее обобщение метода наименьших квадратов (МНК), в котором точки (наблюдения) имеют вес, равный количеству информации в значении аргумента о значении функции. Ясно, что по сути, речь идет о применении когнитивных функций [8-18] в взвешенном МНК.

(3)

Здесь I_i - количество информации в i-м наблюдении, т.е. точнее говоря в i-м значении аргумента о том, что i-e функции примет значение .

В выражениях (1), (2) и (3) не уточняется, могут ли эмпирические значения функции относиться к одному значению аргумента и это не существенно для МНК. Но если точно известно, что существует M значений аргумента и одному значению аргумента соответствует значений функции, то для дальнейшего изложения нам удобнее записать выражения (1), (2) и (3) в следующей форме, явно учитывающей это обстоятельство:

(1')

(2')

(3')

Отметим, что в случае, когда вес эмпирического наблюдения является целым числом, то выражение (2') эквивалентно выражению:

(2'')

Этим мы и воспользовались в статье [36], когда заменили одно наблюдение с весом этим количеством наблюдений с единичным весом.

Во втором варианте взвешивание наблюдений производится для каждого значения аргумента путем замены всех наблюдений с определенным количеством информации в них одним наблюдением единичного веса, полученным как средневзвешенное от них, а затем к ним применяется стандартный МНК. В данном варианте ВМНК решение задачи взвешивания наблюдений решается до применения стандартного метода наименьших квадратов с помощью другого инструментария, в качестве которого в частности может применяться и интеллектуальная система «Эйдос».

Перед применением стандартного МНК для каждого значения аргумента предварительно рассчитывается средневзвешенное значение функции из всех ее значений с их весами.

Рассмотрим, как по предлагаемой методике рассчитывается средневзвешенное значение функции с учетом количества информации в аргументе о значении функции для одного значения аргумента.

Для двух точек выбор координаты средневзвешенной точки y соответствует «правилу рычага», т.е. ее положение выбирается таким, чтобы рычаг, образованный двумя точками с координатами y₁ и y₂ и весами I₁ и I₂, находился в равновесии, если его опора будет в средневзвешенной точке с координатой :

(4)

Откуда находим y. При двух точках, соответствующих одному значению аргумента, координата y средневзвешенной точки, имеет вид:

. (5)

Если же для i-го значения аргумента x_i таких точек , то средневзвешенное значение функции выражение (5) принимает вид (6):

. (6)

В результате средневзвешенная точка находится тем ближе к некоторой точке, чем больше количество информации в значении аргумента о том, что функция примет значение, соответствующее этой точке.

После этого преобразования можно применять стандартный МНК.

В модуле визуализации когнитивных функций [11] этот метод реализован программно по постановке автора разработчиком интеллектуальных систем из Белоруссии Д.К.Бандык и обеспечивает отображение частично и полностью редуцированных когнитивных функций.

4. Математическая модель и методика численных расчетов количества информации в наблюдениях

Как говорилось выше, ключевым моментом предлагаемой модификации ВМНК является способ определения количества информации в наблюдениях. Поэтому далее в наиболее упрощенном виде приводится методика численных расчетов количества информации в наблюдениях, основанная на теории автоматизированного системно-когнитивного анализа (АСК-анализ) и реализованная в его программном инструментарии - интеллектуальной системе «Эйдос» [7, 17].

Для удобства рассмотрения введем следующие обозначения:

i - индекс значения аргумента;

j - индекс значения функции;

M - количество значений аргумента;

W - количество значений функции;

N_ij - количество встреч j-го значения функции при i-м значении аргумента;

- суммарное количество наблюдений при i-м значении аргумента по всей выборке;

- суммарное количество наблюдений j-го значении функции по всей выборке;

- суммарное количество наблюдений по всей выборке;

I_ij - количество информации в i-м значении аргумента о том, что функция имеет j-е значение, т.е. это количество информации в наблюдении (i, j);

Ш - нормировочный коэффициент (Е.В. Луценко, 1979), преобразующий количество информации в формуле А. Харкевича в биты и обеспечивающий для нее соблюдение принципа соответствия с формулой Р. Хартли в равновероятном детерминистском случае;

- безусловная относительная частота встречи i-го значения аргумента в обучающей выборке;

P_ij - условная относительная частота встречи j-го значения функции при i-м значении аргумента. эйдос экранный математический информация

Используя исходную выборку эмпирических наблюдений посчитаем матрицу абсолютных частот (таблица 1):

Таблица 1 - матрица абсолютных частот

Классы

Сумма

1

j

W

Значения факторов

1

i

M

Суммарное

количество

признаков

Алгоритм формирования матриц абсолютных частот и условных и безусловных процентных распределений. Объекты обучающей выборки описываются векторами (массивами) имеющихся у них признаков:

Первоначально в матрице абсолютных частот все значения равны нулю. Затем организуется цикл по объектам обучающей выборки. Если у предъявленного объекта, относящегося к j-му классу, есть i-й признак, то:

(7)

На основе анализа матрицы частот (табл. 1) классы можно сравнивать по наблюдаемым частотам признаков только в том случае, если количество объектов по всем классам одинаково, как и суммарное количество признаков по классам. Если же они отличаются, то корректно сравнивать классы можно только по условным и безусловным относительным частотам (оценкам вероятностей) наблюдений признаков, посчитанных на основе матрицы частот (табл. 1) в соответствии с выражениями (8), в результате чего получается матрица условных и безусловных процентных распределений (табл. 2):

(8)

Таблица 2 - матрица условных и безусловных процентных распределений

Классы

Безусловная

вероятность

признака

1

j

W

Значения факторов

1

i

M

Безусловная

вероятность

класса

Далее произведем расчет количества информации в наблюдениях в соответствии с выражением (9):

(9)

С учетом (8) преобразуем (9) к виду (10):

(10)

Здесь - упрощенная форма коэффициента эмерджентности А.Харкевича (10), предложенный автором в 1979 году и названный так в честь известного советского ученого, внесшего большой вклад в теорию информации, на работах которого основана излагаемая методика численных расчетов количества информации в наблюдениях.

(11)

Используя выражения (9) и (11) на основе таблицы 2 рассчитывается матрицу информативностей (таблица 3). Она также может быть получена :непосредственно из таблицы 1 с использованием выражений (10) и (11):

Таблица 3 - матрица информативностей

Классы

Значимость фактора

1

j

W

Значения факторов

1

i

M

Степень

редукции

класса

Здесь - это среднее количество информации в i-м значении фактора:

Когда количество информации Iij > 0 - i-й фактор способствует переходу объекта управления в j-е состояние, когда Iij < 0 - препятствует этому переходу, когда же Iij = 0 - никак не влияет на это. В векторе i-го фактора (строка матрицы информативностей) отображается, какое количество информации о переходе объекта управления в каждое из будущих состояний содержится в том факте, что данный фактор действует. В векторе j-го состояния класса (столбец матрицы информативностей) отображается, какое количество информации о переходе объекта управления в соответствующее состояние содержится в каждом из факторов.

Таким образом, данная модель позволяет рассчитать, какое количество информации содержится в любом факте о наступлении любого события в любой предметной области, причем для этого не требуется повторности этих фактов и событий. Если данные повторности осуществляются и при этом наблюдается некоторая вариабельность значений факторов, обуславливающих наступление тех или иных событий, то модель обеспечивает многопараметрическую типизацию, т.е. синтез обобщенных образов классов или категорий наступающих событий с количественной оценкой степени и знака влияния на их наступление различных значений факторов. Причем эти значения факторов могут быть как количественными, так и качественными и измеряться в любых единицах измерения, в любом случае в модели оценивается количество информации, которое в них содержится о наступлении событий, переходе объекта управления в определенные состояния или, просто, о его принадлежности к тем или иным классам. Другие способы метризации приведены в работе [3].

Ниже на простом численном примере мы кратко рассмотрим технологию, позволяющую на практике и в любой предметной области посчитать, какое количество информации содержится в наблюдении. В связи с ограничениями на объем статьи автор не имеет возможности полностью раскрыть все позиции на приведенных ниже скриншотах и рисунках, т.е. фактически предполагается некоторое предварительное знакомство читателя с системой «Эйдос». Если же такое знакомство недостаточно полное, то автор отсылает автора к публикациям в списке литературы и к сайту: http://lc.kubagro.ru/.

5. Численный пример

Для иллюстрации предлагаемых подходов используем тот же численный пример, что и в статье [36], но рассмотрим только второй вариант предлагаемой модификации ВМНК, т.к. первый вариант был подробно рассмотрен в [36].

Запустим режим 4.6 системы «Эйдос»,реализующий данный метод, с параметрами, приведенными на рисунке 1:

Рисунок 1. Экранная форма задания параметров режима 4.6 системы «Эйдос»

В результате выполнения режима создаются базы данных, непосредственно считываемые MS Excel и содержащие данные для визуализации когнитивных функций. Виды этих баз данных и способ формирования их имен приведены в таблице 4.

Рассмотрим рисунок из статьи [36] с результатами применения первого варианта предлагаемого метода, приведенный ниже под номером 2:

Таблица 4 - Виды этих баз данных для визуализации когнитивных функций и способ формирования их имен

Прямые

и обратные

Позитивные

и негативные

Вариант способа учета количества информации в наблюдениях для одного значения аргумента

Имена баз данных

для MS Ecxel

Прямые: Y=F[X]

Позитивные: количество информации I[X,Y] > 0

Учет только наблюдений для каждого значения аргумента с MAX колич. информации

####-Y(X)-Pos-One_point-##-##.dbf

Замена всех наблюдений для каждого значения аргумента одним средневзвешенным

####-Y(X)-Pos-All_points_Avr-##-##.dbf

Замена наблюдения с количеством информации Iij наблюдениями с единичным весом

####-Y(X)-Pos-All_points_N1-##-##.dbf

Негативные: количество информации I[X,Y] < 0

Учет только наблюдений для каждого значения аргумента с MAX колич. информации

####-Y(X)-Pos-One_point-##-##.dbf

Замена всех наблюдений для каждого значения аргумента одним средневзвешенным

####-Y(X)-Pos-All_points_Avr-##-##.dbf

Замена наблюдения с количеством информации Iij наблюдениями с единичным весом

####-Y(X)-Pos-All_points_N1-##-##.dbf

Обратные: X=F[Y]

Позитивные: количество информации I[X,Y] > 0

Учет только наблюдений для каждого значения аргумента с MAX колич. информации

####-Y(X)-Pos-One_point-##-##.dbf

Замена всех наблюдений для каждого значения аргумента одним средневзвешенным

####-Y(X)-Pos-All_points_Avr-##-##.dbf

Замена наблюдения с количеством информации Iij наблюдениями с единичным весом

####-Y(X)-Pos-All_points_N1-##-##.dbf

Негативные: количество информации I[X,Y] < 0

Учет только наблюдений для каждого значения аргумента с MAX колич. информации

####-Y(X)-Pos-One_point-##-##.dbf

Замена всех наблюдений для каждого значения аргумента одним средневзвешенным

####-Y(X)-Pos-All_points_Avr-##-##.dbf

Замена наблюдения с количеством информации Iij наблюдениями с единичным весом

####-Y(X)-Pos-All_points_N1-##-##.dbf

Примечание: В начале имени идет обозначение модели, в которой получена когнитивная функция, а непосредственно перед расширением имен баз данных через тире указываются коды описательной и классификационной шкал.

Рисунок 2. Регрессия, построенная на основе всех наблюдений с учетом количества информации в них с использованием 1-го варианта предлагаемой модификации ВМНК

В таблице 5 приводятся результаты взвешивания наблюдений с учетом количества информации в них с использованием 2-го варианта предлагаемой модификации ВМНК, а на рисунке 3 показаны соответствующие регрессии, построенные по этим данным:

Таблица 5 - Результаты взвешивания наблюдений с учетом количества информации в них с использованием 2-го варианта предлагаемой модификации ВМНК

Наименование

аргумента

Наименование

значения функции

Значение

аргумента

Значение

функции

1/5-{154.2210000, 222.5048000}

2/10-{15617.4000000, 20523.4000000}

188,3629000

16260,8366534

2/5-{222.5048000, 290.7886000}

3/10-{20523.4000000, 25429.4000000}

256,6467000

23509,8510850

3/5-{290.7886000, 359.0724000}

7/10-{40147.4000000, 45053.4000000}

324,9305000

42225,3300638

4/5-{359.0724000, 427.3562000}

8/10-{45053.4000000, 49959.4000000}

393,2143000

45297,9398623

5/5-{427.3562000, 495.6400000}

5/10-{30335.4000000, 35241.4000000}

461,4981000

33211,6434714

Рисунок 3. Регрессия, построенная на основе всех наблюдений с учетом количества информации в них с использованием 2-го варианта предлагаемой модификации ВМНК

На рисунке 4 для удобства их сравнения совмещены изображения с рисунков 2 и 3.

Рисунок 4. Регрессии, построенные на основе всех наблюдений с учетом количества информации в них с использованием и 1-го, и 2-го вариантов предлагаемой модификации ВМНК

Из сравнения по рисункам 2, 3 и 4 и приведенным на них уравнениям регрессий 1-го и 2-го вариантов взвешивания наблюдений с использованием в качестве весов количества информации в наблюдениях мы можем сделать вывод, что отличаются они весьма незначительно.

Выводы

В данной статье кратко рассмотрена математическая сущность предложенной автором модификации взвешенного метода наименьших квадратов (ВМНК), в котором в качестве весов наблюдений применяется количество информации в них. Предлагается два варианта данной модификации ВМНК. В первом варианте взвешивание наблюдений производится путем замены одного наблюдения с определенным количеством информации в нем соответствующим количеством наблюдений единичного веса, а затем к ним применяется стандартный метод наименьших квадратов (МНК). Во втором варианте взвешивание наблюдений производится для каждого значения аргумента путем замены всех наблюдений с определенным количеством информации в них одним наблюдением единичного веса, полученным как средневзвешенное от них, а затем к ним применяется стандартный МНК. Подробно описана методика численных расчетов количества информации в наблюдениях, основанная на теории автоматизированного системно-когнитивного анализа (АСК-анализ) и реализованная в его программном инструментарии - интеллектуальной системе «Эйдос». Приводится иллюстрация предлагаемого подхода на простом численном примере.

Главный вывод, который можно сделать по материалам статьи, состоит в том, что предлагается обоснованное решение двух дополнительных проблем, сформулированных в начале статьи, т.е. предлагается теоретическое обоснование, методика численных расчетов и программная реализация модификации взвешенного метода наименьших квадратов, в котором в качестве весов наблюдений применяется количество информации в них. Если в ВМНК принимается гипотеза, что веса наблюдений тем больше (более надежны), чем меньше ошибка, в качестве которой используется дисперсия, то в предлагаемой модификации ВМНК непосредственно на основе эмпирических данных расчетным путем определяется количество информации в наблюдениях, которое используется в качестве весов наблюдений, вместо традиционной погрешности. Необходимо подчеркнуть, что предлагаемый способ расчета количества информации не основан на предположениях о независимости наблюдений и их нормальном распределении, т.е. является непараметрическим и обеспечивает корректное моделирование нелинейных систем, а также позволяет сопоставимо обрабатывать разнородные (измеряемые в шкалах различных типов) данные числовой и нечисловой природы, измеряемые в различных единицах измерения.

Таким образом, АСК-анализ и система «Эйдос» представляют собой современную инновационную (готовую к внедрению) технологию взвешенного метода наименьших квадратов, модифицированного путем применения в качестве весов наблюдений количества информации в них.

Данная статья может быть использована как описание лабораторной работы по дисциплинам:

- Интеллектуальные системы;

- Инженерия знаний и интеллектуальные системы;

- Интеллектуальные технологии и представление знаний;

- Представление знаний в интеллектуальных системах;

- Основы интеллектуальных систем;

- Введение в нейроматематику и методы нейронных сетей;

- Основы искусственного интеллекта;

- Интеллектуальные технологии в науке и образовании;

- Управление знаниями;

- Автоматизированный системно-когнитивный анализ и интеллектуальная система «Эйдос»;

которые автор ведет в настоящее время, а также и в других дисциплинах, связанных с преобразованием данных в информацию, а ее в знания и применением этих знаний для решения задач идентификации, прогнозирования, принятия решений и исследования моделируемой предметной области (а это практически все дисциплины во всех областях науки).

Ограничения и перспективы. В данной статье не ставилась задача исследовать математические и прагматические свойства предлагаемой модификации ВМНК, основанной на использовании в качестве весов наблюдений количества информации в них. Это предполагается сделать в будущих статьях, посвященных данному методу.

Профессор А.И.Орлов в переписке по поводу статьи отмечает, что в будущем «…желательно иметь вероятностно-статистическую теорию, в которой доказаны теоремы о состоятельности оценок параметров зависимости, построены доверительные интервалы для зависимости, как это сделано в классическом случае линейной зависимости в моих книгах (см., например, п.5.1 в "Эконометрике" http://ibm.bmstu.ru/nil/biblio.html#books-13-econ). К сожалению, вряд ли такую теорию можно быстро построить».

Литература

1. Орлов А.И. Точки роста статистических методов / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №09(103). С. 136 - 162. - IDA [article ID]: 1031409011. - Режим доступа: http://ej.kubagro.ru/2014/09/pdf/11.pdf, 1,688 у.п.л.

2. Орлов А.И. Компьютерно-статистические методы: состояние и перспективы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №09(103). С. 163 - 195. - IDA [article ID]: 1031409012. - Режим доступа: http://ej.kubagro.ru/2014/09/pdf/12.pdf, 2,062 у.п.л.

3. Луценко Е.В. Метризация измерительных шкал различных типов и совместная сопоставимая количественная обработка разнородных факторов в системно-когнитивном анализе и системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №08(092). С. 859 - 883. - IDA [article ID]: 0921308058. - Режим доступа: http://ej.kubagro.ru/2013/08/pdf/58.pdf, 1,562 у.п.л.

4. Луценко Е.В. Теоретические основы, технология и инструментарий автоматизированного системно-когнитивного анализа и возможности его применения для сопоставимой оценки эффективности вузов / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №04(088). С. 340 - 359. - IDA [article ID]: 0881304022. - Режим доступа: http://ej.kubagro.ru/2013/04/pdf/22.pdf, 1,25 у.п.л.

5. Луценко Е.В. 30 лет системе «Эйдос» - одной из старейших отечественных универсальных систем искусственного интеллекта, широко применяемых и развивающихся и в настоящее время / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2009. - №10(054). С. 48 - 77. - Шифр Информрегистра: 0420900012\0110, IDA [article ID]: 0540910004. - Режим доступа: http://ej.kubagro.ru/2009/10/pdf/04.pdf, 1,875 у.п.л.

6. Луценко Е.В. Универсальная когнитивная аналитическая система «Эйдос-Х++» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2012. - №09(083). С. 328 - 356. - IDA [article ID]: 0831209025. - Режим доступа: http://ej.kubagro.ru/2012/09/pdf/25.pdf, 1,812 у.п.л.

7. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар: КубГАУ. 2002. - 605 с.

8. Луценко Е.В. АСК-анализ как метод выявления когнитивных функциональных зависимостей в многомерных зашумленных фрагментированных данных / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2005. - №03(011). С. 181 - 199. - IDA [article ID]: 0110503019. - Режим доступа: http://ej.kubagro.ru/2005/03/pdf/19.pdf, 1,188 у.п.л.

9. Луценко Е.В. Системно-когнитивный анализ функций и восстановление их значений по признакам аргумента на основе априорной информации (интеллектуальные технологии интерполяции, экстраполяции, прогнозирования и принятия решений по картографическим базам данных) / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2009. - №07(051). С. 130 - 154. - Шифр Информрегистра: 0420900012\0066, IDA [article ID]: 0510907006. - Режим доступа: http://ej.kubagro.ru/2009/07/pdf/06.pdf, 1,562 у.п.л.

10. Луценко Е.В. Управление агропромышленным холдингом на основе когнитивных функций связи результатов работы холдинга и характеристик его предприятий / Е.В. Луценко, В.И. Лойко, О.А. Макаревич // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2009. - №10(054). С. 248 - 260. - Шифр Информрегистра: 0420900012\0111, IDA [article ID]: 0540910015. - Режим доступа: http://ej.kubagro.ru/2009/10/pdf/15.pdf, 0,812 у.п.л.

11. Луценко Е.В. Когнитивные функции как адекватный инструмент для формального представления причинно-следственных зависимостей / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2010. - №09(063). С. 1 - 23. - Шифр Информрегистра: 0421000012\0233, IDA [article ID]: 0631009001. - Режим доступа: http://ej.kubagro.ru/2010/09/pdf/01.pdf, 1,438 у.п.л.

12. Трунев А.П. Автоматизированный системно-когнитивный анализ влияния тел Солнечной системы на движение полюса Земли и визуализация причинно-следственных зависимостей в виде когнитивных функций / А.П. Трунев, Е.В. Луценко, Д.К. Бандык // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №01(065). С. 232 - 258. - Шифр Информрегистра: 0421100012\0002, IDA [article ID]: 0651101020. - Режим доступа: http://ej.kubagro.ru/2011/01/pdf/20.pdf, 1,688 у.п.л.

13. Луценко Е.В. Метод визуализации когнитивных функций - новый инструмент исследования эмпирических данных большой размерности / Е.В. Луценко, А.П. Трунев, Д.К. Бандык // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №03(067). С. 240 - 282. - Шифр Информрегистра: 0421100012\0077, IDA [article ID]: 0671103018. - Режим доступа: http://ej.kubagro.ru/2011/03/pdf/18.pdf, 2,688 у.п.л.
...

Страница:

1
2

статья "Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в них (математические аспекты)" скачать

Подобные документы

Обработка экспериментальных данных по методу наименьших квадратов
Определение зависимости одной физической величины от другой. Применение метода наименьших квадратов с помощью программного обеспечения Mathcad. Суть метода наименьших квадратов. Корреляционный анализ, интерпретация величины корреляционного момента.

курсовая работа [63,8 K], добавлен 30.10.2013

Использование метода наименьших квадратов при решении электротехнических задач
Подбор параметров линейной функции. Вычисление значения функции в заданных промежуточных точках с использованием математических пакетов. Исследование математической модели решения задачи. Составление программы для вычисления коэффициента корреляции.

курсовая работа [2,3 M], добавлен 21.10.2014

Разработка приложения для визуализации картографической информации
Назначение и возможности разработанного приложения для визуализации картографической информации. Хранимые процедуры, функции и триггеры. Взаимодействие пользователя с приложением. Описание экранной формы по работе с картами. Визуализация карты в MS Visio.

курсовая работа [2,1 M], добавлен 14.08.2014

Создание программных продуктов для обработки экспериментальных данных. Идентификация параметров
Обработка экспериментальных данных с помощью программных продуктов. Редактирование и оформление электронных табличных расчётов. Метод наименьших квадратов: применение в качестве критерия близости суммы квадратов отклонений заданных и расчетных значений.

курсовая работа [275,5 K], добавлен 07.03.2011

Визуализация геофизических данных
Назначение разработанных программных средств. Визуализации иклинометрии и каротажа. Изучение структуры баз данных, используемых в приложении. Встроенные типы данных Oracle и описание разработанных методов. Взаимодействие пользователя с экранной формой.

курсовая работа [1,1 M], добавлен 14.08.2014

Математическая теория информации
Количество информации и ее мера. Определение количества информации, содержащегося в сообщении из ансамбля сообщений источника. Свойства количества информации и энтропии сообщений. Избыточность, информационная характеристика источника дискретных сообщений.

реферат [41,4 K], добавлен 08.08.2009

SPSS и анализ в маркетинговых исследованиях
Статистическая обработка первичной маркетинговой информации. Определение общих параметров выборки. Составление схемы кодировки анкеты. Способы формирования базы данных в формате SPSS. Ввод данных в компьютер. Кодирование переменных. Модификация данных.

презентация [533,9 K], добавлен 24.02.2015

Программная реализация решения обратной задачи методом наименьших квадратов
Разработка алгоритма аппроксимации данных методом наименьших квадратов. Средства реализации, среда программирования Delphi. Физическая модель. Алгоритм решения. Графическое представление результатов. Коэффициенты полинома (обратный ход метода Гаусса).

курсовая работа [473,6 K], добавлен 09.02.2015

Основы информатики
Информация и ее свойства. Единицы измерения данных. Вероятностный и объемный подход к измерению количества информации, способы ее передачи. Рассмотрение поставщиков финансовой информации в Интернете; технологии финансовых инвестиций в компьютерной сети.

контрольная работа [61,5 K], добавлен 08.06.2013

Принципы оценки информации
Характеристика информации. Перевод числа из двоичной системы в десятичную, шестнадцатеричную и восьмеричную. Способы оценки количества информации. Технические средства обработки информации. Принцип работы, история изобретения струйного принтера.

контрольная работа [1016,6 K], добавлен 22.10.2012

Аппроксимация функций методом наименьших квадратов
Построение эмпирических формул методом наименьших квадратов. Линеаризация экспоненциальной зависимости. Элементы теории корреляции. Расчет коэффициентов аппроксимации, детерминированности в Microsoft Excel. Построение графиков функций, линии тренда.

курсовая работа [590,9 K], добавлен 10.04.2014

Разработка программного обеспечения для построения статистической модели методом наименьших квадратов
Определение параметров линейной зависимости из графика. Метод парных точек. Метод наименьших квадратов. Блок-схема программного комплекса в Microsoft Visual Studio и Microsoft Excel. Инструкция пользователя, скриншоты. Общий вид программного кода.

курсовая работа [2,1 M], добавлен 29.11.2014

Формула Шеннона. Единицы количества информации: вероятностный и объемный подходы
Вычисление количества информации, приходящейся на один символ по формуле Шеннона. Изменения информационной энтропии в текстах экономического, естественнонаучного и литературного содержания. Максимальное количество информации на знак по формуле Хартли.

лабораторная работа [28,2 K], добавлен 06.12.2013

Параметрическая идентификация объекта методом наименьших квадратов
Анализ методов идентификации, основанных на регрессионных процедурах с использованием метода наименьших квадратов. Построение прямой регрессии методом Асковица. Определение значения дисперсии адекватности и воспроизводимости, коэффициентов детерминации.

курсовая работа [549,8 K], добавлен 11.12.2012

Вероятность и информация
Понятие вероятности случайного события. Зависимость количества информации в сообщении о некотором событии от вероятности этого события. Формула Хартли, которая определяет зависимость количества информации в битах от количества равновероятных событий.

презентация [1,4 M], добавлен 01.12.2015

Решение задач линейной алгебры в Ms Excel
Метод Гаусса и одно из его приложений в экономике (простейшая задача о рационе). Модель Леонтьева межотраслевого баланса. Алгебраический метод наименьших квадратов. Анализ данных эксперимента. Метод наименьших квадратов в Excel и аппроксимация данных.

курсовая работа [598,7 K], добавлен 11.07.2015

Обработка агрометеорологической информации
Обработка агрометеорологической информации с применением прикладного программного обеспечения общего назначения. Обзор правил заполнения и подготовки к занесению на технические носители данных наблюдений полевых книжек. Создание фонда данных наблюдений.

отчет по практике [18,0 K], добавлен 26.12.2016

Разработка структурной схемы и модели, описание ее функционирования
Разработка математической модели системы. Моделирование работы конвейера сборочного цеха в течении 8 часов. Определение вероятности пропуска секции. Расчет количества скомплектованных изделий за 8 часов. Исследование системы на имитационной модели.

контрольная работа [98,3 K], добавлен 24.09.2014

Построение модели системы определения мест на стеллаже
Ознакомление с правилами построения имитационной модели заданной системы. Рассмотрение моделирования системы и проведения серии экспериментов. Определение количества мест для телевизоров на стеллажах на станции технического контроля и на участке наладки.

курсовая работа [1,7 M], добавлен 27.07.2014

Аппроксимация функций методом наименьших квадратов
Построение эмпирических формул методом наименьших квадратов. Линеаризация экспоненциальной зависимости. Элементы теории корреляции. Расчет аппроксимаций в табличном процессоре Excel. Описание программы на языке Turbo Pascal; анализ результатов ее работы.

курсовая работа [390,2 K], добавлен 02.01.2015

Другие документы, подобные "Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в них (математические аспекты)"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

	Классы	Сумма
	1	j	W
Значения факторов	1
	i
	M
Суммарное количество признаков

	Классы	Безусловная вероятность признака
	1	j	W
Значения факторов	1
	i
	M
Безусловная вероятность класса

	Классы	Значимость фактора
	1	j	W
Значения факторов	1
	i
	M
Степень редукции класса

Прямые и обратные	Позитивные и негативные	Вариант способа учета количества информации в наблюдениях для одного значения аргумента	Имена баз данных для MS Ecxel
Прямые: Y=F[X]	Позитивные: количество информации I[X,Y] > 0	Учет только наблюдений для каждого значения аргумента с MAX колич. информации	####-Y(X)-Pos-One_point-##-##.dbf
		Замена всех наблюдений для каждого значения аргумента одним средневзвешенным	####-Y(X)-Pos-All_points_Avr-##-##.dbf
		Замена наблюдения с количеством информации Iij наблюдениями с единичным весом	####-Y(X)-Pos-All_points_N1-##-##.dbf
	Негативные: количество информации I[X,Y] < 0	Учет только наблюдений для каждого значения аргумента с MAX колич. информации	####-Y(X)-Pos-One_point-##-##.dbf
		Замена всех наблюдений для каждого значения аргумента одним средневзвешенным	####-Y(X)-Pos-All_points_Avr-##-##.dbf
		Замена наблюдения с количеством информации Iij наблюдениями с единичным весом	####-Y(X)-Pos-All_points_N1-##-##.dbf
Обратные: X=F[Y]	Позитивные: количество информации I[X,Y] > 0	Учет только наблюдений для каждого значения аргумента с MAX колич. информации	####-Y(X)-Pos-One_point-##-##.dbf
		Замена всех наблюдений для каждого значения аргумента одним средневзвешенным	####-Y(X)-Pos-All_points_Avr-##-##.dbf
		Замена наблюдения с количеством информации Iij наблюдениями с единичным весом	####-Y(X)-Pos-All_points_N1-##-##.dbf
	Негативные: количество информации I[X,Y] < 0	Учет только наблюдений для каждого значения аргумента с MAX колич. информации	####-Y(X)-Pos-One_point-##-##.dbf
		Замена всех наблюдений для каждого значения аргумента одним средневзвешенным	####-Y(X)-Pos-All_points_Avr-##-##.dbf
		Замена наблюдения с количеством информации Iij наблюдениями с единичным весом	####-Y(X)-Pos-All_points_N1-##-##.dbf

Наименование аргумента	Наименование значения функции	Значение аргумента	Значение функции
1/5-{154.2210000, 222.5048000}	2/10-{15617.4000000, 20523.4000000}	188,3629000	16260,8366534
2/5-{222.5048000, 290.7886000}	3/10-{20523.4000000, 25429.4000000}	256,6467000	23509,8510850
3/5-{290.7886000, 359.0724000}	7/10-{40147.4000000, 45053.4000000}	324,9305000	42225,3300638
4/5-{359.0724000, 427.3562000}	8/10-{45053.4000000, 49959.4000000}	393,2143000	45297,9398623
5/5-{427.3562000, 495.6400000}	5/10-{30335.4000000, 35241.4000000}	461,4981000	33211,6434714

Модификация взвешенного метода наименьших квадратов путем применения в качестве весов наблюдений количества информации в них (математические аспекты)

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

1. Формулировка проблемы

2. Идея предлагаемого решения проблемы

В качестве возможного решения поставленной проблемы в работе [36] и предлагается модификация ВМНК, в которой:

- в качестве весов наблюдений используется количество информации в них;

- с помощью какого математического аппарата возможно посчитать количество информации в наблюдении?

- с помощью какого программного инструментария, реализующего этот математический аппарат, возможно реально посчитать количество информации в наблюдении?

Это очень глубокое замечание, из которого вытекают интересные выводы, некоторые из которых мы кратко рассмотрим ниже.

3. Математическая сущность предлагаемого решения проблемы

В работе [9] предлагается два варианта данной модификации взвешенного метода наименьших квадратов.

В данной же работе, как и планировалось в [36], кратко рассмотрим математические аспекты предлагаемого решения.

(1)

(2)

Ключевым моментом при применении взвешенного МНК является способ выбора и задания весов наблюдений.

(3)

Здесь Ii - количество информации в i-м наблюдении, т.е. точнее говоря в i-м значении аргумента о том, что i-e функции примет значение .

(1')

(2')

(3')

Отметим, что в случае, когда вес эмпирического наблюдения является целым числом, то выражение (2') эквивалентно выражению:

(2'')

Этим мы и воспользовались в статье [36], когда заменили одно наблюдение с весом этим количеством наблюдений с единичным весом.

(4)

Откуда находим y. При двух точках, соответствующих одному значению аргумента, координата y средневзвешенной точки, имеет вид:

. (5)

Если же для i-го значения аргумента xi таких точек , то средневзвешенное значение функции выражение (5) принимает вид (6):

. (6)

После этого преобразования можно применять стандартный МНК.

4. Математическая модель и методика численных расчетов количества информации в наблюдениях

Для удобства рассмотрения введем следующие обозначения:

i - индекс значения аргумента;

j - индекс значения функции;

M - количество значений аргумента;

W - количество значений функции;

Nij - количество встреч j-го значения функции при i-м значении аргумента;

- суммарное количество наблюдений при i-м значении аргумента по всей выборке;

- суммарное количество наблюдений j-го значении функции по всей выборке;

- суммарное количество наблюдений по всей выборке;

Iij - количество информации в i-м значении аргумента о том, что функция имеет j-е значение, т.е. это количество информации в наблюдении (i, j);

- безусловная относительная частота встречи i-го значения аргумента в обучающей выборке;

Pij - условная относительная частота встречи j-го значения функции при i-м значении аргумента. эйдос экранный математический информация

Используя исходную выборку эмпирических наблюдений посчитаем матрицу абсолютных частот (таблица 1):

5. Численный пример

Запустим режим 4.6 системы «Эйдос»,реализующий данный метод, с параметрами, приведенными на рисунке 1:

Рисунок 1. Экранная форма задания параметров режима 4.6 системы «Эйдос»

Рассмотрим рисунок из статьи [36] с результатами применения первого варианта предлагаемого метода, приведенный ниже под номером 2:

Таблица 4 - Виды этих баз данных для визуализации когнитивных функций и способ формирования их имен

Прямые

Позитивные

Имена баз данных

Рисунок 2. Регрессия, построенная на основе всех наблюдений с учетом количества информации в них с использованием 1-го варианта предлагаемой модификации ВМНК

Таблица 5 - Результаты взвешивания наблюдений с учетом количества информации в них с использованием 2-го варианта предлагаемой модификации ВМНК

Наименование

Наименование

Значение

Значение

Рисунок 3. Регрессия, построенная на основе всех наблюдений с учетом количества информации в них с использованием 2-го варианта предлагаемой модификации ВМНК

На рисунке 4 для удобства их сравнения совмещены изображения с рисунков 2 и 3.

Выводы

Данная статья может быть использована как описание лабораторной работы по дисциплинам:

- Интеллектуальные системы;

- Инженерия знаний и интеллектуальные системы;

- Интеллектуальные технологии и представление знаний;

- Представление знаний в интеллектуальных системах;

- Основы интеллектуальных систем;

- Введение в нейроматематику и методы нейронных сетей;

- Основы искусственного интеллекта;

- Интеллектуальные технологии в науке и образовании;

- Управление знаниями;

- Автоматизированный системно-когнитивный анализ и интеллектуальная система «Эйдос»;

Литература

Здесь I_i - количество информации в i-м наблюдении, т.е. точнее говоря в i-м значении аргумента о том, что i-e функции примет значение .

Если же для i-го значения аргумента x_i таких точек , то средневзвешенное значение функции выражение (5) принимает вид (6):

N_ij - количество встреч j-го значения функции при i-м значении аргумента;

I_ij - количество информации в i-м значении аргумента о том, что функция имеет j-е значение, т.е. это количество информации в наблюдении (i, j);

P_ij - условная относительная частота встречи j-го значения функции при i-м значении аргумента. эйдос экранный математический информация