Информационное обеспечение статистических исследований

Понятие случайных событий и случайных величин. Энтропия как мера количества информации. Цели сбора и кодирования информации, ее свертка при наличии схемы событий. Статистическое моделирование случайных процессов. Современные методы хранения данных в ИС.

Рубрика Программирование, компьютеры и кибернетика
Вид курс лекций
Язык русский
Дата добавления 12.02.2017
Размер файла 239,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Концепция курса

информация моделирование кодирование

Данное пособие предназначено для студентов КПГУ специальности "Информатика", поток И-02 (5 курс). По плану обучения этой специальности, для данного потока (9-й семестр обучения) расписанием отведено:

Лекций 18 час.

Лабораторных работ - 36.

Форма контроля - аттестация по дисциплине.

10-й семестр - дипломное проектирование.

Онтодидактическая схема (строго по министерскому плану (2004 г.) выглядит следующим образом (учтены только "близкие") специальные дисциплины:

Дисциплина

СЕМ

ЧАС

Исследование операций

7,8

106

Теория вероятностей и математическая статистика

5

130

Системы и методы принятия решений

8

56

Основы проектирования баз данных

6

72

Математическое моделирование

6

54

Методы оптимизации

7

48

Системный анализ и методы принятия решений

7

48

Базы данных и информационные системы

8

56

Анализ данных

7

48

Разумеется, -поток И-02 обучался не точно по этому плану (подготовки уровня -"Бакалавр").

Автор этих строк принял приглашение кафедры информатики принять участие в завершении подготовки выпуска специалистов в 2006-…2007 учебном году. Именно по этой причине составляется данный документ.

Педагогический опыт, накопленный автором, позволяет предложить следующую концепцию обучения инженеров-программистов:

Цель обучения - дать слушателям обобщенное представление о сути методов использования достижений теории практически всех современных подходов к задачам анализа и управления СИСТЕМАМИ в общем смысле толкования этого термина (на заре появления ИТ - это называлось системным подходом).

Тактика обучения - добиться понимания сути научных методов (не заботясь о том, как доказать ту или иную теорему) и предложить студентам решение несложных задач в любой отрасли "натуральных" технологий (в том числе и той, в которой они участвуют как подсистема "обучаемые").

В конце концов, - инженер-программист или специалист в области прикладной математики, - это специалисты-посредники между постановщиком "технологических" задач и …Компьютером!

Вполне сознательно предусмотрен отказ от использования специальных приложений ("Статистика", "Математика", - использование стандартных приложений MS Office, даже без услуг "мастеров" оказывается вполне достаточным.

Вопрос - "а как же с термином исследования, - в имени дисциплины?" имеет краткий ответ - без них не обойтись! На то и изучались предметы

"Математическая статистика",

"Системы и методы принятия решений",

"Математическое моделирование" и т.д.

Факты, информация, знания

Итак, - содержание данного курса касается, на первый взгляд только двух понятий "информационное обеспечение" и "статистические исследования".

Попытаемся понять суть, начав с "простого" понятия - ИНФОРМАЦИЯ.

Обратимся к одной дисциплине, читаемой сегодня практически всем инженерным специальностям ВУЗов - "Теории информации" (далее ТИ) . Классическим определением этой науки может служить следующее:

ТИ -это раздел кибернетики, в котором рассматриваются проблемы математического описания и оценки методов: передачи информации; её хранения; извлечения информации из итогов наблюдений или опытов; классификации имеющейся информации.

Сам термин "информация" не имеет сегодня единого, общепринятого толкования - определений этого понятия ровно столько же, сколько авторов, взявших на себя труд выразить это понятие наиболее полно.

По словам отца кибернетики - Н.Винера, информация - это НЕ энергия и НЕ материя. С этим согласны все - от ученых, ведущих исследования в особой области науки об информационных технологиях, до практиков использования научных разработок ТИ в реальных процессах, основанных на информационных технологиях. Можно согласиться с Ю.Р.Валькманом 1, в том, что абсолютно во всех известных определениях понятия "информация" содержится практически неизменная "составляющая" -

информацией можно называть сведения об окружающем нас мире, которые мы храним, преобразовываем и используем.

Так вот, возвращаясь к определению ТИ как раздела кибернетики, надо, прежде всего, уяснить, что это - в основном математическая дисциплина, использующая такие разделы математики как

теория вероятностей;

математическая статистика;

теория графов;

теория игр,

а также сформировавшихся сравнительно недавно -

теории систем (системного анализа) и

исследования операций.

В последние 15...20 лет зона интереса к теории информации, обусловленная до этого большей частью вопросами передачи информации, существенно расширилась - сегодня актуальными являются проблемы сбора, хранения и, главное, - анализа накопленной информации.

"Виновниками" этого явились (конечно же!) - компьютеры, без гигантской памяти и быстродействия которых, все результаты теории информации оставались бы невостребованными, в силу малых возможностей человека в скорости вычислений и "активной" памяти. Косвенную роль сыграла и экономика, поддержка жизнедеятельности человека в самом широком смысле этого слова.

Более глубокому пониманию сказанному выше, может служить "исторический" довод:

"…сегодня в любой области деятельности человека наступил новый этап развития - эра информационных технологий.

На первом этапе цивилизации человека вполне устраивало материалистическое описание внешнего мира, для этого достаточно было знаний элементарной математики - оперирования числами.

Примерно с XVI века, на втором этапе, понадобилась энергетическая картина описания мира, потребовалась высшая математика с предоставляемой ею возможностью работать с функциями.

Наконец, уже в XX веке наступил третий, нынешний этап - оказалась востребованной информационная картина мира, понадобилась современная математика, для применения которой приходится работать не только с числами и функциями, но и с информацией." 1

Хорошей иллюстрацией современному положению вещей может служить схема:

Рис. 1.

Именно эта цепочка действий 1 по сути дела определяет понятие информационной технологии (ИТ), позволяет предопределить "поле" реальных задач применения методов:

теории информации,

теории вероятностей,

математической (прикладной) статистки и теории случайных процессов,

идей и методов математического программирования

? одним термином:

системный подход к практически любым областям деятельности человека.

Сегодня вести экономику, управлять человеческим сообществом, строить и совершенствовать системы управления, ? возможно только с широким использованием информационных технологий (ИТ).

Накопленный на сегодня опыт использования ИТ дает основание утверждать, что теория информации может рассматриваться как основа построения эффективных систем управления, в том числе и энергетических.

При изложении курса мы почти не будем касаться классических вопросов о передаче информации (в том числе - и техническими способами).

Затронем эти вопросы лишь в той мере, в которой это будет необходимо для понимания других аспектов - хранения, защиты и, главное, - обработки, использования информации. И, разумеется, будем помнить о второй части названия нашего курса - статистических исследованиях.

Разделы нашего курса мы посвятим, в основном, трем направлениям:

знакомству с основами и методами прикладной статистики;

рассмотрению роли основных положений теории информации в исследовании операций;

знакомству с методами математического программирования.

Лишь частично будут затронуты вопросы прямого использования прикладных пакетов - опыт автора подтверждает простую логику: понимание достигается быстрее и эффективнее, если обучаемый самостоятельно… не только решает задачи, но и ставит, формулирует их.

Иными словами, - достаточное количество часов на практические занятия позволят получить практические навыки в среде обычного MS Office, при осознанном отказе от услуг "мастеров".

Информация и вероятности

Основные особенности информации

Выражения - "мы знаем" и "мы имеем сведения, имеем информацию", на первый взгляд означают одно и тоже. Однако, это не совсем так.

Если сравнить два термина: знание и информация, то можно заметить только одно сходства в них - оба эти понятия являются сведениями о чем то. Но во многих других аспектах эти два понятия совершенно не схожи. Скажем знания не могут быть недостоверными, а информация - вполне (а если это публикация в прессе - скорее всего!).

Если знания - это сведения проверенные практикой, устоявшийся материал, то информация - скорее всего, материал сырой.

Мы можем знать, что в соседнем городе отменили плату за проезд в трамвае, а можем иметь информацию о таком, вполне вероятном, факте.

Можно заметить различие между знаниями и информацией и в другом плане.

Знания - это то, что достоверно известно человеку или обществу. Например, некоторым людям достоверно известна прямая зависимость величины тока в проводнике от напряжения на его концах; всем известно, что утром всходит солнце, поэтому сообщения о таких событиях не несут никакой информации.

Информация почти всегда обладает новизной.

Сведения о том, что ток в нашем проводнике достиг 10 ампер - новость, информация для электрика, знающего закон Ома, но не располагающего сведениями о вольтах и омах этого проводника.

Наконец, для этих столь схожих понятий можно заметить решить проблему яйца и курицы: информация есть единственный способ получения знаний, она первична, а знания - вторичны.

Понятие случайных событий и случайных величин

В этой главе мы ставим целью - освежить знания полученные в предшествующих.

Итак, исходной точкой наших рассуждений является некоторое событие (факт) произошедшее в окружающем нас мире. Условимся не использовать понятие "непрерывных", физических, измеримых величин. С одной стороны, - это вроде бы лишает нас возможности использования мощного математического аппарата.

Но, с другой стороны, - мы строго следуем принятой нами схеме (рис. 1).

Прервем свои рассуждения и обратимся к вопросу - а какими могут оказаться данные о свершившимся факте, данные о событии? Пониманию ответа может способствовать следующий пример - нового подхода к явлением природы, современный подход к понятию значение величины (не обязательно случайной).

Рассмотрим примеры статистических показателей некоторого события, скажем - знакомства с человеком.

Попытаемся найти способы описания его "параметров", имеющих значение для конкретной ситуации. Опустим естественные атрибуты - имя, фамилию, отчество. Пусть в нашем примере важны такие показатели как рост, возраст, национальность, пол, профессия и категория по этой профессии.

Каждый из этих показателей может быть привычно для всех "закодирован", но попытка выяснить - насколько показатель одного человека больше (или во сколько раз) такого же по типу показателя второго, - окажется успешной далеко не всегда.

Нам придется понять необходимость применения по крайней мере 4 "шкал", на которых мы сможем определять положение данного человека:

Таблица 1

Параметр

Значение параметра

Тип шкалы

Допустимые отношения

Возраст (лет)

42

1

>, <, =, +, -, / , *

Рост (см)

187

1

; >, <, =, +, -, /, *

Пол

М

2

= или #

Национальность

Украинец

2

= или #

Профессия

Преподаватель

2

= или #

Категория

Доцент

3

*=,#, <, >

Объясняется это не только принадлежностью этих параметров к различным шкалам измерения, на которых не идентичны не только допустимые диапазоны расположения показателей, но, главное, - разрешены разные отношения, разные операции со значениями параметров. Но всё же - каждый из параметров вполне допустимо рассматривать как случайную величину, а факт "национальность - украинец" - как случайное событие. Можно рассуждать иначе, - понимая суть сообщения "наблюдалась температура +280C", как сообщение - произошло случайное событие: "столбик термометра находился в диапазоне - выше отметки +260 C, но ниже отметки +2850 C". Надо понимать, что сведения о фактах, о произошедших событиях человек получает различными способами, но все они обусловлены способностями человека (или возможностями приборов, регистрирующих факт). Полезно также представлять себе возможности непосредственного восприятия человеком событий в природе:

Физический носитель

Восприятие

Способ передачи

Звуковые волны

Слух

Слуховой

Световые волны

Зрение

Зрительный

Давление

Осязание

Тактильный

Температура -20...+50оC

Рецепторы кожи

Нет

Молекулы в жидкости

Вкус

Нет

Молекулы газа

Обоняние

Нет

Ускорение

Равновесие

Нет

Повреждение тканей

Боль

Нет

Бросается в глаза скудность восприятия человеком событий в окружающем его мире. Например - нам не дано ощущать изменения электромагнитного поля и его параметров (ток, напряжение и т.п.), а это означает, что мы вынуждены применять измерительные приборы - судить о явлениях природы по их показаниям. Но сложность окружающего нас мира, взаимозависимость многих факторов, причин, вызвавших то или иное событие, погрешности измерений - все это обуславливает необходимость относиться к любому наблюдению (факту, событию) - как к случайному. Простой пример - имеется "факт регистрации события" создана фотография человека:
Интересующий нас фактор - возраст этой женщины (было второе, логическое сообщение). Попробуйте определить недостающий параметр (также - логический) - молода эта женщина или стара. То ли это старушка, опустившая взор под грузом лет, то ли - молодая женщина, кокетливо отвернувшаяся от фотографа (заимствован из 2).
Подобных примеров можно привести много, и все они будут свидетельствовать о том, что и непосредственное восприятия факта и регистрация его с помощью приборов, - нельзя заранее полагать абсолютно надежными. Пример этот - явное предупреждение о важности процесса представления информации, - проблеме: когда это преобразование делать - ДО передачи (на хранение и анализ) или после?
Любое сканирующее устройство позволит сохранить в электронном виде этот рисунок, но не сможет помочь оценить возраст "объекта"!
Вот ещё один пример - "изобретения" представления информации о целых числах диапазона 0…9.
Автор часто использует этот пример - легенду об арабе кочевнике. У него была простая задача - сообщить своему соседу (20 км от своего стойбища) о том что у него семь верблюдов. Писать он, естественно, - не умел; идти самому - почти наверняка забудет! Он решил послать сына… Мыслей отрубить 7 (или оставить 7) пальцев не могла прийти ему в голову по обычным родительским чувствам.
Долго ли он думал - неизвестно… Но решение было найдено:
Один верблюд изображался одной веточкой - с одним изломом;
Два - такой же, но изломанной в двух местах и т.д.
Примеров о попытках "изображения" численностей другими способами представления (кодировки), - достаточно много. Например - изобразить число семнадцать и сегодня можно так:
|||…|||||| (точно! - один символ языка представления);
XVII (латинский способ);
17 (арабский способ - 10 способов представления, но чисел 0…9)
Сравнивать эти способы пока не будем, - отложим до следующих глав.
Вернемся с случайным событиям.
Наиболее строгое определение случайного события является одновременно самым простым - если данное событие (факт) может произойти, а может и не произойти, то его относят к случайным.
Если мы собираемся использовать информацию о событиях с целью полезного (со своей точки зрения) использования, то нам придется иметь какую то меру случайности события, иметь некоторое число, показывающее насколько случайно (или не случайно) данное событие. Как известно, - такую численную величину принято называть вероятностью события.
Вспомним также, что вероятности, принятая в незапамятные времена, основана на очевидном правиле: если при большом количестве наблюдений (например - N) с неизменными внешними условиями, мы наблюдали событие ровно m раз, то отношение p = m / N может служить удобной и простой мерой ОЦЕНКИ СЛУЧАЙНОСТИ, которую и принято называть вероятностью события.
Разумеется, - m / N - это НЕ вероятность, а частость события… вот здесь возникает первая задача статистического исследования:
в каком виде, какими символами представлять информацию о случайных событиях или случайных величинах (СВ)?
Пусть информация - не энергия и не материя, но нельзя ли её измерять, оценивать её количество? Ведь от этого явно будет зависеть "нагрузка" на каждый символ закодированного сообщения, т.е. эффективность кодирования.
Сомнений в важности процесса преобразования, грамотном построении наилучшего способа, -быть не может!
Несмотря на колоссальную скорость преобразования информации в современных компьютерных системах, на гигантские объемы размещаемой в них информации - скорости управления реальными объектами напрямую зависят от скорости передачи "исходного" массива.
Характерно, что вопрос этот беспокоил специалистов задолго до наступления "компьютерной" эры.

Понятие энтропии как меры количества информации

Уже должно быть понятно, что "ценность" информации о случайных величинах (будь то имеющиеся наблюдения или заранее известный закон распределения) не может считаться нулевой. В любом случае мы что-то получим, вопрос только - что?

Вопрос оценки количества информации о значениях случайных величин или о самих случайных событиях был поставлен великим математиком К.Шенноном и заключался в попытке решить проблему следующего характера.

Пусть мы, зная вероятность P(A) наступления некоторого события A, отметили факт его наступления. Мы получили информацию, но сколько?

А если мы получим другую информацию о событии B и также знали заранее вероятность наступления его - P(B)?

События могут быть разными по содержанию, описанию, важности для нас, но всё же - при значениях P(A) # P(B) мы вправе предполагать количества полученной информации также разными. Вопрос только в том - КАК и в каких единицах измерения, вычислить количество информации?

Предложение Шеннона заключалось в следующем.

Для случайного события с вероятностью наступления p следует найти величину

Эту величину называют ЭНТРОПИЕЙ случайного события, мерой его неопределенности. Если мы получили информацию о том, что данное событие произошло (или не произошло), то количество полученной нами информации составляет ровно H единиц.

Понятно, что значения логарифма от чисел менее 1 являются отрицательными, а энтропия события, как и количество информации о том, что оно произошло - всегда положительны.

Но следует понять и другое - числовое значение информации зависит от основания логарифма в формуле энтропии.

Если это двоичный логарифм, то говорят о количестве "двоичных" единиц информации (никакого отношения к стилю записи чисел в двоичной системе счисления!), для десятичного - десятичные единицы информации, для натурального - натуральные.

Например, пусть вероятность некоторого события составляет 0,25, т.е. одну четвертую.

Тогда, используя двоичное основание логарифма, можно даже в уме найти количество информации, содержащееся в сообщении о его наступлении - ровно 0,5 двоичной единицы. Смысл использования энтропии как значения количества информации в полученном нами сообщении становится более понятным, если мы применим метод Шеннона к случайной величине.

Если такая величина A описывается равномерным законом распределения вероятностей и допустимых значений существует только 6, то для неё выражение энтропии может быть записано как

Пусть другая случайная величина B, с произвольным законом распределения имеет те же 6 допустимых значений.

Прежде чем выяснять - много или мало информации содержится в сообщении "наблюдалось значение величины A = 5 тонн", обратим внимание на то, что вычисление значения энтропии никак не связано ни с одним из возможных значений СВ и, тем более, не зависит от конкретного наблюдения, факта.

В этом и заключена суть метода К.Шеннона -

Количество информации, получаемое нами в виде сообщения о конкретном значении случайной величины, не зависит от набора допустимых её значений. Оно полностью задано значениями вероятностей для этих значений.

В чем же тогда полезность такого показателя - "информативности" сообщения? Для пояснения ответа на этот вопрос рассмотрим ситуацию, когда одно из допустимых значений целочисленной случайной величины (интервал 0...8) имеет вероятность, близкую к единице.

Это одновременно означает, что вероятности всех остальных значений близки к нулю - ведь полная их сумма всегда равна единице.

В этой ситуации расчет энтропии в любой системе логарифмирования даст ничтожно малую величину. Предположим теперь, что другая СВ, с допустимыми значениями 0...9 имеет так называемое "равномерное" распределение, т.е. вероятность наблюдения любого из 10 её значений равна 0.1. Можно рассчитать количество информации, содержащееся в сообщении о наблюдаемом значении - она составит 2.3 натуральных единиц. Можно доказать, что именно такие ситуации - в которых все N допустимых значений СВ имеют одну и ту же вероятность, равную 1/N, приводят к максимуму информативности сообщений о наблюдаемых значениях. Этот максимум составляет Hmax = LogA(N) и принимает конкретные значения в зависимости от используемого основания логарифма, например:

Таблица 2

Энтропия

Количество допустимых значений N

2

10

16

64

100

512

1000

1024

В двоичных единицах

1

4

6

9

10

В десятичных единицах

1

2

3

Вот теперь можно и сравнить, - насколько больше информации мы получили в сообщениях о конкретном значении двух СВ, у одной из которых всего десяток возможных (случайных!) значений, а у другой их - тысяча.

Цели сбора информации

Нет необходимости объяснять абсурдность попытки перечислить все те области человеческой деятельности, в которых без использования информации как основного материала для принятия решений сегодня уже не обойтись.

Вместе с тем, если отбросить ситуации, когда информацию собирают впрок, на всякий случай, то можно четко выделить две причины, по которым приходится заниматься сбором информации.

Сбор информации о для накапливания сведений о данном случайном событии или СВ, с целью построения закона распределения их вероятностей. Этот этап может оказаться ненужным, если мы уверены в том, что одна из классических схем распределения вероятностей нам подходит.

Информация о событиях или величинах служит материалом для принятия немедленных действий по управлению процессом, в котором они для нас важны. В отличие от первой ситуации здесь не всегда используется накапливание, полученные данные немедленно используются.

Для понимания необходимости накапливания информации о СВ (случайные события оставим пока в покое) поставим перед собой вопрос - откуда берутся данные, образующие запись закона распределения СВ.

Напомним, что этот закон практически всегда можно понимать как таблицу парных значений: допустимое значение СВ и соответствующее ей значение вероятности.

Ответ на этот вопрос можно получить, осознав одно из "практических" определений термина вероятность. Опуская строгое, логико-математическое обоснование такого определения, будем использовать следующее:

Вероятность можно представлять себе как предел отношения частости появления события к общему числу наших наблюдений над ним, при условии бесконечного роста числа наблюдений и неизменности условий, определяющих исход этого события.

Это определение названо выше "практическим" по следующим причинам.

Во-первых, мы ориентированы на простую арифметику - чем больше наблюдений, тем ближе вычисляемое нами значение частости появления события к "истинной" частости ? вероятности.

Во-вторых, нам дается подсказка в части неизменности условий наблюдения за СВ или случайным событием.

Представим себе, что мы хотели бы знать закон распределения вероятностей случайной величины - национальности студента некоторого института.

Мы можем заранее составить список национальностей, сделав его достаточно коротким: белорусы, евреи, молдаване, русские, украинцы и другие, а затем учитывать национальный состав последовательно (или выборочно) по годам. Пусть нам удалось получить следующие данные за первый год:

Таблица 3

Б

Е

М

Р

У

Всего

За 1 год

Человек

20

10

5

45

120

200

Частость %

10

5

2,5

22,5

60

100%

Достаточно ли мы поработали, что бы считать частость в 0,225 вероятностью того, что взятый наугад студент этого института окажется белорусом? На такой и многие другие вопросы, связанные с накапливанием информации с целью описать распределение вероятностей, - и дает ответ наука, называемая математической статистикой.

Независимо от того, что именно "предложит" нам эта наука, продолжим исследование и соберем информацию ещё за год:

Таблица 4

Б

Е

М

Р

У

Всего

Человек

45

20

10

100

225

Частость %

11.25

5.00

2.50

25.00

56.25

100

За 2 года

Продолжая исследования таким образом, мы можем и не обращаться за помощью к методам прикладной статистики (это наша информация, мы вправе собирать и обрабатывать её как считаем нужным).

В самом деле:

если мы видим явное стремление частостей к некоторым своим пределам, то мы можем использовать закон распределения вероятной национальности студентов - ответственность за использование частостей вместо вероятностей ложится только на нас.

Если же, наоборот, мы не наблюдаем относительной стабильности частостей с ростом объема накопленной информации, то (здесь уж надо обратиться к помощи статистики, к её постулатам) скорее всего дело обстоит просто, хотя и неприятно, - нет оснований считать неизменными условия наблюдений за эти годы.

Возвращаясь ко второй цели сбора информации - оперативным данным о событиях или величинах в интересующем нас процессе, заметим следующее.

Собирать, обрабатывать, накапливать информацию оперативного вида - крайне необходимо, необходимо по умолчанию.

Ведь если мы решили управлять некоторой системой или процессом с использованием информационных технологий, то без использования оперативной информации не обойтись никак - она является "топливом" управления.

Массивы оперативной, уже используемой информации должны пополнять массивы информации накопленной.

Вполне возможно, особенно в динамичных системах управления, что придется пересматривать некоторые выводы о распределениях случайных величин, а иногда и менять системы сбора и обработки информации.

4.Проблемы кодирования информации

Кодирование информации, как способ её представления на влажной глине, папирусе, бересте и обычной современной бумаге, - знаком людям с древности. Человек, пересчитавший своих гусей в огороде или всех своих родственников, "создал информацию" - но ещё не зарегистрировал её.

Надо было уметь "писать" цифры или другие значки, обозначающие количества.

Но если человек древности мог изобретать знаки количества только для собственного пользования, то уже в начале первого периода цивилизации практически позволить себе это не мог никто, разве что люди-отшельники, не имеющие желания и не испытывавшие нужду общения с себе подобными.

Как уже упоминалось, - история обычной арифметики знает множество систем записи количеств - как древних, уже отживших своё (римская система записи чисел) так и современных. Существующая сегодня, привычная во всех уголках мира, система записи чисел является, по сути дела, древнейшей системой кодирования информации о количествах.

Совершенно очевидно, что преимуществ перед другими у неё во много раз больше, чем недостатков, - ведь она пережила тысячелетия без каких либо изменений.

Попытаемся разобраться - а какими же свойствами должна обладать система кодирования, чтобы оказаться чемпионом?

Ведь здесь речь не может идти о влиянии религии, расовых предрассудков или (не дай Бог!) политики.

Теперь можно согласиться, с тем, что:

кодирование информации необходимо прежде всего для её передачи - изломанными прутиками, рисунками или другими значками; главное - объект, о котором передается сообщение, и само сообщение, - это совершенно разные вещи;

кодирование должно давать возможность однозначного истолкования сообщения, хотя надо думать и о случайностях: лишний излом прутика, лишний узелок в письме древних ацтеков или неразборчиво написанная цифра (3 или 9 - не поймешь);

кодирование должно быть экономным - см. "задачу о числе верблюдов"

Следует обратить внимание и на другой вопрос, связанный с проблемой кодирования информации.

Мы уже знаем, что количество информации, содержащееся, скажем, - в одной букве алфавита, тем больше, чем больше допустимых значений у этих букв, чем больше их в самом алфавите.

С этой позиции японский или китайский алфавит в 100 или тысячу различных иероглифов, куда более "информативен", чем латинский алфавит или кириллица. Ничего здесь обидного нет, лингвисты подтверждают этот факт.

Совсем скуден "алфавит" арабской арифметики - из всего десяти значков (0…9), и уж предельно скупым является "битовый" язык компьютера со своими двумя "буквами" (бит - установлен / не установлен).

Вместе с тем мы уже достаточно подготовлены, чтобы заметить: упомянутые алфавиты отличаются друг от друга и по другому "параметру", примерно в той же пропорции, но …уже в другую сторону.

Речь пойдет, конечно же, о надежности распознавания записи на носителе информации.

В алфавите с иероглифами сообщение будет читаться с большей вероятностью ошибки (способ записи информации и способ её распознавания с большим трудом можно автоматизировать).

В латинице или кириллице эта проблема стоит менее остро, но всё же - пишущий сообщение и читающий его должны знать 20…30 знаков, кроме того многое зависит от "почерка" (человека или компьютера).

То ли дело - в битовом языке: здесь всего две "буквы", а значит для записи надо уметь выполнять всего два элементарных действия, как и для чтения - отличить один знак от другого (если при этом третьего по законам природы не дано) может даже предельно простой автомат.

Всё дело в том, что реализация получения, записи и хранения информации (битовый язык компьютера), - основана на двух явлениях природы: зарядом тела или его намагниченностью

Достаточно вспомнить простейшие "исследования" по системам представления символов (или их кодов), при изучении первых дисциплин «компьютерного» цикла (основы информатики, алгоритмические языки и программирование).

С их помощью можно было воочию убедиться: - запись на магнитном носителе в битовом языке необходима для простоты и надежности кодирования любых видов информации. Но, - если нам нужно увидеть эту запись (НЕ в виде намагниченных точек диска), то нам более удобен специальный алфавит - 16-ричная система представления чисел, которая для диапазона 0…255 оказывается экономнее привычной нам 10-ричной.

Не следует думать, что проблема кодирования информационных сообщений ограничивается только буквами алфавита или буквами арабской арифметики (цифрами).

Теория кодирования составляет одну из наиболее важных частей теории информации, поскольку позволяет кодировать оптимальным образом сообщения о чем угодно.

Изменим данные примера о национальностях студентов - пусть наши исследования за три года привели к такому результату:

Таблица 5

Национальность

Украинцы

Русские

Евреи

Молдаване

Вероятность %

48

28

14

10

В нашем примере количество "значений" национальностей студентов всего 4, но их могло быть и больше.

Так вот, если мы уже имеем вероятности для каждой из них, то можно построить особый код для записи сообщений о национальной принадлежности.

Делается это так.

Вначале весь ряд закона распределения ранжируется по величине вероятности для каждой из национальностей, что уже выполнено в нашей таблице .

После этого все названия национальностей разбиваются на две группы таким образом, чтобы сумма вероятностей первой и второй примерно совпадали по величине (по 50%).

У нас в первую группу попадут украинцы и мы присвоим им двоичный код (пусть это означает для нас бит "Да"), а второй группе - "коллективный "двоичный код (т.е. - бит "Нет").

Ясно, что в первую группу всегда попадает сравнительно мало позиций - у них большие вероятности появления.

Теперь подобная операция производится со второй группой - она также делится на подгруппы с примерно равным значением суммы вероятностей. Первой подгруппе (русские) присваивается код (уже из двух битов), а второй (евреи и молдаване) - . Сообразим, что для группы "Украинцы" придется использовать также три бита - .

Доведем такое разделение до логического конца - пока у нас не останется чего делить. Вторую подгруппу второй группы разделим на две части и присвоим коды: евреям - и молдаванам .

Действуя таким образом, мы построили так называемый оптимальный код Шеннона - Фэно. Этот код позволяет максимально уменьшить объем записи сообщений.

Дело обстоит достаточно просто - мы связываем национальность (факт появления конкретного её значения) НЕ с текстом её названия и даже не с порядковым номером (если таких позиций в ряду закона распределения не 4, а более 256, то для записи номера потребуется уже два байта), а с ДВОИЧНЫМ КОДОМ этой национальности.

Разумеется, вопрос о кодировании информации возникает не только в ситуациях, подобных описанной нами только что.

Во всех таких случаях вполне объяснимо желание "тратить" меньше символов (битов) на более вероятные сообщения.

В теории информации существует специальный показатель - экономичность кода. Вычисляется этот показатель так.

Определяется количество информации (энтропия) в любом сообщении о национальности, составляющее в нашем последнем примере 1.751 двоичных единиц. Затем подсчитывается количество информации приходящееся (в среднем) на один кодовый символ.

Делается это достаточно просто: пусть мы решили "сэкономить на битах" и имеем:

Национальность

Украинцы

Русские

Евреи

Молдаване

Код

Число битов

1

2

3

3

Вероятность %

48

28

14

10

Среднее количество битов в коде национальности - это и есть математическое ожидание длины кода, оно составляет в нашем примере

1·0.48 + 2·0.28 + 3·0.14 + 3·0.10 = 1.760.

Результат деления полного количества информации (1.751) на среднее количество информации для символа кода (бита), - называют экономностью кода, и он в нашем примере чуть не дотянул до десятичной единицы - 0,995 десятичных единиц количества информации на один двоичный символ кода.

На первый взгляд кажется, что лучше бы мы поступили более просто - присвоили украинцам код 1, русским -2 и т.д.

На самом деле всё обстояло бы гораздо хуже.

Ведь в таком варианте мы использовали бы не двоичные, а десятичные коды, а значит имели бы другие данные:

Национальность

Украинцы

Русские

Евреи

Молдаване

Код

1

2

3

4

Число битов

8

8

8

8

Вероятность %

48

28

14

10

Количество информации в сообщении осталось все тем же, но среднее значение длины кода стало равным 8 двоичным единицам (каждому из символов кода нужен 1 байт! - 8·0.48 + 8·0.28 + 8·0.14 + 8·0.10 = 8.)

И теперь показатель экономичности кода составит всего чуть более 0.2 тех же двоичных единиц информации на один двоичный символ кода.

5.Проблемы свёртки информации

Термин "свёртка" обычно применяется в практике ИТ для обозначения специальной процедуры, которую выполняют по отношению к информационным массивам, большим наборам сведений о некотором событии, величине или совокупности величин.

Выделенный термин имеет не только обиходный, но и "философский" смысл. Дело в том, что появление компьютерных систем позволило перейти от "атомов" информации (данных) - к "молекулам" - таблицам (пусть одно или двумерным).

Это касается не только языков программирования (объектно ориентированным), но и программным средствам преобразования информации и её анализа.

Мы ещё затронем этот "химсостав" информации в следующих главах, решая проблемы оптимального хранения и защиты информации (в компьютере).

Простым примером информационного массива, над которым иногда целесообразно произвести операцию свертки, может служить т.н. выборочное распределение случайной величины.

Такое распределение имеет вид таблицы, в которой каждому, наблюдаемому многократно, допустимому значению СВ - соответствует частость этого наблюдения.

Иными словами - выборочное распределение отличается от закона распределения только одним - вместо вероятностей ("теоретических" значений частостей) используются найденные по итогам наблюдений частости.

В большинстве случаев приходится накапливать информацию и затем строить выборочное распределение с целью получить представление именно о вероятностях конкретных значений.

Необходимость знаний этих вероятностей становится особо острой в ситуациях, когда информационная технология управления включает в себя методы таких наук как исследование операций, математического программирования, имитационного моделирования и других современных приемов прикладной математики.

Практически во всех подобных случаях полученный по накопленным данным информационный массив (скажем 10 000 наблюдений над случайной величиной X cо 150-тью допустимыми значениями) приходится подвергнуть специальной обработке - расчету так называемых моментов распределения, точнее - выборочных значений этих моментов.

Вспомним, что любой массив наблюдений над СВ с числовыми (дискретными) значениями, - представляет, в конце концов, обычную таблицу с двумя полями (общепринятое ныне названия столбца таблицы) и некоторым количеством записей (строк). Каждому значению величины соответствует частость (в конечном виде - вероятность наблюдения именно этого значения).

Изображать (на экране или бумаге) этот ИНФОРМАЦИОННЫЙ МАССИВ можно как угодно, например:

Значения СВ

X1

……

XI

XN

Вероятности

P1

……

PI

……

PN

Доказано, что такой массив можно "свернуть" и … вместо N2 "порций" информации рассматривать ограниченное количество данных информации - МОМЕНТЫ распределения - числовые величины, вычисляемые по алгоритму:

M(X)K = У ((XI)PI)K / N.

Момент первого порядка (K=1) называют математическим ожиданием СВ, если вместо вероятностей используются относительные частости (частоты), хотя более правильно называть такой (выборочный) момент - средним значением.

Алгоритм вычисления момента любого порядка предельно прост и не требует специальных прикладных программ.

О моментах более высокого порядка следует поговорить особо.

Пусть СВ X - денежная единица. Тогда результат свёртки "M1=247 грв." вполне понятен по смыслу и … по размерности.

Но какой смысл результата свёртки типа "M2= 900 (грв.)2 ?

Здесь настоящий исследователь поставит вопрос иначе: что выражает 30 грв. (квадратный корень из M2)?

И далее - какие свойства обрабатываемого массива выражает значение кубического корня из момента третьего порядка и т.д.

Вполне возможно, что построив распределения с одинаковым M1 и различными моментами второго, третьего и четвертого порядков, а затем внимательно рассмотрев полученные картины, - наш исследователь заметил (и описал понятными словами) следующее.

Момент второго порядка позволяет оценить разброс (рассеяние, дисперсию) значений XI относительно "центра" - математического ожидания СВ. Оказалось, что можно вычислить т.н. центральный момент второго порядка, применив понятное по смыслу выражение:

D(X) = У ((XI-M(X))PI)2 / N

Эту величину принято называть дисперсией, а квадратный корень из неё - среднеквадратичным отклонением (от математического ожидания) S.

Момент третьего порядка позволяет получить также хорошо понятный по смыслу показатель - асимметрию кривой (диаграммы) распределения.

Более "тонкие" свойства распределения выражает момент четвертого порядка - т.н. "эксцесс" (вольный перевод - вспучивание)

Информационная ценность таких числовых показателей (конечно - для величин, допускающих числовое выражение) оказывается очень большой.

Дело в том, что в отдельных случаях всего два числа - математическое ожидание и дисперсия или даже одно единственное число - математическое ожидание, - могут храниться вместо полутора миллионов чисел "исходной" информации и вполне заменять её. Такие распределения принято называть двух параметрическими, - если мы знаем параметры (в нашем случае - M и S)? - мы знанием о распределение ВСЁ! В частности - мы имеет выражения (формулы) для ответов на любые (статистические) вопросы

Разумеется, всякая свертка информации неизбежно приводит к частичной её потере, но то, что мы получаем, оказывается достаточным для решения практических задач.

Свертка информации при наличии схемы событий

Итак мы почти "одолели" первый шаг подготовки информации к её передаче на хранение.

Предположим, что при решении некоторой задачи управления нам важны данные о случайном процессе следующего типа:

Производится N циклов некоторого процесса, каждый из которых может окончиться "положительно" или "отрицательно" и для нас крайне важно уметь прогнозировать количества положительных исходов A из всех N.

Мы собираемся строить управление для условий, когда N может быть назначено нами.

Ясно, что число положительных исходов может лежать в диапазоне 0…N, но нам важно знать - каково среднее число положительных исходов, какова вероятность того, что при конкретном N, - значение A окажется равным, например 5, 6 или 7.

Совсем кратко - мы хотели бы иметь распределение вероятностей для всех допустимых значений A.

Если бы у нас была возможность произвести статистические эксперименты -произвести накопление данных (запуская процесс многократно для различных значений числа циклов), то можно было бы затем преобразовать информацию о числе благоприятных исходов в частости таких исходов.

Вычислив выборочное среднее значение и разброс (дисперсию), мы получили бы некоторое представление о распределении вероятностей случайной величины A.

Но, скорее всего, нас не удовлетворят эти результаты. Дело вот в чем:

Простое правило - провести побольше наблюдений в неизменных внешних условиях, выполнить практически очень трудно, а иногда и невозможно.

Причины могут оказаться "локальными" - пассивное наблюдение за процессом дорого стоит, а могут быть и "глобальными" - нет гарантий стабильности внешних факторов.

И всё же выход из положения в подобных задачах все таки иногда удается найти. Можно поставить перед собой вопрос - а не исследовалась ли подобная ситуация (иногда говорят - схема случайных событий), не существует ли "теоретического" описания распределения подобных случайных величин?

Иными словами, а нет ли специального метода обработки информации, её свертки?

Если такого метода нет, точнее - мы не нашли его в теории преобразования информации (так можно назвать симбиоз теории вероятностей и математической статистики), то не следует падать духом.

Надо попытаться построить самому схему событий, обращаясь к их сущности.

Правда помочь сделать это сможет профессионал обычных технологий, а не информационных.

Продемонстрируем это на нашем примере (хотя в этом и нет нужды, - законы распределения подобных СВ описаны давным-давно).

Поставим простой вопрос - для одного, любого из N циклов нашего процесса, - нельзя ли полагать вероятность положительного исхода постоянной?

Пусть (для простоты) у нас есть основания полагать именно так: в любом цикле вероятность положительного исхода равна p= coonst.

Теперь можно легко вычислить вероятность события "(А=N)", для этого надо всего лишь возвести в степень N значение вероятности p. Здесь мы впервые спользуем свое предположение - о независимости событий в каждом цикле. Далее поставим вопрос о вероятности события "A=N-1" т.е. ситуации когда всего лишь 1 из циклов имеет отрицательный исход.

Описанное событие означает, что N-1 раз всё оканчивалось как надо (вероятность этого составляет pN-1) и лишь один раз (вероятность q =1-p) - не так. Итого вероятность события - все, кроме одного, исходы - благоприятны, составит q·pN-1. Теперь остается сообразить, что подобная ситуация могла произойти в любом из N вариантов.

Подведем некоторый промежуточный итог нашей работы - мы уже умеем вычислять вероятности отсутствия отрицательных итогов - C0=pN и одного отрицательного C1=q·pN-1.

Если бы у нас было, например, всего три цикла, то мы получили бы следующие выражения для вероятностей:

Таблица

Отрицательных исходов

0

1

2

3

Вероятности

p3

3·q·p2

3·q2·p

q3

и, скорее всего, догадались бы о сути способа построения формул вычисления вероятностей для любого числа положительных исходов A при любом числе циклов процесса N. В самом деле - значения вероятностей совпадают со слагаемыми разложения бинома (p + q)3.

Разумеется, - это хорошо известное "биномиальное" распределение целочисленных величин. Хорошо известны его математическое ожидание, составляющее N·p и дисперсия, равная N·p·q.

Так что же, нет нужды обрабатывать (а то и вообще - накапливать) исходную информацию? Конечно же, - надо и обязательно. И этому есть уважительная причина.

Дело в том, что специальные методы преобразования информации, составляющие основную часть теории и практики статистики, позволяют получить в результате очень важные, хотя и непривычно сформулированные, информационные выводы в отношении исходного информационного массива.

Если бы мы провели некоторое количество наблюдений за процессом, хотя бы для наиболее важных для нас неизменных количествах циклов, то обработка такого информационного массива с помощью соответствующих алгоритмов позволила бы сделать важные выводы.

Во-первых, мы могли бы получить ответ на вопрос об "истинной" природе тестируемого нами процесса. Правда ответ этот звучал бы, на первый взгляд, очень странно. Например, если мы примем допущение о том, что распределение интересующей нас СВ НЕ принадлежит к биномиальному, то ошибемся, скажем, в 98 случаях из 100.

В чем же дело, мы вложили в эксперимент всё, что могли, - почему же статистическая наука дает такой ответ?

Но!

Прежде всего, ответ этот вполне корректен - никакие "мегатонные" запасы информации не могут раскрыть причины случайного появления конкретных значений наблюдаемых нами величин. Кроме того, - и статистика и теория вероятностей помогают вести обработку (в том числе - свертку) информации, но не помогут нарушить логику науки об информации, её свойствах.

Вот если бы наблюдаемые нами процессы происходили в соответствии с некоторым законом природы…

Но тогда (об этом уже говорилось), это была бы не информация, а другая философская категория - знания. Сведения о значениях ускорения при падении тела с высоты могут быть представлены информационным массивом, количество информации в нем не было бы равно нулю.

Но это будет информация не об ускорении силы земного притяжения, не о законе всемирного тяготения, а о … погрешностях измерений, существующих всегда.

Мы могли бы поставить и другой вопрос - а не свидетельствует ли накопленная информация (в нашей предыдущей задаче) о том, что количество положительных исходов A в N циклах процесса является совершенно случайным (на языке теории вероятностей - равномерно распределенным на интервале 0…N?

И в этом случае логика обработки информационного массива позволила бы получить ответ - если мы выдвинем такую гипотезу о природе процесса, то ошибемся лишь в 40 случаях из 100.

Наше и только наше дело, - какое допущение нам принять. Действительно, прав Винер, информация не несет нам ни материю, ни энергию!

Свертка информации при неизвестной схеме событий

Весьма часто приходится собирать и накапливать информацию о случайных величинах, для которых не только неизвестна логика событий, но и существуют профессионально, технологически обоснованные предпосылки полагать, что на значение конкретной величины оказывают влияние значения многих других СВ, сведения о распределении которых нам неизвестны.

И в таких ситуациям теория информации готова предложить нам научно обоснованные приемы постановки практических вопросов (если они поставлены корректно!) и методы обработки информации для получения столь же обоснованных ответов.

Один из законов теории информации позволяет утверждать следующее:

…если мы наблюдаем событие в окружающей нас природе (значение момента на валу электродвигателя как случайная величина X), то при достаточно большом количестве факторов влияния "обобщенная" информация о такой СВ может рассматриваться как источник для проверки гипотезы о так называемом нормальном распределении.

Не останавливаясь на правилах (формуле) вычисления такой "нормально распределенной" величины, отметим лишь некоторые её свойства, наиболее важные при построении алгоритма свертки информации.

Во первых, такая величина имеет всего лишь два параметра, два числовых значения - математическое ожидание и дисперсию.

Да, для нее можно вычислять и более высокие моменты распределения, но, не тратя время на обработку массива - третий, четвертый и т.д. моменты однозначно определяются первыми двумя. Во вторых, если уж мы нашли эти два момента, то во всех случаях вероятность того, что наша СВ попадет в интервал своих значений М±3S, - составляет около 95%. И так - для любого нужного нам интервала.

Конечно, гипотеза о нормальном распределении величины, информация о которой (по тем же законам природы) есть обобщение информаций о множестве других СВ, - может и должна быть проверена.

Но строго доказано одно, она тем более правдоподобна, чем больше "влияющих" СВ, о распределении которых можно не знать ничего.

Изложенное выше названо законом теории информации. Правда, - в любом учебнике по теории вероятностей, математической статистике и другим дисциплинам, этот закон также полагают "своим". Допущенная автором вольность может быть объяснена только одним обстоятельством - и теория вероятностей, и теория математической статистики или просто прикладная статистика, служат одной цели, помогают нам в одном - собрана информация и нам надо полезно её использовать.

Свёртка информации для нескольких СВ

Можно догадаться, предметом статистического исследования одна случайная величина является очень редко.

В таких случаях исходным информационным массивом можно полагать таблицу, в которой имеются данные о паре (или более) СВ. Но данные такой таблицы могут представлять интерес только при одном условии

Данные о конкретном (случайном) наблюдавшемся значении XI и данные об YI - должны были быть сняты (считаны, зафиксированы) - в один и тот же миг.

В том случае, если шкалы этих СВ не совпадают по физическому смыслу, например: X представляет собой значение напряжения на лампе, а Y - зафиксированный в это мгновение уровень освещенности, - приходится применять особый (не сложный по смыслу) прием - нормирования.

Суть его проста:

Для каждой из СВ выбирается одно и то же количество диапазонов, на которое разделяется весь интервал первой (от XMIN до XMAX и второй (от YMIN до YMAX).

Это дает возможность использовать безразмерные, относительные значения для обоих СВ. Если, скажем, таких диапазонов 100, то мы фиксируем относительное значение X=42, если реальное значение X попало в "свой" 42-й диапазон.

Если в это же мгновение реальное значение Y попало в свой 52-й диапазон, то естественно возникает вопрос - случайно ли это, не существует ли между этими величинами некоторая связь?

Вспомним, что прямое толкование термина корреляция - стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами 6.

Разумеется, - вопрос об оценке наличия подобной связи содержит два направления: - как оценить "силу" этой связи численно и как оценить степень риска ошибки приняв ту или иную гипотезу. Классическая статистика дает ответы на подобный вопрос.

Известно, что, - если для двух случайных величин (X и Y) вероятность их совместного наступления P(XY) точно равна произведению их собственных вероятностей P(X)·P(Y), то величины X и Y считаются независимыми (связи нет!).

...

Подобные документы

  • Объединение как совокупность нескольких ансамблей дискретных, случайных событий. Безусловная энтропия - среднее количество информации, приходящееся на один символ. Описание информационных свойств непрерывного источника. Понятие дифференциальной энтропии.

    контрольная работа [106,8 K], добавлен 28.07.2009

  • Анализ способов построения генераторов случайных чисел для криптографических задач. Анализ генератора случайных чисел на основе магнитометров. Анализ статистических свойств двоичных последовательностей, полученных путем квантования данных магнитометра.

    дипломная работа [2,5 M], добавлен 06.05.2018

  • Энтропия и количество информации. Комбинаторная, вероятностная и алгоритмическая оценка количества информации. Моделирование и кодирование. Некоторые алгоритмы сжатия данных. Алгоритм арифметического кодирования. Приращаемая передача и получение.

    курсовая работа [325,1 K], добавлен 28.07.2009

  • Моделирование термодинамической системы с распределенными параметрами, случайных процессов и систем. Статистическое (имитационное) моделирование физических процессов, его результаты. Компьютерное моделирование систем управления с помощью пакета VisSim.

    методичка [2,7 M], добавлен 24.10.2012

  • Применение и генерирование независимого случайного процесса. Исследование вариантов формирования случайных величин с разными законами распределения. Оценка их независимости с помощью построения гистограммы распределения в программной среде LabVIEW.

    контрольная работа [611,5 K], добавлен 18.03.2011

  • Способы получения случайных чисел в программировании и их использование для решения ряда задач. Принцип действия и тестирование работы генератора случайных чисел в Borland C++, его преимущества. Генерация одномерной и двумерной случайной величины.

    лабораторная работа [105,4 K], добавлен 06.07.2009

  • Состояние защищенности информации и информационной среды от случайных или преднамеренных воздействий. Цели информационной безопасности, классификация угроз. Обеспечение конфиденциальности, целостности, доступности информации; правовая защита человека.

    презентация [487,2 K], добавлен 11.04.2016

  • Технология сбора информации традиционными методами. Правила сбора оффлайновой информации. Технические средства сбора информации. Операции для быстрого восстановления данных в системах хранения. Технологический процесс и процедуры обработки информации.

    курсовая работа [304,5 K], добавлен 02.04.2013

  • Способы передачи и хранения информации наиболее надежными и экономными методами. Связь между вероятностью и информацией. Понятие меры количества информации. Энтропия и ее свойства. Формула для вычисления энтропии. Среднее количество информации.

    реферат [99,7 K], добавлен 19.08.2015

  • Применение случайных чисел в моделировании, выборке, численном анализе, программировании и принятии решений. Понятие равномерного распределения вероятности. Способы получения последовательности. Правила выбора модуля. Критерий Колмогорова-Смирнова.

    курсовая работа [1,3 M], добавлен 17.03.2011

  • Разработка прикладного программного обеспечения для организации взаимодействия с измерительной и управляющей аппаратурой с помощью LabVIEW. Генерирование коррелированных случайных процессов и последовательностей, применение рекурсивного фильтра.

    контрольная работа [1,1 M], добавлен 18.03.2011

  • Наиболее распространённые пути несанкционированного доступа к информации, каналы ее утечки. Методы защиты информации от угроз природного (аварийного) характера, от случайных угроз. Криптография как средство защиты информации. Промышленный шпионаж.

    реферат [111,7 K], добавлен 04.06.2013

  • Проектирование датчика случайных чисел, пригодного для моделирования случайной последовательности с заданным законом распределения. Методы моделирования. Разработка алгоритма и программы датчика. Исследование свойств выработанной им последовательности.

    лабораторная работа [124,2 K], добавлен 15.06.2010

  • Синтез стохастических систем при неполной информации о векторе переменных состояния. Оптимальное наблюдение (оптимальная фильтрация). Восстановление переменных состояния нелинейных объектов. Оптимальный наблюдатель (оптимальный фильтр Калмана -Бьюси).

    реферат [732,9 K], добавлен 06.06.2015

  • Фильтр Калмана как эффективный рекурсивный метод, оценивающий вектор состояния динамической системы, используя ряд неполных и зашумленных измерений. Сравнительная характеристика алгоритмов компьютерного моделирования случайных последовательностей.

    дипломная работа [1,9 M], добавлен 17.06.2017

  • Сущность и методика исследования вероятностной структуры сигналов, законы распределения случайных величин. Проверка гипотезы по критерию Колмогорова-Смирнова и Пирсона. Разработка программы вычисления признаков и формирования обучающего множества данных.

    курсовая работа [509,6 K], добавлен 03.12.2009

  • Написание программы для генерации случайных чисел, в которой реализуются возможности генерации абсолютно случайных чисел. Приложение на языке С/С++. Описание узла, содержащего данные; функций и методов работы; чтения данных из памяти и вывода их на экран.

    курсовая работа [172,4 K], добавлен 23.05.2012

  • Количество информации и ее мера. Определение количества информации, содержащегося в сообщении из ансамбля сообщений источника. Свойства количества информации и энтропии сообщений. Избыточность, информационная характеристика источника дискретных сообщений.

    реферат [41,4 K], добавлен 08.08.2009

  • Понятие информационной безопасности, понятие и классификация, виды угроз. Характеристика средств и методов защиты информации от случайных угроз, от угроз несанкционированного вмешательства. Криптографические методы защиты информации и межсетевые экраны.

    курсовая работа [2,4 M], добавлен 30.10.2009

  • Механизм передачи информации, ее количество и критерии измерения. Единицы информации в зависимости от основания логарифма. Основные свойства и характеристики количества информации, ее энтропия. Определение энтропии, избыточности информационных сообщений.

    реферат [33,9 K], добавлен 10.08.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.