Энтропия и количество информации
Системный анализ информационных ресурсов. Исследование дискретной величины с распределением вероятности по возможным состояниям. Понятие и сущность энтропии. Рассмотрение концепций теории информации. Единицы измерения информационной плотности и энтропии.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | контрольная работа |
Язык | русский |
Дата добавления | 29.09.2017 |
Размер файла | 73,4 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http: //www. allbest. ru/
Содержание
Введение
1. Понятие и сущность энтропии
2. Количество информации
Заключение
Список литературы
Введение
Трудно найти понятия более общие для всех наук (не только естественных) и, вместе с тем, иногда носящих оттенок загадочности, чем энтропия и информация. Отчасти это связано с самими названиями. Если бы не звучное название “энтропия” осталась бы с момента первого рождения всего лишь “интегралом Клаузиуса”, вряд ли она бы не рождалась вновь и вновь в разных областях науки под одним именем.
Кроме того, ее первооткрыватель Клаузиузус, первым же положил начало применению введенного им для, казалось, бы узкоспециальных термодинамических целей понятия к глобальным космологическим проблемам (тепловая смерть Вселенной). С тех пор энтропия многократно фигурировала в оставшихся навсегда знаменитыми спорах. В настоящее время универсальный характер этого понятия общепризнан и она плодотворно используется во многих областях.
1. Понятие и сущность энтропии
Первым специфическим понятием теории информации является понятие неопределенности случайного объекта, для которого удалось ввести количественную меру, названную энтропией. Начнем с простейшего примера - со случайного события. Пусть, например, некоторое событие может произойти с вероятностью 0,99 и не произойти с вероятностью 0,01, а другое событие имеет вероятности соответственно 0,5 и 0,5. Очевидно, что в первом случае результатом опыта "почти наверняка" является наступление события, во втором же случае неопределенность исхода так велика, что от прогноза разумнее воздержаться.
Для характеристики размытости распределения широко используется второй центральный момент (дисперсия) или доверительный интервал. Однако эти величины имеют смысл лишь для случайных числовых величин и не могут применяться к случайным объектам, состояния которых различаются качественно. Следовательно, мера неопределенности, связанной с распределением, должна быть некоторой его числовой характеристикой, функционалом от распределения, никак не связанным с тем, в какой шкале измеряются реализации случайного объекта [1, c. 118].
Примем (пока без обоснования) в качестве меры неопределенности случайного объекта А с конечным множеством возможных состояний А1,...,Аn с соответствующими вероятностями P1,P2...Pn величину которую и называют "энтропией случайного объекта А (или распределения { }. Убедимся, что этот функционал обладает свойствами, которые вполне естественны для меры неопределенности.
1. Н(p1...pn )=0 в том и только в том случае, когда какое-нибудь одно из {pi } равно единице (а остальные - нули). Это соответствует случаю, когда исход опыта может быть предсказан с полной достоверностью, т.е. когда отсутствует всякая неопределенность. Во всех других случаях энтропия положительна. Это свойство проверяется непосредственно.
2. Н(p1...pn ) достигает наибольшего значения при
p1=...pn=1/n
т.е. в случае максимальной неопределенности. Действительно, вариация Н по pi при условии
3. Если А и В - независимые случайные объекты, то
Это свойство проверяется непосредственно.
4. Если А и В - зависимые случайные объекты, то
где условная энтропия H(А/В) определяется как математическое ожидание энтропии условного распределения. Это свойство проверяется непосредственно.
5. Имеет место неравенство Н(А) > Н(А/В), что согласуется с интуитивным предположением о том, что знание состояния объекта В может только уменьшить неопределенность объекта А, а если они независимы, то оставит ее неизменной. Как видим, свойства функционала Н позволяют использовать его в качестве меры неопределенности.
Обобщение столь полезной меры неопределенности на непрерывные случайные величины наталкивается на ряд сложностей, которые, однако, преодолимы. Прямая аналогия
не приводит к нужному результату ; плотность p(x) является размерной величиной (размерность плотности p(x) обратно пропорциональна x ) а логарифм размерной величины не имеет смысла. Однако положение можно исправить, умножив p(x) под знаком логарифма на величину К, имеющую туже размерность, что и величина х:
Теперь величину К можно принять равной единице измерения х, что приводит к функционалу
который получил название "дифференциальной энтропии". Это аналог энтропии дискретной величины, но аналог условный, относительный: ведь единица измерения произвольна. Запись означает, что мы как бы сравниваем неопределенность случайной величины, имеющей плотность p(x), с неопределенностью случайной величины, равномерно распределенной в единичном интервале. Поэтому величина h(X) в отличие от Н(Х) может быть не только положительной. Кроме того, h(X) изменяется при нелинейных преобразованиях шкалы х, что в дискретном случае не играет роли. Остальные свойства h(X) аналогичны свойствам Н(Х), что делает дифференциальную энтропию очень полезной мерой.
Пусть, например, задача состоит в том, чтобы, зная лишь некоторые ограничения на случайную величину (типа моментов, пределов области возможных значений и т.п.), задать для дальнейшего (каких-то расчетов или моделирования) конкретное распределение. Один из подходов к решению этой задачи дает "принцип максимума энтропии": из всех распределений, отвечающих данным ограничениям, следует выбирать то, которое обладает максимальной дифференциальной энтропией. Смысл этого критерия состоит в том, что, выбирая максимальное по энтропии распределение, мы гарантируем наибольшую неопределенность, связанную с ним, т.е. имеем дело с наихудшим случаем при данных условиях.
Особое значение энтропия приобретает в связи с тем, что она связана с очень глубокими, фундаментальными свойствами случайных процессов. Покажем это на примере процесса с дискретным временем и дискретным конечным множеством возможных состояний.
Назовем каждое такое состояние "символом", множество возможных состояний - "алфавитом", их число m - "объемом алфавита". Число возможных последовательностей длины n, очевидно, равно mn. Появление конкретной последовательности можно рассматривать как реализацию одного из mn возможных событий. Зная вероятности символов и условные вероятности появление следующего символа, если известен предыдущий (в случае их зависимости), можно вычислить вероятность P(C) для каждой последовательности С. Тогда энтропия множества {C} , по определению, равна
Определим энтропию процесса H (среднюю неопределенность, приходящуюся на один символ) следующим образом:
На множестве {C} можно задать любую числовую функцию fn(C), которая, очевидно, является случайной величиной. Определим fn(C) c помощью соотношения
fn(C) = -[1/n] logP(C) .
Математическое ожидание этой функции
Это соотношение является одним из проявлений более общего свойства дискретных эргодических процессов. Оказывается, что не только математическое ожидание величины fn(C) при n стремящемся к бесконечности имеет своим пределом H, но и сама эта величина fn(C) стремится к H при n стремящемся к бесконечность. Другими словами, как бы малы ни были e > 0 и s > 0 , при достаточно большом n справедливо неравенство
т.е. близость fn(C) к H при больших n является почти достоверным событием.
Для большей наглядности сформулированное фундаментальное свойство случайных процессов обычно излагают следующим образом. Для любых заданных e > 0 и s > 0 можно найти такое no , что реализация любой длины n > no распадаются на два класса:
- группа реализаций, вероятность P(C) которых удовлетворяет неравенству
- группа реализаций, вероятности которых этому неравенству не удовлетворяют.
Cуммарные вероятности этих групп равны соответственно 1 -s и s, то первая группа называется "высоковероятной", а вторая - "маловероятной".
Это свойство эргодических процессов приводит к ряду важных следствий, из которых три заслуживают особого внимания.
1) независимо от того, каковы вероятности символов и каковы статистические связи между ними, все реализации высоковероятной группы приблизительно равновероятны.
Это следствие, в частности, означает, что при известной вероятности P(C) одной из реализаций высоковероятной группы можно оценить число N1 реализаций в этой группе:
N1 = 1 / P(C) .
2) Энтропия Hn с высокой точностью равна логарифму числа реализаций в высоковероятной группе:
Hn = n * H = log N1
3) При больших n высоковероятная группа обычно охватывает лишь ничтожную долю всех возможных реализаций (за исключением случая равновероятных и независимых символов, когда все реализации равновероятны и и H = log m ).
Действительно, из соотношения (9) имеем
Число N всех возможных реализаций есть
Доля реализаций высоковероятной группы в общем числе реализаций выражается формулой и при H < logm эта доля неограниченно убывает с ростом n. Например, если a = 2, n = 100, H = 2,75, m = 8, то
т.е. к высоковероятной группе относится лишь одна тридцати миллионная доля всех реализаций! Строгое доказательство фундаментального свойства эргодических процессов здесь не приводится. Однако следует отметить, что в простейшем случае независимости символов это свойство является следствием закона больших чисел.
Действительно, закон больших чисел утверждает, что с вероятностью, близкой к 1, в длиной реализации i-й символ, имеющий вероятность pi встретится примерно npi раз. Следовательно вероятность реализации высоковероятной группы есть
что и доказывает справедливость фундаментального свойства в этом случае.
2. Количество информации
В основе всей теории информации лежит открытие, что "информация допускает количественную оценку". В простейшей форме эта идея была выдвинута еще в 1928г. Хартли, но завершенный и общий вид придал ее Шэннон в 1948г. Не останавливаясь на том, как развивалось и обобщалось понятие количества информации, дадим сразу ее современное толкование.
Процесс получения информации можно интерпретировать как "изменение неопределенности в результате приема сигнала". Проиллюстрируем эту идею на примере достаточно простого случая, когда передача сигнала происходит при следующих условиях:
- полезный (передаваемый) сигнал является последовательностью статистически независимых символов с вероятностями p(xi),i = 1,m ;
- принимаемый сигнал является последовательностью символов Yk того же алфавита;
- если шумы (искажения) отсутствуют, то принимаемый сигнал совпадает с отправленным Yk=Xk ;
- если шум имеется, то его действие приводит к тому, что данный символ либо остается прежним (i-м), либо подменен любым другим (k-м) с вероятностью p(yk/xi);
- искажение данного символа является событием статистически независимым от того, что произошло с предыдущим символом.
Итак, до получения очередного символа ситуация характеризуется неопределенностью того, какой символ будет отправлен, т.е. априорной энтропией Н(Х). После получения символа yk неопределенность относительно того, какой символ был отправлен, меняется: в случае отсутствия шума она вообще исчезает (апостериорная энтропия равна нулю, поскольку точно известно, что был передан символ yk=xi ), а при наличии шума мы не можем быть уверены, что принятый символ и есть переданный, т.е. возникает неопределенность, характеризуемая апостериорной энтропией
H(X/yk)=H({p(xi/yk)})>0.
В среднем после получения очередного символа энтропия
H(X/Y)=My{H(X/Yk)}
Определим теперь количество информации как меру снятой неопределенности: числовое значение количества информации о некотором объекте равно разности априорной и апостериорной энтропии этого объекта, т.е.
I(X,Y) = H(X) - H(X/Y). (1)
Используя свойство 2 энтропии, легко получить, что
I(X,Y) = H(Y) - H(Y/X) (2)
В явной форме равенство (1) запишется так:
I(X,Y) = H(X) - H(X/Y) =
Представленным формулам легко придать полную симметричность: умножив и разделив логарифмируемое выражение в на p(yk) , а в на p(xi) сразу получим, что
Эту симметрию можно интерпретировать так: "количество информации в объекте Х об объекте Y равно количеству информации в объекте Y об объекте Х. Таким образом, количество информации является не характеристикой одного из объектов, а характеристикой их связи, соответствия между их состояниями. Подчеркивая это, можно сформулировать еще одно определение: "среднее количество информации, вычисляемое по формуле, есть мера соответствия двух случайных объектов".
Это определение позволяет прояснить связь понятий информации и количества информации. Информация есть отражение одного объекта другим, проявляющееся в соответствии их состояний. Один объект может быть отражен с помощью нескольких других, часто какими-то лучше, чем остальными. Среднее количество информации и есть числовая характеристика степени отражения, степени соответствия. Подчеркнем, что при таком описании как отражаемый, так и отражающий объекты выступают совершенно равноправно. С одной стороны, это подчеркивает обоюдность отражения: каждый из них содержит информацию друг о друге. Это представляется естественным, поскольку отражение есть результат взаимодействия, т.е. взаимного, обоюдного изменения состояний. С другой стороны, фактически одно явление (или объект) всегда выступает как причина, другой - как следствие; это никак не учитывается при введенном количественном описании информации.
Формула обобщается на непрерывные случайные величины, если в отношении и вместо Н подставить дифференциальную энтропию h; при этом исчезает зависимость от стандарта К и, значит, количество информации в непрерывном случае является столь же безотносительным к единицам измерения, как и в дискретном:
где р(x), p(y) и p(x,y) - соответствующие плотности вероятностей.
Отметим некоторые важные свойства количества информации.
1. Количество информации в случайном объекте Х относительно объекта Y равно количеству информации в Y относительно Х:
I(X,Y) = I(Y,X)
2. Количество информации неотрицательно:
I(X,Y) > 0
Это можно доказать по-разному. Например, варьированием p(x,y) при фиксированных p(x) и p(y) можно показать, что минимум I , равный нулю, достигается при
p(x,y) = p(x) p(y).
3. Для дискретных Х справедливо равенство
I(X,X) = H(X).
4. Преобразование y (.) одной случайной величины не может увеличить содержание в ней информации о другой, связанной с ней, величине:
I[y (X),Y] < I(X,Y)
5. Для независимых пар величин количество информации аддитивно:
Рассмотрим теперь вопрос о единицах измерения количества информации и энтропии. Из определений I и H следует их безразмерность, а из линейности их связи - одинаковость их единиц. Поэтому будем для определенности говорить об энтропии. Начнем с дискретного случая. За единицу энтропии примем неопределенность случайного объекта, такого, что
Легко установить, что для однозначного определения единицы измерения энтропии необходимо конкретизировать число m состояний объекта и основание логарифма. Возьмем для определенности наименьшее число возможных состояний, при котором объект еще остается случайным, т.е. m=2, и в качестве основания логарифма также возьмем число 2. Тогда из равенства
вытекает, что
p1=p2=1/2 .
Следовательно, единицей неопределенности служит энтропия объекта с двумя равновероятными состояниями. Эта единица получила название "бит". Бросание монеты дает количество информации в один бит. Другая единица "нит" получается, если использовать натуральные логарифмы. Обычно она употребляется для непрерывных величин.
Остановимся еще на одном важном моменте. До сих пор речь шла о среднем количестве информации, приходящемся на пару состояний (xi,yk) объектов X и Y. Эта характеристика естественна для рассмотрения особенностей стационарно функционирующих систем, когда в процессе функционирования принимают участие все возможные пары (xi,yk) . Однако в ряде практических случаев оказывается необходимым рассмотреть информационное описание конкретной пары состояний, оценить содержание информации в конкретной реализации сигнала. Тот факт, что некоторые сигналы несут информации намного больше, чем другие, виден на примере того, как отбираются новости средствами массовой информации (о рождении шестерых близнецов сообщают практически все газеты мира, а о рождении двойни не пишут).
Допуская существование количественной меры информации (xi,yk) , в конкретной паре (xi,yk) естественно потребовать, чтобы индивидуальное и среднее количество информации удовлетворяли соотношению
Хотя равенство имеет место не только при равенстве всех слагаемых, сравнение формул и, например, наталкивает на мысль, что мерой индивидуальной информации в дискретном случае может служить величина
а в непрерывном - величина
i(x,y) = ln{p(x/y) / p(x)} = ln{{p(y/x) / p(y)} = = ln{p(x,y) / p(x)p(y)}
называемая "информационной плотностью". Свойства этих величин согласуются с интуитивными представлениями и, кроме того, доказана единственность меры, обладающей указанными свойствами. Полезность введения понятия индивидуального количества информации проиллюстрируем на следующем примере.
Заключение
Связав понятие неопределенности дискретной величины с распределением вероятности по возможным состояниям и потребовав некоторых естественных свойств от количественной меры неопределенности, мы приходим к выводу, что такой мерой может служить только функционал, названный энтропией. С некоторыми трудностями энтропийный подход удалось обобщить на непрерывные случайные величины (введением дифференциальной энтропии) и на дискретные случайные процессы.
Для системного анализа теория информации имеет двоякое значение. Во-первых, ее конкретные методы позволяют провести ряд количественных исследований информационных потоков в изучаемой или проектируемой системе. Однако более важным является эвристическое значение основных понятий теории информации - неопределенности, энтропии, количество информации, избыточности, пропускной способности и пр. Их использование столь же важно для понимания системных процессов, как и использование понятий, связанных с временными, энергетическими процессами. Системный анализ неизбежно выходит на исследование ресурсов, которые потребуются для решения анализируемой проблемы. Информационные ресурсы играют далеко не последнюю роль наряду с остальными ресурсами - материальными, энергетическими, временными, кадровыми. информационный энтропия дискретный вероятность
Список литературы
1. Нуллов А. информатика. - М.: Комус, 2002.
2. Семакин И.Г.Лекции по программированию. - М.: Пермь, 1996.
3. Фигурнов В.Э. IBM PC для пользователя. Краткий курс. - М.: Инфра-М, 1999.
4. www.computerra.ru
5. www.chip.ru
6. www. Ixbt.com
7. www.pc-zone.net
8. www.pclink.ru
Размещено на Allbest.ru
...Подобные документы
Механизм передачи информации, ее количество и критерии измерения. Единицы информации в зависимости от основания логарифма. Основные свойства и характеристики количества информации, ее энтропия. Определение энтропии, избыточности информационных сообщений.
реферат [33,9 K], добавлен 10.08.2009Способы передачи и хранения информации наиболее надежными и экономными методами. Связь между вероятностью и информацией. Понятие меры количества информации. Энтропия и ее свойства. Формула для вычисления энтропии. Среднее количество информации.
реферат [99,7 K], добавлен 19.08.2015Объединение как совокупность нескольких ансамблей дискретных, случайных событий. Безусловная энтропия - среднее количество информации, приходящееся на один символ. Описание информационных свойств непрерывного источника. Понятие дифференциальной энтропии.
контрольная работа [106,8 K], добавлен 28.07.2009Количество информации и ее мера. Определение количества информации, содержащегося в сообщении из ансамбля сообщений источника. Свойства количества информации и энтропии сообщений. Избыточность, информационная характеристика источника дискретных сообщений.
реферат [41,4 K], добавлен 08.08.2009Вычисление количества информации, приходящейся на один символ по формуле Шеннона. Изменения информационной энтропии в текстах экономического, естественнонаучного и литературного содержания. Максимальное количество информации на знак по формуле Хартли.
лабораторная работа [28,2 K], добавлен 06.12.2013Задачи и постулаты прикладной теории информации. Разновидности помехоустойчивых кодов. Кодирование информации для канала с помехами. Энтропия при непрерывном сообщении. Количественная оценка информации. Условная и взаимная энтропия и ее свойства.
курс лекций [3,2 M], добавлен 28.04.2009Бит, неопределенность, количество информации и энтропия. Формула Шеннона. Формула Хартли. Логарифмы. Количество информации, получаемой в процессе сообщения. Взаимодействие источника и приемника информации. Количество, информационная емкость ячеек памяти.
реферат [579,6 K], добавлен 17.07.2008Предмет и задачи теории информации, ее функции при создании АСУ. Определение пропускной способности дискретных (цифровых) каналов при отсутствии шумов. Расчет скорости передачи информации. Вычисление значения энтропии - среднего количества информации.
контрольная работа [112,0 K], добавлен 18.01.2015Общая характеристика информационных систем, предназначенных для передачи, преобразования и хранения информации. Изучение форм представления детерминированных сигналов. Энтропия сложных сообщений. Рассмотрение основных элементов вычислительных машин.
лекция [1,5 M], добавлен 13.04.2014Основы теории передачи информации. Экспериментальное изучение количественных аспектов информации. Количество информации по Хартли и К. Шеннону. Частотные характеристики текстовых сообщений. Количество информации как мера снятой неопределенности.
лабораторная работа [42,3 K], добавлен 15.02.2011Определение энтропии как меры стойкости паролей, способ противодействия их взлому. Вычисление веса и информационной емкости пароля с помощью SeaMonkey, Password Strength Tester. Алгоритм работы дежурного и вспомогательного анализаторов от Microsoft.
курсовая работа [632,8 K], добавлен 18.06.2011Основные единицы измерения времени, массы и объема. Исчисления между битами и байтами. Двоичные приставки в ОС Windows и у производителей ОЗУ. Расчет информационного размера изображения. Объём компьютерных информационных носителей, пример определения.
презентация [638,9 K], добавлен 27.01.2014Система передачи информации. Использование энтропии в теории информации. Способы преобразования сообщения в сигнал. Динамический диапазон канала. Определение коэффициента модуляции. Преобразование цифровых сигналов в аналоговые. Использование USB–модемов.
курсовая работа [986,3 K], добавлен 18.07.2012Информатика - техническая наука, определяющая сферу деятельности, связанную с процессами хранения, преобразования и передачи информации с помощью компьютера. Формы представления информации, ее свойства. Кодирование информации, единицы ее измерения.
презентация [117,7 K], добавлен 28.03.2013Сущность и характеристика цифровой и аналоговой информации. Бит как основа исчисления информации в цифровой технике. Компьютерная система счисления как способ записи (изображения) чисел. Сущность и понятие позиционных и непозиционных систем исчисления.
доклад [15,7 K], добавлен 04.06.2010Классификация информации по значимости. Категории конфиденциальности и целостности защищаемой информации. Понятие информационной безопасности, источники информационных угроз. Направления защиты информации. Программные криптографические методы защиты.
курсовая работа [1,1 M], добавлен 21.04.2015Энтропия и количество информации. Комбинаторная, вероятностная и алгоритмическая оценка количества информации. Моделирование и кодирование. Некоторые алгоритмы сжатия данных. Алгоритм арифметического кодирования. Приращаемая передача и получение.
курсовая работа [325,1 K], добавлен 28.07.2009Понятие компьютерной преступности. Основные понятия защиты информации и информационной безопасности. Классификация возможных угроз информации. Предпосылки появления угроз. Способы и методы защиты информационных ресурсов. Типы антивирусных программ.
курсовая работа [269,7 K], добавлен 28.05.2013Понятие, значение и направления информационной безопасности. Системный подход к организации информационной безопасности, защита информации от несанкционированного доступа. Средства защиты информации. Методы и системы информационной безопасности.
реферат [30,0 K], добавлен 15.11.2011Исследование проблем формирования и использования информационных ресурсов как совокупности сведений, получаемых в процессе практической деятельности людей. Состав и свойства информационных ресурсов. Государственная политика в сфере защиты информации.
реферат [23,7 K], добавлен 31.01.2011