Информационное обеспечение статистических исследований

Понятие случайных событий и случайных величин. Энтропия как мера количества информации. Цели сбора и кодирования информации, ее свертка при наличии схемы событий. Статистическое моделирование случайных процессов. Современные методы хранения данных в ИС.

Рубрика Программирование, компьютеры и кибернетика
Вид курс лекций
Язык русский
Дата добавления 12.02.2017
Размер файла 239,1 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Ну, а если это не так!? Ведь всегда важен вопрос - а как сильно зависит одна СВ от другой? И дело в не только в присущем людям стремлении анализировать что-либо обязательно в числовом измерении. Уже должно быть понятно, что статистический анализ означает непрерывные вычисления, что использование компьютера вынуждает нас работать с числами, а не понятиями.

Для числовой оценки возможной связи между двумя случайными величинами: Y (со средним MY и среднеквадратичным отклонением SY) и X (со средним MX и среднеквадратичным отклонением SX), - следует использовать так называемый коэффициент КОРРЕЛЯЦИИ, который при N наблюдениях составляет:

RXY = (XI - MX)·(YI - MY) / (N·SX·SY).

т.е. найти его можно всего лишь по двум параметрам (математическое ожидание и среднеквадратичное отклонение).

Этот коэффициент может принимать значения от -1 до +1 -- в зависимости от тесноты связи между данными случайными величинами.

Если коэффициент корреляции равен нулю, то X и Y называют некоррелированными. Считать их независимыми обычно нет оснований - оказывается, что существуют такие, как правило - нелинейные, связи величин, при которых RXY равен 0, хотя величины зависят друг от друга.

Обратное всегда верно - если величины независимы, то Rxy = 0.

Но, если модуль Rxy=1, то имеются все основания предполагать наличие линейной связи между Y и X. Именно поэтому часто говорят о линейной корреляции при использовании такого способа оценки связи между СВ. Такая оценка связей между случайными величинами в сложной системе является одним из начальных этапов системного анализа, поэтому уже здесь во всей остроте встает вопрос о доверии к выводу о наличии или отсутствии связей между двумя СВ.

Подведем некоторые итоги проблемы свёртки информации:

В большинстве решения задач статистического анализа входной информации оказывается возможным сохранять входные массивы НЕ в "первозданном" виде. Можно ограничиться вычислением моментов СВ, а при наличии нескольких СВ, описывающих данный случайный процесс - ещё и показателями корреляции (парной или множественной).

Выдвигая любую статистическую гипотезу о случайном процессе или некотором его параметре (показателе), мы вполне можем использовать классический аппарат - получить значение вероятности ошибки при принятии данной гипотезы.

6.Проблемы свертки информации нечислового типа

Пусть в процессе статистического анализа некоторого случайного процесса нам пришлось учитывать параметры его объектов, измерение которых возможно лишь на шкале 3 (Ord ? порядковая).

Например, - нам приходится учитывать объектов (T0 …T9) функционирования некоторой системы и требуется выяснить их относительную значимость, удельные веса. Распределение подобных (неизмеримых) величин принято называть "непараметрическими". Способа "прямого" измерения этих параметров нет и быть не может. Возможно лишь одно - косвенное "измерение" - расположение объектов на шкале уровней этого параметра - на шкале РАНГОВ.

Характерные примеры таких СВ - вкусовые качества пищевого продукта, уровни надежности приборов, уровни успеваемости (если они определяются уровнем знаний) и т.д.

Если такое "ранжирование" производится людьми - их называют экспертами, - если приборами - анализаторами, оценщиками.

Конечно, - и те и другие должны иметь "сертификаты" - доказательства успешной оценки рангов в прошлом.

Парная ранговая корреляция

Пусть мы пригласили двух экспертов, выбрав тех, чьи результаты ранжировок, почти всегда получали подтверждение - оценка объектов оказывалась достаточно "точной", тех - к кому у нас имелось доверие (снова - ранговая величина!).

В простейшем случае можно не разрешать эксперту повторять ранги, хотя это не обязательно - повторение рангов всегда можно учесть.

Результаты работы экспертов перед нами:

Таблица 6.

№ объектов

1

2

3

4

5

6

7

8

9

10

Сумма

Ранги эксперта A

3

5

1

8

7

10

9

2

4

6

55

Ранги эксперта B

5

1

2

6

8

9

10

3

4

7

55

Сумма рангов

8

6

3

14

15

19

19

5

8

13

-

Суммарные ранги

4.5

3

1

7

8

9.5

9.5

2

4.5

6

-

Отметим сразу же:

Ранги, выставленные экспертами, оказались не совпадающими.

Суммы рангов (для эксперта) - одинаковыми, что неудивительно (сумма членов арифметической прогрессии!).

Суммы рангов (двух экспертов) оказались разными.

Что же дальше? Ведь складывать "позиции" на ранговой шкале, - вроде бы нельзя! Но всё же…

3-й объект по итогам двух экспертов оказался чемпионом, а вот 9-й и 10-й аутсайдерами. У нас нет никаких других данных, кроме этих сумм.

Делать нечего - "для того, чтобы иметь рагу из зайца, - надо иметь хотя бы … кошку!".

В самом деле, - "отцы-основатели" непараметрической статистики 3, поступили мудро и абсолютно законно.

Они расположили эти "незаконные" числа - на ранговой шкале!

А это не противоречит основным, строго обоснованным, канонам статистики: одна из великих теорем теории вероятностей допускает операцию сложения значений для любых видов распределений. При этом правда, "законность" распространяется только момент первого порядка (на средние значения).

Для продолжения работы над проблемой свёртки информации СВ непараметрической природы сформулируем задачу "А". Поставив ряд вопросов -

насколько коррелированны, "связаны свойствами "общих" объектов, - мнения двух экспертов? Можно ли полагать объект 3 - чемпионом? Каково доверие к "результирующим" рангам?

Действительно, по аналогии с числовыми СВ такую связь можно оценить, и внешне этот метод почти не отличается от приемов оценки парной корреляции для СВ числовой природы.

Экскурс в область классических типов распределений заостряет вопрос - можно ли (пусть - другими способами) - оценить связь ранжировок таблицы 6? Ответ был найден, ответ был положительный - да, можно!

Главное - ответ был обоснован - теми же теоремами классической (для непрерывных СВ) теории и теории непараметрической статистик 3.

Для пояснения этих методов используем другой пример ранжировок.

Пусть интересующая нас система - ВУЗ, в котором в результате "случайного" процесса (подведения итогов экзамена на потоке из 72 студентов), получены следующие итоги:

Таблица 7.

Имена дисциплин

Число получивших оценки

ОТЛ

ХОР

УД

НУ

НЯ

?

Дисциплина 1

10

8

46

6

2

72

Дисциплина 2

3

34

20

10

5

72

Дисциплина 3

25

18

12

8

9

72

Дисциплина 4

22

18

4

18

10

72

Пока у нас идет речь о парной ранговой корреляции. Поэтому возьмем только две строки этой таблицы, для двух дисциплин, выполнив перед этим некоторые операции ранжировки, суммирования и другие.

Рассуждения могут быть полностью заимствованы из предыдущего, классического подхода - о корреляции непрерывных СВ.

Поскольку в первой строке наибольшее количество оценок "УД" -отнесем их к 1-му рангу (для дисциплины 1). Поступив таким образом со всеми оценками данной дисциплины, - перейдем ко второй и проделаем такую же "подмену" численностей оценок - их рангами.

Пока мы не допустили никаких нарушений теории - заменив целые случайные числа также целыми.

Таблица 8.

Имена дисциплин

Число получивших оценки

ОТЛ

ХОР

УД

НУ

НЯ

?

Дисциплина 1

10

8

46

6

2

72

Дисциплина 2

3

34

20

10

5

72

Ранги оценок 1

2

3

1

4

5

15

Ранги оценок 2

5

1

2

3

4

15

DI

-3

2

-1

1

1

0

(DI)2

9

4

1

1

1

16

Ранги "экспертов" оказались разными и нам очень важен ответ на вопрос - существует ли корреляционная связь между итогами сессии по двум дисциплинам. Оказывается, - ответ на этот вопрос можно получить, вычислив коэффициент парной ранговой корреляции.

Существует два метода расчета этих коэффициентов "по Кэндэлу" и "по Спирмэну". Остановимся на втором, имеющем, по мнению автора, большую логическую стройность.

Величины DI, представляют собой числовую оценку "несовпадения" рангов двух экспертов, а возведение их в квадрат - стандартный метод учета разброса (дисперсии). Если бы ранги экспертов совпадали (по дисциплинам), это означало бы признак полной корреляции.

Используя известные правила комбинаторики, можно доказать, что наибольшее значение суммы дисперсий составляет 524 = 120 и зависит только от числа ранжируемых объектов.

Итак мы вычислили коэффициент парной ранговой корреляции, оказавшийся равным RS=1 - 616 / 120 = 0.2.

Обсудим полученный результат. Вернувшись к таблицам 7 и 8, мы можем "на глаз" определить факт значительного рассогласования численностей рангов оценок или рангов.

Существует несколько доводов в пользу такого этапа статистического анализа.

Мы затеяли этот анализ для оценки эффективности функционирования сложной системы "Учебный процесс" (применили системный подход). Целевой функцией такой системы является - дать нечто нематериальное (знания) вполне конкретной группе объектов (студенты), - с помощью другой группы объектов (преподавателей отдельных дисциплин).

Ясно, что, хотя ни у кого нет "приборов" для измерения эффективности обучения, существует ещё одна подсистема - управления учебным процессом. Поэтому вопрос о ранжировках итогов сессии (контрольная точка процесса) - достаточно важен.

Очевидно, что итоги обучения по различным дисциплинам (и, обязательно - по всем!) зависят от "свойств" обучаемых, равно как и от педагогического мастерства обучающих. Однако, и те и другие, скорее всего - не могут изменить свои "входные" свойства за семестр.

Поэтому высокий уровень корреляции итогов сессии по дисциплинам (для одного потока) может служить статистическим показателем эффективности управления учебным процессом.

Вполне корректной является задача оценки эффективности обучения по одной (!) учебной дисциплине.

В самом деле, - построим таблицу для расчета коэффициента Спирмэна для дисциплины 1.

Таблица 9.

Число получивших оценки

ОТЛ

ХОР

УД

НУ

НЯ

?

Дисциплина 1

10

8

46

6

2

Ранг дисциплины

2

3

1

4

5

15

Правда, понятие "объект" потеряло свой прежний смысл - теперь нас интересует ответ на вопрос - насколько связаны, коррелированны ранги численностей обучаемых по этой дисциплине… Стоп! С чем коррелированны? Где вторая ранжировка?

Вопросы эти можно снять достаточно легко:

Мы ходим использовать ранжировку численностей оценок именно по этой дисциплине! По одной, равной по "важности" всем оставшимся без внимания.

У нас есть вторая ранжировка - она скрыта в названиях оценок.

В самом деле, разумный подход к задаче, в которой желательно оценить "эффективность" обучения по единственной дисциплине, - позволяет заявить - всем понятно оценка "ОТЛ" в достаточно совершенной системе должна иметь 1-й ранг, "ХОР" - второй и т.д. (автор не считает такой подход оправданным с позиций педагогики вообще, но … "с Крещатика виднее" или "я - начальник, ты - ……!).

Вернемся к таблице 9 и придадим ей вид информационного массива с двумя ранжировками:

Таблица 10.

Оценки (ранги по численностям)

ОТЛ

ХОР

УД

НУ

НЯ

?

"Желаемые" ранги

1

2

3

4

5

15

Ранг дисциплины

2

3

1

4

5

15

Разности рангов DI

-1

-1

-2

0

0

0

(DI)2

1

1

4

0

0

6

Коэффициент парной ранговой корреляции составляет здесь

RS= 1 - 66 / (524) = 0.7.

Можно поставить вопрос о доверии к такому выводу: если мы выдвинем гипотезу H0: "Данные ранжировки не имеют корреляционной связи", то как часто мы ошибемся?

Для получения "точного" ответа придется вычислить вспомогательную величину:

W = 0.5·Ln(1 + RS)/(1-RS) = 0.865

и уже по ней получить ответ на вопрос о доверии к коэффициенту ранговой корреляции RS. Затем обратиться к специальным таблицам классических распределений и узнать, что "… приняв нулевую гипотезу о полной независимости ранжировок мы ошибемся в 995 случаях из 1000.

Таким образом:

Метод парной ранговой корреляции позволяет ответить на вопрос - насколько коррелированны, связаны, неслучайны - ранжировки каждого из двух экспертов, а значит - насколько можно доверять результирующим рангам?

Множественная ранговая корреляция (конкордация)

Этот термин относится статистическим исследования случайных процессов следующего типа:

Имеется n объектов - с единственным параметром r, значение которого можно оценить только по шкале рангов.

Имеется m экспертов (людей или приборов), которые обладают способностью оценивать положение объектов на шкале их рангов.

Легко заметить - это полностью совпадает с описанием данных массива таблицы 7. Но в этом случае речь идет о множественной корреляции (конкордации), совпадения мнений всех экспертов о рангах каждого из объектов. Кроме того, мы хотим убедиться в "универсальности" метода конкордации. Итак, -эксперты могут иметь свои "приборы измерения", объекты - иметь различные (случайные) свойства. Но (системный подход!) - насколько эффективны алгоритмы управления этой системой,!

Пусть в результате такого процесса у нас имеются итоги ранжировок 4 экспертов по отношению к 6 объектам, которые определяют эффективность некоторой системы:

Таблица 10. (m=4, n=6)

Объекты

1

2

3

4

5

6

Суммы ?

Ранги эксперта A

5

4

1

6

3

2

21

Ранги эксперта B

2

3

1

5

6

4

21

Ранги эксперта C

4

1

6

3

2

5

21

Ранги эксперта D

4

3

2

5

6

1

21

Суммы рангов SI

15

11

10

19

17

12

84

Результирующие ранги

4

2

1

6

5

3

21

DI = (SI - 84/6)

1

-3

-4

5

3

-2

0

SV= (DI)2

1

9

16

25

9

4

64

Интересующие нас вопросы - всё те же:

насколько коррелированны, "связаны свойствами "общих" объектов, - мнения ВСЕХ экспертов?

Можно ли полагать объект 3 - чемпионом? Какова вероятность ошибки при принятии нулевой гипотезы? ……

Дадим внешнее описание таблицы, полученное после элементарных преобразований:

Заметим, сразу же, что в нашем примере полная сумма рангов составляет 84, что дает в среднем 4 на объект 84/6=14).

Известно, что в любом случае: n объектов и m экспертов среднее значение суммы рангов для любого объекта определится выражением:

NR= 0.5·m·(n+1).

Мы можем попытаться оценить степень согласованности мнений 4 экспертов по отношению к 6 объектам - выставить результирующие ранги для каждого из объектов.

Для каждого из объектов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения такой суммы.

Поскольку сумма этих отклонений всегда равна нулю, для их усреднения разумно использовать квадраты значений.

В нашем (конкретном процессе, одном из вариантов распределения рангов) случае сумма таких квадратов составляет SV=64, а в общем случае эта сумма будет наибольшей только при полном несовпадении мнений всех экспертов по отношению ко всем объектам: что для данного случайного процесса составляет 280, - независимо от конкретной (случайной) его реализации. Именно это соотношение М.Кэндэл 3 и предложил рассматривать как показатель согласованности или коэффициент конкордации, определяемый как отношение показателей "несогласованности" к его максимальному значению.

K = SV/ Smax.

В нашем примере значение коэффициента конкордации составляет около 0.229, что при четырех экспертах и шести объектах достаточно, чтобы с вероятностью ошибки не менее 0.95 считать мнения экспертов несогласованными.

Статистическое моделирование случайных процессов

Скорее всего, читателю уже ясно, что описанный выше метод анализа итогов случайных процессов (с параметрами объектов ранговой природы) полностью применим к задачам, общепринятое название которых - статистический анализ экспертных оценок.

Добавим к сказанному выше некоторые "подробности", используя накопленный опыт решения подобных задач.

При использовании групповой экспертной оценки можно не только выяснять мнение экспертов о показателях, необходимых для анализа СП.

Очень часто в подобных ситуациях используют так называемый метод Дельфы (от легенды о дельфийском оракуле).

Опрос экспертов проводят в несколько этапов, как правило - анонимно.

После очередного этапа от эксперта требуется не просто ранжировка, но и ее обоснование. Эти обоснования сообщаются всем экспертам перед очередным этапом без указания авторов обоснований.

Имеющийся опыт свидетельствует о возможностях существенно повысить представительность, обоснованность и, главное, достоверность суждений экспертов. В качестве побочного эффекта можно составить мнение о профессиональности каждого эксперта. В большинстве случаев рассматриваются СП, для которых есть возможность накапливать статистики объектов.

Последнее замечание очень важно! В нашей задаче случайный процесс - обучение, экзамены, выставление оценок по ним, - повторить невозможно. Разумеется, на факультете могут остаться те же преподаватели, те же рабочие планы учебных дисциплин, тот же стиль управляющих (обучением) воздействий, но - "подсистема" "ОБУЧАЕМЫЕ" будет другой…

Есть и второй повод отнести нашу задачу к разряду "нестандартных".

Напомним, что распределения рангов - суть непараметрические, т.е. такие к которым нет возможности напрямую применить классические методы проверки статистических гипотез.

Откуда стало известно значение вероятности ошибки в том или ином рассмотренном ранее примере?

Да всё оттуда же - из таблиц распределений, в которых, зная природу (модель) случайной величины можно найти ВСЕ сведения о ней, если… она числовая непрерывная.

Для всех непараметрических и, особенно - ранговых СВ, дело обстоит иначе.

И Кэндэлу и Спирмэну пришлось строить подобные таблицы (разумеется - вручную) по следующему алгоритму.

Вернемся к задаче с 4-мя экспертами и 6-тью объектами.

Расставим частные ранги таким образом, чтобы все они совпадали - по всем объектам и у всех экспертов:

Объекты

1

2

3

4

5

6

Суммы

Ранги эксперта A

1

2

3

4

5

6

21

Ранги эксперта B

1

2

3

4

5

6

21

Ранги эксперта C

1

2

3

4

5

6

21

Ранги эксперта D

1

2

3

4

5

6

21

Суммы рангов Si

4

8

12

16

20

24

84

Результирующие ранги

1

2

3

4

5

6

= (Si - 84/6)

-10

-6

-2

2

6

10

SV=(? i)2

100

36

4

4

36

100

280

Как и ожидалось - получено предельно высокое значение контрольной суммы. Изменим ранжировки 1-го и 2-го объектов эксперта А (поменяем их местами):

Объекты

1

2

3

4

5

6

Суммы

Ранги эксперта A

2

1

3

4

5

6

21

Ранги эксперта B

1

2

3

4

5

6

21

Ранги эксперта C

1

2

3

4

5

6

21

Ранги эксперта D

1

2

3

4

5

6

Суммы рангов Si

5

7

12

16

20

24

84

Результирующие ранги

1

2

3

4

5

6

DI = (Si - 84/6)

-9

-7

-2

2

6

10

SV=( DI)2

81

49

4

4

36

100

274

Теперь у нас есть второе значение SV, запомним его с пометкой - "встретилось 1 раз".

И … - так придется действовать до тех пор, пока мы не переберем все варианты расстановки рангов, - отмечая у каждой их сумм число повторов.

Слабым утешением может служить лишь, то что количество конкретных вариантов - конечное, определенное число.

Разумеется - сегодня вполне возможно построить алгоритм такого перебора и отправить его в Excel, с приказом сохранять результаты в Access!

Автору этих строк неизвестны примеры реализации подобных расчетов, однако один из подопечных - дипломников (ГКС-99, КриЭНТ, 2004 г.), реализовал несколько другую идею решения задачу распределения контрольных сумм по вариантам.

"Теоретическую основу" составили следующее рассуждения:

Мы проверяем гипотезу об абсолютно случайном выставлении оценок в сессию. При этом учитываем, что повторения оценок (ОТЛ, ХОР и т.д.) - неотъемлемый показатель данного случайного процесса, и приходится применить метод получения количества рангов = числу объектов.

Заставим Excel) действовать "наугад" при выставлении общепринятых оценок по всем дисциплинам и для всех студентов, преобразовывать оценки в ранги, вычислять контрольные суммы и запоминать: значения сумм и количество их повторов этих значений.

Иными словами - будем моделировать сессию в условиях полной несогласованности действий экспертов.

Как и следовало ожидать, - работа по "повторению" нескольких тысяч (!) сессий в этих условиях потребовала несколько десятков минут времени работы Excel.

В итоге была получена выборка из итогового массива (4 дисциплины, 30 студентов), т.е. именно то, что и требовалось. Итоги этого эксперимента сохранены .mdb-файле, выполнен запрос на повторение значений контрольных сумм получилась "справочная таблица прикладной статистики".

Разумеется, - она не достаточно строга - фиксировались значения контрольных сумм - частости их повторений, а "неповторимость" вариантов раскладки рангов оценок.

Однако:

Во-первых, "случайность, равновероятность выставления стандартных оценок - гарантировалась практически идеально (обеспечение - Excell)

Во-вторых, ставилась достаточно корректная задача: обнаружить изменения согласованности методик обучения и оценки знаний НЕ по значению числового показателя, а по его положению на ранговой шкале.

7. Современные методы хранения данных в ИС

Информационные системы

Условимся называть информационной системой (ИС) - файл (или несколько файлов), в котором:

Хранятся информационные массивы, прошедшие все этапы необходимых преобразований, а также программы позволяющие выполнять анализ (чаще всего - статистический), выводить итоги анализа на экран или, при необходимости, - на принтер, а также - в другую ИС.

Уже давно было понятно - методы записи информационных массивов на пассивный носитель, тем более организация записи в виде обычных букв и цифр, затрудняют, а то и не позволяют производить её свёртку, анализ и использование полученных данных.

Дело здесь не столько в скорости ввода сообщений о событиях, не в надежности записи, не в практической невозможности хранения информации в виде, недоступном "постороннему глазу".

Всё это легко и просто решается сегодня с помощью все того же компьютера. Дело в другом - если бы мы даже сейчас "записывали" сообщения, информационные массивы в "удобном для человека" виде, то многие вопросы анализа информационных массивов пришлось бы решать теми же "дедовскими" способами, что и 100…200 лет назад.

Точно так же и с той же надежностью, мы защищали бы хранимую информацию, строя всё более сложные системы паролей, ключевых слов, шифров. Как и следовало ожидать, использование компьютера позволило решать проблемы хранения и защиты путем изменения самих принципов этих процедур.

Рассмотрим обычный "бумажный" архив, это привычное всем место хранения информации о фактах, событиях, величинах, так или иначе связанных с деятельностью человека.

Пусть нам очень нужна информация о фактах выпуска электродвигателей любыми фирмами мира, с начальными оговорками о том, что это только асинхронные двигатели;

двигатели только со стандартной частотой сети в 50 Гц;

двигатели должны быть рассчитаны на стандартное напряжение 380 в;

должны иметь синхронную скорость 1000 либо 1500 об/мин.

Можно будет уточнить свои интересы в этой области, но пока надо оговорить одно обстоятельство.

В обыденном смысле слово "архив" понимается как смесь документов - записей, содержащих информацию о свершившихся фактах. Сведения о них чаще всего требуются в повседневной деятельности и относятся к незначительному числу направлений этой деятельности. Некоторые документы таких архивов мы обязаны хранить вечно, другие могут быть уничтожены через узаконенный промежуток времени. Вместе с тем хранение информации имело и имеет сегодня ещё один аспект.

Примем предлагаемую в 1 схему образования и использования знаний человека, позволяющую оперировать всего тремя понятиями - данные; информация; знания.

Данные - это

описания некоторых явлений и/или процессов, зафиксированные на носителях любого типа.

Информация - это временная форма существования данных, период их интерпретации, свертки, анализа. Иными словами, информация - это трактовка, осмысливание данных. После обработки информации человек получает новую информацию или знания. Знания в таком плане можно рассматривать как трактовку информации.

Именно поэтому сегодня более удобно и правильно говорить о местах хранения данных - базах данных (БД), отделяя этот термин от мест хранения знаний - баз знаний (БЗ), хотя с современных позиций ИТ - слово "база" является устаревшим термином.

Разумеется, можно говорить и о хранении информации, информационных массивов, так как очень часто период трактовки данных растягивается на долго.

По отношению к "бумажным" скоплениям данных, информационных массивов или знаний, термин "база" всегда был непривычен.

Хотя … - можно называть листы бумаги с фиксированными на ней сведениями о чем то, что подлежит дальнейшему рассмотрению, трактовке (записи о фактах несчастных случаев, травматизме на производстве, расходах электроэнергии), - как о базах данных.

Точно так же можно называть книгу - "источником" или базой знаний, хотя, заметим, книга книге рознь.

Вместе с тем, современный подход к информации требует несколько иного понимания термина "база".

Под этим термином лучше всего понимать такое хранилище данных, информации или знаний, в котором:

использован особый способ записи на специальный носитель;

можно применить услуги т.н. системы управления базой (СУБД или СУБЗ);

возможно производить анализ, трактовку содержимого базы по любым алгоритмам, буквально не видя содержимого самой БД или БЗ;

создание самой базы подразумевает непрерывное пополнение её новыми сведениями и непрерывное, оперативное использование её содержания.

Ограничимся рассмотрением вопроса об особенностях современных способов хранения информации на примере баз данных и необходимых для их создания и поддержки СУБД. Вернемся к примеру потребности в данных об электродвигателях.

Пусть все интересующие нас сведения об указанной их разновидности имеются - в виде каталогов, отчетов об их испытаниях на заводе-изготовителе, ценах и тому подобное. Всё это может быть использовано нами, но представлено на бумаге в виде обычных книжных томов или, в лучшем случае - в виде картотеки.

Даже если нам просто необходимо найти сведения о всех двигателях, подходящих нам по начальным условиям, то выполнить это достаточно сложно и …дорого. Должно быть ясно, что конкретных типов (марок) двигателей окажется очень много - это будут изделия разной стоимости, с разными условиями поставки, с разными гарантиями и т.д.

Но, несмотря на очевидную сложность подобной задачи, решить её можно - потребуется труд людей, которые будут просматривать (с обычной для человека скоростью чтения и восприятия текста) бумажные носители, делать выписки из них (руководствуясь некоторым алгоритмом отбора), формировать эти выписки в виде новых бумажных документов и т.д.

Ясно и другое, - если бы вся информация о электродвигателях была записана в виде "электронного документа", то многие проблемы поиска нужных нам сведений были бы разрешены. Многие, но далеко не все.

Запись информационных массивов на диск производится очень быстро, передача такого массива не представляет особых проблем, чтение магнитной записи и представление её на экране дисплея или на бумаге (!) также не занимает много времени.

Остается, таким образом, "пустяк" - сесть и проанализировать имеющуюся уже у нас информацию. Однако обойдется это почти в ту же "кругленькую" сумму и потребует затрат времени заметно меньше: вместо двух месяцев (один - сбор информации с бумажных носителей, второй - на поиск, анализ), только один!

Выход из положения очевиден (и на протяжении 10…15 лет успешно используется). Надо организовывать хранилища информации особым образом, используя некоторые стандарты записи.

Стандарты эти существуют сравнительно давно, они достаточно обоснованы постулатами теории информации, некоторые из этих стандартов можно считать международными.

Никто пока не написал истории разработки таких стандартов, но оптимальность решений, принятых при их создании - очевидна.

Можно предполагать, что базисным решением явилась идея отделения понятий объекта БД от реквизитов (показателей) этого объекта. Рассмотрим на простом примере суть такого разделения.

В компьютерном классе, где проходят занятия студентов трех разных факультетов, по более чем десяти различным дисциплинам, с привлечением соответственно не меньшего количества преподавателей, установлены и используются 10 персональных компьютеров. Занятия проводятся по единому расписанию - в день не более 9 занятий ("пар").

Сведения об этом процессе несут достаточно много информации, причем в совершенно разных аспектах.

Надо (по многим причинам) фиксировать кто именно, на каком компьютере, на котором занятии, под чьим руководством (или самостоятельно) работал, какие оценки получили работавшие.

Так вот, современный подход к задаче созданию и последующего использования базы данных, требует вначале решить вопрос о том, какая информация о каких фактах будут накапливаться и затем анализироваться.

Казалось бы, какая разница? Фактом можно считать одно проведенное занятие в данном классе, можно считать фактом работу преподавателя на данном занятии, можно считать фактом использование данного компьютера в данный отрезок времени и т.п.

Ведь, поскольку все это одинаково важно, то появление каждой новой порции информации должно сопровождаться явным или неявным учетом всех указанных обстоятельств. Мы вернемся к поставленному здесь вопросу, а пока познакомимся с "технической" стороной - как именно должна заноситься информация в компьютер?

С одной стороны, нам известно как - в виде магнитных точек (битов), образующих байты. Размещение связанных единым смыслом цепочек байтов (файлов) поручено операционной системе и она делает это размещение наилучшим способом - в любой момент мы можем "заставить" компьютер показать и/или проанализировать записанное на диск.

С другой стороны, нам далеко не безразлично то, в каком виде мы будем видеть это записанное на экране или на бумаге. Но и это не главное, - современный компьютер обеспечит любой интерфейс, покажет всё так, как мы запрограммируем. Главное в другом, в предстоящем анализе записанного в базу данных. Мы не можем объяснить компьютеру на обычном, человеческом языке, - какие именно данные он должен читать, что с ними делать, что искать, как выдавать на экран итоги или в каком виде (и куда) их записывать для последующего хранения.

Писать все это на языке программирования можно (и приходится), но для этого пользователю - человеку, применяющему информационную технологию) нужно иметь соответствующую квалификацию.

Да, сейчас всё сложилось именно так.

На основе разработанных и уже общепринятых стандартов организации хранения информации, стандартов структуры баз данных, созданы специальные программные средства - системы управления базами данных (СУБД), а также другие специальные наборы программ, позволяющие строить "электронные таблицы" (ЭТ) и управлять использованием содержащейся в них информации.

Но зачем всё это знать и понимать "простому" пользователю всех этих средств?!

Ответ станет ясен, если сообразить, что даже в простом примере о БД "КЛАСС", которую хотелось бы (нет - не просто создать) использовать для решения задач управления обучением, нам придется иметь дело с конкретной СУБД (или пытаться построить такую систему самим).

Сошлюсь на пример из области социологической экономики. Рядовая БД содержит информацию о нескольких тысячах человек, число реквизитов каждого из них превышает 1000, направлений программ оказания социальной помощи - несколько десятков.

Конечно, создание СУБД в этой области невозможно только на основе "стандартных" программных пакетов (приложения MS Office), пришлось усилить, усложнить анализ, доступный в этих стандартных приложениях. Поэтому должно быть ясно, что использование такого могучего аппарата по обработке информации, умение строить свои запросы - невозможны без понимания используемых в этом аппарате принципов хранения информации. Рассмотрим вкратце эти принципы, не останавливаясь на деталях.

Основными понятиями в современной теории и практики СУБД являются понятия "таблица" и "запись". Эти слова знакомы и понятны каждому школьнику и могут служить образом, представлением того, как строится и анализируется БД. Так же, как обычная, бумажная таблица, таблица электронная содержит строки (их-то и называют записями) и столбцы, колонки, которые здесь принято называть полями.

Как и в обычных таблицах, здесь в соответствующем столбце записываются данные одного и того же "сорта", для всех без исключения записей, сколько бы их не было. Но, в отличие от бумажных таблиц, в электронных не используется перекрытие, объединение полей. Иными словами, концепции типов данных (известных уже нам по курсу "Программирование и алгоритмические языки") выдерживаются абсолютно строго.

Ещё одно отличие электронной таблицы от обычной, бумажной - мы можем не задумываться над тем, как магнитные точки на дорожке носителя хранят формат и содержание ячеек таблицы. Достаточно того, что СУБД показывает нам именно таблицу, привычную (и очень полезную!) для человека форму представления данных.

Но некоторые положения, стандарты организации хранения таких, табличных данных нам необходимо знать и понимать. Рассмотреть наиболее важные из них можно на простом примере СУБД "КЛАСС", структуру которой мы начнем строить немедленно. Вопрос о том, какой именно факт, событие в классе должны быть оформлены в будущей таблице БД в виде очередной записи в ней можно решить хотя бы так.

Коль скоро процесс жизни класса, слагается из отдельных промежутков времени (занятий), то будем вводить данные (а затем анализировать их) по простому принципу - в одну строку помещать всю информацию о всех реквизитах факта - контакт студента (пользователя) с компьютером.

Надо знать, что все, в том числе и самые современные СУБД, никак не предопределяют решение вопроса о структуре БД, хотя их разработчики приводят обширный набор примеров из разных отраслей информационных технологий.

Можно, если повезет, использовать подобные примеры, но рано или поздно окажется, что этот вариант самой БД нас уже не удовлетворяет.

Так вот, приняв кардинальное решение: запись в таблице (пока одной единственной) нашей БД - это все учет всех обстоятельств факта контакта - пользователь ? компьютер, надо задуматься над следующим. По сути дела мы решили записывать о таком факте всё, в том числе, естественно, данные поля "Фамилия И.О." Но вот о чем не подумали. Ведь только по одному занятию, в один день каждого из 10 месяцев учебного года нам придется записать 20…25 фамилий! А здесь нас ждут опасности, по крайней мере, две помехи надежного хранения информации.

Первая, очевидная, - мы загружаем в долговременную память компьютера достаточно ёмкую порцию информации: одна фамилия примерно 20 байт, 250 фамилий за десять занятий 5 килобайт, 100 рабочих дней класса за семестр - уже 0,5 мегабайта… И это только по одному столбцу, по одному полю, по одному реквизиту.

Вторая опасность менее очевидна, но более коварна. Скорее всего оператору нашей базы данных придется вводить информацию с клавиатуры, набирая фамилии и инициалы пользователя, номера компьютеров, названия дисциплин, названия групп и т.п. Но оператор - не компьютер, он может совершить ошибку - вместо "Корнилов Г.И." набрать "Крнилов Г.И". В некотором смысле эта ошибка с позиций информационных технологий является фатальной.

При первом же анализе данных обнаружится явная недостача при запросе о выдаче сводки по этому преподавателю - компьютер будет отличать этих "однофамильцев", считать их разными людьми.

Совсем тяжелыми будут ситуации с названиями дисциплин: также неоправданно много байтов потребуется для хранение их на диске, столь же опасными будут ошибки ввода. Выход из положения прост, хорошо известен (даже нам, знакомящимся с основами теории информации и её приложениями), - это кодирование информации и, одновременно, её свертка.

Понять идею такого приёма совсем несложно, более сложно просчитать все те преимущества, которые этот приём даёт. Должно быть ясно, что в базе данных можно хранить не одну, а несколько электронных таблиц. О главной мы уже говорили, в нашем варианте в каждой её строке должна содержаться полная информация о факте. Но никто не мешает создать и хранить в той же базе данных ещё ряд таблиц. Если мы создадим специальную вспомогательную таблицу (дадим ей имя "Дисциплины") и оформим её в виде списка из полных наименований учебных дисциплин, то в любой СУБД мы можем воспользоваться очень важной и удобной услугой - автоматической нумерацией каждой новой записи (если мы пожелаем уничтожить ошибочно введенную - исчезнет её номер, компьютер не присвоит его ни одной из "старых" или очередной введенной).

Чего мы достигнем, создав такую таблицу и корректируя её при необходимости? Осмыслим прежде всего, что мы уже ввели всю информацию о дисциплинах, причем сделали это с контролем правильности всех названий.

В самом деле, зачем хранить в основной таблице строку в 100 или более байт, если можно в этой же самой главной таблице хранить… номер строки, номер дисциплины в общем списке. Ну да, скажет читатель этих строк, оператору придется помнить номера всех дисциплин?

Нет, конечно. Если ему нужно будет ввести такой номер, ввести информацию о дисциплине, - на экране будет высвечено содержание с именами дисциплин (по алфавиту или в любом заранее заказанном порядке). Достаточно щёлчка по названию и код дисциплины будет вписан главную таблицу, будут вписаны 2 или 4 байта вместо 100 (полного имени).

Хорошо, скажете вы, а как же с просмотром информации, как с документами, которые приходится составлять после анализа положения дел, анализа всех данных? Кто же помнит эти номера (коды) дисциплин?

А никто и не помнит! Зачем их помнить, достаточно приказать СУБД выводить вместо кода 12 (число) слова "Теория информации" и всё будет безошибочно, мгновенно и красиво представлено для человеческого глаза.

В этом приеме и заключена суть метода продуманного способа свертки информации и одновременного её кодирования.

Кроме того, в описанном выше изложена суть и полезность применения одного из принципов хранения информации в электронном виде - любые данные, по любому информационному массиву вводятся в БД один и только один раз. Разумеется, современные СУБД позволяют строить базы данных любым способом - вплоть до слепого копирования методов "бумажного" носителя информации, решать и делать выбор варианта должен будущий пользователь, тот, кому требуется использовать в данный момент не энергию, не материю, а информацию.

Вопросы защиты информации

Можно было бы ограничиться рассмотренными ранее (далеко не всеми) аспектами проблемы кодирования информации, но целесообразно затронуть ещё одну сторону кодирования - защиту информации от "чужих" глаз.

Этот вопрос стал актуальным сравнительно недавно (даже по шкале возраста персонального компьютера).

Если и в "докомпьютерную" эру и совсем недавно защита информации производилась "простой" заменой символов исходного текста на другие символы, с известным только отправителю и получателю алгоритмом такой замены, то сегодня, в эпоху Internet такая защита оказалась бессильной перед … скоростными качествами и объемом памяти обычного, рядового компьютера.

Сегодня, как и вчера на рынок программных средств выходит арсенал программ для защиты файлов с важной информацией.

Как ни странно, одним из "козырей" фирмы, рекламирующей свою продукцию, весьма часто является следующий - наша программа является чемпионом потому, что на её взлом потребовалось целых 12 часов работы опытного взломщика, а программы конкурентов рассыпались за меньшее время.

Действительно, существует особый марафон испытаний программ-защитников в их неравной борьбе с программами (точнее - программистами) взлома защиты.

Дело объясняется просто - информация нынче ох, как дорога! А значит, стоит тратить время (программистов) и деньги (фирм - заказчиков взлома), прибыль будем всегда.

Автору этих строк, никогда не работавшему в "странах со здоровой экономикой", трудно судить о морали и совсем невозможно - о экономической целесообразности таких действий.

Хочу лишь поделиться двумя, относительно свежими, "новостями" по теме защиты информации. Вопреки известному анекдоту - вначале о хорошей новости.

За последние два-три года на смену знаменитого метода Ф.Циммермана, метода PGP, приходит принципиально иной метод - т.н. стеганографии.

Суть метода Циммермана внешне не отличается от старинных способов подмены символов - криптографии. Но изюминка его метода - использование двух ключей, одного для кодировки, другого для декодировки информации.

Это делает невозможным взлом установленной защиты никаким способом, кроме атаки в лоб - поиском одного и второго ключа. Первый ключ публикуется открыто и нужен для кодировки посылаемых вам сообщений. Но даже тот, кто только что зашифровал своё сообщение нам, не может тут же расшифровать его, получить свой исходный текст.

Только владелец второго, тайного ключа (а это мы сами) может прочесть зашифрованное сообщение. Разумеется и систему защиты PGP можно взломать прямой атакой, но конечно для этого потребуются уже не часы, а месяцы анализа посылаемых нами и получаемых сообщений. Так вот, шаг вперед в деле защиты информации, сделанный Циммерманом в начале 90-х годов, оказался не последним.

В уже упомянутом методе стеганографической защиты реализована оригинальная идея - вместить текстовый материал в файл с … картинкой или с музыкальным "текстом". Идея очень проста - каждая цветная точка не экране дисплея требует для записи на диске не Один-два, а десятки байтов.

Таких точек на картине среднего по классу компьютера в среднем около 800 тысяч. И если мы подменим всего один байт одной точки другим байтом (конечно же - с кодом нужной нам буквы) или найдем подходящий байт в описании какой то другой точки, то ровно ничего не случится - рисунок трудно будет отличить от оригинала, в котором эти точки светятся чуть другим цветом. Для той же цели можно использовать другой продукт Multi Media - файлы музыкальных записей.

Осталось только сообщить адресату алгоритм поиска таких "болевых" точек в закодированном файле, который при просмотре или прослушивании трудно в чем либо заподозрить.

В заключение о второй, плохой "новости".

Точнее о тревоге пользователей ПК вообще и клиентов всемирной паутины в частности. Дело в том, что практически все развитые государства, в первую очередь это США и Россия (так непохожие друг на друга) ведут одну и ту же политику в отношении проблем защиты информации. Существуют специальные государственные службы (Агентство Национальной Безопасности в США и Федеральное Агентство Правительственной Связи и Информации в России), которые имеют исключительные права выдачи сертификатов на продукцию фирм - разработчиков средств защиты. Настораживает то, что получить сертификат практически невозможно, если вы не сотрудничаете с АНБ или ФАПСИ.

Кончается это тем, что любая программа защиты информации от несанкционированного доступа, имеет "черный вход" - обход защиты и этот вход известен разработчику и … государству.

Литература

1. Валькман Ю.Р. Концептуальная информатика и информационные технологии: учебно-методическое пособие / Под общей редакцией к.т.н. Г.Н.Сердюка. - К.: ЗАО "Институт интеллектуальной собственности и права", 2000. - 144 с.

2.Бауэр Ф.Л., Гооз Г. Информатика. Вводный курс; ч.1.- М.:МИР,1990, - 336 с.

3. Кэндэл М. Ранговые корреляции. - Зарубежные статистические исследования, М., "Статистика", 1975. - 216 с.

4 Кэндэл М., Стюарт А. Статистические выводы и связи; 1973.

5. Рунион Р. Справочник по непараметрической статистике: Современный подход. - М: Финансы и статистика, 1982. - 198 с.

6. Коваленко И.Н., Филиппова А.А. Теория вероятностей и математическая статистика. Уч. пособие для втузов. - М., "Высшая школа", 1973 г., - 368 с.

7. Вентцель Е.С. Элементы динамического программирования. - М., "Наука, 1964. - 176 с.

8. Холлендер М., Вулф Д.. Непараметрические методы статистики. - М., "Наука", 1983.

9. Чернов Г., Мозес Л. Элементарная теория статистических решений .. "Наука", 1962.

Размещено на Allbest.ru

...

Подобные документы

  • Объединение как совокупность нескольких ансамблей дискретных, случайных событий. Безусловная энтропия - среднее количество информации, приходящееся на один символ. Описание информационных свойств непрерывного источника. Понятие дифференциальной энтропии.

    контрольная работа [106,8 K], добавлен 28.07.2009

  • Анализ способов построения генераторов случайных чисел для криптографических задач. Анализ генератора случайных чисел на основе магнитометров. Анализ статистических свойств двоичных последовательностей, полученных путем квантования данных магнитометра.

    дипломная работа [2,5 M], добавлен 06.05.2018

  • Энтропия и количество информации. Комбинаторная, вероятностная и алгоритмическая оценка количества информации. Моделирование и кодирование. Некоторые алгоритмы сжатия данных. Алгоритм арифметического кодирования. Приращаемая передача и получение.

    курсовая работа [325,1 K], добавлен 28.07.2009

  • Моделирование термодинамической системы с распределенными параметрами, случайных процессов и систем. Статистическое (имитационное) моделирование физических процессов, его результаты. Компьютерное моделирование систем управления с помощью пакета VisSim.

    методичка [2,7 M], добавлен 24.10.2012

  • Применение и генерирование независимого случайного процесса. Исследование вариантов формирования случайных величин с разными законами распределения. Оценка их независимости с помощью построения гистограммы распределения в программной среде LabVIEW.

    контрольная работа [611,5 K], добавлен 18.03.2011

  • Способы получения случайных чисел в программировании и их использование для решения ряда задач. Принцип действия и тестирование работы генератора случайных чисел в Borland C++, его преимущества. Генерация одномерной и двумерной случайной величины.

    лабораторная работа [105,4 K], добавлен 06.07.2009

  • Состояние защищенности информации и информационной среды от случайных или преднамеренных воздействий. Цели информационной безопасности, классификация угроз. Обеспечение конфиденциальности, целостности, доступности информации; правовая защита человека.

    презентация [487,2 K], добавлен 11.04.2016

  • Технология сбора информации традиционными методами. Правила сбора оффлайновой информации. Технические средства сбора информации. Операции для быстрого восстановления данных в системах хранения. Технологический процесс и процедуры обработки информации.

    курсовая работа [304,5 K], добавлен 02.04.2013

  • Способы передачи и хранения информации наиболее надежными и экономными методами. Связь между вероятностью и информацией. Понятие меры количества информации. Энтропия и ее свойства. Формула для вычисления энтропии. Среднее количество информации.

    реферат [99,7 K], добавлен 19.08.2015

  • Применение случайных чисел в моделировании, выборке, численном анализе, программировании и принятии решений. Понятие равномерного распределения вероятности. Способы получения последовательности. Правила выбора модуля. Критерий Колмогорова-Смирнова.

    курсовая работа [1,3 M], добавлен 17.03.2011

  • Разработка прикладного программного обеспечения для организации взаимодействия с измерительной и управляющей аппаратурой с помощью LabVIEW. Генерирование коррелированных случайных процессов и последовательностей, применение рекурсивного фильтра.

    контрольная работа [1,1 M], добавлен 18.03.2011

  • Наиболее распространённые пути несанкционированного доступа к информации, каналы ее утечки. Методы защиты информации от угроз природного (аварийного) характера, от случайных угроз. Криптография как средство защиты информации. Промышленный шпионаж.

    реферат [111,7 K], добавлен 04.06.2013

  • Проектирование датчика случайных чисел, пригодного для моделирования случайной последовательности с заданным законом распределения. Методы моделирования. Разработка алгоритма и программы датчика. Исследование свойств выработанной им последовательности.

    лабораторная работа [124,2 K], добавлен 15.06.2010

  • Синтез стохастических систем при неполной информации о векторе переменных состояния. Оптимальное наблюдение (оптимальная фильтрация). Восстановление переменных состояния нелинейных объектов. Оптимальный наблюдатель (оптимальный фильтр Калмана -Бьюси).

    реферат [732,9 K], добавлен 06.06.2015

  • Фильтр Калмана как эффективный рекурсивный метод, оценивающий вектор состояния динамической системы, используя ряд неполных и зашумленных измерений. Сравнительная характеристика алгоритмов компьютерного моделирования случайных последовательностей.

    дипломная работа [1,9 M], добавлен 17.06.2017

  • Сущность и методика исследования вероятностной структуры сигналов, законы распределения случайных величин. Проверка гипотезы по критерию Колмогорова-Смирнова и Пирсона. Разработка программы вычисления признаков и формирования обучающего множества данных.

    курсовая работа [509,6 K], добавлен 03.12.2009

  • Написание программы для генерации случайных чисел, в которой реализуются возможности генерации абсолютно случайных чисел. Приложение на языке С/С++. Описание узла, содержащего данные; функций и методов работы; чтения данных из памяти и вывода их на экран.

    курсовая работа [172,4 K], добавлен 23.05.2012

  • Количество информации и ее мера. Определение количества информации, содержащегося в сообщении из ансамбля сообщений источника. Свойства количества информации и энтропии сообщений. Избыточность, информационная характеристика источника дискретных сообщений.

    реферат [41,4 K], добавлен 08.08.2009

  • Понятие информационной безопасности, понятие и классификация, виды угроз. Характеристика средств и методов защиты информации от случайных угроз, от угроз несанкционированного вмешательства. Криптографические методы защиты информации и межсетевые экраны.

    курсовая работа [2,4 M], добавлен 30.10.2009

  • Механизм передачи информации, ее количество и критерии измерения. Единицы информации в зависимости от основания логарифма. Основные свойства и характеристики количества информации, ее энтропия. Определение энтропии, избыточности информационных сообщений.

    реферат [33,9 K], добавлен 10.08.2009

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.