Методика статистического анализа характеристик входных потоков запросов в системах обработки информации

Описание структуры процесса анализа характеристик потока событий. Изучение статистических методов анализа данных с целью установления стационарности потока заявок. Описание этапов при исследовании входных потоков данных для систем обработки информации.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 27.07.2017
Размер файла 66,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Методика статистического анализа характеристик входных потоков запросов в системах обработки информации

В.А. Зуев, А.Н. Панфилов, А.Н. Скоба

Южно-Российский государственный политехнический университет,

Новочеркасск

Аннотация

В статье приводится описание наиболее важных этапов, выполняемых при исследовании входных потоков данных для систем обработки информации.

Ключевые слова: моделирование, запрос, распределение, случайная величина, поток событий, интенсивность потока, статистический анализ, критерий, стационарность, пуассоновский процесс, уровень значимости.

Одной из основных задач определения исходных данных для моделирования процессов обработки информации в распределенных системах обработки информации (СОИ) является нахождение функции f(t), представляющую собой плотность распределения интервалов времени между запросами пользователей СОИ. Эти интервалы составляют случайную последовательность событий и для ее оценки их характеристик необходимо провести процедуру статистического анализа. Исходными данными для статистического анализа являются следующие величины: xi,k - длины временных интервалов между соседними запросами от k-го пользователя СОИ, где , , nk - объем выборки для k-го пользователя, - общее число пользователей СОИ; nj,k - число запросов от k-го пользователя, поступивших в равные промежутки времени ,.

На рис.1 показана структура процесса анализа характеристик потока событий. Одной из первоочередных задач статистического анализа потоков событий является проверка независимости и одинаковости распределения случайных величин. Для решения этой задачи используются критерии, основанные на выборочных коэффициентах корреляции и критерии, базирующиеся на спектральной плотности интервалов [1,2].

В соответствии с первым типом критериев, гипотеза о независимости отвергается уровнем значимости , если или , где является верхней (?/2) - квантилью единичного нормального распределения; - коэффициент корреляции k-го пользователя СОИ с аргументом запаздывания j, который определяется следующим образом:

, где

,

, ,

.

Рис. 1.- Структура процесса анализа характеристик потока событий

Анализ статистических данных с целью установления стационарности потока заявок основан на двух типах методов [1-5]. Первый тип использует стандартные методы наименьшей квадратичной регрессии, а методы второго типа базируются на эффективном теоретическом анализе специальных математических моделей, например, пуассоновского процесса, параметр которого изменяется по некоторому простому закону. Так наиболее эффективным является критерий, предполагающий в качестве нулевой гипотезы пуассоновский процесс, а в качестве конкурирующей - нестационарный пуассоновский процесс с интенсивностью наступления событий вида , где б и в являются неизвестными параметрами. При этом проверка нулевой гипотезы в =0 для сводится к вычислению выражения:

,

где ; - период наблюдений.

Нулевая гипотеза принимается, если uk отличается от нуля менее, чем на 5%. Знак uk указывает на возрастание или убывание интенсивности.

Одним из стандартных критериев для проверки гипотезы о том, что интервалы xi,k являются наблюденными значениями случайной величины, имеющей показательное распределение с параметром , является дисперсионный критерий, основанный на статистике:

,

где .

При нулевой гипотезе распределение величины d хорошо аппроксимируется распределением с (n-1) степенями свободы.

Существует много параметрических семейств функций распределения, которые можно использовать в качестве модели для распределения интервалов времени между событиями процесса восстановления. Наиболее важным из них является распределение Эрланга, плотность распределения которого имеет вид:

,

где xk(n0,k) - время от начала отсчета до генерации n0,k - го по счету запроса k-го пользователя; n0,k -фиксированное целое число, причем n0,k принадлежит отрезку [0, nk]; ?k - интенсивность формирования запросов k- пользователя. статистический поток данные информация

Для оценки параметров ?k и no,k можно воспользоваться критериями ?2.

В ряде технических приложений, описанных в работе [6], встречаются нестационарные пуассоновские процессы, т.е. процессы, в которых интенсивность наступления событий сама является функцией времени ?(t), причем очень часто величина ?(t) является реализацией стационарного случайного процесса. Общих методов анализа характеристик таких процессов пока не существует. Единственное общее указание, которое можно сделать относительно анализа потоков событий такого типа, состоит в том, что оценки параметров и проверка гипотез значительно упрощается, если удается обнаружить определенные закономерности процесса (например, спектральную плотность целочисленного процесса).

Среди последовательностей событий, интервалы времени между которыми не являются одинаково распределенными, наибольшее практическое значение имеют так называемые последовательности событий, смещенные случайными воздействиями. Это процессы, в которых события должны проходить согласно расписанию через определенные интервалы времени, но по различным причинам отклоняются от этих предписанных моментов времени. Наиболее простая модель таких последовательностей получается, если предположить, что согласно расписанию, события должны проходить последовательно через интервал времени а и что задержки являются независимыми и одинаково распределенными случайными величинами. Тогда действительным моментом времени наступления по расписанию события является: . Здесь bk является реализацией некоторой случайной величины В, с функцией распределения и дисперсией . В работе [6] приведены основные соотношения для статистической оценки корреляции интервалов времени между событиями такого типа.

Для сравнения интенсивностей потоков запросов от каждого пользователя СОИ можно использовать критерии, основанные на отношении функции максимального правдоподобия и индексе дисперсии [1]. Нулевая гипотеза состоит в равенстве , а конкурирующая гипотеза предполагает различную интенсивность для каждого из k пользователей распределенной СОИ. При нулевой гипотезе случайная величина имеет распределение с степенями свободы. При малом уровне значимости случайной величины Н, не позволяющем сделать окончательных выводов о справедливости нулевой гипотезы, равенство интенсивностей потоков проверяется по критерию индекса дисперсии [1,2].

Основные этапы предложенной методики статистического анализа входных потоков были реализованы в среде MatLab [7,8] и использованы для оценивания потока запросов пользователей информационных систем организационного управления. Экспериментальные данные подтверждают гипотезу о стационарности, независимости и экспоненциальной плотности распределения времени между запросами.

Литература

1. Кокс Д., Льюис П. Статистический анализ последовательности событий. М.: Мир, 1969. 312с.

2. Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир, 1989. 540с.

3. Андерсон Т. Статистический анализ временных рядов. М.: Мир, 1976. 755 с.

4. Hamilton, J.D., 1994. Time Series Analysis. Princeton University Press, 820 p.

5. Большаков И. А., Ракошиц В. С. Прикладная теория случайных потоков. М.: Сов.радио, 1978. 248 с.

6. Оран Э., Борис Дж. Статистическое моделирование реагирующих потоков. М.:Мир, 1990. 390с.

7. Martinez, W.L. and A.R. Martinez, 2002. Computational Statistics Handbook with MATLAB. London: CHAPMAN & HALL/CRC, 763 p.

8. Дьяконов В. MATLAB: учебный курс. СПб: Питер, 2001. 560с.

9. Зырянов В.В. Методы оценки адекватности результатов моделирования // Инженерный вестник Дона, 2013, №2 URL:ivdon.ru/ru/magazine/archive/n2y2013/1707/.

10. Якоб Д.А. Разработка алгоритма нахождения входного потока заявок в имитационной модели контрольно-пропускной системы на основе статистических данных //Инженерный вестник Дона, 2014, №3 URL:ivdon.ru/ru/magazine/archive/n3y2014/2480/.

References

1. Koks D., L'yuis P. Statisticheskiy analiz posledovatel'nosti sobytiy. M.: Mir, 1969. 312 p.

2. Bendat Dzh., Pirsol A. Prikladnoy analiz sluchaynykh dannykh [Random Data. Aanalysis and Measurement Procedure]. M.: Mir, 1989. 540 p.

3. Anderson T. Statisticheskiy analiz vremennykh ryadov [Statistical analysis of temporary ranks]. M.: Mir, 1976. 755 p.

4. Hamilton, J.D., 1994. Time Series Analysis. Princeton University Press, 820 p.

5. Bol'shakov I. A., Rakoshits V. S. Prikladnaya teoriya sluchaynykh potokov. M.: Sov. radio, 1978. 248 p.

6. Oran E., Boris Dzh. Statisticheskoe modelirovanie reagiruyushchik hpotokov. M.: Mir, 1990. 390 p.

7. Martinez, W.L. and A.R. Martinez, 2002. Computational Statistics Handbook with MATLAB. London: CHAPMAN & HALL/CRC, 763 p.

8. D'yakonov V. MATLAB: uchebnyy kurs. SPb: Piter, 2001. 560 p.

9. Zyryanov V.V. Inћenernyj vestnik Dona (Rus), 2013, №2 URL:ivdon.ru/ru/magazine/archive/n2y2013/1707/.

10. Yakob D.A. Inћenernyj vestnik Dona (Rus), 2014, №3 URL:ivdon.ru/ru/magazine/archive/n3y2014/2480/.

Размещено на Allbest.ru

...

Подобные документы

  • Обзор существующих методов межпроцедурного анализа. Получение входных и выходных данных подпрограмм с помощью графа алгоритма. Описание входных и выходных данных подпрограммы в терминах фактических параметров. Определение параллелизма по графу алгоритма.

    учебное пособие [77,5 K], добавлен 28.06.2009

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Уровневая архитектура компьютерных ресурсов CMS. Поток данных от детекторов для анализа. Сокращение размера событий: CMS форматы данных и форматы Тир-данных. Иерархия CMS данных. Средства удаленной работы на LINUX машинах в CERN: PUTTY, WinSCP и Xming.

    курсовая работа [3,1 M], добавлен 17.02.2014

  • Изучение существующих методов и программного обеспечения для извлечения числовых данных из графической информации. Программное обеспечение "graphtrace", его структура и методы обработки данных. Использование этой системы для данных различного типа.

    дипломная работа [3,9 M], добавлен 06.03.2013

  • Библиотека как элемент образовательной среды. Основные технологии работы библиотеки общеобразовательного учреждения. Описание входных и выходных потоков информации. Выбор системы управления базами данных и создание схемы данных. Тестирование базы данных.

    дипломная работа [1,5 M], добавлен 13.10.2015

  • Разработка и описание программы анализа параметров и характеристик реализации случайного процесса: оценка статистических характеристик и плотности распределения реализации, корреляционных и спектральных характеристик реализации случайного процесса.

    курсовая работа [708,8 K], добавлен 25.12.2008

  • Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.

    реферат [22,5 K], добавлен 05.02.2011

  • Описание формата и структуры входных и выходных файлов. Выбор языка программирования и Perl модуля для генерации документов в формате pdf. Валидация почтового адреса. Процесс создания алгоритма обработки данных. Структура штрихкодового идентификатора.

    дипломная работа [1,6 M], добавлен 04.11.2015

  • Требования и структура систем обработки экономической информации. Технология обработки информации и обслуживание системы, защита информации. Процесс создания запросов, форм, отчетов, макросов и модулей. Средства организации баз данных и работы с ними.

    курсовая работа [2,7 M], добавлен 25.04.2012

  • Создание программы для обработки и хранения информации о пациентах, сделанных им назначениях и их выписке из больницы. Описание структуры и определение формы представления входных и выходных данных. Разработка системы средствами C++ и Builder 6.0.

    курсовая работа [552,0 K], добавлен 19.02.2013

  • Понятие баз данных, их место в сфере обработки информации. Разработка базы данных транспортных потоков для работы в геоинформационной системе ArcGis. Учет и анализ интенсивности движения на участках улично-дорожной сети на примере г. Ростова-на-Дону.

    курсовая работа [4,0 M], добавлен 06.12.2012

  • Изучение особенностей информационного процесса обработки данных. Процессы, связанные с поиском, хранением, передачей, обработкой и использованием информации. Основные режимы обработки данных на ЭВМ. Организация обслуживания вычислительных задач.

    реферат [130,9 K], добавлен 28.09.2014

  • Обзор моделей анализа и синтеза модульных систем обработки данных. Модели и методы решения задач дискретного программирования при проектировании. Декомпозиция прикладных задач и документов систем обработки данных на этапе технического проектирования.

    диссертация [423,1 K], добавлен 07.12.2010

  • Основные подходы к организации данных в системах автоматизированной обработки информации. Требования к проектированию базы данных. Принципы включения операторов языка манипулирования данными в прикладную программу. Описание логической структуры БД.

    реферат [104,2 K], добавлен 28.11.2011

  • Комбинированный тип данных для хранения входных данных о студентах и информация, содержащаяся в полях. Пример структуры входных и выходных данных. Алгоритм работы и программный код программы по успеваемости студентов, описание используемых функций.

    курсовая работа [135,9 K], добавлен 28.12.2012

  • Выбор и обоснование критериев эффективности и качества разрабатываемой программы. Актуальность автоматизации процесса обучения. Разработка автоматизированной технологии обработки информации. Определение формы представления входных и выходных данных.

    курсовая работа [739,6 K], добавлен 17.01.2015

  • Выбор беспроводной технологии передачи данных. Механизмы управления качеством передачи потоков. Программное обеспечение приемной и передающей станции. Эксперименты, направленные на изучение неравномерности передаваемого потока данных при доступе к среде.

    дипломная работа [1,1 M], добавлен 18.05.2012

  • Технические характеристики: постановка задачи, описание основных типов входных и выходных данных. Описание алгоритмов основной программы и процедур удаления и исправления данных в таблицах. Выбор языка программирования. Технико-экономические показатели.

    курсовая работа [478,1 K], добавлен 28.12.2012

  • Характеристика организации автоматизированной обработки. Схема данных и ее описание. Характеристика входной и выходной информации. Организация технологического процесса сбора, передачи, обработки и выдачи информации. Формализация автоматизируемых задач.

    курсовая работа [941,7 K], добавлен 22.11.2013

  • Разработка технологии обработки информации, структуры и формы представления данных. Проектирование программных модулей. Блок-схема алгоритма и исходный код программы анализа арифметического выражения, синтаксического анализа простой программы на языке С.

    курсовая работа [2,4 M], добавлен 12.12.2011

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.