Элементы программного обеспечения объектов исследования с помощью языка VBA в среде MSEXCEL

Разработка комплекса элементов теории классификации на примере алгоритма прямой классификации упрощенным методом K – ближайших соседей. Интерпретация полученных результатов эмпирической статистической обработки данных в среде встроенного пакета Excel.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 25.12.2017
Размер файла 51,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru//

Размещено на http://www.allbest.ru//

Элементы программного обеспечения объектов исследования с помощью языка VBA в среде MSEXCEL

Сагындикова

В статье разработан комплекс элементов теории классификации на примере алгоритма прямой классификации упрощенным методом K - ближайших соседей; интерпретации полученных результатов эмпирической статистической обработки данных.

Введение

Всё множество задач элементов статистической обработки данных сводится к задачам описания и прогноза. На начальном этапе статистического исследования ставится цель определения объекта и его описания. В том случае, если объектом исследования является выборка, то методами разведочного (предмодельного) статистического анализа данных необходимо определить вероятностную и геометрическую природу обрабатываемых данных, а также выяснить, однородны ли имеющиеся эмпирические данные, т.е. целесообразно ли разбиение совокупности на части, представляющие собой кластеры. В последствии на основе этих заключений формируются адекватные реальности рабочие допущения, на основе которых осуществляется дальнейшее исследование.

Поэтому стала актуальной проблема разработки средств автоматизации, позволяющих построить статистическую модель в виде эмпирического описания структуры данных, которую необходимо в ходе статистического исследования верифицировать.

Если объектом исследования является выборка, которая принадлежит к нормальному распределению, то задача статистической обработки сводится к оценке её параметров. Для оценки параметров выборки можно воспользоваться методом нормальной вероятностной бумаги. В том же случае, когда конкретный вид функции распределения неизвестен, и о виде распределения можно сделать лишь самые общие предположения, то при таких условиях можно воспользоваться аппроксимациями неизвестной функции распределения на основе выборки (x 1, x 2 ,..., x N ) , называемыми непараметрическими, а именно - гистограммой и полигоном частот для статистических данных с разбиением на интервалы равной длины, или с разбиением на равно наполненные интервалы, непараметрической оценкой функции плотности распределения вероятности для статистических данных методом прямоугольных вкладов.

Эти методы предусматривают однообразные и рутинные вычисления, поэтому стала актуальной разработка средств автоматизации проверки правильности производимых расчётов.

Работа посвящена созданию обучающих средств, помогающих студентам в изучении и освоении метода оценки параметров выборки с помощью нормальной вероятностной бумаги, непараметрических методов аппроксимации функции распределения и метода классификации экспериментальных данных упрощенным алгоритмом K - ближайших соседей.

В качестве среды реализации алгоритма был выбран встроенный пакет анализа данных EXCEL, потому что он является базовым компонентом Microsoft Office и доступен большинству обычных пользователей.

Первичные данные, полученные при наблюдении, обычно трудно обозримы. Для того чтобы начать анализ, в них надо внести некоторый порядок и придать им удобный для исследователя вид. В частности, для начала желательно получить представление об одномерных распределениях случайных величин, входящих в данные.

Существуют два типа задач аппроксимации распределений [2,4]. Если вид функции распределения известен, но не известны ее параметры, тогда задача сводится к параметрическому оцениванию. Бывают ситуации, когда конкретный вид функции распределения неизвестен, и о виде распределения можно сделать лишь самые общие предположения. При таких условиях аппроксимацию неизвестной функции распределения на основе выборки (x 1, x 2 ,..., x N )называют непараметрической.

Средства автоматизации алгоритма прямой классификации

Разработанные средства автоматизации алгоритма прямой классификации предназначены для использования в процессе изучения студентами азов теории классификации. Они ориентированы на выработку у студентов интуиции о влиянии характера исходных данных, а также способов измерения близости между объектами и типе нормировки на результат классификации.

Диалог с пользователем осуществляется при помощи пользовательской формы. При нажатии на соответствующие кнопки формы, происходит выполнение необходимых вычислений. Действия, которые производят разработанные макросы для кнопок, разбиты на 5 этапов.

Этап 1. Генерация выборки. Для изучения влияния характера исходных данных на результат классификации используется генерация псевдослучайных величин средствами EXCEL.

С помощью генератора случайных чисел можно построить последовательности с нормальным распределением. Очень многие модели, построенные с помощью этого распределения, хорошо соответствуют действительности. Чтобы построить последовательность значений нормально распределенной случайной величины, необходимо задать математическое ожидание и дисперсию.

Чтобы сгенерировать последовательность, необходимо воспользоваться функцией из встроенного пакета анализа данных:

Выбрать команду Сервис, Анализ данных (Tools, DataAnalysis). Появляется диалоговое окно Анализ данных

Выбрать пункт Генерация случайных чисел (Random Number Generation).

Появляется диалоговое окно Генерация случайных чисел.

Выбрать Нормальное распределение в списке Распредеение (Distribution).

Ввести число 3 в поле Число переменных (Number of Variables), что означает число столбцов, которые заполнены последовательностью.

Ввести число 20 в поле Число случайных чисел (Number Random Numbers), т. е. последовательность занимает 20 строк.

Нажать кнопку ОК. Если указанный на рабочем листе диапазон содержит другие данные, появится окно сообщения, где необходимо будет подтвердить замену данных.

EXCEL создаст последовательность.

Первая половина выборки в разработанном макросе сгенерирована случайным образом из нормального распределения с параметрами математическое ожидание 0 и дисперсия 1 (м = 0, у = 1).

Вторая половина выборки сгенерирована случайным образом из нормального распределения с параметрами математическое ожидание 2 и дисперсия 1 (м = 2, у = 1).

Замечание. Для изменения исходных параметров в теле макроса делаются корректировки. Например, для математического ожидания со значением 0 дисперсии со значением 1 данный фрагмент реализации в макросе выглядит следующим образом:

For i = 1 To m Randomize

Cells(i + 1, 1) = RndN(0, 1) Next i

For i = 1 To m Randomize

Cells(i + 1, 2) = RndN(0, 1) Next i

For i = 1 To m Randomize

Cells(i + 1, 3) = RndN(0, 1) Next i

Этап 2. Рабочие расчеты. Для классификации необходимо провести дополнительные рабочие расчеты, как-то: вычисление максимальных и средних элементов выборки, нормировка выборки.

Первоначально каждый объект заданной совокупности описан тремя признаками по двадцать элементов каждый.

Для каждых членов исходных рядов в ячейки D4, E4, F4 заносятся значения, соответствующие средним значениям.

Для каждых членов исходных рядов в ячейки D7, E7, F7 заносятся значения, соответствующие максимальным значениям.

В процессе исследования в качестве нормировок были выбраны две. 

 

Этап 3 Расчет матриц расстояний. В качестве определения расстояния между объектами выбраны линейное и евклидово расстояния.

Этап 4 Выделение 2 классов, вывод промежуточных результатов. На этом этапе производится выделение двух классов для построенных на первом этапе исходных данных. Начальное разбиение выборки задается двумя способами. Первый способ заключается в том, что первая половина элементов выборки принимается за первый класс, а вторая - за второй. Второй способ разбиения заключается в том, что в первый класс будут входить нечетные элементы выборки, а во второй - четные. На рабочем листе при помощи макроса реализованы следующие действия: отображено первоначальное разбиение выборки на 2 класса, промежуточные результаты по работе макроса, будет отображение конечного результата разбиения выборки на два класса. По полученным разбиениям построены графики, наглядно изображающие два класса.

Этап 5 Очищение ячеек. Начальные данные, вводимые для исследования, всегда различны. Поэтому на пользовательской форме предусмотрена кнопка, выполняющая полную очистку ячеек с ранее полученными результатами.

Заключение

классификация статистический данные

В ходе статьи изучены:

краткие теоретические сведения о типах методов кластерного анализа, об алгоритмах прямой классификации;

сведения об оценке функции распределения с помощью нормальной вероятностной бумаги;

теоретические сведения о статистической аппроксимации законов распределения, гистограмме и полигоне частот, оценке плотности распределения вероятностей «ядерного» типа.

С целью более глубокого изучения задач статистического описания объектов разработаны алгоритмы и программные обеспечения посредством Visual Basicfor Application в среде встроенного пакета анализа данных Exel.

В ходе выполнения статьи на основе теоретических сведений и разработанных алгоритмов программного обеспечения разработаны и реализованы в среде встроенного пакета анализа данных MicrosoftEXCEL средства автоматизации, которые позволяют быстро и эффективно получить требуемую информацию о классификации выборки упрощенным методом К - ближайших соседей, о правильности выполнения лабораторной работы на тему «Оценка функции распределения с помощью нормальной вероятностной бумаги» из курса «Пакеты статистической обработки данных», а также аппроксимировать неизвестную функцию плотности распределения непараметрическими методами.

Литература

Айвазян С.А., Бухштабер В.М., Енюков И.С. и др. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика. -605с.

Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: основы моделирования и первичная обработка данных. - М.: Финансы и статистика. -472c.

Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. -М.: Мир.1982. -405с.

О формировании эмпирического образа данных/ Осипенко А.Н., Осипенко Н.Б.//-M.: НТИ. Сер. 2. 1990. -С.30-35.

Пособие для лабораторных занятий по спецкурсу «Обработка экспериментальных данных на ЭВМ» (для специальностей Н.01.01 и Н.08.01)/ Максимей И.В., Осипенко Н.Б., Осипенко А.Н. Гомель: ГГУ, 1998. -54с.

Мандель И.Д. Кластерный анализ. - М.: Финансы и статистика, 1988. -172с.

Размещено на Allbest.ru

...

Подобные документы

  • Принципы решения задач линейного программирования в среде электронных таблиц Excel, в среде пакета Mathcad. Порядок решения задачи о назначении в среде электронных таблиц Excel. Анализ экономических данных с помощью диаграмм Парето, оценка результатов.

    лабораторная работа [2,0 M], добавлен 26.10.2013

  • Технологии обработки экономической информации в среде ТП MS Excel. Работа в среде СКМ Maple. Технологии обработки данных в среде СУБД MS Access и анализ языка запросов SQL как средства расширения возможностей СУБД. Разработка отчетов в СУБД Access.

    контрольная работа [1,5 M], добавлен 04.04.2012

  • Анализ исходных данных. Определение структуры модуля для работы файлом. Разработка объектно-ориентированного приложения, использующего массив объектов, в среде Delphi. Модульная структура программного комплекса. Процедура сортировки методом вставки.

    курсовая работа [2,2 M], добавлен 20.09.2014

  • Особенности составления электронной ведомости начисления заработной платы сотрудникам ЦИТ за текущий месяц в программной среде MSExcel. Характеристика математической модели решения задачи. Анализ экономических сведений о сотрудниках, показателей работы.

    курсовая работа [1,2 M], добавлен 13.11.2014

  • Общая характеристика данных. Характеристики основных типовых структур. Расчет размеров отчислений с заработной платы по каждому сотруднику в среде MS Excel. Формирование межтабличных связей для автоматического формирования ведомости расчета ЕСН.

    курсовая работа [371,0 K], добавлен 25.04.2013

  • Изучение принципа работы интернет-аукциона (на примере сайта molotok.ru). Способ получения информации с веб-ресурсов. Разработка программного обеспечения с целью создания исходных данных для обучения нейронных сетей и классификации товаров с их помощью.

    дипломная работа [2,0 M], добавлен 29.06.2012

  • Решение циклических программ и программ вычисления функции с условием. Уравнение в табличном редакторе Microsoft Excel и в Turbo Pascal. Вычисление определенного интеграла методом прямоугольников, трапеции, Симпсона. Линейные и нелинейные уравнения.

    курсовая работа [233,6 K], добавлен 27.12.2009

  • Создание программы в среде LabVIEW 7.1 для аудиометра – прибора для исследования чувствительности слуха. Определение входных и выходных данных системы, алгоритма обработки данных. Схемы и диаграммы, необходимые для разработки программного продукта.

    курсовая работа [2,6 M], добавлен 03.04.2012

  • Программное обеспечение для получения исходных данных для обучения нейронных сетей и классификации товаров с их помощью. Алгоритм метода обратного распространения ошибки. Методика классификации товаров: составление алгоритма, программная реализация.

    дипломная работа [2,2 M], добавлен 07.06.2012

  • Определение параметров линейной зависимости из графика. Метод парных точек. Метод наименьших квадратов. Блок-схема программного комплекса в Microsoft Visual Studio и Microsoft Excel. Инструкция пользователя, скриншоты. Общий вид программного кода.

    курсовая работа [2,1 M], добавлен 29.11.2014

  • Аналитический обзор видеосистем с элементами интеллектуальной обработки видеоконтента: FaceInspector, VideoInspector Xpress. Разработка алгоритма организации вычислительных средств комплекса, в структуру поэтапного решения задачи анализа видеообъекта.

    дипломная работа [3,4 M], добавлен 14.06.2012

  • Освоение функций работы со структурами данных и файлами. Разработка программного обеспечения для создания, обработки сведений о сотрудниках учреждения. Реализация алгоритма программы в среде Microsoft Visual Studio 2010. Изучение руководства пользователя.

    курсовая работа [3,3 M], добавлен 28.08.2012

  • Повышение эффективности системы управления информационной безопасностью в корпоративных информационных системах. Разработка структуры процесса классификации объектов защиты и составляющих его процедур; требования к архитектуре программного обеспечения.

    дипломная работа [1,8 M], добавлен 19.05.2013

  • Описания объектов, свойств, методов, формы и основных модулей текста программы в среде Delphi. Создание Windows-приложения на алгоритмическом языке Object Pascal в среде визуального программирования. Анализ результатов тестирования программного продукта.

    курсовая работа [2,4 M], добавлен 27.08.2012

  • Общая структура микропроцессора. Жизненный цикл программного обеспечения. Проектирование схемы операционного блока, создание временных диаграмм с использованием средств Microsoft Office и в среде OrCAD. Разработка алгоритма хранения значений констант.

    курсовая работа [839,5 K], добавлен 24.07.2013

  • Пример дерева решений. Анализ древовидной структуры данных. Предикторные (зависимые) переменные как признаки, описывающие свойства анализируемых объектов. Решение задач классификации и численного прогнозирования с помощью деревьев классификации.

    презентация [391,1 K], добавлен 09.10.2013

  • Разработка приложения для шифрования данных с помощью алгоритма DES5: процесс шифрования, расшифрования, получение ключей. Спецификация программы, процедуры и функции; описание интерфейса пользователя. Реализация задачи в среде программирования DELPHI.

    курсовая работа [812,6 K], добавлен 27.03.2012

  • Понятие и особенности интегрированного пакета MS Office. Анализ и расчет в среде в MS Excel дохода от сдачи помещений в аренду за месяц, по каждой организации включая дополнительные услуги. Графическое представление результатов результирующего документа.

    курсовая работа [3,6 M], добавлен 25.12.2013

  • Разработка программного обеспечения автоматической системы научных исследований (АСНИ) в интегрированной среде программирования Borland C++ Builder 6.0, работающего в среде ОС Windows, позволяющего осуществлять управление процессом спектрального анализа.

    курсовая работа [569,3 K], добавлен 05.03.2009

  • Разработка прикладного программного обеспечения деятельности отдела кадров университета в среде Microsoft Access 2003. Характеристика этапов проектирования базы данных. Построение семантической модели. Нормализация данных, понятие нормальной формы.

    курсовая работа [4,4 M], добавлен 14.11.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.