Интеллектуальные системы и технологии

Классификация – особый вид логической операции. Методы классификации объектов: логистическая регрессия, наивный байесовский классификатор, случайный лес, дерево принятия решений. Исследование известных типов данных train.csv с помощью программы Orange.

Рубрика Программирование, компьютеры и кибернетика
Вид лабораторная работа
Язык русский
Дата добавления 15.02.2021
Размер файла 103,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Лабораторная работа

по теме: Интеллектуальные системы и технологии

Введение

Классификация - особый вид логической операции, заключающейся в распределении элементов рассматриваемого множества по подмножествам (делении на классы) в соответствии с определённым признаком (группой признаков). Совокупность правил на основе взаимосвязанных признаков, в соответствии с которыми производится упорядоченное расположение классифицируемых элементов, составляет систему классификации.

Любая классификация основана на делении исходного множества на подмножества по каким-либо признакам. Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки. Признаком классификации называется реквизит (свойство объекта, характеристика, значение), позволяющий установить сходство или различие с другими объектами классификации. Синонимом признака классификации является основание деления.

Классификатор - систематизированный свод наименований и кодов классификационных группировок (более подробному раскрытию понятия «классификатор» посвящён один из последующих подразделов настоящего пособия).

Рассмотрим вкратце виды и методы классификации которыми будем пользоваться в настоящей работе.

Виды и методы классификации объектов

Логистическая регрессия -- это статистический метод классификации объектов. Это только одна часть машинного обучения, используемая для решения этой проблемы бинарной классификации. Существует несколько других методов машинного обучения, которые уже разработаны и применяются для решения других видов проблем. Существуют и другие проблемы классификации, в которых выходные данные могут быть классифицированы более чем на два класса.

В математической статистике задачи классификации называются также задачами дискриминантного анализа. В машинном обучении задача классификации решается, в частности, с помощью методов искусственных нейронных сетей при постановке эксперимента в виде обучения с учителем.

Существуют также другие способы постановки эксперимента -- обучение без учителя, но они используются для решения другой задачи -- кластеризации . В этих задачах разделение объектов обучающей выборки на классы не задаётся, и требуется классифицировать объекты только на основе их сходства друг с другом. В некоторых прикладных областях, и даже в самой математической статистике, из-за близости задач часто не различают задачи кластеризации от задач классификации.

Некоторые алгоритмы для решения задач классификации комбинируют обучение с учителем с обучением без учителя

Наимвный бамйесовский классификамтор -- простой вероятностный классификатор, основанный на применении теоремы Байеса со строгими (наивными) предположениями о независимости.

В зависимости от точной природы вероятностной модели, наивные байесовские классификаторы могут обучаться очень эффективно. Во многих практических приложениях для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия; другими словами, можно работать с наивной байесовской моделью, не веря в байесовскую вероятность и не используя байесовские методы.

Несмотря на наивный вид и, несомненно, очень упрощенные условия, наивные байесовские классификаторы часто работают намного лучше во многих сложных жизненных ситуациях.

Достоинством наивного байесовского классификатора является малое количество данных, необходимых для обучения, оценки параметров и классификации.

Случайный лес -- один из самых потрясающих алгоритмов машинного обучения, придуманные Лео Брейманом и Адель Катлер ещё в прошлом веке. Он дошёл до нас в «первозданном виде» (никакие эвристики не смогли его существенно улучшить) и является одним из немногих универсальных алгоритмов. Универсальность заключается, во-первых, в том, что он хорош во многих задачах в том, что есть случайные леса для решения задач классификации, регрессии, кластеризации, поиска аномалий, селекции признаков и т.д.

RF (random forest) -- это множество решающих деревьев. В задаче регрессии их ответы усредняются, в задаче классификации принимается решение голосованием по большинству. Все деревья строятся независимо по следующей схеме:

· Выбирается подвыборка обучающей по ней строится дерево (для каждого дерева -- своя подвыборка).

· Для построения каждого расщепления в дереве просматриваем max_features случайных признаков (для каждого нового расщепления -- свои случайные признаки).

· Выбираем наилучшие признак и расщепление по нему (по заранее заданному критерию). Дерево строится, как правило, до исчерпания выборки.

Дерево принятия решений (также может называться деревом классификации или регрессионным деревом) -- средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике. Структура дерева представляет собой «листья» и «ветки». На рёбрах («ветках») дерева решения записаны атрибуты, от которых зависит целевая функция, в «листьях» записаны значения целевой функции, а в остальных узлах -- атрибуты, по которым различаются случаи. Чтобы классифицировать новый случай, надо спуститься по дереву до листа и выдать соответствующее значение. Подобные деревья решений широко используются в интеллектуальном анализе данных. Цель состоит в том, чтобы создать модель, которая предсказывает значение целевой переменной на основе нескольких переменных на входе. Каждый лист представляет собой значение целевой переменной, изменённой в ходе движения от корня по листу. Каждый внутренний узел соответствует одной из входных переменных. Дерево может быть также «изучено» разделением исходных наборов переменных на подмножества, основанные на тестировании значений атрибутов. Это процесс, который повторяется на каждом из полученных подмножеств. Рекурсия завершается тогда, когда подмножество в узле имеет те же значения целевой переменной, таким образом, оно не добавляет ценности для предсказаний.

Интеллектуальные информационные системы сосредоточили в себе наиболее наукоемкие технологии с высоким уровнем автоматизации не только процессов подготовки информации для принятия решения, но и самих процессов выработки вариантов, опирающихся на полученные данные. Поэтому изучение практических составляющих технологий искусственного интеллекта актуально и одна из задач курса «Представление знаний в информационных системах»

В настоящее время промышленности требуются информационные системы, которые, с одной стороны, могут использовать большое количество знаний, передаваемых специалистами, а с другой -- способны вступать в диалог и объяснять свои собственные выводы. Это предполагает наличие эффективного управления большой по объему и хорошо структурированной базой знаний, строгое разграничение между различными уровнями знаний, наличие множества удобных представлений для правил, схем предикатов или прототипов и четко определенный процесс обмена информацией между различными источниками.

Общение с компьютерной системой на уровне знания предопределяет возможность ввода и использования ею некоторой совокупности взаимосвязанной информации.

Чтобы манипулировать знаниями из реального мира с помощью компьютера, необходимо осуществлять их моделирование.

Провести исследования известных типов данных train.csv, и провести сравнительный анализ с типом данных test. csv, по методам:

· логистическая регрессия;

· наивный байесовский метод;

· деревья решений;

· нейронные сети;

· оценка и сравнение моделей.

В данной работе нами будут использоваться методы компьютерного моделирования и анализа поступающих данных, и в возможности непосредственно запрограммировать механизм вывода синтаксически правильных высказываний.

Для достижения целей нашего исследования воспользуемся программой Orange.

Аналитическая система Orange - это программа с открытым исходным кодом для машинного обучения и визуализации данных, обладающая большим набором исследовательских функций.

На рисунке представлен скриншот главного окна программы Orange3.

Рабочее пространство состоит из виджетов и связей между ними.

Каждый виджет имеет свой тип. Тип виджета можно определить по его иконке.

Виджеты сгруппированы по разделам: Data, Visualization, Predictions и пр. Группа виджета определяет цвет иконки.

Рис. 1

Каждый виджет имеет множество (возможно, пустое) входных и множество выходных сигналов. Сигнал определяет данные, которые поступают на вход виджету или являются его результатом. При получении входного сигнала виджет выполняет определенные действия и оповещает связанные с ним виджеты путем отправки им соответсвующих сигналов.

Для загрузки датасета имеется множество виджетов. Самый простой (File) считывает данные из файла или загружает по URL. Существуют виджеты для получения данных из базы данных PostgreSQL, Google Docs и других источников.

Практическая работа

1.Выбираем данные для исследования № 1

набор ---- train.csv

Видим загруженные данные

Сигнал Data принимает данные для отображения на графике, а сигнал Data Subset - подмножество данных. Если Data Subset определен, то на графике будут заштрихованы точки, соответствующие Data Subset.

Так, можно выбрать некоторые элементы из таблицы данных Data Table, и увидеть, как они расположены на графике по отношению к другим точкам. В примере на рисунке выбраны образы

Можно выделить некоторые точки на графике и изучить значения признаков соответствующих им объектов в таблице.

видим нормально-рапределенную структуру данных

проверим корреляцию.

Разделим данные на обучающую и тестовую выборку

регрессия байесовский классификатор orange

Заключение

В настоящее время технологии искусственного интеллекта стали эффективным средством решения сложных задач в распознавании речи и текста, медицине, экономике, прикладной химии и др. Достигнуты определенные успехи в становлении прикладных областей инженерии знаний. Научиться применять технологии искусственного интеллекта в своей будущей профессиональной деятельности, развивать их дальше, можно только при полном овладении приемами и методами практического решения задач на компьютере. Эту цель и преследует данное учебное пособие, в котором основное внимание уделено методам машинного представления и использования знаний.

Дальнейшее развитие информатики, несомненно, послужит повышению роли технологий искусственного интеллекта для решения разнообразных задач.

Orange - это кроссплатформенный пакет для интеллектуального анализа данных и машинного обучения с открытым исходным кодом. Это показывает визуальное программирование как интуитивное средство объединения анализа данных и интерактивных методов визуализации в мощные рабочие процессы. Визуальное программирование позволяет пользователям, которые не являются программистами, управлять, предварительно обрабатывать, исследовать и моделировать данные. Имея множество функций на борту, это программное обеспечение может облегчить интеллектуальный анализ данных и машинное обучение для начинающих и опытных пользователей.

Размещено на Allbest.ru

...

Подобные документы

  • Виды машинного обучения, его основные задачи и методы. Подходы к классификации: логистическая регрессия, наивный байесовский классификатор, стохастический градиентный спуск, K-ближайший сосед, дерево решений, случайный лес, метод опорных векторов.

    курсовая работа [436,9 K], добавлен 14.12.2022

  • Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.

    контрольная работа [2,0 M], добавлен 13.06.2014

  • Пример дерева решений. Анализ древовидной структуры данных. Предикторные (зависимые) переменные как признаки, описывающие свойства анализируемых объектов. Решение задач классификации и численного прогнозирования с помощью деревьев классификации.

    презентация [391,1 K], добавлен 09.10.2013

  • Человеко-машинные комплексы, специально предназначенные для принятия решений. Процесс принятия решений и его этапы. Методы поиска новых вариантов решений: дерево решений, морфологические таблицы, конференции идей. Принцип математической оценки тенденций.

    курсовая работа [272,1 K], добавлен 30.07.2009

  • Классификация систем поддержки принятия решений. Сравнительный анализ методик для оценки рисков розничного кредитования. Структура системы поддержки принятия решений, формирование начальной базы знаний. Проектирование базы данных информационной системы.

    дипломная работа [1,9 M], добавлен 10.07.2017

  • Информация и ее свойства. Автоматизированные системы обработки инструментальных и лабораторных данных, включающие рабочие места врачей. Интеллектуальные системы поддержки принятия врачебных решений. Телекоммуникационная инфраструктура в медицине.

    реферат [40,4 K], добавлен 12.10.2014

  • Классификация задач системы поддержки принятия решений, их типы и принципы реализации при помощи программы "Выбор". Обзор современных систем автоматизированного проектирования "Компас", "AutoCad", "SolidWorks", оценка преимуществ и недостатков программ.

    курсовая работа [1,4 M], добавлен 22.07.2014

  • Понятие и критерии классификации баз данных. Характеристика совокупностей элементов данных: массив, дерево, запись. Компоненты любой модели данных. Способы размещения значений элементов в физической записи. Методы доступа к данным: дерево, хеширование.

    реферат [84,7 K], добавлен 22.11.2010

  • Обслуживание двух встречных потоков информации. Структура информационных систем. Разработка структуры базы данных. Режимы работы с базами данных. Четыре основных компонента системы поддержки принятия решений. Выбор системы управления баз данных.

    курсовая работа [772,0 K], добавлен 21.04.2016

  • Разработка программы, реализующей метод принятия решения на основе паутинной диаграммы, исходя из количества объектов исследования, их весов и критериев оценки. Листинг программного кода и пример работы программы: расчет площади многоугольников-объектов.

    контрольная работа [1,1 M], добавлен 10.06.2011

  • Концепция систем поддержки принятия решений. Диапазон применения Analytica 2.0. Программное обеспечение количественного моделирования. Графический интерфейс для разработки модели. Основные способы моделирования. Диаграмма влияния и дерево решений.

    контрольная работа [1,1 M], добавлен 08.09.2011

  • Анализ применения нейронных сетей для прогнозирования ситуации и принятия решений на фондовом рынке с помощью программного пакета моделирования нейронных сетей Trajan 3.0. Преобразование первичных данных, таблиц. Эргономическая оценка программы.

    дипломная работа [3,8 M], добавлен 27.06.2011

  • Описание логической структуры таблиц базы данных для разработки web-приложения с помощью технологий ado.net и asp.net. Система меню, программы и модули, используемые в работе сайта. Класс, выполняющий операции и связующий информацию сайта с базой данной.

    курсовая работа [104,5 K], добавлен 26.09.2012

  • Построение дерева принятия решений, реализация данной системы в табличном процессоре. Построение математической модели: в режиме вычислений и показа формул до и после оптимизации. Окно поиска решения. Информационно-логическая модель, ее содержание.

    курсовая работа [955,8 K], добавлен 10.10.2012

  • Организация работы базы данных с помощью сбалансированных В-деревьев: принципы, методы добавления, поиска, удаления элементов из структуры. Процедуры, производящие балансировку и слияние записей в блоке. Реализация программы в Научной библиотеке ОрелГТУ.

    курсовая работа [95,3 K], добавлен 12.08.2011

  • Проектирование системы принятия решения для аттестации знаний абитуриента на основе тестирования. Особенности создания базы данных и плана перевозок с минимизацией затрат. Разработка информационно-логической модели предметной области "Книга" с атрибутами.

    курсовая работа [7,9 M], добавлен 10.10.2012

  • Организация данных с помощью бинарных деревьев. Определение бинарного дерева. Упорядоченное двоичное дерево поиска и его свойства. Программная реализация добавления данных в упорядоченное двоичное дерево с использованием динамических структур данных.

    курсовая работа [459,0 K], добавлен 09.08.2012

  • Модели баз данных. Локальная, файл-серверная, клиент-серверная и распределенная архитектуры. Технология BDE для доступа к данным. Драйверы баз данных. Создание таблицы, интерфейс программы, дерево объектов, инсталлятор. Системы визуальной разработки.

    курсовая работа [989,5 K], добавлен 04.06.2013

  • Организация типов данных. Записи, оператор присоединения. Множества, операции над ними. Строки, стандартные процедуры и функции, работающие со строками. Совместимость типов. Явное и неявное преобразование типов. Многомерные массивы. Операции отношения.

    презентация [30,8 K], добавлен 13.10.2013

  • Понятие информационной системы как системы сбора, хранения, накопления, поиска и передачи информации, применяемая в процессе управления или принятия решений. Классификация и структура информационных систем. Разнообразие задач, решаемых с помощью ИС.

    контрольная работа [160,6 K], добавлен 18.01.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.