Экспертная оценка программных продуктов для кластеризации текстовых данных
Классификация продуктов, выполняющих кластеризацию текстовой информации. Описание платформ RapidMiner, SAS analytics, Demantra, IBM SPSS Modeler, STATISTICA Text Miner. Выбор лучшего программного продукта среди аналогов с помощью метода Т. Саати.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 07.11.2018 |
Размер файла | 1,5 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Экспертная оценка программных продуктов для кластеризации текстовых данных
В наше время доступны огромные объёмы информации. Но чем больше изучаемый объём информации, тем сложнее человеку его обработать. В таких случаях возможно применить кластерный анализ текстов. В результате анализа рынка программного обеспечения, были выявлены следующие продукты, выполняющие кластеризацию текстовой информации:
· RapidMiner
· SAS analytics
· Demantra
· IBM SPSS Modeler
· STATISTICA Text Miner
Ниже приведём краткое описание обозначенных ниже программных продуктов.
RapidMiner
Система для статического анализа данных и Data Mining. Обладает удобным графическим интерфейсом, и множеством способов обработки текстовых данных: кластерный анализ, эмоциональная оценка текстов, оценка стиля текста. Работа в программе представляет собой конструктор, в котором пользователь собирает блоки-действия, предназначенные для обработки данных.
Пример интерфейса:
SAS Analytics
SAS Analytics является целостной программной платформой для анализа данных. Визуальная составляющая интерфейса позволяет пользователю с лёгкостью выбирать способы обработки данных, в том числе и текстовых, выделяя в них закономерности и связи.
Пример интерфейса:
Demantra
Платформа для Data Mining, сочетающая в себе различные способы работы с различными типами данных. Включает в себя алгоритмы для кластеризации информации, в том числе текстовой.
Пример интерфейса:
IBM SPSS Modeler
Данный программный комплекс включает в себя продукт IBM SPSS Modeler Text Analytics, включающий мощные методы аналитики текстовых данных, используя усовершенствованные лингвистические алгоритмы, в том числе обработки естественных языков (NLP, Natural Language Processing), позволяющие быстро и качественно проанализировать огромные массивы текстов и выделить из них кластеры, организованные на основе выбранные смысловых параметров.
Пример интерфейса:
STATISTICA Text Miner
STATISTICA Text Miner - дополнение к STATISTICA Data Miner, модуль позволяющий выполнять обработку текстовых данных. Продукт позволяет перевести несвязные наборы текстов в логически понятный вид, удобный для изучения и восприятия. Программный комплекс позволяет извлечь необходимую информацию из огромного объёма данных, тем самым очистив данные от логических повторов и «воды».
Пример интерфейса:
Для оценки представленных выше программных продуктов, произведём их сравнительный анализ методом Саати.
Ниже приведены критерии, на основании которых будет проводиться оценка:
А1 - форматы загружаемых данных
А2 - качество сегментации данных
А3 - количество поддерживаемых методов кластеризации
А4 - вариация начальных параметров
На основании перечисленных критериев была проведена оценка:
А1 |
А2 |
А3 |
А4 |
Среднее геометрическое |
Веса критериев |
||
А1 |
1 |
1/9 |
1/9 |
1/7 |
0,20 |
0,03 |
|
А2 |
9 |
1 |
1 |
5 |
2,59 |
0,41 |
|
А3 |
9 |
1 |
1 |
7 |
2,82 |
0,45 |
|
А4 |
7 |
1/5 |
1/7 |
1 |
0,67 |
0,11 |
|
Сумма |
6,28 |
1,00 |
И получены следующие показатели:
L |
4,211633246 |
|
ИС |
0,070544415 |
|
СлС |
0,9 |
|
ОС |
0,078382684 |
Значимость критериев на основе экспертной оценки:
Результаты сравнения программных продуктов:
Критерии |
Весов коэфф |
Программные продукты |
Базовые |
|||||
RapidMiner |
SAS analytics |
Demantra |
IBM SPSS Modeler |
STATISTICA text miner |
||||
Форматы загружаемых данных |
0,03 |
7 |
5 |
5 |
5 |
3 |
5 |
|
Качество сегментации данных |
0,41 |
7 |
7 |
3 |
5 |
3 |
5 |
|
Количество поддерживаем методов кластеризации |
0,45 |
9 |
7 |
1 |
7 |
5 |
5,8 |
|
Вариация параметров структуризац |
0,11 |
7 |
5 |
1 |
5 |
3 |
4,2 |
|
Интегральный показатель качества Q |
7,9 |
6,72 |
1,94 |
5,9 |
3,9 |
5,272 |
В результате проведённого анализа выявлено, наиболее полно отвечают заданным критериям следующие продукты: RapidMiner, SAS Analytics, IBM SPSS Modeler.
В то же время в наименьшей степени отвечает заданным требованиям Demantra.
Библиографический список
текстовый программный информация саати
1. Азаров А.В., Рыбанов А.А. Автоматизированная система расчета метрических характеристик физической схемы базы данных с целью оценки трудоемкости процесса проектирования // Современная техника и технологии. 2014. № 5 (33). С. 39.
2. Баженов Р.И., Кузнецова Я.И. О разработке информационной системы по учету благотворительной помощи в малой организации // Современная техника и технологии. 2014. № 6 (34). С. 10.
3. Баженов Р.И., Семёнова Д.М. О разработке информационной системы учета деятельности членов общественной молодежной палаты // Современные научные исследования и инновации. 2014. № 6-1 (38). С. 26.
4. Баженов Р.И., Глухова А.А. Разработка информационной системы учета заказов в компьютерной мастерской // Современные научные исследования и инновации. 2014. № 6-1 (38). С. 30.
5. Векслер В.А., Баженов Р.И. Определение взаимосвязи номенклатурных позиций средствами 1С:Предприятие 8.3 // Современные научные исследования и инновации. 2014. № 7 (39). С. 45-49.
6. Красильникова А.Н., Александрова В.О., Абрамова О.Ф. Информационные технологии в?градостроении // Успехи современного естествознания. 2012. № 6. С. 32.
7. Кузьмин А.А., Рыбанов А.А. Исследование методов количественной оценки схем реляционных баз данных // Успехи современного естествознания. 2011. № 7. С. 137-138.
8. Рыбанов А.А., Коростелев Р.А., Киселев В.В. IDEF1X-модель базы данных web-ориентированной информационной системы оценки семантического качества меню пользователя // Молодой ученый. 2013. № 5. С. 170-172.
9. Рыбанов А.А. Оценка сложности физической схемы реляционной базы данных // Cовременная техника и технологии. 2014. № 9 (37). С. 26-30.
10. Тапелина К.А., Жевалкина М.И. Анализ современных методик и web-систем учета достижений студентов вузов // Современные научные исследования и инновации. 2014. № 10-1 (42). С. 60-67.
11. Черняев А.О., Рыбанов А.А. Разработка и исследование алгоритмов автоматизированного проектирования логических схем реляционных баз данных // В мире научных открытий. 2010. № 4-11. С. 128-129.
Размещено на Allbest.ru
...Подобные документы
Классификация задач DataMining. Создание отчетов и итогов. Возможности Data Miner в Statistica. Задача классификации, кластеризации и регрессии. Средства анализа Statistica Data Miner. Суть задачи поиск ассоциативных правил. Анализ предикторов выживания.
курсовая работа [3,2 M], добавлен 19.05.2011Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.
курсовая работа [3,9 M], добавлен 22.10.2012Разработка программного обеспечения. Подтверждение соответствия программного продукта государственным стандартам в области информационных технологий. Оформление Сертификата соответствия. Оценка, проводимая экспертами. Экспертиза программной документации.
контрольная работа [24,5 K], добавлен 06.11.2013Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.
реферат [443,2 K], добавлен 13.02.2014Общее описание программы Statistica. Архитектура и интерфейс системы. Регрессионный анализ в Statistica. Решение задачи регрессионного анализа с помощью пакета анализа данных табличного процессора MS Excel. Многомерный дисперсионный анализ в SPSS.
курсовая работа [2,4 M], добавлен 22.01.2013Общие требования охраны труда во время работы, а также в аварийных ситуациях. Использование метрик программного продукта при ревьюировании. Проверка целостности программного кода и анализ потоков данных. Сценарии использования программного продукта.
отчет по практике [2,0 M], добавлен 28.11.2022Эффективность и оптимизация программ. Разработка программных продуктов. Обеспечение качества программного продукта. Назначение, область применения, требование к программному продукту. Требования к функциональным характеристикам, надежности, совместимости.
курсовая работа [46,8 K], добавлен 05.04.2009Диагностический анализ системы управления ООО "Система". Оценка функциональной структуры функционирующей АСУ, ее плюсы и минусы. Проектирование подсистемы "Учет разрабатываемых программных продуктов". Расчет затрат на разработку программного продукта.
дипломная работа [5,7 M], добавлен 29.06.2011Обработка экспериментальных данных с помощью программных продуктов. Редактирование и оформление электронных табличных расчётов. Метод наименьших квадратов: применение в качестве критерия близости суммы квадратов отклонений заданных и расчетных значений.
курсовая работа [275,5 K], добавлен 07.03.2011Программное обеспечение для ЭВМ и личные права на него. Техническое обслуживание программного обеспечения. Компьютерные преступления на рынке программных продуктов. Пути снижения преступности на рынке программных продуктов и компьютерной информации.
курсовая работа [95,7 K], добавлен 23.01.2012Создание системы электронного документооборота для компании ООО "ФТН Монитор". Общая информация об автоматизируемом объекте. Исследование состава информации. Обзор существующих программных продуктов. Описание программного продукта и его установка.
дипломная работа [1,9 M], добавлен 27.05.2015Проектирование информационной системы "Учёт работы поликлиники": анализ программных продуктов, описание диаграмм бизнес–процесса, описание IDEF0, DFD, IDEF3 диаграмм потоков данных и документирования процессов посредством AllFusion Process Modeler r7.3.
курсовая работа [2,5 M], добавлен 20.08.2012Ознакомление с основами программного пакета Statistica. Описание статистики и графики. Группировка данных, корреляции, методы множественной регрессии. Рассмотрение набора непараметрических статистик. Реализация дисперсионного и ковариационного анализа.
контрольная работа [544,5 K], добавлен 09.06.2015Анализ деятельности подразделения разработки программных продуктов, использующих Web-технологии, в компании ИООО "ЭПАМ Системз". Разработка систем с использованием Web-технологий с помощью программного продукта Oracle Database и технологий Spring, Struts.
отчет по практике [1,0 M], добавлен 14.04.2014Задачи дисциплины Social Analytics. Основное понятие Social Media Analytics и его составляющие. Важность вовлеченности компании в социальные медиа. Сбор данных и пошаговая организация вовлеченности в соц-медийные проекты. Инструменты для обработки данных.
реферат [1,8 M], добавлен 05.12.2014Текстовый редактор - приложение для обработки текстовой информации. Описание текстовых процессоров как более совершенных текстовых редакторов. Типы текстовых файлов: форматированные, неформатированные. Основные правила редактирования и набора текста.
презентация [747,3 K], добавлен 26.11.2010Жизненный цикл программного продукта. Современные среды разработки приложений. Защита информации в базах данных. Особенности разработки приложения с помощью среды Delphi 7. Проверка программного модуля на предмет соответствия стандартам кодирования.
отчет по практике [589,0 K], добавлен 18.05.2017Влияние качества программных продуктов на экономические характеристики производства, управление ими. Стандартизированные характеристики качества сложных программных продуктов. Гипотетические примеры определения требований к характеристикам качества.
контрольная работа [22,4 K], добавлен 13.12.2014Анализ и оценка эффективности существующей системы обработки информации. Выбор технических и программных средств. Описание этапов проектирования базы данных "Аудиотека" и ее особенностей. Разработка инфологической модели и программного приложения.
курсовая работа [877,9 K], добавлен 06.06.2013Общие сведения о системах автоматизированного проектирования и детальное изучение программного продукта французской фирмы CATIA. Применение поддержки жизненного цикла изделия, описание продуктов и модулей программы при проектировании поверхностей.
реферат [5,5 M], добавлен 24.01.2011