Автоматизация анализа данных экспериментальных исследований

Рассматриваются устройство и работа платформы для автоматизированной обработки данных, предоставляющей пользователю связный текстовый отчет с результатами анализа. Основные компоненты общей схемы работы сервиса, компоненты в алгоритмах и программном коде.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 03.04.2018
Размер файла 22,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Автоматизация анализа данных экспериментальных исследований

С.А. Заруцкий, Ростовский государственный медицинский университет, Ростов-на-Дону

Е.А. Власенко, Аналитическая компания Статзилла

Аннотация: Рассматриваются устройство и работа платформы для автоматизированной обработки данных, предоставляющей пользователю связный текстовый отчет с результатами анализа.

Ключевые слова: Анализ данных, статистика, обработка данных, автоматизация, статистические методы, статистические критерии, генерация отчета, интерпретация результатов, медико-биологические исследования, качество исследований, достоверность исследований.

Исходя из анализа современной методики прикладных исследований, можно прийти к выводу о том, что построение алгоритмов характерно для набора статистических методов и тестов, тогда как логика их использования, подготовки и обработки данных, а также написания текста с результатами анализа хотя и очень шаблонна, но до сих пор не автоматизирована. В то же время, автоматическая генерация текста позволит облегчить работу и экспертам по статистике, которые после получения оформленного по ГОСТ текста, таблиц и рисунков, могут при необходимости редактировать их вместо создания с нуля. В связи с этим, актуальность поставленной проблемы обусловлена высокой частотой ошибок в расчетной статистической части доказательных исследований в условиях сложной рутинной аналитики, которая занимает много времени при обработке данных представителями других отраслей науки, а также высокой стоимостью работ при обращении к специалистам, затратами на специализированное ПО.

Целью проводимой научно-исследовательской работы является создание платформы для автоматизированной обработки данных, предоставляющей пользователю связный текстовый отчет с результатами анализа. Объект исследования включает в себя практику применения методов статистической обработки данных в экспериментальных исследованиях и алгоритмы генерации текста с интерпретацией результатов использования соответствующих методов. Основанием для выполнения работы является то, что согласно оценкам различных экспертов, в России около 80% статей в ведущих тематических журналах содержат ошибки в анализе данных, делающие их заведомо неверифицируемыми [1, 2]. От правильности анализа данных, собранных на выборке, напрямую зависит адекватность выводов исследования. Также примерно в 95% исследований для различных областей применения статистического анализа моделирование проблемной ситуации проводится экспертами по одному из небольшого числа шаблонов, которые, однако, до сих пор не алгоритмизированы. Таким образом, методика выполнения представленной работы, связанной с алгоритмизацией всех этих блоков, предполагает построение экспертной системы статистической обработки и интерпретации результатов анализа на основе международных практик (GCP, EBP), руководств (CONSORT, STROBE, STARD, STREGA, PRISMA, SQUIRE) и прочих правил, признанных научным сообществом [3-10].

Первый этап исследований является базисом всей научно-исследовательской работы (далее НИР), так как задает структурную схему работы платформы и определяет дальнейшее развитие работы. Цель НИР первого этапа состоит в создании концепции и основных разделов платформы для автоматизированной обработки данных. Достижение цели требует постановки следующих задач первого этапа исследований:

1) проанализировать частоту применения статистических методов в экспериментальных доказательных исследованиях;

2) проинтервьюировать аспирантов и исследователей в области медицины с целью выявления типичных задач, наиболее часто встречаемых в рутинной статистической обработке данных;

3) определить основные компоненты общей схемы работы сервиса;

4) реализовать основные компоненты в алгоритмах и программном коде.

Результатами первого этапа работы являются: разработка системы мета-свойств данных, разработка и реализация алгоритма получения мета-свойств от пользователя, написание кода для применения основных статистических методов в R, построение схемы алгоритма автоматического анализа на основе мета-свойств, его программная реализация.

Программа НИР второго этапа нацелена на развитие платформы для автоматической обработки данных до полной реализации с возможностью выбора одного из четырех вариантов аналитических задач: описательный анализ данных, сравнение групп и повторных измерений, анализ связей, кластерный анализ. Достижение цели требует постановки следующих задач второго этапа исследований:

1) Разработать методы генерации текста для отчета по анализу данных на основе дерева мета-свойств и результатов применения конкретных статистических методов.

2) Программно реализовать разработанные ранее алгоритмы анализа по задачам: "описание данных", "анализ связей".

3) Реализовать формирование отчета по всем аналитическим задачам, включающего описание выбранных методов, ссылки на литературу, таблицы, графики, текст с интерпретацией (на основе многовариантных шаблонов интерпретации), сгруппированные в иерархию заголовков (включая приложения) и оформленные по ГОСТ.

4) Разработать веб-интерфейс для получения мета-свойств по всем аналитическим задачам.

5) Запустить все разработанные алгоритмы (4 задачи, 6 модулей) на платформе (онлайн-сервисе online.statzilla.ru).

6) Провести апробацию платформы у целевой аудитории.

Результатами второго этапа работы являются: тестирование и корректировка алгоритмов платформы, исследование методов генерации текста, разработка системы многовариантных шаблонов интерпретации результатов, а также разработка и реализация алгоритмов формирования связного текстового отчета с результатами анализа данных. Генерация отчета реализована с использованием библиотеки ReporterS на языке R в формате OOXML. Таким образом, основным результатом второго этапа данной НИР можно считать создание рабочей платформы для автоматизированного статистического анализа, реализующей ключевые задачи анализа данных, стоящие перед исследователями таких специальностей как медицина, психология, биология, социология, педагогика.

Описательная статистика является неотъемлемой частью анализа данных. Помимо описательной статистики данный программный модуль включает в себя определение вида распределения показателя, а также тесты на нормальность распределения. Алгоритм получения мета-свойств от пользователя для этого модуля был реализован в коде и протестирован в ходе этапа 1. Целью второго этапа являлись реализация статистических расчётов и внедрение в веб-сервис. В зависимости от полученных мета-свойств данных статистический отчёт включает частоты встречаемости и их диаграммы, средние, медианные и квартильные значения показателя, среднее квадратическое отклонение и значение ошибки среднего, а также гистограммы распределения показателя. Проверка данных на нормальность осуществляется с помощью метода Шапиро-Уилка.

Сравнение средних значений количественных признаков и частот качественных признаков в группах - одна из ключевых задач в биомедицинской статистике. Соответствующий модуль обработки исходных данных реализует сравнение основных и контрольных групп, выявление статистически значимой динамики показателей, сравнение с нормой.

Модуль анализа связей и ассоциаций включает в себя расчёт корреляций, отношений шансов и рисков, их доверительных интервалов. Методы расчёта корреляций были подобраны на основе статей в Pubmed, а также в ведущих российских журналах. Для программной реализации модуля корреляций использовалось дерево мета-свойств, разработанное на этапе 1. Каждый уникальный набор значений всех свойств соответствует только одному методу, т.е. после установления свойств происходит однозначный выбор метода.

Кластерный анализ включает в себя выявление кластеров и анализ связи кластеров с группой, а также построение дендрограмм. Для кластерного анализа необходимо наличие уникального идентификатора наблюдения, набора кластеризуемых показателей и, возможно, группирующего показателя.

Характерной особенностью выбранного для программной реализации продукта языка R является векторизация вычислений. Векторизация представляет собой один из способов выполнения параллельных вычислений, при котором программа определенным образом модифицируется для выполнения нескольких однотипных операций одновременно. Очевидно, что такой подход потенциально может привести к значительному ускорению однотипных вычислений над большими массивами данных. Эта особенность языка была использована при реализации вычисления описательных статистик показателей. В базовой комплектации R имеется семейство функций apply, предназначенных для организации векторизованных вычислений над объектами.

В целом, после реализации 2 этапа НИР достигнуты все поставленные задачи. На основе рекомендаций оформления анализа данных (GCP и прочие) разработаны шаблоны интерпретации результатов для каждого статистического метода. Проанализированы возможные сочетания свойств исходных данных и результатов и созданы варианты шаблонов для каждого сценария. Все разработанные алгоритмы (4 задачи, 6 модулей) запущены на платформе (онлайн-сервисе online.statzilla.ru). Всего сервис автоматизирует использование более 40 статистических методов в различных сочетаниях, автоматически строит 5 видов графиков. На разработку программного продукта получено свидетельство о государственной регистрации программы для ЭВМ, апробация платформы проведена на 6 кафедрах РостГМУ, а также производилось тестирование в ВолГМУ и РязГУ. Сервисом воспользовались более 200 пользователей, сгенерировавших почти 3 тыс. аналитических отчетов. В настоящее время продолжается процесс интеграции разработки с платформой федеральных медицинских клинических регистров "Росмед.инфо".

В последние несколько лет появилось много систем анализа данных, ориентированных на пользователей, не являющихся специалистами в статистике и аналитике. Однако, почти все они созданы для решения бизнес задач: анализ маркетинговых данных - DataCracker, данных из сферы продаж - Tableau, данных социальных сетей [11] и медиа [12]. На данный момент в мире существует только несколько онлайн-платформ, которые ориентированы на задачи статистической обработки данных для доказательных исследований. Все, за исключением одной из них, сконцентрированы на анализе данных генома и протеома поэтому не генерируют текст с интерпретацией результатов. Только одна платформа производит генерацию текста, однако оставляет за пользователем возможность выбора необходимой методики статистического анализа. Кроме того, для одного исследования обычно необходимо использование нескольких методов, поэтому при проведении анализа данных с использованием различных методов организуется выработка отдельного отчета с последующей интеграцией полученных результатов. Платформа online.statzilla.ru реализует подход, идущий от задачи, а не от метода. Предлагаемый сервис автоматически выбирает методы на основе мета-свойств и генерирует цельный отчет, включающий результаты всех использованных методов. Такой подход является следующим шагом в автоматизации, представляя конкурентоспособную техническую альтернативу на мировом рынке. Таким образом для большинства типичных задач необходимость обращения к статистику полностью исключается, что позволяет существенно ускорить последний этап исследования и снизить стоимость его проведения.

Литература

автоматизация анализ экспериментальный текстовый

1. Гржибовский А. М. Использование статистики в российской биомедицинской литературе. Экология человека. - 2008. №12, C. 55-64.

2. Леонов В.П. Статистика в кардиологии. 15 лет спустя // Медицинские технологии. Оценка и выбор, 2014, №1, C. 17-28.

3. APA Presidential Task Force on Evidence-Based Practice. (2006). Evidence-based practice in psychology. American Psychologist, 61(4), pp. 271-285.

4. Davidoff F, Batalden P, Stevens D, Ogrinc G, Mooney S, SQUIRE Development Group. Publication guidelines for improvement studies in health care: evolution of the SQUIRE Project. Ann Intern Med. 2008; 149(9): pp. 670-676.

5. ICH harmonized tripartite guideline: Guideline for Good Clinical Practice. J Postgrad Med 2001;47: pp. 45-50.

6. Knottnerus JA, Tugwell P. The standards for reporting of diagnostic accuracy. J Clinical Epidemiology 2003, 56, Issue 11: pp.1118 - 1129.

7. Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gшtzsche P, et al. and the PRISMA Group (2009) The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate health care interventions: Explanation and elaboration. PLoS Med. 2009 Jul; 6: e1000100. doi: 10.1371/journal.pmed.1000100.

8. Little J, Higgins JPT, Ioannidis JPA, Moher D, Gagnon F, Von Elm E, et al. STrengthening the REporting of Genetic Association studies (STREGA)-an extension of the STROBE Statement. February 3, 2009 URL: doi.org/10.1371/journal.pmed.1000022

9. Schulz KF, Altman DG, Moher D, for the CONSORT Group. CONSORT 2010 Statement: updated guidelines for reporting parallel group randomised trials. Int J Surg. 2012;10(1): pp. 28-55.

10. Vandenbroucke JP. The making of STROBE. Epidemiology 2007;18: pp. 797-799.

11. Носко В.И. Система автоматизированного построения графа социальной сети // Инженерный вестник Дона, 2015, №4-2 URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1428.

12. Носко В.И., Свечкарев В.П., Розин М.Д. Методика и фреймворк конструирования лингвистических моделей для сетевого мониторинга // Инженерный вестник Дона, 2015, №4 URL: ivdon.ru/ru/magazine/archive/n4y2015/3409.

References

1. Grzhibovskij A. M. Jekologija cheloveka. 2008. №12, pp. 55-64.

2. Leonov V.P. Medicinskie tehnologii. Ocenka i vybor, 2014, №1, pp. 17-28.

3. APA presidential task force on evidence-based practice: Evidence-based practice in psychology. American Psychologist, 61(4), pp. 271-285.

4. Davidoff F, Batalden P, Stevens D, Ogrinc G, Mooney S. Ann Intern Med. 2008;149(9): pp. 670-676.

5. ICH harmonized tripartite guideline: Guideline for Good Clinical Practice. J Postgrad Med 2001; 47: pp. 45-50.

6. Knottnerus JA, Tugwell P. J Clinical Epidemiology 2003, 56, Issue 11: pp. 1118 - 1129.

7. Liberati A, Altman DG, Tetzlaff J, Mulrow C, Gшtzsche P, et al. and the PRISMA Group (2009) PLoS Med. 2009 Jul; 6: e1000100. doi: 10.1371/journal.pmed.1000100.

8. Little J, Higgins JPT, Ioannidis JPA, Moher D, Gagnon F, Von Elm E, et al. February 3, 2009 URL: doi.org/10.1371/journal.pmed.1000022.

9. Schulz KF, Altman DG, Moher D, for the CONSORT Group. Int J Surg. 2012; 10(1): pp. 28-55.

10. Vandenbroucke JP. Epidemiology 2007; 18: pp. 797-799.

11. Nosko V.I. Inћenernyj vestnik Dona (Rus), 2015, №4. URL: ivdon.ru/ru/magazine/archive/n4p2y2012/1428.

12. Nosko V.I., Svechkarev V.P., Rozin M.D. Inћenernyj vestnik Dona (Rus), 2015, №4. URL: ivdon.ru/ru/magazine/archive/n4y2015/3409.

Размещено на Allbest.ru

...

Подобные документы

  • Автоматизация сбора и обработки данных. Основы, таблицы и средства для работы с базами данных. Инструментальные средства и компоненты. Технология создания приложения. Работа с псевдонимами и со связанными таблицами. Система управления базами данных.

    методичка [1,5 M], добавлен 06.07.2009

  • Создание автоматизированной системы для упрощения работы с данными, расчётами и отчётами, анализа и хранения поступающих в лабораторию хроматографических исследований данных. Функциональные требования к системе. Проектирование программного обеспечения.

    курсовая работа [1,9 M], добавлен 23.01.2013

  • Информационная технология обработки данных, автоматизация офиса и управленческой деятельности. Создание периодических контрольных отчетов о состоянии дел в фирме. Основные компоненты информационной технологии обработки данных. Основные виды отчетов.

    презентация [77,0 K], добавлен 11.01.2012

  • Определение базы данных и банков данных. Компоненты банка данных. Основные требования к технологии интегрированного хранения и обработки данных. Система управления и модели организации доступа к базам данных. Разработка приложений и администрирование.

    презентация [17,1 K], добавлен 19.08.2013

  • Постановка задачи автоматизации учебного процесса колледжа и описание предметной области. Работа с базами данных в Delphi: способы, компоненты доступа к данным и работы с ними. Язык запросов SQL. База данных в Microsoft Access и результаты исследований.

    дипломная работа [55,6 K], добавлен 16.07.2008

  • Обзор методов реализации алгоритмов искусственного интеллекта. Примеры интеллектуальных систем, основанных на алгоритмах самообучения и кластеризации данных. Создание общей структурной схемы. Выбор языков программирования и инструментальных средств.

    дипломная работа [1,6 M], добавлен 20.08.2017

  • Программы в составе интегрированного пакета для MS Office, общий интерфейс пользователя. Компоненты: текстовый редактор (Word), табличный процессор (Excel), создание презентаций (PowerPoint), управление базами данных (Access). Функции и их применение.

    презентация [2,5 M], добавлен 20.01.2012

  • Архитектура систем интернета вещей. Модели взаимодействия устройств интернета вещей. Связи устройство-устройство, устройство-облако, устройство–шлюз. Модель передачи данных в бэк-энд. Алгоритмы обработки данных. Проведение анализа данных в маркетинге.

    дипломная работа [643,8 K], добавлен 17.06.2017

  • Компоненты моделей геоинформационных систем, их взаимосвязь с координатными системами. Векторные нетопологическая и топологическая модели геометрической компоненты данных в ГИС. Послойное и геореляционное представление и вложение данных в серверные СУБД.

    презентация [4,5 M], добавлен 02.10.2013

  • Обзор технологической платформы для разработки клиентского веб-интерфейса. Выбор платформы базы данных, языка разработки, фреймворка на стороне сервера и клиента. Создание схемы данных MySQL. Работа пользователя и оператора с программным продуктом.

    курсовая работа [4,1 M], добавлен 17.07.2012

  • Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.

    реферат [22,5 K], добавлен 05.02.2011

  • Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

    реферат [443,2 K], добавлен 13.02.2014

  • Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

    реферат [1,3 M], добавлен 25.03.2013

  • Программные продукты компании Microsoft: Access, Visual FoxPro7.0, dBASE. Возможности интеграции, совместной работы и использования данных. Системы управления базами данных (СУБД), их основные функции и компоненты. Работа с данными в режиме таблицы.

    курсовая работа [805,5 K], добавлен 15.12.2010

  • Принципы построения и основные компоненты хранилищ данных, общая характеристика основных требований к ним по Р. Кинболлу. Понятие и виды баз данных. Методика проектирования комплекса задач автоматизации учета по счету 02 "Амортизация основных средств".

    контрольная работа [27,8 K], добавлен 12.11.2010

  • Особенности кадрового дела. Разработка схемы базы данных для отдела кадров. Реализация разработанной схемы в конкретной СУБД (MS Access). Создание экранных форм для ввода данных, отчетов, запросов. Автоматизация работы с созданной базой данных.

    курсовая работа [2,8 M], добавлен 10.05.2011

  • Математическая статистика. Выборочная функция распределения. Использование инструментов Мастера функций и Пакета анализа Excel при статистической обработке данных. Анализ однородности выборки. Корреляционный, регрессионный анализ экспериментальных данных.

    курсовая работа [473,6 K], добавлен 22.12.2015

  • Имена таблиц: "Документы", "Подразделение", "Носители", "Местонахождение носителя". Текстовый и числовой тип данных. Связи между таблицами. Применение фильтров и запросов к базе данных. Создадим отчет с группировкой подразделений по их наименованию.

    контрольная работа [1,2 M], добавлен 24.07.2009

  • Уровневая архитектура компьютерных ресурсов CMS. Поток данных от детекторов для анализа. Сокращение размера событий: CMS форматы данных и форматы Тир-данных. Иерархия CMS данных. Средства удаленной работы на LINUX машинах в CERN: PUTTY, WinSCP и Xming.

    курсовая работа [3,1 M], добавлен 17.02.2014

  • Реализация системы управления, предоставляющей пользователю информацию о патенте. Основные предметно-значимые сущности и их атрибуты. Ограничения предметной области. Требования к функциям системы. Концептуальная схема базы данных в виде ER-диаграммы.

    контрольная работа [295,6 K], добавлен 27.05.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.