Оптимизация ETL-процессов: обзор отечественного рынка
Российские разработчики в целях достижения импортозамещения предлагают ряд решений для развития промышленности и удовлетворения потребностей общества. В статье исследуются отечественные разработки для автоматизации ETL-процесса: Аlmaz ETL, Modus ETL.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 07.12.2024 |
Размер файла | 16,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Оптимизация ETL-процессов: обзор отечественного рынка
Упаева П.В.
Уфимский университет науки и технологий (г. Уфа, Россия)
Аннотация: российские разработчики в целях достижения импортозамещения предлагают ряд решений для развития промышленности и удовлетворения потребностей общества. В данной статье исследуются отечественные разработки для автоматизации ETL-процесса: Аlmaz ETL, Modus ETL, OneBridge и VectorETL. Для каждого инструмента приведены источники данных, с которыми работает система, а также рассмотрены функциональные возможности и недостатки.
Ключевые слова: ETL-инструменты, источник данных, данные, информационная система.
Upaeva P.V.
Ufa University of Science and Technology (Ufa, Russia)
OPTIMIZATION OF ETL PROCESSES: AN REVIEW OF THE DOMESTIC MARKET
Abstract: in order to achieve import substitution, Russian developers offer a number of solutions for the development of industry and meeting the needs of society. This article examines domestic developments for automation of the ETL process: Almaz ETL, Modus ETL, OneBridge and VectorETL. For each tool, the data sources that the system works with are presented, as well as the functionality and disadvantages are considered.
Keywords: ETL, tools, data source, data, information system.
С каждым годом количество разнородных данных увеличивается, что затрудняет работу аналитикам в предприятиях, использующих данные для принятия важных решений. Помимо этого, существует множество различных источников для хранения информации, что усложняет сбор данных и их последующую обработку. Для того, чтобы организации могли эффективно анализировать данные из разных информационных систем, применяют процесс ETL (Extract, Transform, Load), позволяющий извлекать данные из этих источников, преобразовывать их и загружать в единое хранилище данных [2]. автоматизация импортозамещение промышленности
Для автоматизации ETL-процессов на рынке представлено множество инструментов, но в условиях импортозамещения все больше приобретает актуальность использования и создания отечественных программных продуктов. Данная статья направлена на рассмотрение таких отечественных ETL-инструментов, как Аlmaz ETL, Modus ETL, OneBridge и VectorETL.
Almaz ETL.
Almaz ETL - система, которая работает по расписанию и обеспечивает извлечение данных из разнородных источников для последующей трансформации и загрузки в хранилище [3].
Программа производит импорт данных из различных источников:
- базы данных: Arangodb, ClickHouse, MS SQL Server, MySQL, PostgreSQL и PostgreSQL PRO, MariaDB, Oracle, Red Data, Firebird, Hive, Impala, Vertica, Redis,
- файлы в форматах csv, xls, xlsx, json, xml, txt, parquet, dbf, json, mpp, orc,
- Rest-подобные сервисы.
Особенности:
- Наличие панели фильтрации по различным параметрам помогает пользователю быстрее находить нужную информацию о процессах, а цветовой статус загрузчика позволяет наглядно оценить его состояние,
- Возможность просматривать содержимое файла перед его загрузкой,
- Интуитивно понятный интерфейс,
- Реализация запуска по расписанию с периодичностью в день или N минут, а также есть возможность просмотра истории запусков,
- В системе используются функции преобразования, которые доступны в Spark SQL,
- Получение уведомлений по e-mail о результатах работы системы,
- Наличие справочника по функциям, которые чаще используются при преобразовании данных.
Недостатки:
- Нет реализации извлечения неструктурированной информации,
- Отсутствие у источника Redis фильтра по таблице, возможности преобразования и переименования поля.
Modus ETL.
Modus ETL - система, разработанная на платформе 1С, управляет процессами ETL и Data Quality Management, а также передает подготовленные данные в любые OLAP или BI-системы [4].
Modus ETL осуществляет сбор данных из следующих источников:
- базы данных: MS SQL Server, ClickHouse, Oracle, PostgreSQL, Vertica,
- приложения 1С:Предприятие 8,
- файлы в форматах csv, xls, xlsx, json,
- веб-сервисы.
Особенности:
- Для комфортного использования системы однотипные источники сгруппированы вместе в одном наборе,
- В зависимости от потребностей возможен выбор базового или продвинутого функционала. При продвинутом варианте обеспечивается повышение производительности и масштабируемости,
- Встроенный в Modus ETL мастер интеграции позволяет работать в системе пользователям, не имеющих опыта и знаний в программировании,
- Наличие определенных прав доступа к системе в зависимости от роли пользователя,
- Для клиентов разработки предоставлена подробная техническая документация по ее использованию, а также для ознакомления есть возможность просмотра видеозаписи,
- Разработчики Modus ETL регулярно выпускают обновления, что способствует постоянному совершенствованию системы,
- Автоматизация рутинных действий с помощью шаблонов,
- Рассылка оповещения о выполнении задачи на электронную почту,
- Визуальное и удобное проектирование с помощью интерфейса WorkFlow.
- Система направлена на low-code подход,
- Возможен автоматический запуск процессов с помощью расписания, которое можно настраивать в различном виде: по часам, дням, неделям и месяцам. Для наглядного отслеживания запланированных к запуску пакетов имеется визуальное представление,
- Для оптимизации процессов реализован механизм очередей, в котором можно настраивать собственные требования. Также для сокращения времени трансформации данных осуществлена параллельная обработка.
Недостатки:
- Существование ограничений для некоторых модулей платформы, что следует учитывать при использовании,
- Система не поддерживает извлечение неструктурированных данных.
- Необходимо отдельно устанавливать систему лицензирования и защиты конфигураций,
- Для обновления системы может потребоваться длительное время,
- Для успешной загрузки файлов в форматах сбу и xlsx необходимо выполнить ряд требований.
OneBridge - система, извлекающая информацию и обрабатывающая ее по заданному пользователем алгоритму, а также загружающая в хранилище для последующего анализа.
Данная платформа считывает информацию из источников:
- базы данных: Microsoft SQL Server, MySQL, Oracle, PostgreSQL, SQLite,
- файлы в форматах csv и txt,
- ZIP и TAR архивы простых файлов [5].
Особенности:
- Графическое представление алгоритмов обработки данных упрощает его понимание для пользователей,
- Возможность контролирования использования ресурсов сервера с помощью автоматического сбора статистики и его визуализации,
- Обработка данных происходит по алгоритму, который настраивается пользователем,
- Оптимизация производительности за счет распределения нагрузок между рабочими процессами,
- Отслеживание запусков с помощью истории, оснащенной фильтрацией по различным критериям.
Недостатки:
- Система не импортирует неструктурированные данные,
- Не реализован автоматический запуск,
- По сравнению с другими инструментами, данная система пока поддерживает интеграцию с ограниченным количеством источников информации.
VectorETL.
VectorETL - система, функционирование которой реализовано на СУБД PostgreSQL. Данная программа позволяет эффективно управлять наполнением хранилищ данных, где источниками информации являются:
- базы данных: MS SQL Server, MySQL, PostgreSQL, MariaDB, Oracle, RedData, Firebird,
- структурированные файлы, получаемые через ftp-подключения в форматах csv, dbf, mpp, xls/ods, xml, txt, json,
- системы, обменивающие данными посредством API [1].
Особенности:
- Загрузка данных из источника "ЕМИСС",
- Возможность проверки данных перед их загрузкой,
- Использование функций преобразования, доступные в Spark SQL,
- Возможность настраивать расписание ETL-процессов в таких периодах, как каждую неделю, день, час или минуту, а также просматривать статус и историю запусков,
- Наличие системы авторизации,
- Доступна фильтрация существующих процессов в системе по различным параметрам,
- Наложение ограничений на данные при загрузке.
Недостатки:
- Нет реализации извлечения неструктурированной информации,
- Наличие ограничений при загрузке файлов в формате mpp.
Таким образом, несмотря на схожесть некоторых решений, каждый инструмент имеет свои преимущества и недостатки, поэтому при выборе ETL- инструмента нужно исходить от конкретных бизнес-потребностей организации. Очевидно, что российский рынок по разработке ETL-инструментов все еще находится в активной стадии развития, однако можно сказать, что в ближайшем будущем он составит достойную конкуренцию зарубежным аналогам.
Список литературы
1. Автоматизированная система сбора, преобразования и хранения данных VectorETL / [Электронный ресурс] // АТ Консалтинг: [сайт]. - URL: https://www.at-consulting.ru/for_clients/products/vector_ETL/ (дата обращения: 20.06.2024);
2. Тавторкин, Н.О. ETL-процессы в работе с данными / Н.О. Тавторкин, Н.М. Куляшова // Будущее науки - 2024: сборник научных статей 11-й Международной молодежной научной конференции, Курск, 18-19 апреля 2024 года. - Курск: ЗАО "Университетская книга", 2024. - С. 175-178. - EDN TASEXJ;
3. Almaz ETL - сбор, консолидация и нормализация данных из разных источников / [Электронный ресурс] // Инлексис: [сайт]. - URL: https://inleksys.ru/etl/ (дата обращения: 20.06.2024);
4. Modus ETL / [Электронный ресурс] // Modus: [сайт]. - URL: https://modusbi.ru/products/etl/ (дата обращения: 21.06.2024);
5. OneBridge - комплексное решение для управления данными / [Электронный ресурс] // OneBridge: [сайт]. - URL: https://modernsolution.ru/onebridge/ (дата обращения: 20.06.2024)
Размещено на Allbest.ru
...Подобные документы
Обзор методов моделирования бизнес-процессов. Оптимизация процессов с помощью методологии Мартина. Анализ проблем и причины недостаточной эффективности в работе "ФМ Ложистик Кастомс". Автоматизация процесса сверки сведений из электронных документов.
дипломная работа [4,5 M], добавлен 11.12.2013Оптимизация информационной системы управления предприятием. Технико-экономическое обоснование целесообразности процесса внедрения программного обеспечения для автоматизации кадрового документооборота организации, предоставляющей транспортные услуги.
контрольная работа [35,0 K], добавлен 06.03.2012Анализ традиционных видов общественных ресурсов. Этапы развития технических средств. Информатизация — процесс формирования оптимальных условий для удовлетворения информационных потребностей пользователей за счет применения соответствующих технологий.
презентация [2,5 M], добавлен 04.10.2017Анализ и разработка информационной системы, структура сети предприятия. Описание процесса разработки конфигураций и выявление потребностей в автоматизации функций. Средства разработки проектирования и архитектура базы данных. Разработка модели угроз.
дипломная работа [1,4 M], добавлен 13.07.2011Разработка программы "Задача о строевой записке" для автоматизации процесса решения задач оптимизации. Основные задачи и функции подлежащие автоматизации. Требования к параметрам технических средств. Описание процесса отладки и испытания программы.
курсовая работа [23,1 K], добавлен 28.04.2009Определение многомерной модели данных для удовлетворения основных информационных потребностей предприятия. Экстракция, загрузка и перенос данных из различных источников данных. Разработка собственных ETL–систем. Оптимизация работы хранилища данных.
презентация [9,1 M], добавлен 25.09.2013Краткий обзор технических средств для промышленной автоматизации. Концепция построения информационной системы производства на базе Proficy. Анализ разработки автоматизации узлов учета нефти автоматизированного рабочего места оператора нефтебазы.
дипломная работа [5,2 M], добавлен 19.03.2015Трансляторщики - специалисты по системам программирования. Операционщики - разработчики операционных систем. Сетевики - разработчики программ сетевого взаимодействия. Базовики - специалисты по базам данных. Пользователь. Современные машинистки.
контрольная работа [25,0 K], добавлен 29.09.2008Предпроектный анализ объекта автоматизации. Описание потоков данных и бизнес процессов. Обзор и анализ существующих проектных решений, их достоинства и недостатки. Разработка концепции архитектуры построения. Основные рекомендации по рисованию программ.
курсовая работа [2,8 M], добавлен 13.03.2015Проблемы, обзор и анализ публикаций процесса функционирования библиотеки и обоснование его автоматизации. Анализ альтернативного программного обеспечения по автоматизации работы библиотек. Моделирование процесса функционирования библиотеки "Стэлс".
дипломная работа [1,2 M], добавлен 09.01.2014Методика разработки контрольных тестов. Обзор программных продуктов по данной теме. Система тестирования INDIGO - профессиональный инструмент автоматизации процесса тестирования и обработки результатов. Создание интерактивного теста с помощью макросов.
курсовая работа [2,1 M], добавлен 21.06.2014Требования к функциональным характеристикам разрабатываемой автоматизированной системы. Системы управления обучением. Обзор средств разработки, серверов, СУБД. Применение модели "сущность-связь", ее преимущества. Архитектура программного средства.
курсовая работа [900,7 K], добавлен 07.07.2012Информационная инфраструктура как элемент современного почтового предприятия. Программа развития коммуникационных технологий и система приема платежей устройствами самообслуживания. Принцип унификации решений в автоматизации технологических процессов.
реферат [23,2 K], добавлен 22.04.2011Использование моделирования в программной инженерии в процессе разработки программного обеспечения. Основные этапы процесса разработки программного обеспечения, их характеристика. Моделирование процессов, их определение фазами и видами деятельности.
реферат [2,2 M], добавлен 25.12.2017Программа для учеников школ, либо колледжа в целях ознакомления и изучения истории развития человеческого общества. Требования к программе. Главная форма и с видео плеером. Руководство пользователя. Вывод результатов после окончания тестирования.
курсовая работа [4,8 M], добавлен 09.12.2013Анализ системы информационного обеспечения деятельности в ООО "Эстэл-Инфо". Стратегия оптимизация автоматизации деятельности предприятия. Оценка социально-экономической эффективности проекта методической поддержки стратегии автоматизации бизнес-процессов.
курсовая работа [252,8 K], добавлен 06.01.2012Разработка проекта программного комплекса для автоматизации информационных процессов службы сбыта пищевой продукции. Разработка информационной базы данных и характеристика процесса создания клиентской и сервисной части приложения по технологии ASP.NET.
дипломная работа [2,4 M], добавлен 24.06.2011Обзор программного обеспечения для оформления контрольных документов, выбор средства реализации системы автоматизации оформления сопровождающей документации. Создание, наладка и тестирование программы для автоматизации работы с рекламными шаблонами.
дипломная работа [2,0 M], добавлен 17.06.2017Разработка информационной системы для автоматизации логистики в управлении архивом документов компании "Айрон Маунтен". Обзор рынка аналогов программных продуктов. Тестирование разработанной программной системы. Даталогическая и физическая модели данных.
дипломная работа [7,3 M], добавлен 04.05.2014История разработки глобальной сети Интернет. Программы для отправки электронной почты. Подключение трансатлантического телефонного кабеля. Стандартизация сетевых протоколов. Темпы развития нелокальной открытой сети Arpanet. Отцы-разработчики Интернета.
презентация [2,3 M], добавлен 17.01.2017