Информационно-аналитические исследования
Обзор информационных технологий, применяемых в аналитических исследованиях. Аналитический мониторинг с использованием информационных ресурсов Интернета. Технологии и инструментальные средства автоматизированной обработки электронных текстовых массивов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 26.12.2014 |
Размер файла | 6,8 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Практически все ведущие сайты используют RSS в качестве инструмента оперативного представления свежей информации.
Агрегаторы бывают двух типов: программные агрегаторы и Web-агрегаторы, при этом задачи их одинаковы - получение обновлений.
Программные агрегаторы - это компьютерные программы, которые могут быть встроены в браузеры, в почтовые программы или в операционную систему, но могут быть и отдельными программами.
Web-агрегаторы располагаются на сервере в Интернете, к ним можно получать доступ с любого компьютера, подключенного к Сети. По мнению специалистов, наиболее удобными являются Яндекс.Лента (lenta.yandex.ru) и Google Reader.
В Интернете существуют системы метапоиска (параллельного поиска), которые передают сформулированный пользователем запрос разным поисковым системам. Повторяющиеся ссылки, полученные от разных систем, как правило, исключаются из представляемых пользователю результатов поиска. Несколько адресов зарубежных систем метапоиска:
MetaCrawler (http://www.metacrawler.com);
Dogpile (http://www.dogpile.com);
Highway 61 (http://www.highway61.com);
ProFusion (http://www.profusion.com).
3. Аналитический мониторинг с использованием информационных ресурсов интернета
В.Ю. Кравченко, заместитель начальника отдела национальной безопасности Аналитического управления Аппарата Совета Федерации
Одним из направлений работы Аналитического управления является мониторинг информации с помощью информационных ресурсов Интернета. Его сущность заключается в поиске и передаче информации из компьютерных систем и сетей «Всемирной паутины» с последующей верификацией и аналитической обработкой.
Большой интерес к методам аналитического мониторинга проявляют как государственные, так и негосударственные организации и службы. Это обусловлено тем, что в Интернете содержатся большие объемы информации, которая может представлять профессиональный интерес.
Для глобальных исследований в Интернете используются специальные «процессоры сбора данных» (в некоторых источниках их называют «текстово-аналитические системы»). Действуя автономно, процессоры сбора данных перехватывают любую запрашиваемую информацию, которая размещается в глобальной сети.
Одним из первых был рассекречен французский процессор «Taiga» («Traitement automatique de l'information geopolitique d'actualite» - «автоматическая обработка актуальной геополитической информации»). Этот программный комплекс разрабатывался для французской разведки, где он использовался в течение 11 лет.
Для проведения семантического анализа крупных информационных массивов французской компанией «Acetic» был разработан пакет прикладных программ «Tropes». Отбор требуемой информации происходит в соответствии с ключевыми словами и понятиями, связанными по смыслу. Так, например, название самолёта «Мираж» соотносится со словами «самолёт», «истребитель». Сочетание слов «госсекретарь» автоматически ассоциируется со словами «министр», «политик». Помимо этого «Tropes» предоставляет возможность создавать необходимые для работы информационные «сценарии», на основе которых автоматически осуществляется не только поиск, но и целевая группировка требуемых данных.
Учитывая, что эти разработки сегодня используются коммерческими структурами, можно предположить, что в арсенале специальных служб применяются гораздо более мощные средства.
Американский аналог этих программных комплексов, который называется «Topic», так же первоначально разрабатывался для нужд разведки. Эта система появилась на свет в результате длительных исследовательских работ, осуществлявшихся под контролем ЦРУ. Сегодня он также передан в коммерческое использование.
Таким образом, использование методик мониторинга средствами Интернет открывает огромные возможности по оперативному получению необходимых данных как из профессиональных баз и банков данных, так и из неструктурированной информации.
Эти обстоятельства естественным образом выделяют аналитическую работу по мониторингу Интернет-пространства в самостоятельное направление деятельности Аналитического управления.
Большая часть информации, полученной в результате мониторинга Интернета, носит неявный характер и нуждается в аналитической обработке. Считается, что только 10-15% нужной информации в Интернете можно найти в готовом виде, а остальные - 85-90% получаются в результате сравнения, анализа и синтеза различных информационных источников. Естественно, что информация, полученная таким образом, нуждается в уточнениях и верификации (проверке).
При наличии дальнейшего интереса к исследуемому объекту эта предварительная информация поможет аналитику расставить акценты и задать ориентиры в дальнейшей работе.
Поисковые системы
Самый простой и дешёвый способ информационно-поисковой работы в Интернете - воспользоваться услугами бесплатных поисковых систем.
С помощью поисковых систем можно осуществлять различные манипуляции с информацией: индексирование текстов и поиск по одному (нескольким) ключевым словам (по индексу); морфологический поиск - разбор и отождествление различных грамматических форм слов; ранжирование по степени соответствия документа запросу.
На сегодняшний день самыми эффективными русскоязычными поисковыми системами являются Яндекс (http://www.yandex.ru), Апорт (http://www.aport.ru), Рамблер (http://www.rambler.ru). У Яндекса самая производительная поисковая машина, к тому же, на его сайте имеются ссылки практически на все другие поисковики.
Следуют отметить, что результативность поиска зависит от двух составляющих. Во-первых, от степени соответствия ключевого слова или фразы поставленной информационной задаче, то есть релевантности информационного запроса.
Причём, если по первому запросу поисковая система нашла слишком много документов, то по уже отобранному массиву можно провести второй поиск с заданием дополнительных условий и тем самым сузить круг выдаваемых документов.
Во-вторых, у каждой поисковой системы свой алгоритм поиска и перечень сайтов, входящих в базу данных поиска, поэтому при одном и том же запросе результаты поиска в различных поисковых системах могут значительно отличаться.
Но самые большие информационные базы хранятся на сайтах различных информационных и консалтинговых компаний, однако, доступ к ним, как правило, всегда платный.
В настоящее время в русском секторе Интернета также можно найти не только электронные версии практически всех российских периодических изданий, но и многочисленные банки данных с различной бизнес-информацией. Все это значительно облегчает доступ к открытой информации, получаемой в электронном виде, и последующую автоматизированную обработку информационных массивов.
Как и на Западе, в русском секторе Интернета тоже существуют электронные библиотеки, в которых накапливается различная тематическая информация. В качестве примера можно привести Электронные каталоги Российской национальной библиотеки (http://www.nlr.ru/poisk/), информационное агентство «Интегрум-Техно» (http://www.integrum.ru) и агентство экономической «Прайм-ТАСС» (http://www.prime-tass.ru).
Грамотно формулируя и формируя запросы, осуществляя поиск в базах данных, пользователь может решать практически любые информационные задачи - от оперативного анализа новостей до детального изучения происходящих событий и их предыстории, создания досье на известных и малоизвестных персоналий, политические структуры и организации.
Каталоги
Каталоги предоставляют собой ещё один удобный вид доступа к данным. Каталоги - это рубрикаторы или классификаторы, организующие множества документов в «деревья» или целые «заросли» рубрик.
Для эффективного использования каталога пользователю нужно правильно определить принцип структуризации, который был применён при его создании и который зачастую существует только в головах авторов каталога. Поэтому для компенсации неудобств в каталоги в последнее время стали включать и средства поиска. И, наоборот, поисковые машины стали снабжаться каталогами; в частности, обзавелся своим тематическим каталогом ресурсов ветеран русского Интернета «Рамблер».
В качестве примера для возможных изысканий можно привести следующие каталоги:
«Yahoo» (www.yahoo.com);
«List.Ru» (http://www.list.ru);
«Рамблер» (http://www.rambler.ru);
«Лица российских сайтов» (http://www.sites.ru);
«Улитка» (http://www.ulitka.ru).
Перечень каталогов можно посмотреть на http://yaca.yandex.ru/yca/cat/Reference/Web-Directories/.
При работе с классификаторами следует учитывать, что сайты классифицируются разными каталогами по-разному.
Помимо хранилищ общего назначения существует множество специализированных каталогов, помогающих пользователям ориентироваться в достаточно узких предметных областях (например, специализированные сайты посвящённые вопросам безопасности: Российская газета по безопасности http://www.rg.ru/tema/bezopasnost/terrorizm/index-str10.html, сайт по безопасности http://www.sec.ru).
4. Информационно-аналитические системы для аналитических структур государственных и коммерческих организаций
А.А. Майоров, руководитель Отдела аналитических систем, РДТЕХ
Задачи по сбору и анализу информации, стоящие перед аналитическими службами и управлениями организаций, как государственными, так и коммерческими, во многом совпадают как по характеру обрабатываемых данных, так и по методам анализа.
В данной статье мы обозначим ряд ключевых особенностей аналитических систем и их отражение в программных продуктах. В качестве иллюстраций мы будем использовать пример корпоративной аналитической службы и продукты компании i2 Ltd.
Задачи аналитических служб и управлений
Типичными задачами, решаемыми аналитическими службами, являются:
отраслевые, экономические и социологические исследования, мониторинг социальных процессов и событий общественной жизни;
организация проверок исполнения нормативных обязательств и законодательных инициатив;
контроль выполнения обязательств со стороны организаций и персоналий.
Наиболее трудоёмкой аналитической работой, безусловно, являются исследования, т.е. сбор и обработка информации, потенциально влияющей на выработку управленческих решений. К такого рода информации могут относиться как правовые акты, заявления государственных деятелей, так и данные об экономической ситуации, структуре бизнеса, аффиляционных связях между компаниями, данные о личных связях ключевых фигур.
Основными задачами, решаемыми в ходе аналитических исследований, являются:
изучение ситуационных изменений в ходе процессов, происходящих в экономической, социальной и общественно-политической сферах;
изучение торгово-конъюнктурных ситуаций в экономическом пространстве;
ситуационный анализ текущего состояния финансово-торговой деятельности с точки зрения прогнозирования возможных последствий, могущих привести к различным неправомерным действиям;
выявление легитимности и платёжеспособности юридических и физических лиц, их возможности своевременного выполнения обязательств;
установление антагонистических конкурентов, выявление их методов ведения конкурентной борьбы и способов достижения своих целей в целях поддержания стабильности на экономическом рынке;
определение возможных направлений и характера злоумышленных действий участников рынка, представителей отраслей экономики.
Требования к информационно-аналитической системе
Решение этих задач определяет ряд специфических требований к программному обеспечению.
В отличие от узкоспециализированных витрин данных, где, например, банковский аналитик анализирует ограниченный набор сущностей, сотрудникам аналитических управлений приходится работать довольно с широким набором типажей объектов и связей между ними. Более того, в ходе анализа данных может возникнуть необходимость определения новых, ранее отсутствовавших в системе типов для описания объектов, привлекших внимание аналитика. Таким образом, семантическая модель аналитической системы должна быть легко расширяема без участия разработчиков, если не самим аналитиком, то по крайней мере администратором системы.
Аналитическая деятельность не может быть ограничена отдельным внутренним источником данных. Если, например, для банковской аналитической системы вполне типично использовать ограниченное число АБС филиалов в качестве источника информации для корпоративного хранилища, то для сотрудников, анализирующих широкий спектр источников и тематических направлений, должна быть реализована возможность использовать как собственные информационные ресурсы, так и внешние. Внешние ресурсы - это открытые источники (публикации в Интернете и в традиционной прессе), данные и отчёты информационных служб, предоставляемые по подписке, а также коммерчески доступные базы данных по различным тематикам.
Речь идёт не о некоторой регламентированной процедуре загрузки некоторого заранее определённого набора данных, а скорее, о возможности формирования аналитиком запроса по объекту к внешним базам данных. Таким образом, программное обеспечение аналитических управлений должно предусматривать как возможность загрузки данных из разнородных источников, так и интеграцию разнородных баз данных в единую информационную систему.
В случае с открытыми публикациями речь, прежде всего, идёт о возможности работы с неструктурированной информацией, а именно, автоматизации процесса анализа документов с выявлением в нём объектов интереса и связей между ними, а также сохранении этих объектов в базе данных в структурированном виде для последующего более детального анализа.
Множество внешних источников данных неизбежно порождает в информационно-аналитической системе дублирующие записи об одном и том же объекте. Наличие средств поиска похожих объектов является неотъемлемой частью программного обеспечения для данной сферы деятельности.
Одной из основных особенностей такого рода анализа является акцентирование внимания на отношениях и зависимостях - связях между объектами. Такие свойства должны находить отражение как в логической модели базы данных, так и в графических средствах их отображения.
Широко применяемые структуры «Мастер-деталь» в OLTP-базах данных или «Звезда» - в OLAP-витринах не совсем удобны для моделирования данных, содержащих большое количество сущностей, и связанны друг с другом, как правило, отношениями «Многие ко многим». При этом «Многие ко многим» следует рассматривать не только в традиционном смысле, предполагаемом ER-моделью, но и в том смысле, что каждая сущность, как правило, имеет отношения с множеством других сущностей. При этом очевидно, что один и тот же тип отношения может связывать не только две сущности, но и их произвольное количество. Например, сущность «Юридическое лицо» может быть связано само с собой отношением «Учредитель» («Многие ко многим»), и в то же время - таким же отношением с сущностью «Физическое лицо».
Для аналитиков наиболее естественной моделью представления данных является граф, т.е. набор объектов со связями между ними, поскольку значительная часть аналитической работы в этом случае заключается в выявлении связей между объектами.
Здесь на первый план выходят визуальные средства анализа и такие графические представления данных как:
схемы связей;
схемы последовательности событий;
схемы транзакций.
Рисунок 1. Диаграмма связей
Рисунок 2. Диаграмма последовательности событий
Рисунок 3. Диаграмма транзакций
Каждое из трёх, обозначенных в рисунках, основных представлений наилучшим образом демонстрирует тот или иной аспект взаимоотношений исследуемых объектов. В первом случае - факт наличия прямых либо косвенных связей между объектами; во втором - временную последовательность общих событий, в которые были вовлечены объекты; в третьем - наличие и временное распределение транзакций между объектами, т.е. информационных, материальных или финансовых потоков.
Результат работы заключается как в поиске фактов, так и превращении их в информацию. Аналитик должен иметь возможность оценить и зафиксировать качество и достоверность данных, добавить комментарии, возможно, какие-то связи к уже имеющимся.
Очевидно, что для аналитика чрезвычайно важно, чтобы программное обеспечение позволяло формулировать и фиксировать свои умозаключения, в том числе, и посредством визуальных средств на схеме.
Некоторые исследования длятся довольно длительный период, и аналитик должен иметь возможность сохранять объекты исследования, чтобы не выполнять их поиск многократно в источниках данных.
Важную роль играют специализированные алгоритмы, используемые в анализе данных, такие как: кластеризация, поиск пути между объектами, поиск шаблонов поведения и т.п.
Таким образом, основополагающие требования к функционалу информационно-аналитической системы можно сформулировать как:
возможность работы с различными типажами объектов;
работа с внешними источниками, как коммерческого характера, так и предоставляемых в качестве обмена прочими структурами;
поиск дубликатов;
работа с неструктурированной информацией;
акцент на выявлении связей и отношений объекта анализа с прочими объектами;
представление данных в ходе анализа, а также его результатов в виде диаграмм и схем;
оценка качества и достоверности информации;
формулирование умозаключений и выводов об объектах анализа;
оформление результатов анализа в виде аналитических записок и отчётов;
использование специализированных аналитических функций.
Лицензионные программные продукты для аналитических структур
На рынке программного обеспечения, ориентированного на выполнение широкого спектра задач для аналитических служб, можно выделить две группы продуктов: коробочные продукты и разрабатываемые под заказ, либо требующие участия производителя в конфигурации продукта.
Первая группа представлена на российском рынке, главным образом, иностранными производителям - общепризнанными лидерами мирового рынка:
i2 Limited
Visual Analytics Inc.
Российские компании в основном специализируются на кастомизированной разработке информационно-аналитических систем, используя как лицензионные продукты (в т.ч. упомянутых выше компаний), так и собственные разработки.
Компании i2 Ltd, Visual Analytics Inc. присутствуют на российском рынке информационных технологий уже много лет, и каждая имеет свой круг пользователей.
Флагманские продукты этих компаний, существенным образом отличаясь архитектурно, используют одну и ту же модель данных - «Объект-связь-объект», и в значительной мере пересекаются функционально, поскольку так или иначе пытаются решить основные задачи:
визуального анализа данных;
хранения данных, появляющихся во время исследования;
использования данных, хранимых во внешних базах данных;
работы с неструктурированными данными.
Поскольку основной упор в программном обеспечении подобного рода делается на визуальное восприятие, то графические средства представления информации играют главную роль. Каждый из основных типов диаграмм, представленных на рисунках 1-3, имеет множество вариаций автоматического расположения объектов, подчеркивающих тот или иной аспект отношений объектов.
Рисунок 4. Круговое расположение - объекты расположены по кругу с группировкой по типам и количеству связей
Рисунок 5. Групповое расположение - выделяет группу наиболее взаимосвязанных объектов
Рисунок 6. Иерархическое расположение - подчеркивает иерархические отношения между объектами
Безусловно, функциональность продуктов не ограничивается только графическим представлением данных. Флагманский продукт i2 Limited Analyst's Notebook предоставляет пользователю широкий выбор команд, позволяющих более эффективно работать с данными. Среди наиболее интересных возможностей следует отметить:
1. Расширение связей. Выделив на схеме объект, аналитик может одним щелчком мышки найти в базе данных не только прямые, но и косвенные связи данного объекта глубиной до пяти уровней.
2. Поиск пути между объектами: как на схеме, так и в базе данных. Функция позволяет показать цепочку объектов и связей между ними. В случае поиска на диаграмме, у пользователя есть возможность задать самый короткий путь. Также, если связи несут информацию о дате и времени, - самый ранний путь. Более того, при необходимости можно задать учёт направления связи, что актуально в случае анализа банковских транзакций.
3. Кластеризация на основе взаимных связей группы объектов. Возможность выделять на схеме группу наиболее тесно связанных между собой объектов.
4. Поиск похожих объектов. Группировка объектов со схожими именами, автоматическая идентификация дубликатов объектов на схеме до определённой степени, что позволяет решить проблему консолидации данных об объекте, хранимых в разных базах.
5. Широкие возможности поиска объектов: и на диаграмме, и в базе данных. Помимо простейшего поиска объекта заданного типа по значениям атрибутов, имеется возможность генерации графического запроса. Данная функция особенно интересна, поскольку позволяет аналитику создавать шаблоны событий
Продукты i2 Ltd
Рисунок 7. Программные продукты i2 Ltd
База данных I2 iBase
В линейку продуктов, предлагаемых компаниями, разрабатывающими аналитическое программное обеспечение с возможностями визуализации, как правило, входят также специализированные СУБД, алгоритмы извлечения знаний, GIS-модули, элементы OLAP-технологий, средства работы с неструктурированным текстом.
Так, компания i2 Limited. выпускает базу данных iBase, работающую под управлением СУБД Microsoft Access или Microsoft SQL Server. Она может использоваться и как персональная база данных аналитика в случае развертывания под Microsoft Access, так и как корпоративная - при использовании SQL Server.
В обоих случаях объектный и атрибутный состав базы может быть легко настроен аналитиком на его предметную область даже без глубоких знаний информационных технологий и ручного программирования.
Кроме стандартных для любой базы данных функций по вводу, хранению и поиску информации, iBase обладает рядом дополнительных возможностей связанных с анализом.
Как и Analyst's Notebook, iBase позволяет задавать запросы графически. Для аналитиков чрезвычайно полезными являются возможности, позволяющие найти в базе дублирующие объекты, и после проверки аналитиком их идентичности - объединить записи. При этом связи дубликатов автоматически переносятся на новый уникальный объект.
Наряду с самой базой данных, в продукт входит Designer базы, позволяющий управлять типажами объектов и правами пользователей, а также настраивать формы представления данных в готовом клиентском приложении (поставляется с базой), предоставляющем достаточно удобный интерфейс по работе с объектами данных. Записи, тем или иным образом выбранные в клиентском приложении базы данных iBase, могут быть легко добавлены на схему Analyst's Notebook. Также доступ к базе данных может быть открыт и непосредственно в Analyst's Notebook, что позволяет выполнять запросы непосредственно в нём.
I2 iBridge
В случаях, когда имеется необходимость работы с уже существующей в организации реляционной базой данных, может быть использован продукт iBridge. С помощью него, предварительно описав в iBridge Designer структуру базы данных в терминах объектов анализа, аналитик может получить доступ из Analyst's Notebook к данным в произвольной реляционной базе данных по ODBC-протоколу. Чрезвычайно важно, что интерфейс к базе данных, обеспечиваемый iBridge, позволяет работать с командами не только типа «найти объект по значениям атрибутов», но и способен автоматически расширять связи объекта на произвольную глубину. Также возможно добавлять на схему все объекты, связанные с указанным, искать путь в базе данных между двумя выделенными объектами, графически строить сложные запросы к базе данных, содержащие несколько типов объектов и связи между ними.
I2 TextChart
Наряду со средствами работы со структурированными данными, хранящимися в той или иной базе данных, в линейку аналитических продуктов входят средства работы с неструктурированной информацией. Программные продукты данного направления позволяют выделить в тексте основные элементы информации - разметить текст. Импортируя результаты разметки в базу данных, аналитик, тем самым структурирует информацию. Так, например, i2 TextChart позволяет работать практически с любым форматом документов, встречающемся в среде MicroSoft Windows - MS Word, RTF, HTTP, PDF. Интеграция с iBase позволяет разработать специфический для данной тематики текстов набор объектов и использовать его для разметки. Фрагменты размечаемого текста непосредственно присваиваются атрибутам объектов. При этом разметка текста сопровождается графическим аннотированием документа - наряду с разметкой строится диаграмма объектов, описываемых в документе, и отношений между ними. Полученная таким образом схема, может быть просмотрена и расширена в Analyst's Notebook, либо импортирована в базу данных iBase. В последнем случае в базу данных импортируется не просто схема, а объекты, представленные на ней. В результате аналитик получает возможность анализировать документ в контексте базы данных.
Рисунок 8.
Все упомянутые продукты предназначаются компании любого масштаба - как со скромным бюджетом, так и для крупных компаний с достаточно мощной СУБД, хранящей корпоративные данные.
Аналитика для распределённых сред
Вместе с тем не стоит забывать и о том классе продуктов, который изначально ориентирован на анализ в распределённой среде.
I2 iXV SDK
В случае необходимости развёртывания 3-х звенных приложений, разработчики могут использовать продукт iXV SDK, позволяющий создать приложение с базовым функционалом Analyst's Notebook, но через тонкого клиента. При этом объекты, визуализированные в тонком клиенте, могут быть перенесены аналитиком с помощью мыши (drag and drop) в Analyst's Notebook, сохранив исходное соединение с источником данных. Тем самым аналитик получает доступ к полному функционалу Analyst's Notebook. Подобные решения чрезвычайно удобны для доступа к данным компаний провайдеров данных, предоставляющих по подписке доступ к своим базам данных. В данном решении потребитель данных не должен устанавливать никакого дополнительного программного обеспечения - доступ осуществляется через произвольный Интернет-браузер.
Несмотря на то, что технология iXV позволяет получить доступ к удаленным данным во внешнем источнике, она не может решить проблемы объединения разнородных источников в единую систему. Объединить распределённые внешние источники в единую систему можно с помощью продукта iXa.
iXa, используя, единую семантическую библиотеку типов, позволяет описать внешние источники в единых терминах. В результате аналитик получает возможность, сформулировав запрос, получить данные об объекте из всех включенных в информационную систему источников.
При проектировании информационной системы выбор программных продуктов играет очень важную роль. Жизненный цикл информационной системы исчисляется многими годами. Необходимо быть уверенным, что используемый продукт, удовлетворяющий функциональным требованиям на момент создания ИС, имеет техническую поддержку производителя и будет им развиваться в последствии. В этом смысле компания i2 Ltd. отвечает данному требованию. Продукты компании регулярно обновляются. Так, 2010 году выходят новые версии ключевых продуктов компании - Analyst's Notebook версия 8, iBase версия 8 и textChart версия 8.
Расширенные возможности новых версий продуктов I2
Полностью сохранив функционал предыдущих версий, обновлённые продукты были расширены рядом полезных возможностей.
Так, например, в Analyst's Notebook появилась возможность использовать гистограммы для фильтрации объектов схемы.
Рисунок 9.
На рисунке 9 показана схема и гистограмма связей объектов, построенная по дате связи. Выбор одного из бинов гистограммы приводит к выбору соответствующих объектов на схеме. Прочие объекты при этом затеняются.
Гистограммы i2 предоставляют возможность перехода к более детальным данным, аналогично операции drill down в системах класса Business Intelligence. Щелкнув мышкой по бину, можно раскрыть его содержание. На рисунке 10 показан переход с уровня «год» на уровень «месяц».
Рисунок 10.
В новой версии также появились алгоритмы анализа социальных сетей. Аналитик теперь может легко рассчитать параметры сети и отобразить их на схеме.
В начале статьи уже упоминалась значимость картографической привязки в процессе анализа данных. GIS-модуль существует в продуктах i2 достаточно давно, но для аналитика использование модуля в определенной степени ограничивалось наличием карт, которые должны покупаться отдельно у компаний, специализирующихся в GIS. Кроме того, объект должен был иметь координаты, чтобы быть отображенным на карте. Новая, восьмая версия Analyst's Notebook, значительно упростила ситуацию за счёт интеграции с популярным сервисом Google Earth. Теперь аналитик может отобразить на карте объекты, у которых указан лишь почтовый адрес.
Кастомизированные системы для аналитических структур
Несмотря на то, что в определенной степени коробочные продукты позволяют построить достаточно сложную аналитическую систему, опыт работы компании РДТЕХ на российском рынке показывает, что крупным структурам, как государственным, так и коммерческим, для работы аналитических служб необходимы индивидуальные заказные разработки.
Причины обращения к заказным разработкам аналитических систем
Производитель коробочного продукта реализует только общий, наиболее часто используемый функционал. Часть необходимого аналитику функционала может отсутствовать в коробочном продукте.
Масштаб организации определяет объём данных и, соответственно, используемую СУБД. Выбор СУБД, как правило, осуществляется на корпоративном уровне для всех подразделений. Этот выбор может не совпадать со штатной СУБД, используемой производителем коробочного продукта. Так, например, собственная база данных i2 - iBase может быть развернута только под двумя СУБД: Access и SQL Server. Первая носит сугубо персональный характер. Вторая СУБД, хотя и активно развивается, но, безусловно, не является абсолютным лидером на российском рынке.
Сложная аналитическая система предполагает интеграцию значительного количества программных продуктов. К сожалению, далеко не все коробочные продукты имеют открытый API или SDK, что затрудняет их интеграцию. В случае i2 ряд продуктов, например, Analyst's Notebook имеет SDK, в то время как iBase - нет. В связи с этим строить ИАС, используя в качестве базы данных iBase, в случае если планируется функциональное расширение, достаточно рискованно.
Всё это приводит к тому, что на российском рынке как госструктуры, так и крупные частные компании идут по пути заказных разработок, сочетающих положительно зарекомендовавшие себя лицензионные продукты лидеров мирового рынка ПО.
Типовое решение РДТЕХ для аналитических структур
Предлагаемое типовое решение РДТЕХ ориентировано на основные потребности аналитических служб, которые были описаны в данной статье ранее. Разработка реализует базовую функциональность, необходимую для оптимизации работы аналитического подразделения организации:
гибкую настраиваемую семантическую модель;
возможности ведения собственной базы данных, а также генерации запросов к внешним базам данных в терминах единой семантической модели;
анализ данных как традиционными средствами табличного анализа, так и средствами визуального анализа;
разбор неструктурированных документов с построением схемы документа и сохранением, выявленных объектов и отношений в базе данных;
графические средства формирования запросов;
кластерный анализ;
анализ социальных сетей;
анализ с использованием картографической информации;
поиск дубликатов объектов;
создание и управление объектной моделью системы.
Решение РДТЕХ построено на основе программных продуктов Oracle и i2 Ltd. Базовый функционал решения может быть расширен по заказу Клиента.
Архитектура решения
Решение выполнено в клиент-серверной архитектуре и содержит следующие модули:
"Репозиторий метаданных"
"Собственная база данных объектов"
"Внешние базы данных"
"Модуль табличного анализа"
"Модуль визуального анализа"
"Модуль управления объектной моделью"
"Модуль управления пользователями"
"Модуль управления НСИ"
Общая архитектура решения показана на рисунке 11.
Рисунок 11. Общая архитектура решения
Подсистема «Тактический анализ"
Подсистема состоит из трех модулей:
"Табличный анализ";
"Визуальный анализ";
"Работа с неструктурированными данными".
Модули полностью интегрированы как на уровне семантической модели, так и на уровне данных. Изменение семантической модели не требует перепрограммирования модулей. Настройка модулей на модель происходит автоматически. Подборки объектов могут бесшовно перемещаться между модулями.
Модуль табличного анализа
Выполнен как "толстое" клиент-серверное приложение на языке Java, реализующее основные функции тактического анализа, включая:
ввод и редактирование атрибутов объектов;
поиск объектов в базе данных;
поиск объектов во внешней базе данных;
анализ связей объектов;
генерацию по объектам досье отчета в формате документа Microsoft Office;
экспорт подборки в средства визуального анализа;
импорт графической схемы в базу данных в качестве подборки;
поиск дубликатов объектов по атрибутам объектов.
Основные элементы интерфейса модуля табличного анализа, включающие в себя меню приложения, инструментальную панель доступа к объектам анализа, карточку просмотра и редактирования атрибутов объектов и их связей, подборку объектов анализа, фильтр объектов, список объектов показаны на рисунках 12 и 13.
Рисунок 12. Элементы интерфейса (часть 1)
Рисунок 13. Элементы интерфейса (часть 2)
Объектная модель данных и ее привязка к физическим структурам базы данных и внешним источникам данных отображается компонентой в виде древовидной структуры - см. Рисунок 14.
Рисунок 14. Отображение объектной модели
Пользователи с правами администратора данных имеют возможность выполнять поиск дубликатов (похожих объектов) как в собственной базе данных, так и во внешних источниках. Модуль обеспечивает нечеткий поиск дубликатов на основе оценки расстояния между объектами по значениям их атрибутов. К каждому из атрибутов может быть применена собственная функция расстояния. Расстояние между объектами вычисляется как взвешенная сумма расстояний между атрибутами объектов.
Модуль визуального анализа
Модуль визуального анализа реализован на технологиях визуального анализа i2 Ltd. с использованием продуктов Analyst's Notebook, iBridge и Analyst's Notebook SDK и интегрирован с системой хранения и приложением табличного анализа. Модуль использует единую онтологическую модель и позволяет визуализацию подборки объектов в виде схемы, так и сохранение схемы в виде подборки с дальнейшим использованием в модуле табличного анализа.
В качестве рабочего места визуального анализа используется локализованная на русский язык версия Analyst's Notebook 7 По желанию заказчика возможна установка англоязычной версии Analyst's Notebook 8 с дальнейшей локализацией в течении 2010 года при наличии действующего контракта на техническую поддержку.. Интерфейс к хранилищу данных обеспечивается локализованной версией iBridge User 3. Расширение функциональности Analyst's Notebook и iBridge и их интеграция с прочими модулями системы осуществляются средствами Analyst's Notebook SDK.
Модуль обеспечивает возможность выполнения основных видов анализа:
ассоциативного;
хронологического;
анализа финансовых потоков.
А также возможности:
поиска кластеров;
поиска пути между объектами по базе данных;
поиска пути между объектами на схеме с учетом направления транзакций и дат их совершения с выбором кратчайшего, либо самого раннего пути;
расширения связей объектов по базе данных;
поиска общих соседей;
поиска объектов на схеме с учетом типа объекта, значений его атрибутов и связей;
текстового поиска на схеме;
дополнительного создания атрибутов анализа на схеме;
графического создания запросов к базе данных;
создания и сохранения шаблонов схем;
импорта/экспорта данных схемы из/в текстовых файлов.
Модуль работы с неструктурированными данными
Модуль работы с неструктурированными данными, реализованный на основе продукта i2 Analyst's Notebook, позволяет аналитику в ручном режиме разобрать текст, выделив в нем объекты и связи. Одновременно с разбором текста аналитик имеет возможность построить графическую схему документа и заполнить атрибуты объектов на схеме.
Объекты схемы могут быть сохранены в базе данных. Сама схема сохраняется как в базе данных, так и в файловой системе и в дальнейшем открывается вместе с разобранным документом модулем визуального анализа.
Подсистема "Хранилище данных"
Подсистема "Хранилище данных" управляет следующими видами данных:
структурированная информация в виде таблиц реляционных баз данных и свойств объектов при объектном хранении информации;
неструктурированная информация - документы, видеофайлы, изображения, сообщения в исходном формате;
репозиторий метаданных предметной области, включая: словари предметной области, описание структур данных в терминах предметной области, алгоритмы и процедуры управления, согласования, трансформации данных.
В функции управления данными и метаданными входит:
помещение данных в хранилище;
выборка данных из хранилища по запросу;
изменение данных в хранилище;
удаление данных из хранилища;
управление правами доступа к данным;
выполнение процедур обработки данных;
нечеткий поиск дублей по атрибутам объектов.
Компонент "Репозиторий метаданных"
"Репозиторий метаданных" является хранилищем данных об объектах и алгоритмах системы и обеспечивает выполнение следующих функций:
хранение и ведение объектной модели;
хранение и управление спецификациями процедур загрузки;
управление версиями метаданных.
Компонент "НСИ"
Компонент "НСИ" хранит информацию:
о словарях, классификаторах и терминах;
о создании и модификации НСИ;
Подсистема "Администрирование"
Подсистема администрирования состоит из двух модулей:
"Управление репозиторием"
"Управление пользователями"
Модуль управления объектной моделью
Модуль "Управление объектной моделью" обеспечивает выполнение функционала по созданию и редактированию объектной модели информационной системы, включая:
создание и редактирование типов объектов;
создание и редактирование типов связей;
создание и редактирование атрибутов анализа;
интеграцию со средствами визуального анализа посредством автоматизированной генерации конфигурационных файлов для используемых инструментов визуального анализа;
интеграцию с внешними базами данных: описание физических структур данных внешних баз данных в терминах объектной модели информационной системы;
генерацию структур информационной системы, обеспечивающих бесшовный доступ к ресурсам внешних баз данных.
Модуль управления объектной моделью выполнен как отдельная административная утилита в архитектуре клиент-сервер и реализован на Java.
Утилита позволяет:
специфицировать объекты, связи и их атрибуты, модели, используя палитру объектов и атрибутов;
специфицировать источники данных (внешние и собственные базы данных);
осуществлять отображение атрибутов объектов на физические структуры источников данных;
сохранять модель в репозитории метаданных;
экспортировать и импортировать модель в виде XML-документа;
генерировать конфигурационный файл для модуля визуального анализа.
Пользовательский интерфейс модуля для основных операций
Определения онтологической модели, спецификации источников и отображение модели на источники показаны на рис. 15-17.
Рисунок 15. Спецификация онтологической модели
Рисунок 16. Спецификация источника данных
Рисунок 17. Отображение атрибутов на источники данных
Модуль "Управление пользователями"
Компонент "Управление пользователями" обеспечивает выполнение основных задач по администрированию пользователей:
создание, изменение и удаление учётных записей пользователей;
назначение и изменение прав доступа учётной записи пользователя к информационным ресурсам;
централизованное хранение информации о правах доступа пользователей к различным информационным ресурсам.
Управление правами осуществляется в терминах семантической модели и источников данных. Таким образом, администратор пользователей имеет возможность указать права доступа пользователя к отдельному типу объекта в той или иной базе данных.
Рисунок 18. Интерфейс модуля "Администрирование пользователей"
Подсистема "Единая система справочников и классификаторов"
Подсистема "Единая система справочников и классификаторов" включает в себя:
компонент "Репозиторий метаданных";
компонент "НСИ";
Модуль "Управление НСИ".
Модуль "Управление НСИ" обеспечивает:
создание и модификацию справочников;
поддержку версионности данных, содержащихся в справочниках НСИ;
контроль актуальности версий данных, содержащихся в справочниках.
Основные интерфейсы модуля - управление версиями, словарными терминами и иерархиями классификаторов показаны на рисунках 19-21.
Рисунок 19. Интерфейс управления версиями НСИ
Рисунок 20. Интерфейс управления иерархиями классификатора
Рисунок 21. Интерфейс спецификации словарного термина
5. Технологии и инструментальные средства автоматизированной обработки электронных текстовых массивов для задачи мониторинга правоприменительной практики
А.М. Андреев, кандидат технических наук, доцент МГТУ им. Н.Э. Баумана
Д.В. Березкин, кандидат технических наук,
К.В. Симаков, кандидат технических наук,
Ю.Л. Шаров, кандидат технических наук, доцент РАГС
Мониторинг правового пространства и правоприменительной практики в Российской Федерации является важным вопросом, которому в Совете Федерации уделяется много внимания. Несколько лет назад в «верхней» палате российского парламента были разработаны программа мониторинга и планы мероприятий по реализации этой программы. В рамках этой программы запланированы работы по информационно-технологическому сопровождению процесса мониторинга. В статье [1] была рассмотрена концепция создания автоматизированной информационной системы «Мониторинг правового пространства и правоприменительной практики в Совете Федерации Федерального Собрания Российской Федерации» и выделены функции этой системы в целом. Исходя из определения самого понятия мониторинга правоприменительной практики, можно заключить, что одним из ключевых направлений процесса его информационно-технологического сопровождения является сбор, накопление и обобщение информации о качестве реализации конституционных полномочий Совета Федерации. В связи с этим, в настоящей статье сделан акцент на подходах к разработке технологических и инструментальных средств, позволяющих реализовать эти функции.
Исходные данные для анализа и обобщения
Анализ правоприменительной практики и её обобщение принципиально возможны при наличии соответствующих документальных свидетельств, отражающие результат работы того или иного закона. Электронные документы, содержащие такого рода информацию, могут иметь разное происхождение. Примеры правоприменительной практики могут содержаться в Интернет-изданиях средств массовой информации, в аналитических материалах юристов, в протоколах судебных заседаний, в письмах отдельных граждан. Более того, с развитием Интернет-технологий граждане РФ имеют возможность высказывать свои мнения о законах и обсуждать их на тематических Web-сайтах и в личных Web-дневниках (блогах). При использовании подходящих технологий все указанные материалы могут быть успешно использованы для выполнения комплексного анализа практики применения конкретного закона.
Базовые инструментальные средства
Работа аналитика, использующего в своей работе Интернет-источники, обычно сводится к следующим действиям.
1. Используя поисковую машину Интернет, найти по запросу интересующие материалы.
2. Сохранить найденные материалы на своем компьютере.
3. Детально изучить материалы, сделать выводы и заключения, либо повторить вышеописанные шаги, если найденные материалы оказались бесполезными.
В таком режиме аналитик в состоянии обработать 100-500 документов, однако для всестороннего изучения вопроса, касающегося работы конкретного закона, документов, соответствующих этой теме, может быть не 100 а 100 000. Обработать вручную такой массив в описанном режиме не представляется возможным. Более того, практика показывает, что для продуктивной работы аналитика, необходимы инструменты, позволяющие выполнять многократную обработку одних и тех же текстовых массивов, что невозможно без предварительного накопления этих массивов и приведения их к единому нормализованному виду.
Таким образом, для решения задачи мониторинга требуются базовые средства сбора, нормализации, накопления и поиска текстовых материалов, содержащих информацию о практике правоприменения. На рис. 1 отражен состав этих средств.
Рис. 1. Базовые инструментальные средства
Система сбора и нормализации отвечает за автоматический сбор целевой информации из различных Интернет-источников. Кроме сбора, система приводит все собираемые материалы к единому виду, снабжает текстовые материалы реквизитами, такими как «Название источника», «Дата сбора», «Автор», «Степень доверия источнику», «Рубрика» и др.
Получаемая таким образом информация передаётся системе хранения, которая представляет собой высокопроизводительную распределённую информационно-поисковую систему (ИПС), способную накапливать большие массивы текстовой информации (~ 10-100 млн. документов), распределяя её между несколькими серверами кластера.
Способность ИПС распределять информацию между несколькими серверами является определяющей, т.к. система оперирует большими объёмами данных, и, как указывалось выше, для повышения продуктивности работы аналитика должна предоставлять возможность выполнять многократную аналитическую обработку над одним и тем же массивом. Опыт эксплуатации показывает, что односерверные решения не в состоянии предоставить такую возможность.
Расширенные инструментальные средства
Аналитик может использовать указанную ИПС, также, как и привычную поисковую машину Интернет, обращаясь к ней с запросами по тексту и по реквизитам, сортируя результат по релевантности, или например, по степени доверия источникам, с которых эти материалы были получены, а также выполняя уточняющие запросы, постепенно сужая итоговый текстовый массив.
Однако для эффективной аналитической деятельности этого может оказаться недостаточно, поскольку результат поиска, представленный списком найденных документов, нужно просматривать вручную, после чего выполнять конкретизацию исходного запроса, повторять процедуру поиска и снова анализировать найденные документы. Данный процесс сходится к определенному результирующему списку документов, трудозатраты на его получения могут быть значительными, а его соответствие исходной поисковой цели может быть далеко не оптимальным.
Для решения данных проблем нужны расширенные инструментальные средства, использующие технологии, отличные от традиционного полнотекстового поиска, позволяющие сократить трудозатраты на поиск необходимых материалов и повысить их ценность для дальнейшего анализа и обобщения. На рис. 2 отражена роль и место этих инструментов во взаимодействии пользователя с ИПС. К таким инструментам относятся следующие.
1. Средства автоматического построения терминологической базы для анализируемого массива текстов, фактически полностью исключающие необходимость участия в этом процессе пользователя.
2. Средства, позволяющие выполнять навигацию и исследование сформированной терминологической базы, а также инструменты, позволяющие конкретизировать и уточнять результаты поиска за счёт использования этой базы.
3. Средства обогащения результатов поиска, предоставляющие возможность расширять найденный список документов за счёт автоматического обогащения поискового запроса, в том числе с использованием терминологической базы.
4. Средства кластеризации результатов поиска, позволяющие выполнять обобщение найденных документов, объединяя их в тематические группы.
5. Средства извлечения фактов из текстов, обеспечивающие распознавание структурированных объектов в текстах документов. Информация, представленная в виде структурированных объектов (а не в виде текстов), может быть легко представлена в табличном виде, что позволяет выполнять её дальнейшую аналитическую обработку.
Рис. 2. Расширенные инструментальные средства
Детализируем назначение и технологии, применяемые в указанных инструментальных средствах.
Средства построения терминологической базы
Эффективность использования ИПС аналитиком определяется способностью составлять полные и точные поисковые запросы. Хорошее владение лексиконом в области юриспруденции не всегда помогает в этой части, поскольку обрабатываемые текстовые материалы порождаются не только юристами, но и журналистами, а также обычными гражданами, далекими от вопросов законодательства.
В этом случае пользователю ИПС требуется средство, позволяющее автоматически построить терминологическую базу, содержащую многословные термины, используемые в текстах анализируемого массива. В основе такого инструмента лежат технологии синтаксического анализа текстов и статистического выделения устойчивых словосочетаний [2,3].
Получая от пользователя текстовый массив, для которого строится терминологическая база, данное инструментальное средство автоматически строит словарь многословных терминов. Такие термины ценны сами по себе, поскольку исследование их перечня даёт краткое представление о текстовом массиве, для которого они получены. Более того, они могут использоваться при построении запросов к ИПС, для повышения полноты и точности поиска.
Средства обогащения и кластеризации результатов поиска
В традиционных поисковых системах результат поиска представлен списком найденных документов. Если, например, аналитик ищет тексты, отражающие негативную практику использования закона, ему потребуется выполнить множество итераций поиска и последующего просмотра найденных документов, чтобы понять, какие термины в документах отражают именно негативные примеры правоприменительной практики. Сократить трудозатраты на выполнения этой процедуры можно, используя технологии обогащения и кластеризации результатов поиска.
...Подобные документы
Условия повышения эффективности управленческого труда. Основные свойства информационных технологий. Системные и инструментальные средства. Классификация информационных технологий по типу информации. Главные тенденции развития информационных технологий.
реферат [15,4 K], добавлен 01.04.2010Основные свойства информационных технологий в экономике. Классификация, главные компоненты и структурная схема информационных технологий. Системные и инструментальные средства. Особенности взаимодействие информационных технологий с внешней средой.
презентация [217,3 K], добавлен 22.01.2011Понятия глобализации в сфере информационных технологий. Задачи и процессы обработки информации по этапам развития. Преимущества применения компьютерных технологий. Инструментальные технологические средства. Изменения стиля ведения бизнеса с внедрением ИТ.
презентация [584,5 K], добавлен 19.09.2016Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.
курсовая работа [46,4 K], добавлен 16.09.2011Основные черты современных информационных технологий. Цель применения информационных технологий - снижение трудоемкости использования информационных ресурсов. Использованные программные средства для разработки информационной системы для продажи книг.
курсовая работа [1,2 M], добавлен 27.06.2014Понятие и содержание информационной технологии на современном этапе, ассортимент изделий данной группы на рынке. Объекты информационных технологий и результаты их работы. Средства и методы информационных технологий, особенности и сферы их применения.
реферат [17,9 K], добавлен 05.11.2010Схема организационной структуры управления информационных и аналитических технологий аппарата администрации. Математическая постановка задачи классификации информационных сообщений СМИ. Описание информационного обеспечения на примере АИС "Классификатор".
дипломная работа [677,2 K], добавлен 28.07.2009Понятие информационных технологий, история их становления. Цели развития и функционирования информационных технологий, характеристика применяемых средств и методов. Место информационного и программного продукта в системе информационного кругооборота.
реферат [318,9 K], добавлен 20.05.2014Теоритические аспекты информационных технологий на предприятиях. Системы, используемые в информационных технологиях. Особенности применения информационных технологий в маркетинговой деятельности. Влияние информационных технологий на туристическую отрасль.
курсовая работа [498,9 K], добавлен 29.10.2014Роль структуры управления в информационной системе. Примеры информационных систем. Структура и классификация информационных систем. Информационные технологии. Этапы развития информационных технологий. Виды информационных технологий.
курсовая работа [578,4 K], добавлен 17.06.2003Основные понятия и определения информационных технологий, их классификация, техническое и программное обеспечение. Роль глобальных информационных сетей и интернета. Сущность автоматизации процессов принятия решений, использование компьютерных технологий.
тест [34,6 K], добавлен 10.12.2011Программные средства выполнения, обращения и хранения электронных документов на предприятии. Правовое и методическое обеспечение сохранности информационных ресурсов в организациях Республики Беларусь. Создание электронной регистрационной карточки.
реферат [25,4 K], добавлен 17.04.2015Аспекты применения современных информационных технологий в образовании. Системный подход к созданию электронных пособий. Инструментальные средства и технология проектирования электронного учебного пособия. Способы защиты информации и компьютерных систем.
дипломная работа [3,2 M], добавлен 15.04.2012Основные характеристики и принцип новой информационной технологии. Соотношение информационных технологий и информационных систем. Назначение и характеристика процесса накопления данных, состав моделей. Виды базовых информационных технологий, их структура.
курс лекций [410,5 K], добавлен 28.05.2010Понятие, цель информационных технологий. История развития вычислительной техники. Ручные, механические и электрические методы обработки информации. Разностная машина Ч. Беббиджа. Разработка персональных компьютеров с применением электронных схем.
презентация [5,6 M], добавлен 26.11.2015Основные черты современных информационных технологий и компьютерной обработки информации. Структура экономической системы с позиции кибернетики. Ключевые функции системы управления: планирование, учет, анализ. Классификация информационных технологий.
контрольная работа [45,9 K], добавлен 04.10.2011Определение сущности, функций, задач и видов информационных технологий. Характеристика информационных технологий обработки данных, управления, автоматизированного офиса и поддержки принятия решений. Анализ современных видов информационного обслуживания.
презентация [866,0 K], добавлен 30.11.2014Общая характеристика технических средств информационных технологий. Жизненный цикл технических информационных технологий, его основные этапы и отличительные особенности. Определение необходимости технической поддержки определенного вида деятельности.
реферат [21,1 K], добавлен 05.11.2010Понятия, определения и терминология информационных технологий. Роль и значение ИТ для современного этапа развития общества и их значение для экономики стран. Методы обработки информации в управленческих решениях. Классификация информационных технологий.
реферат [1,8 M], добавлен 28.02.2012Информационные технологии, сущность и особенности применения в строительстве. Анализ деятельности информационных технологий, основные направления совершенствования применения информационных технологий, безопасность жизнедеятельности на ООО "Строитель".
дипломная работа [1,7 M], добавлен 26.09.2010