Информационно-аналитические исследования
Обзор информационных технологий, применяемых в аналитических исследованиях. Аналитический мониторинг с использованием информационных ресурсов Интернета. Технологии и инструментальные средства автоматизированной обработки электронных текстовых массивов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 26.12.2014 |
Размер файла | 6,8 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Технология обогащения подразумевает расширение исходного поискового запроса дополнительными терминами, автоматически подбираемых поисковой системой на основе анализа нескольких текстов, которые аналитик счёл достаточно релевантными его поисковой цели. Порядок работы с такого рода инструментом заключается в следующем.
1. Аналитик формирует исходный поисковый запрос, частично соответствующий поисковой цели. Отметим, что изначально аналитик не владеет характерным для исследуемого текстового массива лексиконом, поэтому идеально точный и вместе с тем исчерпывающий поисковый запрос составить он не может.
2. Среди найденных документов аналитик выделяет некоторые из них, соответствующие его поисковой цели (позитивные примеры), а также ряд документов, полностью не соответствующих его запросу (негативные примеры).
3. Поисковая система, анализируя позитивные и негативные примеры, выполняет автоматическое выделение в них терминов, которыми можно было бы расширить или уточнить исходный поисковый запрос.
4. Аналитик просматривает список предложенных терминов, при необходимости корректирует его и выполняет повторный поиск.
В результате выполнения указанных действий итоговый список найденных документов будет более точно соответствовать поисковой цели аналитика, более того, их можно повторить неоднократно, с каждым разом увеличивая соответствие найденных документов исходной поисковой цели.
Кластеризация результатов поиска подразумевает представление найденных документов не в виде списка, а в виде кластеров, на которые разбивается результирующий список [3]. Каждый кластер представляет собой группу документов, объединенных одной общей темой. Пользователь в итоге видит не названия найденных документов, а названия выделенных тем. Откинув кластеры, явно не соответствующие поисковой цели, пользователь может раскрыть оставшиеся из них для просмотра самих документов. Таким образом, данный способ отображения найденной информации позволяет сократить время её анализа с одной стороны, а также предоставляет возможность первичного обобщения найденных материалов - с другой стороны.
Средства извлечения из текстов фактов и их анализа
Описанные выше подходы позволяют сократить трудозатраты аналитика на первичный поиск текстовых материалов. Однако по завершению поиска ему требуется детально ознакомиться с содержанием найденных документов для выполнения следующего этапа мониторинга - обобщения информации о качестве выполнения Советом Федерации его полномочий. Если документов окажется достаточно много, то процедуру ознакомления можно сократить путем автоматического извлечения фактов из найденных текстов.
Факт, в отличие от текста, передает информацию в сжатом виде, и по своей сути, представляет собой объект (структуру данных) с предопределенными полями, значения которых заполняются информацией, взятой из текста документа. Заполнение полей выполняется автоматически системой извлечения фактов. Основу такой системы составляют технологии распознавания целевой информации с применением предопределённых правил извлечения, а также эталонных справочников. Предопределённые правила позволяют находить в тексте информацию, которая не может быть априори собрана в справочниках или словарях, к такой информации можно отнести даты событий, ФИО участников событий, числовые реквизиты документов, причины и следствия событий и др. Правила формулируются на специализированном формальном языке вручную, либо автоматически с применением методов машинного обучения на основе подготовленных пользователем примеров [4,5]. Эталонные справочники позволяют распознавать в текстах заранее известную информацию, например, названия законов и их статей, названия регионов, ФИО высокопоставленных государственных служащих и др. [6].
Для иллюстрации предположим, что задача аналитика заключается в сборе и обобщении информации, представленной в документах с решениями судов. В качестве факта можно объявить объект типа «Решения суда» с полями «Дата заседания», «Место заседания», «Предмет заседания», «Результат» и др. Используя систему извлечения фактов такого вида, аналитик получает возможность автоматически собрать по всему массиву документов с решениями судов объекты, поля которых будут заполнены конкретной информацией (даты заседаний, результаты, места проведения заседаний и др.), взятой из обработанных текстов. Получив таблицу из таких объектов, аналитик далее может выполнять различные операции по её исследованию (фильтрация, корреляционный анализ, прогнозирование, получение сводного отчета, подготовка диаграмм и пр). Например, по анализу такой таблицы для конкретно взятого закона может быть выявлена географическая зависимость активности его применения в судебной практике. Имея аналогичную информацию об использовании других законов в регионах, аналитик может сделать заключение о позитивном или негативном взаимном влиянии исследуемых законов.
Заключение
Многие из описанных подходов к поиску, анализу и обобщению текстовых материалов реализованы в виде программных систем, внедрены в Совете Федерации и находятся в опытной эксплуатации уже в настоящее время.
Технология сбора и накопления информации из разнородных источников, в том числе и с Интернет-сайтов, апробирована и внедрена в Совете Федерации в рамках системы «Обзор СМИ». Методы построения базы многословных терминов использовались при разработке «Системы мониторинга деятельности председателя Совета Федерации». Методы извлечения фактов из текстов использовались при разработке прототипа системы «Семантического контроля редактируемых документов», апробированного на задаче поиска ошибок и несоответствий в фамилиях и должностях членов Совета Федерации при обработке стенограмм заседаний. Технологии полнотекстового поиска, поиска по реквизитам и классификации текстов внедрены и используются по сей день во всех указанных системах. Более того, эти технологии также применялись при разработке и внедрении в 2009-ом году системы «Совет Федерации: энциклопедический справочник».
К настоящему моменту попыток объединить все описанные в данной статье подходы не предпринималось. Тем не менее, авторам видится логичным и целесообразным осуществить в обозримом будущем реализацию описанных технологий в рамках единой информационной системы, которая смогла бы стать мощным инструментом аналитика, позволяющим на новом качественном уровне решать ключевые задачи мониторинга правоприменительной практики.
Литература
1. Ю.Л. Шаров, Ю.К. Толчеев, А.В. Гужов. Проблемы информационно-технологического сопровождения процесса мониторинга правового пространства и правоприменительной практики в Совете Федерации ФС РФ. - Материалы Второй Всероссийской научно-практической конференции «Мониторинг правового пространства и правоприменительной практики», Москва, РАГС, май 2004 г.
2. Брик А.В. Исследование и разработка вероятностных методов синтаксического анализа текста на естественном языке: автореф. дис. … канд. техн. наук: 05.13.11: защищена 06.06.2002 / А.В. Брик; МГТУ им. Н.Э. Баумана. - М., 2002. - 16 с.
3. Метод кластеризации документов текстовых коллекций и синтеза аннотаций кластеров / А.М. Андреев, Д.В. Берёзкин, В.В. Морозов, К.В. Симаков // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды десятой всероссийской научной конференции (RCDL'2008) - Переславль-Залесский.
4. Симаков К.В. Модели и методы извлечения знаний из текстов на естественном языке: автореф. дис. … канд. техн. наук: 05.13.17: защищена 13.03.2008 / К.В. Симаков; МГТУ им. Н.Э. Баумана. - М., 2008. - 16 с.
5. Симаков К.В. Метод обучения модели извлечения знаний из естественно-языковых текстов / А.М. Андреев, Д.В. Березкин, К.В. Симаков // Вестник МГТУ. Приборостроение.-2007. - №3.- С. 75-94.
6. Методы машинного обучения в задачах извлечения информации из текстов по эталону / С.С. Алексеев, В.В. Морозов, К.В. Симаков // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI-ой всероссийской научной конференции (RCDL'2009) - Петрозаводск: КарНЦ РАН, 2009. - С. 237-246.
6. Технологические решения задачи мониторинга в информационно-аналитической системе «Оценка и прогнозирование ситуаций на основе СМИ»
Е.С. Вербин, кандидат технических наук
И.А. Наймушин, кандидат технических наук
С.А. Кузьменко, генеральный директор ЗАО «Институт ситуационного анализа»
Практика работы профилированных служб крупных организаций различных форм собственности и сфер бизнеса предполагает проведение информационно-аналитического обеспечения процессов принятия управленческих решений.
Задачи, связанные с таким обеспечением условно можно разделить на два крупных класса - задачи сбора и подготовки исходной информации и задачи анализа собранной информации и синтеза заключения в форме рекомендаций для управленческих решений.
В свою очередь, задачи сбора информации также можно разделить на два класса:
первый класс - задачи связанные с представлением исходной информации в виде чисел (таблиц);
второй класс - представление исходной информации в виде текстов (вербально).
Примем в качестве постулата формулировку главной задачи аналитика, как задачи оценки ситуации и перспектив её развития.
Необходимо ввести понятие модели ситуации, параметры которой и являются целью оценивания. Именно эти оценки и позволяют сформулировать заключение по прогнозу развития ситуации.
Нетрудно показать, что развитие различных прикладных отраслей знания главным образом связаны именно с решением вопроса о структуре модели, чаще всего конечномерной, наблюдаемости её параметров и методологии их оценки.
Вместе с тем, существует очень широкий класс задач, решение которых необходимы практике управления, где использование конечномерных параметрических моделей заданной структуры не представляется возможным в силу целого ряда факторов.
Наиболее характерным примером таких задач является оценка влияния событийного ряда, происходящего вокруг объекта исследования (страны, отрасли, компании, лица) на те или иные стороны его деятельности.
Исходя из опыта использования в Аналитическом Управлении Совета Федерации РФ информационно-аналитической системы «Оценка и прогнозирование ситуаций на основе СМИ», наиболее востребованными практикой являются задачи, связанные с непрерывным мониторингом СМИ и Интернет с целью оценки динамики развития наблюдаемых проблемных процессов и своевременного выявления неблагоприятных тенденций в дальнейшем развитии этих процессов.
Речь идёт об оценке в автоматическом режиме критических ситуаций, связанных со следующими возможными тематиками, которые могут иметь место в субъекте РФ.
Социальные проблемы (демография, молодёжь, село, нехватка детских садов, безработица, задолженность по зарплате, бедность населения, социальная дифференциация, пенсии…).
Модернизация устаревшей промышленности (важной для региона), обновление технологий, повышение конкурентоспособности, нехватка квалифицированных кадров.
Жилищная ситуация, состояние ЖКХ.
Экологические угрозы.
Энергонедосточность (электрификация и газификация, сезонный дефицит электроэнергии, ТЭК).
Недоразвитость инфраструктуры (дороги, мосты, аэропорты, средства современной связи и т.д.).
Межнациональные и этнические конфликты, проявление экстремизма и терроризма.
Криминальная ситуация, коррупция.
Трудности развития АПК (пустующие земли, нехватка земли и т.д.).
Налогообложение и собираемость налогов.
Политическая тематика - конфликт властных элит с последствиями для населения.
Недостаток чего-либо (воды, продовольствия, товаров и т.д.).
Классическими способами решения таких задач являются методы экспертных оценок, причём в качестве исходной информации выступают либо текстовые данные, либо результаты так или иначе провёденных опросов.
Преимущества и недостатки подобных методов подробно освещены в литературе. Для нас суть важно отметить следующее положение, что в основе всех этих методов лежит сопоставление экспертом текущей информации об объекте исследования с имеющимися у него знаниями об уже случившихся с другими объектами критическими ситуациями. Другими словами, при решении всех из перечисленных выше задач, характеризующих оценку состояния и перспективы развития ситуации вокруг объекта исследования, любой эксперт будет сравнивать текущий событийный ряд с апостериорными аналогами возможных кризисов.
Тогда задача мониторинга ситуации, как задача раннего обнаружения возможных тенденций развития ситуаций к кризису (кризисам), может быть сформулирована как задача формирования структуры возможных кризисов и задача формирования процедур оценки схожести событийного ряда вокруг объекта (объектов) исследования с апостериорными аналогами возможных кризисов.
Зададимся вопросом, можно ли технологически организовать процесс сбора и обработки информации о событийном ряде в интересах раннего обнаружения движения к кризису какого-либо процесса (политического, социального, экономического и т.д.) в наблюдаемом субъекте (субъектах) РФ?
Очевидно, что источником информации о событийном ряде могут служить данные СМИ, данные аналитических и всякого рода других отчетов. Причём, существуют, совершенствуются и развиваются различные технологии сбора такой информации, но можно ли получить автоматизированные (технологические) решения задач мониторинга тенденций к кризисному развитию с использованием стандартных процедур обработки текстовой информации существующих и пополняемых баз данных?
Начнём с того, что дадим утвердительный ответ - ДА, это возможно. Не вдаваясь в описание и обоснование философских, лингвистических, математических и алгоритмических решений, доказывающих возможность получения искомого результата, остановимся на описании логики формирования и использования таких решений.
Выше отмечалось, что основным, базисным методом работы эксперта, является метод сравнения смысла текущей информации со смыслом сообщений об апостериорных кризисах. Очевидно, что результатом сопоставления, в логике оценки тенденций, должен стать ответ в следующей формулировке: описание ситуации вокруг объекта исследования больше или меньше похоже на описание кризиса. Другими словами - являлась ли вчера ситуация вокруг объекта исследования менее похожей на описание кризиса, чем сегодня, или наоборот? А для осуществления процедуры сравнения необходимо ввести численный показатель схожести смыслов сообщений о реальной ситуации вокруг объекта в заданные моменты времени (временные интервалы дискретности) и информации, содержащейся в аналоге.
Проведённые исследования показали, что если в качестве модели текстового сообщения использовать тезаурус (упорядоченный по мере снижения частоты набор слов текста), появляется возможность построения стандартной процедуры расчёта меры схожести текстов, как числа, характеризующего в относительных величинах совпадение (различие) словарно-частотного состава описания события и аналога. Тогда, проведение расчётов меры схожести на последовательных временных интервалах (например, помесячно с января текущего года) позволяет построить кривую, характеризующую развитие ситуации «в сторону к» или «в сторону от» кризиса.
Необходимо отметить, что исследуемые процессы носят случайный характер, именно поэтому заключение о развитии ситуации в сторону кризиса должно иметь вероятностный характер, а с точки зрения принятия управленческих решений наиболее интересным является заключение о росте или снижении вероятности кризиса на интервале исследований.
Тогда технология решения задачи мониторинга может быть представлена следующей последовательностью действий:
1. Формирование баз данных, содержащих информацию о событийном ряде в субъекте РФ, отрасли промышленности и т.д.
2. Формирование баз данных ситуаций - аналогов кризисных ситуаций.
3. Расчёт мер схожести и вероятностных характеристик кризисности объекта, а также формирование «машинных» выводов об оценке ситуации и перспективах её развития.
Такая логика реализована в информационно-аналитической системе «Оценка и прогнозирование ситуаций на основе СМИ».
Необходимо отметить, что формирование автоматизированных выводов о состоянии объекта осуществляется в следующем виде:
«Выявлена тенденция сближения состояния объекта с тематикой аналога (сценария)» - так называемый красный вывод;
«Выявлены сообщения схожие с тематикой аналога (сценария)» - так называемый желтый вывод;
«Сообщений схожих с тематикой аналога (сценарием) не выявлено» - зеленый вывод.
Кроме того, очевидно, что чем больше аналогов (моделей возможных кризисов) будет введено в базу данных аналогов, тем более полно и точно в факторном смысле может быть оценена и любая ситуация, например с использованием методов корреляционного анализа.
Безусловно, представленный метод, как и его реализация в информационно-аналитической системе «Оценка и прогнозирование ситуаций на основе СМИ», являются лишь инструментом, позволяющим грамотному пользователю, специалисту в той или иной области, самому формировать как базу данных кризисов, так и базу данных объектов исследований.
Другими словами, практика использования изложенных методов показывает, что дополнение существующей логики информационно-аналитического обеспечения принятия управленческих решений позволяет повысить эффективность работы специалистов в связи с получением ими следующих конкурентных преимуществ:
1. Уникальность и универсальность используемых методологий, методик и алгоритмов.
2. Гарантированные полнота и качество использования информационных потоков от широкого перечня разнообразных источников текстовой информации.
3. Возможность получения независимых («машинных» и, в этом смысле, объективных) оценок состояния исследуемых процессов и перспектив их развития.
4. Возможность мониторинга практически неограниченного количества объектов исследования и возможных критических ситуаций.
5. Возможность обеспечения быстрой настройки системы силами специалистов на решение вновь поставленных задач.
Таким образом, использование таких технологий позволит в высокой степени гарантировать полноту, достоверность и оперативность аналитического и прогностического обеспечения процесса управления за счёт использования средств анализа событийного ряда.
Над выпуском работали
В.А. Барсамов, начальник ситуационного отдела Аналитического управления Аппарата Совета Федерации
Ю.П. Вирник, советник информационного отдела Аналитического управления Аппарата Совета Федерации
О.Ю. Сундатова, ведущий советник ситуационного отдела Аналитического управления Аппарата Совета Федерации
Издание подготовлено Аналитическим управлением Аппарата Совета Федерации
103426, Москва, Б. Дмитровка, 26, Совет Федерации
Телефон: 697-88-89, 697-78-58
Адрес в Интернет: www.council.gov.ru
Электронную версию Аналитического вестника можно получить: на сервере Совета Федерации в сети Интранет в разделе «Информационные материалы» и на странице Совета Федерации в сети Интернет в разделе «Аналитические материалы»
Подписано в печать 24.06.2010 г.
При перепечатке и цитировании материалов ссылка на настоящее издание обязательна
Размещено на Allbest.ru
...Подобные документы
Условия повышения эффективности управленческого труда. Основные свойства информационных технологий. Системные и инструментальные средства. Классификация информационных технологий по типу информации. Главные тенденции развития информационных технологий.
реферат [15,4 K], добавлен 01.04.2010Основные свойства информационных технологий в экономике. Классификация, главные компоненты и структурная схема информационных технологий. Системные и инструментальные средства. Особенности взаимодействие информационных технологий с внешней средой.
презентация [217,3 K], добавлен 22.01.2011Понятия глобализации в сфере информационных технологий. Задачи и процессы обработки информации по этапам развития. Преимущества применения компьютерных технологий. Инструментальные технологические средства. Изменения стиля ведения бизнеса с внедрением ИТ.
презентация [584,5 K], добавлен 19.09.2016Понятие информационных технологий, этапы их развития, составляющие и основные виды. Особенности информационных технологий обработки данных и экспертных систем. Методология использования информационной технологии. Преимущества компьютерных технологий.
курсовая работа [46,4 K], добавлен 16.09.2011Основные черты современных информационных технологий. Цель применения информационных технологий - снижение трудоемкости использования информационных ресурсов. Использованные программные средства для разработки информационной системы для продажи книг.
курсовая работа [1,2 M], добавлен 27.06.2014Понятие и содержание информационной технологии на современном этапе, ассортимент изделий данной группы на рынке. Объекты информационных технологий и результаты их работы. Средства и методы информационных технологий, особенности и сферы их применения.
реферат [17,9 K], добавлен 05.11.2010Схема организационной структуры управления информационных и аналитических технологий аппарата администрации. Математическая постановка задачи классификации информационных сообщений СМИ. Описание информационного обеспечения на примере АИС "Классификатор".
дипломная работа [677,2 K], добавлен 28.07.2009Понятие информационных технологий, история их становления. Цели развития и функционирования информационных технологий, характеристика применяемых средств и методов. Место информационного и программного продукта в системе информационного кругооборота.
реферат [318,9 K], добавлен 20.05.2014Теоритические аспекты информационных технологий на предприятиях. Системы, используемые в информационных технологиях. Особенности применения информационных технологий в маркетинговой деятельности. Влияние информационных технологий на туристическую отрасль.
курсовая работа [498,9 K], добавлен 29.10.2014Роль структуры управления в информационной системе. Примеры информационных систем. Структура и классификация информационных систем. Информационные технологии. Этапы развития информационных технологий. Виды информационных технологий.
курсовая работа [578,4 K], добавлен 17.06.2003Основные понятия и определения информационных технологий, их классификация, техническое и программное обеспечение. Роль глобальных информационных сетей и интернета. Сущность автоматизации процессов принятия решений, использование компьютерных технологий.
тест [34,6 K], добавлен 10.12.2011Программные средства выполнения, обращения и хранения электронных документов на предприятии. Правовое и методическое обеспечение сохранности информационных ресурсов в организациях Республики Беларусь. Создание электронной регистрационной карточки.
реферат [25,4 K], добавлен 17.04.2015Аспекты применения современных информационных технологий в образовании. Системный подход к созданию электронных пособий. Инструментальные средства и технология проектирования электронного учебного пособия. Способы защиты информации и компьютерных систем.
дипломная работа [3,2 M], добавлен 15.04.2012Основные характеристики и принцип новой информационной технологии. Соотношение информационных технологий и информационных систем. Назначение и характеристика процесса накопления данных, состав моделей. Виды базовых информационных технологий, их структура.
курс лекций [410,5 K], добавлен 28.05.2010Понятие, цель информационных технологий. История развития вычислительной техники. Ручные, механические и электрические методы обработки информации. Разностная машина Ч. Беббиджа. Разработка персональных компьютеров с применением электронных схем.
презентация [5,6 M], добавлен 26.11.2015Основные черты современных информационных технологий и компьютерной обработки информации. Структура экономической системы с позиции кибернетики. Ключевые функции системы управления: планирование, учет, анализ. Классификация информационных технологий.
контрольная работа [45,9 K], добавлен 04.10.2011Определение сущности, функций, задач и видов информационных технологий. Характеристика информационных технологий обработки данных, управления, автоматизированного офиса и поддержки принятия решений. Анализ современных видов информационного обслуживания.
презентация [866,0 K], добавлен 30.11.2014Общая характеристика технических средств информационных технологий. Жизненный цикл технических информационных технологий, его основные этапы и отличительные особенности. Определение необходимости технической поддержки определенного вида деятельности.
реферат [21,1 K], добавлен 05.11.2010Понятия, определения и терминология информационных технологий. Роль и значение ИТ для современного этапа развития общества и их значение для экономики стран. Методы обработки информации в управленческих решениях. Классификация информационных технологий.
реферат [1,8 M], добавлен 28.02.2012Информационные технологии, сущность и особенности применения в строительстве. Анализ деятельности информационных технологий, основные направления совершенствования применения информационных технологий, безопасность жизнедеятельности на ООО "Строитель".
дипломная работа [1,7 M], добавлен 26.09.2010