Методология, технология и организация информационно-аналитической работы

Понятие, сущность, структура и задачи аналитики. Методология и принципы организации аналитической деятельности. Методы формализации предметной области и моделирование. Аналитика как взвешенный подход к разработке и оцениванию управленческих решений.

Рубрика Программирование, компьютеры и кибернетика
Вид дипломная работа
Язык русский
Дата добавления 10.01.2016
Размер файла 695,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Несколько примеров использования СТ для установления параметров интертипных взаимодействий и выработки стиля взаимодействия приведен в Приложении 2 к настоящей книге, а также в ГСТК Интернет на сайте http://soctech.narod.ru.

Задача состоит в том, чтобы разработанный документ удовлетворял требованию гармонии в цепочке передачи информации между совместимыми типами двухкомпонентных абстрактных информационных автоматов, реализуемых структурой ИАО -- с одной стороны и потребителем информационной продукции -- с другой. Для этого на основе изучения документов, предоставленных заказчиком, описаний деятельности организации им руководимой и личных контактов составить представление о типе ИАР, свойственной заказчику, после чего -- определить требования к отчетной документации. Кстати, и разработку, и общение с заказчиком целесообразно поручить специалисту, тип 2АИА которого стоит в контуре самопрограммирования перед типом заказчика -- в противном случае придется имитировать поведение такого типа. Контура самопрограммирования мы рассматривали ранее, поэтому возвращаться к ним не станем.

4. Аналитические технологии

Порядок, в котором в эту книгу помещены главы, ни в коем случае не отражает отношения авторов к проблемам технологического обеспечения информационно-аналитической работы.

Прежде всего, обратимся к термину «технология»… Многие под этим словом понимают нечто, связанное с техникой. Тому виной является одно из узких толкований термина, при котором технология понимается как совокупность методов решения некоторой технической проблемы. Невольно воображаешь этакие шумные цеха по переработке информации, заставленные грязными, грохочущими станками, и так далее. Что ж, и так бывало -- в период 1950-70-х годов любое информационное агентство располагало помещением, именовавшимся «телетайпная» (в этом зале стоял неимоверный грохот от десятков буквопечатающих аппаратов).

Обратимся к происхождению слова: оно происходит от двух греческих корней techne -- искусство, мастерство, ремесло и logos -- наука, изучение. Получается нечто вроде «наука ремесла», то есть прикладная наука. Подведем итог. Технология -- это организованная во времени и пространстве устойчивая (инвариантная) по отношению к заданным вариациям условий реализации совокупность методов оперирования некими объектами, приводящая к достижению поставленной цели.

Как следствие, еще одно определение: Информационная технология -- это организованная во времени и пространстве устойчивая по I отношению к заданным вариациям условий реализации совокупность методов оперирования данными , нацеленная на производство обладающей заданными свойствами информационной продукции.

И наконец последнее, что требуется -- это определение самого информационного продукта. Информационный продукт -- это результат выполнения неких операций над данными , приводящих к получению нового массива данных, доступных для дальнейшей обработки и интерпретации .

Теперь, вооружившись определениями, посмотрим на технологии информационно-аналитической работы. Получим следующую классификацию информационных технологий:

-- неинструментальные технологии или технологии мыслительной деятельности : технологии запоминания информации; технологии извлечения информации; технологии межличностной коммуникации; технологии синтеза целей; технологии социализации целей и знаний (в том числе -- обучение); технологии признаковой работы (рассмотрения объектов и явлений в знаковой ситуации -- см. семиотика); технологии анализа информации; технологии классификации; технологии моделирования и мысленного эксперимента; технологии обобщения (синтеза) информации; технологии рефлексивного мышления и иные; инструментальные технологии: технологии переноса информации на материальные носители; технологии хранения данных на материальных носителях; технологии передачи и приема данных; технологии поиска и востребования данных; технологии инструментального моделирования; технологии инструментального анализа данных; технологии инструментального синтеза информации; технологии инструментальной поддержки индивидуальной и групповой мыслительной деятельности; технологии синтаксического преобразования информации; технологии семантического сжатия и реферирования данных; технологии обучения и иные.

Почему при переходе к рассмотрению состава класса инструментальных технологий мы начали обращаться к термину «данные»? Причина в следующем: информация -- это то, что мы извлекаем из данных, размещенных на материальных носителях (будь то лазерный диск, будь то след на песке), посредством применения модели интерпретации. То есть, как только информация перенесена на материальный носитель, она отрывается от модели интерпретации -- превращается в данные, которые каждый волен интерпретировать так, как ему угодно. Живет в городе Кострома философ В.С. Гринько, так он здраво придерживается мнения, что истинным автором текста является его читатель (потребитель). А многие специалисты в области управления знаниями давно пользуются парой терминов: информация и эксформация (exformation). При этом второй термин обозначает то, что было извлечено из данных в результате их интерпретации с применением некоторой другой модели (не той, которой располагал некто или нечто, запечатлевшее информацию). Возможно, что и носитель модели все тот же, да модель уже претерпела изменения.

Чтобы очертить круг проблем, связанных с ведением информационно-аналитической работы, уместно вспомнить индийскую притчу про слепых мудрецов, пытавшихся на ощупь определить, что же представляет собой слон. Будучи лишены возможности осуществлять сбор информации наиболее пригодными для этого средствами, сии достойнейшие мужи столкнулись с полным комплексом проблем, имеющих отношение к информационно-аналитической работе:

-- проблема неполноты инструментария сбора данных;

-- проблема наблюдаемости объекта;

-- проблема ограниченности объемов хранения данных;

-- проблема отсутствия методологии исследований;

-- проблема согласования тезауруса;

-- проблема объединения разрозненных и отрывочных сведений;

-- проблема несовпадения социального опыта аналитиков;

-- проблема ломки сложившихся стереотипов.

Кратко охарактеризуем ситуацию, в которой оказались информационно-аналитические подразделения различных государственных и коммерческих учреждений, благодаря происшедшей в 1970-90-х годах информационной революции. По мнению экспертов в области информационно-аналитической работы (ИАР), качество сведений, поступающих по различным каналам, резко понизилось. Произошло снижение доли сообщений, получаемых от первичных источников информации, а основной поток информации перешел в сферу межличностного общения (к этой категории могут быть отнесены и неофициальные расследования представителей средств массовой информации, нередко проводимые с тщательно завуалированными целями и содержащие непрогнозируемые искажения).

В интересах компенсации всех этих искажений и решения всего многообразия проблем, стоящих перед специалистами в области ИАР и разрабатываются технологии информационно-аналитической работы.

Итак, мы вполне готовы перейти к раскрытию содержания этой главы: нам известен комплекс существующих проблем, мы ознакомлены с базовыми методами ИАР (они рассматривались в предыдущих главах), основными принципами и методологическими основами организации ИАР, нам известно содержание термина «технология». Можно надеяться, что авторы предоставили достаточно веские аргументы в пользу именно такой компоновки книги. Теперь мы можем рассматривать технологии, комбинируя их описания из ссылок на уже рассмотренные (или вскользь упомянутые) методы.

4.1 Противоречия в сфере развития средств автоматизации и информатизации ИАР

Сфера технологического обеспечения информационно-аналитической работы является выражением тех организационных и методологических принципов, которые заложены в основу функционирования системы информационно-аналитического обеспечения в целом. Особенно показательно в этом отношении направление средств автоматизации и информатизации ИАР. Здесь может быть введена следующая классификация средств автоматизации информационной работы:

-- средства сбора данных;

-- средства доставки данных;

-- средства хранения данных;

-- средства обработки данных;

-- средства формирования тезауруса;

-- средства согласования тезауруса;

-- средства интеграции данных;

-- средства анализа данных;

-- средства моделирования;

-- средства интерпретации результатов;

-- средства прогнозирования;

-- средства синтеза целей управления;

-- средства отображения данных;

-- средства поддержки принятия решения;

-- средства доведения управляющих воздействий.

Приведенная классификация средств автоматизации по признаку их целевого предназначения позволяет за счет разделения всей совокупности существующих средств автоматизации на классы проанализировать источники противоречий, снижающих эффективность ведения информационной работы в целом. Рассмотрение данной классификации позволяет сделать вывод о том, что при таком многообразии средств в сфере технологического обеспечения ИАР не могут не проявляться противоречия, вызванные действием закона неравномерности развития. Иными словами, отставание в уровне развития тех или иных средств, предназначенных для решения частных задач, не может быть компенсировано опережающими темпами совершенствования других средств и отрицательно сказывается на возможности успешного решения конечной задачи -- задачи выработки решения и доведения управляющих воздействий.

Вне зависимости от того, синтезированы средства комплексной автоматизации информационной работы в виде целостного автоматизированного комплекса или существуют в виде сложной организационно-технической системы, реализующей на различных этапах решения конечной задачи автоматизированные и неавтоматизированные операции, негативные последствия неравномерности их развития подлежат компенсации лишь за счет согласования интегральных показателей уровня развития средств, предназначенных для решения аналитических задач. При этом в качестве показателей для оценки уровня развития таких средств могут быть использованы: пропускная способность, быстродействие, точность, коэффициент сжатия и иные. А для оценки, непроявленной в конечном результате деятельности -- показатель собственной эффективности системы (отражающей «рациональность» ее внутреннего устройства). Для этого может быть введена оценка в виде коэффициента, отражающего степень согласованности показателей производительности (уровня развития) ее компонентов или же коэффициента избыточности.

Направления разрешения противоречий

Рассматривая организацию, осуществляющую ИАР, как некоторый фрагмент общества, занятый специфическим видом производства. В такой организации, как и во всяком обществе, можно ожидать проявления действия закона соответствия производственных отношений характеру и уровню развития производительных сил. В настоящее же время можно констатировать факт, что на современном этапе уровень развития производительных сил по ряду параметров уже не соответствует существующим производственным отношениям.

В ряде случаев внедрение автоматизированных информационно-аналитических систем комплексной поддержки деятельности информационно-аналитических служб способно создать предпосылки к решению комплекса проблем, проявляющихся в организационной сфере. Реализация этих предпосылок возможна при условии введения процедур учета результативности признаковой работы, внедрения систем электронного документооборота и автоматизированного синтеза ситуационных моделей, обеспечивающих оперативный доступ к моделям, первичным информационным материалам и обобщенной статистике потоков данных различной семантики (от интенсивности потоков сообщений до информационных материалов, классифицированным по принадлежности к конкретным рубрикам).

При этом ведение учета результативности при ведении информационной работы может осуществляться как на качественном, так и на количественном уровне при анализе потока заявок на модификацию/пополнение хранилища эталонных моделей -- от уровня операций, связанных с пополнением тезауруса до уровня операций по модификации ситуационных моделей и эталонов функционирования объектов и источников.

Проблемы совершенствования методологической и специальной подготовки отчасти могут быть решены за счет предоставления аналитикам доступа к эталонным моделям объектов и источников, логико-структурным схемам, отражающим развитие ситуаций, и информационно-справочным материалам. Введение такой практики на межведомственном уровне способно расширить диапазон комплексных тематических исследований и создать предпосылки для создания комплексных ситуационных моделей, построенных на основе анализа разнородной информации, полученной в результате функционирования технологически неоднородных средств сбора информации.

Реализация подобных процедур возможна в рамках создания комплексной распределенной системы поддержки информационно-аналитической деятельности на базе новейших телекоммуникационных технологий. Анализ показывает, что работы в данном направлении интенсивно ведутся в системе информационно-аналитического обеспечения органов военного и государственного управления зарубежных государств, в частности -- США, Великобритании и других.

4.2 Технологический цикл ИАР

Пока свежо воспоминание об организационных аспектах ИАР, обратимся к технологиям, непосредственно связанным с организацией ИАР, а именно -- к технологическому циклу ИАР. По существу, технологический цикл ИАР -- это уже технология, поскольку представляет собой организованную во времени совокупность операций и методов, приводящую к получению заданного результата (информационной продукции). Приведем краткое описание этой технологии с краткими поэтапными комментариями, не прерывая нумерации пунктов:

1. Установление характера проблемы, описание проблемной ситуации (методики системного анализа и т. п.);

2. Синтез главной или глобальной цели как прямого следствия проблемной ситуации в управлении (технологии синтеза и анализа иерархии целей, анализ актов коммуникации, социальные технологии);

3. Уточнение целей исследования, стиля ИАР потребителя информационной продукции);

4. Установление первичного бюджета на проведение аналитического исследования.

Этим, как правило, завершается цикл бесплатных подготовительных работ. В принципе, уже в этот момент руководителю организации-исполнителя примерно известен перечень сотрудников и информационных ресурсов, которые потребуется привлечь к проведению исследований. Уже проведен ряд консультаций, импровизированное или достаточно серьезное совещание с сотрудниками. Наступает период ожидания ответных действий заказчика, определяющего то, насколько приемлемы для него условия, выдвинутые исполнителем.

Далее, если выбор сделан (то есть, бюджет утвержден или скорректирован), начинается следующая серия:

5. Формирование инициативной группы специалистов, назначение руководителя проекта или направления, НИР (методы синтеза организационных систем, методики СТ);

6. Декомпозиция цели в соответствии с характером проблемы: например, на функции, задачи и операции (метод дерева целей и задач);

7. Выявление целей организации-потребителя информационной продукции, нуждающихся в пополнении информационных ресурсов для их достижения;

8. Синтез целей информационной работы по направлениям, определяемым целями организации-потребителя информационной продукции:

-- формирование гипотезы о возможном составе комплекса источников информации;

-- формирование гипотезы о составе множества информативных признаков, их потенциальной информативности и достоверности;

-- формирование гипотезы о составе репрезентативной (достаточной для решения задачи) выборки, в том числе включая период наблюдения феномена, количество измерений/сообщений;

9. Установление бюджета второго этапа исследований.

Стоп… Снова остановка и ожидание ответных действий заказчика. Заказчик еще не располагает детальным проспектом предстоящей работы по сбору информации, но может оценить затраты исполнителя на поисковые мероприятия, хотя конечный результат еще за горами. Возможно, заказчик возьмется перекраивать бюджет.

Передышка закончилась. Бюджет принят и исполнителю вновь предстоит напряженная работа. От нее зависит результативность всей последующей работы -- если поисковые мероприятия окажутся неэффективными, то недоделки, скорее всего, лягут тяжелым бременем на бюджет исполнителя:

10. Выделение кадровых и иных ресурсов для производства информационно-поисковых работ, постановка задачи на поиск информации;

11. Поиск источников информации с заданными свойствами;

12. Оценивание реальной информативности источников и отбор наиболее информативных;

13. Установление бюджета третьего этапа исследований.

Опять передышка. Заказчик снова решает, за что он готов заплатить. К этому времени уже известно, во что может вылиться закупка тех или иных информационных продуктов у сторонних организаций, имеются образцы, демонстрирующие качество этой продукции, разработаны «дешевая» и «дорогая» стратегии, а также есть система аргументов, выводящих заказчика на предпочтительный сценарий.

Бюджет принят. С этого момента исполнитель становится зависим от ценовой политики «смежников». Теперь бюджетные ограничения начинают напрямую сказываться на результативности этапа сбора информации; нельзя, не будучи уверенным в исходе отказаться от части источников. Вновь начинается работа:

14. Определение комплекта инструментария (средств) сбора информации и состава сил (кадрового обеспечения), необходимых для решения задачи сбора информации, постановка задачи на поиск информации;

15. Сбор и накопление данных, анализ представительности выборки;

16. Анализ непротиворечивости массива данных, полученных от одного источника;

17. Интеграция массивов данных, выявление противоречий и/или неполноты;

18. Проведение анализа на полном массиве, установление состояний объектов и систем, являющихся предметом аналитических исследований выделение тенденций и предельных показателей динамики;

19. Синтез модели объекта, системы и/или процесса;

20. Подготовка выводов и заключений о целях/конечных состояниях объектов и систем, достижимых без коррекции процесса/управляющих воздействий, синтез пространства альтернатив;

21. Установление бюджета заключительного этапа исследований.

Остановка перед выходом на финишную прямую. Уже сейчас заказчик может получить ответ на вопросы: «Что может быть, если все будет, как есть?», «Что может быть вообще?» и «Сколько будет стоить точное знание?». Возможно, что полученных сведений ему уже будет достаточно, и, если исполнитель вышел по завершении этапа «в ноль», то, возможно, ему придется «сесть на картотеку» в банке.

Но вот бюджет принят! Программисты и аналитики закупают килограммы молотого кофе («чистая арабика»), и начинается «последний бой»:

22. Определение критических точек, приложение управляющих воздействий к которым способно привести к максимальным подвижкам в направлении достижения целей управления;

23. Проведение имитационного моделирования;

24. Оценивание эффективности отдельных управляющих воздействий;

25. Синтез комплексных стратегий управления, оценивание эффективности и сравнительный анализ стратегий;

26. Подготовка отчетной документации;

27. Сдача/приемка информационной продукции.

Все, финиш! Программисты и аналитики ходят с красными кроличьими глазами и подумывают об отдыхе… Руководство вновь и вновь перекладывает по кучкам выручку, подсчитывая коэффициент трудового участия.

Комментарии излишни… единственное, что следует подчеркнуть, -- это то, что всякая технология является в некотором смысле несовершенной и может быть улучшена. Те пункты в перечне, которые, по мнению авторов, нуждаются в раскрытии, мы рассмотрим далее в этой главе (несмотря на то, что с методологической точки зрения читатель уже достаточно вооружен для того, чтобы самостоятельно сформулировать перечень методов, которые могут быть использованы для решения задач того или иного этапа).

4.3 Первичная обработка имеющихся данных и анализ модельной информации

Некоторым читателям термин «модельная информация» может показаться некорректным, однако на самом деле он несет существенную смысловую нагрузку. При осуществлении любой деятельности, сопряженной с ведением анализа ситуаций и выявлением неких аналогий с историческими прецедентами, аналитик оперирует набором эталонов, апробированных ранее. Такой эталон уже представляет собой не набор первичных данных, а их обобщение -- модель. Именно этот тип информации мы и называем модельной информацией.

Первичная обработка имеющихся данных и анализа модельной информации является чрезвычайно ответственным этапом работы. Если этот этап не включен в общую схему работы, то может статься, что коллектив аналитиков примет ошибочное решение, которое со всей очевидностью проявится лишь на заключительном этапе работы. Ведь базовая модель (исходная гипотеза) на поверку может оказаться: устаревшей, не соответствующей решаемым задачам как по условиям (событийному контексту) рассматриваемого феномена, так по уровню детализации (не адаптированной к характеру поступающих данных), фрагментарной, либо вообще -- ошибочной. Важность этапа анализа модельной информации заключается в том, что именно на нем устанавливаются все «белые пятна» в знаниях субъекта ИАР, выделяются «зоны особого внимания» и формулируются гипотезы об объеме трудозатрат, стоимости процедур сбора дополнительных данных, формулируются цели и задачи субъекта ИАР в рамках решения поставленной задачи. Более того, на этом этапе устанавливаются действительные потребности заказчика/потребителя информационной продукции и оценивается достижимость целей работы.

Каждый субъект ИАР на момент возникновения задачи/проблемы уже располагает некоторым массивом данных и моделей их интерпретации. Вопрос состоит в том, насколько имеющиеся знания применимы для решения данной конкретной задачи , могут ли они быть применены без модификации и каковы направления модификации моделей и пополнения информационных ресурсов. Как следствие, первичная обработка имеющихся данных и анализ модельной информации может проводиться по следующему сценарию:

-- синтез общей классификации задач, когда-либо решавшихся субъектом ИАР;

-- установление класса новой задачи и выявление задач, сходных с данной;

-- анализ опыта решения аналогичных задач и считывание массивов данных и моделей, ассоциированных с ними;

-- отбор из полученного массива данных и моделей тех, которые релевантны данной задаче;

-- установление отличий данной конкретной задачи от ранее решавшихся;

-- установление тех блоков данных и компонентов моделей, которые не могут быть применены для решения данной задачи;

-- поиск методов адаптации существующих моделей и установление направлений исследований;

-- восстановление сведений об источниках информации, привлекавшихся для получения данных при решении аналогичных задач, формирование гипотезы о направлениях информационно-поисковых мероприятий;

-- анализ парка инструментальных средств проведения исследований и их доступности на текущий момент времени;

-- анализ потребностей в развитии парка инструментальных средств и оценка финансовых затрат на его пополнение и возможностей повторного использования вновь приобретенных средств, определение стратегии финансирования (приобретение, лизинг, аренда);

-- оценка трудоемкости отдельных операций и потенциальных трудозатрат на пополнение информационных ресурсов, необходимых для решения задачи;

-- оценка стоимости информационной продукции, приобретаемой у сторонних субъектов ИАР в интересах решения данной задачи;

-- установление факта достижимости поставленной цели ИАР/решения задачи;

-- подготовка заключения о сроках и стоимости мероприятий по пополнению информационных ресурсов, парка инструментальных средств, методологического обеспечения в интересах решения задачи;

-- передача документа, содержащего заключение заказчику.

Основными методами, используемыми на этом этапе, являются методы классификации, мозговых атак, структурирования массивов данных, анализа деревьев целей и задач .

Ресурсами , привлекаемыми для решения задачи, являются существующие архивы, массивы данных на электронных и иных носителях, принадлежащих субъекту ИАР, а также ресурсы библиотек, ГСТК Интернет и иные.

Продукцией , получаемой по завершении этапа, являются следующие блоки информационных продуктов/документов:

-- для субъекта ИАР: оценка трудозатрат, стоимости и направлений исследований, направления пополнения информационных ресурсов и инструментального парка, направления расходования средств и оценка прибыли;

-- для потребителя информационной продукции: заключение о возможности решения поставленной перед субъектом ИАО задачи, краткое описание содержания предстоящих работ, смета и технико-экономическое обоснование.

4.4 Поиск, отбор и экспресс-анализ данных

Задачи поиска, отбора и экспресс-анализа данных являются базисными для любой отрасли ИАР, требуют творчества от сотрудников и имеют, подчас, весьма нетривиальные решения. Причин тут масса -- перечислим лишь основные:

-- данные могут иметь разнообразные формы представления;

-- данные могут быть как обеспечены, так и не обеспечены моделями их интерпретации;

-- данные могут быть распределены в массе различных по своей физической природе, временной и пространственной локализации источников;

-- источники данных могут быть в различной степени доступны или наблюдаемы.

Вам доводилось видеть по телевизору церемонии открытия олимпийских игр? Допустим, да. Тогда вам приходилось видеть, как по сигналу церемониймейстера на трибунах из отдельных щитов, управляемых сидящими на трибунах людьми, складываются государственные флаги, олимпийская символика и прочие замысловатые узоры. А теперь представьте себе, что вы сидите на этой трибуне, и все, что вы можете наблюдать -- это разноцветные щиты с номерами в ногах у себя и своих ближайших соседей, а вам по системе оповещения сообщают с каким номером щит вам предстоит поднять на счет «три». Так вот, задачи поиска и установления информативности источников сходны с задачей определения того, какой флаг через мгновение увидит телезритель, и того, в какой части трибуны вероятность правильного распознавания была бы выше.

Характер и состав множества источников информации определяется возможностями системы сбора информации, которой располагает конкретный субъект ИАР . Чем мощнее комплект инструментальных средств сбора, чем обширнее сеть добывания информации, тем полнее источниковая база ИАР. Для одних задач существует возможность привлечения инструментальных средств контроля, обеспечивающих сбор максимально достоверной информации о состоянии объектов исследований и среды их функционирования, возможность ранжирования источников по достоверности, точности и оперативности. Для других такая возможность отсутствует, а прогностический потенциал данных, получаемых методом непосредственного измерения параметров, не удовлетворяет требованиям, предъявляемых к результатам исследований. Таким образом, мы приходим к выводу о том, что состав источников, действительно, в сильной степени зависит от специфики задач исследования и парка инструментальных средств субъекта ИАР.

Современная аналитика располагает чрезвычайно обширной источниковой базой. В арсенале средств сбора информации присутствуют самые изощренные системы: начиная от спутниковых систем мониторинга атмосферы и земной поверхности, радио и оптико-электронной разведки и заканчивая самим, вооруженным пятью каналами ввода информации, аналитиком.

4.5 Работа с источниками текстовой информации

Оставим рассмотрение «экзотических» случаев: использования спутников- и самолетов-шпионов, добывания экспериментального образца методом подкупа вахтера и иные, столь же далекие от повседневной работы «чистого» аналитика. Хотя случаи работы с несимвольной информацией встречаются достаточно часто -- например, могут проводиться работы по определению химического состава или конструктивных особенностей продукции непосредственно с ее образцами, а не с описаниями таковых.

Сосредоточим свое внимание на классе источников символьных данных, а еще точнее -- текстовых данных. Класс текстовых данных обладает максимальным прогностическим потенциалом при минимальном интервале наблюдений -- в одном кратком предложении может быть выражена информация, достаточная для описания поведения объекта или процесса на сколь угодно отдаленную перспективу. В то же время, точность этого вида данных крайне низка, они подвержены многим видам искажений . Особенно низка их устойчивость к целенаправленной модификации. Но, сколь бы плохи или хороши они ни были, такие данные часто бывают единственным, что доступно аналитику.

Чаще всего, в повседневной деятельности нам приходится сталкиваться с классом источников информации, имеющих в своей основе языковые (знаковые или символьные) средства коммуникации: книги, периодические издания различной специализации, телевидение, радио, телефон, персональные коммуникации, ресурсы глобальных, региональных и локальных телекоммуникационных сетей. Данный класс коммуникаций, если исключить персональные ощущения и специальные технологии, является основным каналом пополнения личного (персонально пережитого) и социального (полученного в результате коммуникаций) опыта и знаний . Количество только языковой информации (исключая видеоряд), которое поступает по каналам этого класса источников, в принципе, позволяет сложной системе типа «человек» адаптивно реагировать на изменение ситуации, вырабатывать цели, стратегии, синтезировать новую информацию и добывать новые знания. Более того, этой информации достаточно для управления и другими людьми, не говоря уж о технических системах, созданных человеком.

Практика показывает, что этот класс источников обладает колоссальной информационной емкостью , другое дело, что «плотность» информации (коэффициент информативности данных) существенно варьируется от издания к изданию, от выпуска к выпуску, от программы к программе. Еще сложнее дело обстоит с релевантностью информации (ее свойством соответствовать текущим информационным потребностям субъекта): данных, содержащих релевантную информацию значительно меньше. А если учесть и иные ограничения, все более и более сужающие перечень источников и сообщений, то можно сделать вывод, что относительное количество сообщений, отвечающих потребностям управления некоторой конкретной системой в заданных условиях, крайне мало. К числу таких ограничений относятся: актуальность (возможность использования информации для управления системой или процессом в их современном состоянии), своевременность (возможность использовать информацию в контуре управления с учетом быстродействия подсистемы доведения управляющих воздействий), точность, достоверность, непротиворечивость и иные. Соответственно при всем обилии информации, которая может быть в принципе извлечена из всей совокупности источников, доля информации, представляющей ценность для ИАР, направленной на достижение некоторой цели, относительно невысока .

Коль скоро мы решили, что в этом подразделе проблемы поиска, отбора и экспресс-анализа информации будут рассматриваться применительно к классу источников, использующих для представления информации языковые средства, то, в первую очередь, нам следует проанализировать состав этого класса и режимы коммуникации (коммуникационные ситуации). В типовой коммуникационной ситуации (при обмене информацией между производителем и потребителем информации в режиме реального времени) в качестве основных источников текстовой информации может выступать всего два типа систем: разумные (человек), интеллектуальные (системы искусственного интеллекта) . Перечисленные системы способны самостоятельно генерировать новые тексты и информацию, то есть являются источниками и в узком, и в широком смысле, а также могут выступать в роли первичных источников текстовой информации. При наличии задержки в канале коммуникации речь идет о наличии промежуточного материального носителя информации, который обеспечивает возможность длительного хранения информации без внесения собственных искажений. Такие носители информации также могут рассматриваться в качестве источника информации, хотя сами не способны продуцировать информацию.

Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к классу источников, обеспечивающих неоперативные языковые коммуникации, следует причислять :

-- источники неоперативной информации (хранилища, архивы и библиотеки, содержащие текстовые документы):

-- на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);

-- на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);

-- источники оперативной информации (коммуникационные и связные системы, реализующие функцию коммуникации посредством передачи текстовых данных в символьном формате):

-- воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;

-- невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.

Источники информации, не воспроизводимой с требуемой степенью точностью, мы исключим из рассмотрения в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии. Впрочем, определив потенциального носителя таких данных или расположение материальной копии, возможно организовать доступ к материальной копии или носителю сведений , как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.

При наличии доступа к материальной копии информации (данным) всю совокупность доступных данных можно рассматривать в качестве источниковой базы проведения исследований . В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть -- формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.

При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников неструктурированных текстовых данных и класс источников структурированных текстовых данных . При этом под текстом можно понимать и числа, как частный случай.

Неструктурированные текстовые данные

Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств.

Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.

Такими возможностями на сегодня располагает большинство субъектов ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет, Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.

Задача состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований .

Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют технологии быстрого чтения, обеспечивающие человеку за счет оптимизации траектории перемещения точки фиксации зрения по носителю текста скорость чтения порядка 3000 знаков в минуту, эти технологии не могут сравниться с быстродействием, которое способны обеспечить компьютерные системы. Поэтому основное внимание мы сосредоточим на инструментальном обеспечении процессов поиска, отбора и экспресс анализа текстовых данных.

Тем не менее, начальный этап поиска, а именно, синтез поискового задания, требует привлечения интеллектуальных усилий аналитика.

Существует один, возможно, экстравагантный, но эффективный подход к формированию поискового словаря в условиях слабого знакомства с предметной областью исследований: он заключается в использовании… разнообразных словарей , предназначенных для любителей отгадывания кроссвордов. Учитывая, что систематические тезаурусы представляют собой достаточно редкое явление (рынок сбыта таких изданий весьма специфичен и тиражи невысоки), такие словари могут служить неплохим инструментом для подобных исследований. Зная цель исследования, по подобному словарю аналитик может отобрать ключевые слова, наиболее ярко свидетельствующие о принадлежности текста к заданной отрасли.

После того, как первая версия поискового словаря создана, дальнейшие операции могут быть возложены на ЭВМ. Произведя первичный поиск и обнаружив в массиве текстов/документов текст, содержащий ключевые слова и наилучшим образом освещающий исследуемую проблему, аналитик переходит к следующему этапу -- этапу коррекции поискового словаря. Наиболее распространенным подходом в настоящее время является статистический подход, основанный на применении статистических закономерностей, открытых Дж. К. Зипфом (в этой книге мы уже упоминали закон Зипфа-Мандельброта или принцип экономии в лингвистике). В результате построения частотно-рангового распределения длин слов в данном тексте выбирается специфичный для данного языка диапазон частот встречаемости слов -- именно в этом диапазоне будут содержаться те слова, которые наилучшим образом отражают тематику и содержание текста. Однако ориентация этого метода на такую единицу как слово, несколько сокращает полезность этого метода, поскольку человеку свойственно оперировать не столько словами, сколько терминами (то есть, сочетаниями слов, обеспечивающими наилучшее различение описываемых сущностей).

Так или иначе, но закономерности Зипфа широко используются в компьютерных системах анализа текстов и формирования поисковых словарей . Наибольшее распространение эти методы получили в поисковых системах ГСТК Интернет. Поэтому, если вы хотите получить наилучшие результаты при поиске информации с применением специальных поисковых серверов, вам имеет смысл вооружиться настольной компьютерной системой, на которой установлено программное обеспечение, реализующее функцию генерации поискового словаря по той же схеме (с теми же критериями), что реализуется поисковым сервером. В настоящее время поисковые системы, основанные на использовании статистических закономерностей, наиболее широко представлены на рынке и предоставляют пользователю различные возможности при осуществлении поиска. Наиболее распространен следующий набор сервисов/режимов (опций):

-- поиск точного совпадения слова или словосочетания, обеспечивающий возможность обнаружения в тексте точной копии слова или словосочетания, указанного в поисковом задании;

-- адаптивный поиск, обеспечивающий поиск фразы, указанной в поисковом задании, с учетом словоизменения;

-- адаптивный поиск, обеспечивающий поиск отдельных компонентов фразы, указанной в поисковом задании, с учетом словоизменения, возможности использования усеченных форм и разнесения компонентов фразы по тексту на некоторое фиксированное расстояние (измеренное в словах);

-- адаптивный поиск, ориентированный на применение специализированных языков управления поисковой машиной, обеспечивающий возможность управления режимом адаптации фразы, перестановок и подстановок отдельных слов и т. д.

Услуга эвристического поиска , основанного на использовании систем искусственного интеллекта, формирующих расширенный запрос на основе применения специализированных отраслевых тезаурусов и семантических сетей, несмотря на все анонсы и заявления владельцев поисковых сервисов, в ГСТК Интернет на сегодня практически не представлена. Использование таких поисковых систем является прерогативой серьезных организаций, специализирующихся в отрасли ИАР, и располагающих бюджетом, достаточным для закупки профессиональных поисковых систем или проведения собственных дорогостоящих исследований в области компьютерной лингвистики.

Если отвлечься от ГСТК Интернет и обратиться к проблеме поиска заданного текста на заранее сформированном универсальном массиве текстов, размещенных на отдельном компьютере или в сегменте локальной вычислительной сети, то тут следует обратиться к классу настольных и серверных поисковых систем. На отечественном рынке программного обеспечения системы подобного класса также представлены. Среди разработчиков программного обеспечения, реализующих передовые поисковые лингвистические технологии, следует выделить ЗАО «МедиаЛингва». Разработки этой фирмы, такие как «Следопыт», «Классификатор» и «Аннотатор», обеспечивают комплекс решений, позволяющих осуществлять оперативный поиск документов, их индексирование, классификацию и автоматическое аннотирование. Схожими возможностями обладают разработки НПИЦ «Микросистемы», в частности -- программный продукт «TextAnalyst». Данная программа использует для решения задач распознавания слов нейросетевые технологии и, в основном, предназначена для решения задачи автоматического реферирования документов; функции поиска в этой системе также предусмотрены, однако в большей степени ориентированы на осуществление поиска в некотором подмножестве ранее обработанных и включенных в базу документов.

В основе функционирования таких систем лежат технологии искусственного интеллекта, на начальном этапе анализа текста использующие средства словарного и не словарного морфологического анализа текста, аппарат математической статистики, нейросетевые технологии, а на заключительном этапе, связанном с отбором, классификацией и аннотированием -- аппарат семантических сетей, универсальные и отраслевые тезаурусы и словари. Рядом разработчиков предоставляются специализированные комплекты разработчика (так называемые SDK -- Software Developer Kit), позволяющие при необходимости создавать собственное программное обеспечение, адаптированное к задачам, решаемым той или иной организацией.

Следует заметить, что проблемы анализа текстовой информации отнюдь не так просты, как это может показаться. В этой области существует масса проблем, связанных с различными этапами обработки текстов. На протяжении всего технологического цикла обработки, начиная от этапа морфологического разбора слова, и заканчивая этапом соотнесения термина с семантической категорией, разработчики технологий обработки текстов сталкиваются со сложностями как технологического, так и методологического порядка. А это означает, что в перечень проблемных этапов попадают:

-- задачи установления факта принадлежности слова к некоторой части речи;

-- задачи приведения слова к канонической форме;

-- задачи выделения семантически связных цепочек слов;

-- задачи выделения границ термина, установления его канонической формы и необходимой для его идентификации части;

-- задачи восстановления системы ссылок и умолчаний;

-- задачи соотнесения термина с грамматической и семантической категориями;

-- задачи связывания тематически связных фрагментов текста. Неоднозначность распознавания и интерпретации слова и текста в целом является серьезнейшей проблемой, без разрешения которой достижение серьезных успехов в области анализа текстовой информации маловероятно. Для решения этой проблемы требуется обращение к методам, вовлекающим в использование контекст слова, высказывания и даже текста, с тем, чтобы локализовать предметную область, устранить последствия явления полисемии (многовариантного толкования смысла слов) и получить максимально точные результаты обработки. Тем не менее, данные проблемы постепенно находят свое решение, хотя компьютерная лингвистика по праву считается одной из сложнейших отраслей современной прикладной и теоретической науки. Одной из причин этого является и большая трудоемкость проведения эксперимента, необходимость не только тестирования, но и предварительного обучения создаваемых программных средств, а каждому читателю известно, как велико количество разнообразных исключений из правил, вариантов передачи одного и того же смысла.

Сегодня за рубежом (увы, не у нас) на решение этих проблем затрачиваются значительные средства. Например, для решения проблем, связанных с автоматизацией обработки и анализа текстов, в бюджете американской военной исследовательской организации DARPA на 2000 и 2001 гг. выделено 12 и 29 млн. долл., соответственно. Добавим лишь, что многие исследовательские программы финансируются еще и рядом фондов, в том числе -- NSF (National Science Foundation) и другими. Грустно, но наши специалисты в этой отрасли все чаще вынуждены отправляться на поиски признания (а оно сейчас все больше выражается в денежных единицах) в университетские научные центры США, Великобритании и Германии, где существует понимание актуальности этого круга проблем. Мы же по-прежнему все работы сваливаем на самого надежного и дешевого (но и подверженного многим видам нарушающих цикл ИАР воздействий -- см. далее) эксперта-аналитика.

Использование автоматизированных систем существенно сокращает время на проведение поиска, отбора и экспресс-анализа текстовых документов , и, хотя качество аннотирования (реферирования) пока не позволяет использовать подобные системы для генерации обзоров источников, а тексты, полученные с их помощью, нуждаются в правке и редактуре, но этого качества вполне достаточно для проведения экспресс-анализа данных. К числу серьезных недостатков этих систем следует отнести их неспособность восстанавливать системы внутри- и интертекстовых ссылок и умолчаний (случаи неявного упоминания слов и терминов), а, между тем, относительное количество различного рода подстановочных конструкций (например, замена слова или термина местоимением, прилагательным и т. п.) в текстах достаточно велико. Причины этого недостатка лежат на уровне аксиоматики методов и подходов, реализованных в данных системах. Так, например, Россия, Российская Федерация, наша Родина и РФ для большинства таких систем -- суть разные объекты, то есть, система должна быть снабжена семантической сетью или тезаурусом, который мог бы «объяснить» программе, как поступать в таком случае.

Структурированные текстовые данные

Другим видом информационных ресурсов/источников являются источники структурированных текстовых данных, в том числе -- формализованный текст, таблицы, базы и хранилища данных , предоставляющие возможности поиска и фильтрации данных в таблицах, организации виртуальных таблиц и витрин данных. Этот тип ресурсов обладает своей спецификой, поскольку для интерпретации данных, как правило, требуются двухуровневые модели интерпретации: потребитель данных должен располагать моделью организации данных (логических связей между таблицами и записями), а также моделью предметной области, в то время как для обычного текста достаточно только второго класса моделей. Более того, коммерчески распространяемые базы данных, как правило, представляют собой неоперативный источник информации, структурированный в соответствии с представлениями поставщика о потребностях клиентов. То есть, эти информационные продукты не всегда адаптированы к реальным потребностям и часто содержат устаревшую или неполную информацию. По этой причине, большинство организаций, осуществляющих функции ИАО субъектов управления в некоторой области деятельности создают свои собственные базы данных, в большей степени отражающие их информационные потребности.

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.