Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Применение автоматизированного системно-когнитивного анализа и интеллектуальной системы "Эйдос" для решения задачи идентификации литературных источников и авторов

Применение автоматизированного системно-когнитивного анализа и интеллектуальной системы "Эйдос" для решения задачи идентификации литературных источников и авторов

Этапы автоматизированного системно-когнитивного анализа и преобразование исходных данных в информацию. Скачивание и инсталляция системы "Эйдос". Синтез и верификация статистических и интеллектуальных моделей. Ценность описательных шкал и градаций.

Рубрика	Программирование, компьютеры и кибернетика
Вид	курсовая работа
Язык	русский
Дата добавления	15.05.2017
Размер файла	1,3 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ПРИМЕНЕНИЕ АСК-АНАЛИЗА И ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ "ЭЙДОС" ДЛЯ РЕШЕНИЯ В ОБЩЕМ ВИДЕ ЗАДАЧИ ИДЕНТИФИКАЦИИ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ И АВТОРОВ ПО СТАНДАРТНЫМ, НЕСТАНДАРТНЫМ И НЕКОРРЕКТНЫМ БИБЛИОГРАФИЧЕСКИМ ОПИСАНИЯМ

Содержание

1. Описание проблемы и идея ее решения

2. Предыстория и задел для решения проблемы идентификации текстов и авторов в АСК-анализе и системе «Эйдос»

3. Описание предлагаемого решения проблемы

3.1 Этапы АСК-анализа и преобразование исходных данных в информацию, а ее в знания в системе "Эйдос"

3.2 Скачивание и инсталляция системы «Эйдос»

3.3 Автоматизированная формализация предметной области путем импорта исходных данных из внешних баз данных в систему "Эйдос"

3.4 Синтез и верификация статистических и интеллектуальных моделей

3.5 Частные критерии и виды моделей системы «Эйдос»

3.6 Ценность описательных шкал и градаций для решения задач идентификации текстов и авторов (нормализация текста)

3.7 Интегральные критерии системы «Эйдос»

3.8 Результаты верификации моделей

4. Решение задач идентификации текстов и их авторов в наиболее достоверной модели

4.1 Присвоение наиболее достоверной модели статуса текущей и решение в ней задач идентификации

4.2 Отображение результатов идентификации

5. Некоторые недостатки и перспективы

5.1 Повышение быстродействия алгоритмов

5.2 Перспективы применения АСК-анализа и системы «Эйдос» для решения задач идентификации и прогнозирования на основе анализа Internet-контента

Литература

Аннотация

1. Описание проблемы и идея ее решения

Проблемы идентификации авторов и литературных источников по библиографическим описаниям в списках литературы в последнее время приобретает все большее значение научное и практическое значение. Это связано в частности с политикой Министерства образования и науки Российской Федерации в области оценки качества результатов научной деятельности, которая предполагает использование количества ссылок на публикации авторов и индекса Хирша. В России создаются соответствующие аналитические инструменты и сервисы для оценки результатов научной деятельности, функционально аналогичные известным зарубежным библиографическим базам данных Scopus, Web of Science и другим. В настоящее время наиболее известным в России сервисом подобного назначения является Российский индекс научного цитирования (РИНЦ): http://elibrary.ru/. Однако, как показывает опыт, часто ссылки в списках литературы публикаций сделаны с нарушением ГОСТ 7.1--2003, а также с ошибочными выходными данными, например, неверно указанными номерами страниц, наименованием издательства и т.п. На практике это приводит к тому, что программная система библиографической базы не может определить на какую статью, из находящихся в ней, сделана данная ссылка и кто авторы этой статьи. В результате для этих авторов теряется цитирование, что приводит к занижению их индексов Хирша и оценки результатов их научной деятельности руководством. Понятно, что эти отрицательные последствия желательно преодолеть.

Традиционно данная проблема решается с помощью алгоритма шинглов. Данная статья посвящена изложению идеи решения этой проблему путем применения Автоматизированного системно-когнитивного анализа (АСК-анализ) и его программного инструментария - интеллектуальной системы «Эйдос», которые представляют собой современную инновационную интеллектуальную технологию (готовую к внедрению). В ней рассматривается алгоритм, основанный на вычислении количества информации в словах библиографической ссылки о том, что это ссылка на данную статью и данных авторов, а также ценность слов для идентифкации статей и авторов (т.е. вариабельность количества информации в словах по статьям и авторам).

Предлагаемый алгоритм имеет ряд отличий от алгоритма шинглов, за счет чего может иметь определенные преимущества перед ним. Рассмотрим эти различия подробнее.

Этапы алгоритма шинглов1, которые проходит текст, подвергшийся сравнению:

- канонизация текста;

- разбиение на шинглы;

- вычисление хэшей шинглов;

- случайная выборка 84 значений контрольных сумм;

- сравнение, определение результата.

Рассмотрим, каким образом реализуются или не реализуются (т.к. в этом нет необходимости) подобные этапы в АСК-анализе и его программном инструментарии - системе «Эйдос» (таблица 1):

Таблица 1 - Сравнение алгоритма шинглов и алгоритма АСК-анализа, реализованного в системе «Эйдос»

Алгоритм шинглов

Алгоритм АСК-анализа, реализованный в системе «Эйдос»

Канонизация текста

Канонизация текста приводит оригинальный текст к единой нормальной форме. Текст очищается от предлогов, союзов, знаков препинания, HTML тегов, и прочего ненужного «мусора», который не должен участвовать в сравнении. В большинстве случаев также предлагается удалять из текста прилагательные, так как они не несут смысловой нагрузки.

Так как вычисляется количество информации в словах библиографической ссылки о том, что это ссылка на данную статью и данных авторов, а также ценность слов для идентификации статей и авторов (т.е. вариабельность количества информации в словах по статьям и авторам), то в этапе канонизации текста нет необходимости.

Также на этапе канонизации текста можно приводить существительные к именительному падежу, единственному числу, либо оставлять от них только корни.

Лемматизация текста на основе морфологического анализа, т.е. приведение слов к их исходной форме. Это целесообразно, но в настоящее время не реализовано.

Разбиение на шинглы

Шинглы (англ. - «чешуйки») - выделенные из статьи подпоследовательности слов. Необходимо из сравниваемых текстов выделить подпоследовательности слов, идущих друг за другом по 10 штук (длина шингла). Выборка происходит внахлест, а не встык. Таким образом, разбивая текст на подпоследовательности, мы получим набор шинглов в количестве равному количеству слов минус длина шингла плюс один.

Система «Эйдос» обеспечивает использование в качестве признаков текста последовательностей подряд идущих слов по 2, 3,…, N слов, т.е. шинглов, но это не имеет смысла делать при решении проблемы идентификации текстов и авторов по нестандартным и некорректным библиографическим описаниям, т.к. в них как раз эти последовательности могут быть нарушены, что приведет к понижению достоверности идентификации алгоритма шинглов. Кроме того использование таких подпоследовательностей само требует затрат вычислительных ресурсов, а также резко увеличивает количество признаков текста, размерность моделей и время идентификации.

Вычисление хэшей шинглов

Принцип алгоритма шинглов заключается в сравнении случайной выборки контрольных сумм шинглов (подпоследовательностей) двух текстов между собой.

Тексты сравниваются не по случайному подмножеству своих признаков, а по всем признакам, в качестве которых выступают слова. Считается идентифицированными тот источник и те авторы, о которых в словах ссылки содержится максимальное количество информации. Это может обеспечить более высокую достоверность алгоритма.

Проблема быстродействия алгоритма

Проблема алгоритма заключается в количестве сравнений, ведь это напрямую отражается на производительности. Увеличение количества шинглов для сравнения характеризуется экспоненциальным ростом операций, что критически отразится на производительности.

Проблема алгоритма заключается в количестве сравнений, ведь это напрямую отражается на производительности. Увеличение количества слов в библиографических ссылках, используемых для сравнения, приводит к линейному росту числа операций сравнения.

Таким образом, есть надежда, что предлагаемый алгоритм будет иметь более высокую достоверность и быстродействие, чем алгоритм шинглов.

2. Предыстория и задел для решения проблемы идентификации текстов и авторов в АСК-анализе и системе «Эйдос»

Автор на протяжении многих лет периодически возвращался к проблематике атрибуции анонимных и псевдонимных текстов, идентификации текстов и их авторов [1, 2]. С 2006 года на базе системы «Эйдос» проводятся лабораторные работы, в которых изучается применение интеллектуальных технологий для решения этих задач [3] (см. лаб.работы №1 и №6).

В новой версии системы «Эйдос-Х++» этой теме посвящена лабораторная работа 3.02 (рисунок 1):

Рисунок 1. Экранная формы выбора лабораторной работы 3-го типа

На рисунке 2 приведен Help этой лабораторной работы:

Кроме того есть опыт анализ проблематики научного журнала в динамике с использованием технологии обработки текстов в интеллектуальной системе «Эйдос» [4].

3. Описание предлагаемого решения проблемы

3.1 Этапы АСК-анализа и преобразование исходных данных в информацию, а ее в знания в системе "Эйдос"

АСК-анализ представляет собой современную инновационную (т.е. полностью готовую к внедрению и использованию) широко и успешно апробированную интеллектуальную технологию [5, 6, 7, 8].

АСК-анализ включает следующие этапы:

1. Когнитивная структуризация предметной области (неформализованный этап). На этом этапе решается, что мы хотим прогнозировать и на основе чего. В нашей задаче мы хотим прогнозировать продолжительность жизни пациента после перенесенного им инфаркта на основе анализа эхокардиограммы.

2. Формализация предметной области. На этом этапе разрабатываются классификационные и описательные шкалы и градации, а затем с их использованием исходные данные кодируются и представляются в форме баз событий, между которыми могут быть выявлены причинно-следственные связи.

3. Синтез и верификация моделей (оценка достоверности, адекватности). Повышение качества модели. Выбор наиболее достоверной модели для решения в ней задач.

4. Решение задач идентификации и прогнозирования.

5. Решение задач принятия решений и управления.

6. Решение задач исследования моделируемой предметной области путем исследования ее модели.

Рисунок 3. Этапы последовательного преобразования данных
в информацию, а ее в знания в системе "Эйдос"

Подробно этот процесс описан в работах [9, 10]. Суть этого процесса в следующем:

1. Информация рассматривается как осмысленные исходные данные.

2. Смысл, согласно концепции Шенка-Абельсона [11] считается известным, когда выявлены причинно-следственные связи.

3. Анализ - это операция выявления смысла из исходных данных.

4. Причинно-следственные связи существуют не между элементами исходных данных, а между реальными событиями, которые они отражают (моделируют), т.е. причинно-следственные связи - это характеристика реальной области, а не абстрактных моделей. Иначе говоря, анализ самих исходных данных невозможен, а возможен только анализ событий, описанных этими исходными данными.

5. Поэтому перед анализом исходных данных необходимо предварительно преобразовать их в базы событий, т.е. в эвентологические базы.

6. Это преобразование осуществляется с помощью справочников событий, факторов и их значений, т.е. с помощью классификационных и описательных шкал и градаций, которые также необходимо разработать.

7. Формализация предметной области представляет собой разработку справочников классификационных и описательных шкал и градаций и преобразование с их помощью баз исходных данных в базы событий (т.е. обучающую выборку), и является первым автоматизированным в системе «Эйдос» этапом АСК-анализа.

8. Затем следуют остальные перечисленные выше этапы АСК-анализа:

- синтез и верификация моделей и выбор наиболее достоверной из них;

- решение в ней задач идентификации, прогнозирования, принятия решений и исследования предметной области, т.е. преобразование информации в знания.

Этап синтеза и верификации моделей завершает процесс анализа исходных данных и преобразования их в информацию, а ее в знания.

В АСК-анализе есть несколько режимов, обеспечивающих решение задачи принятия решений для управления или достижения целей, которая представляет собой обратную задачу прогнозирования: это и режим 4.2.1, позволяющий формировать информационные портреты классов, а также режим 4.4.8, поддерживающий количественный автоматизированный SWOT и -PEST анализ, включая построение SWOT и -PEST матриц и диаграмм [12], а также режим 4.4.10, визуализирующий нейросетевую интерпретацию модели знаний системы «Эйдос» [13]. Эти режимы обеспечивают преобразование информации в знания, т.к. знания представляют собой информацию, полезную для достижения целей, т.е. по сути технологию, в частности ноу-хау [5]. Наличие цели является ключевым моментом для преобразования информации в знания. А постановка целей (целеполагание) не мыслима без мотивации, которая в настоящее время является слабо формализованным этапом.

Итак, в процессе анализа исходные данные представляются в форме базы событий, между которыми выявляются причинно-следственные связи, и, таким образом, исходные данные преобразуются в информацию, представляющую собой осмысленные данные (смысл есть знание причинно-следственных связей), а затем информация используется для достижения целей (управления), т.е. преобразуется в знания.

Формализация предметной области включает разработку классификационных и описательных шкал и градаций и преобразование с их использованием исходных данных (таблица 2) в обучающую выборку. Этот этап полностью автоматизируется программным интерфейсом системы «Эйдос» с внешними табличными базами исходных данных (режим 2.3.2.2).

Но перед выполнением этого этапа АСК-анализа, естественно, необходимо сначала скачать и установить систему «Эйдос».

3.2 Скачивание и инсталляция системы «Эйдос»

Для скачивания и инсталляции системы «Эйдос» необходимо по адресу:

ИНСТРУКЦИЯ по скачиванию и установке системы «Эйдос» (объем около 50 Мб)

По этим ссылкам всегда размещена наиболее полная на момент скачивания незащищенная от несанкционированного копирования портативная (portable) версия системы (не требующая инсталляции) с исходными текстами, находящаяся в полном открытом бесплатном доступе (объем около 50 Мб). Обновление имеет объем около 3 Мб.

Далее запускаем систему "Эйдос" из папки "Aidos-X" файлом _aidos-x.exe. Система попросит ввести логин и пароль (рисунок 9). Необходимо ввести: логин - 1, пароль - 1.

Далее запускаем систему "Эйдос" из папки "Aidos-X" файлом _aidos-x.exe. Система попросит ввести логин и пароль.

В качестве исходных данных для примера решения задачи идентификации текстов и авторов, рассмотренного в данной статье, использована выборка из баз данных Научного журнала КубГАУ [14, 4] за весь период его существования с 2003 года по настоящее время (точнее по 100-й номер). За это время в журнале издано 3949 статей.

В данной работе исследовано две выборки статей: полная, включающая 3949 статей, и сокращенная, представляющая собой 100 статей, выбранных из полной случайным образом. Программа, осуществившая выборку 100 статей из полной, приведена ниже (язык xBase++):

FUNCTION Main()

CLOSE ALL

USE Inp_data EXCLUSIVE NEW;N_Obj = RECCOUNT()

aNumRec := {} // Массив номеров записей, которые останутся в БД Inp_data.dbf

N_Rec = 100 // Количество записей, которые останутся в БД Inp_data.dbf

SELECT Inp_data

DELETE ALL

// Сформировать массив кодов случайных объектов обучающей выборки без повторов из N элементов

DO WHILE LEN(aNumRec) < N_Rec // В массиве еще нет aNumRec элементов?

// Случайный номер записи от 1 до N_Rec

mRndRec = 1+INT(RANDOM()%N_Obj)

IF ASCAN(aNumRec, mRndRec) = 0 // Номер этого объекта еще не разыгрывался?

AADD (aNumRec, mRndRec)

ENDIF

ENDDO

ASORT(aNumRec)

FOR j=1 TO LEN(aNumRec)

DBGOTO(aNumRec[j])

RECALL

NEXT

PACK

LB_Warning( aNumRec, 'Удаление записей из БД "Inp_data.dbf"' )

LB_Warning( 'В базе даннных: "Inp_data.dbf" осталось '+ALLTRIM(STR(N_Rec))+' случайных записей', 'Удаление записей из БД "Inp_data.dbf"' )

CLOSE ALL

RETURN NIL

Далее везде, где это специально не оговорено, рассматривается модель, основанная на 100 статьях.

3.3 Автоматизированная формализация предметной области путем импорта исходных данных из внешних баз данных в систему "Эйдос"

Для преобразования исходных данных в базы данных системы "Эйдос" необходимо файл MS Excel, который содержит базу исходных данных, скопировать в папку: ..Aidos-X\AID_DATA\Inp_data и присвоить ему имя: «Inp_data.xls». Само преобразование осуществляется в универсальном программном интерфейсе импорта данных из внешних баз данных в систему «Эйдос»

Рисунок - Экранная форма Универсального программного интерфейса импорта данных в систему "Эйдос" (режим 2.3.2.2.)

В экранной форме, приведенной на рисунке 7, необходимо задать настройки, показанные на рисунке:

- "Задайте тип файла исходных данных Inp_data": "XLS - MS Excel-2003";

- "Задайте диапазон столбцов классификационных шкал": "Начальный столбец классификационных шкал" - 2, "Конечный столбец классификационных шкал" - 3;

- "Задайте диапазон столбцов описательных шкал": "Начальный столбец описательных шкал" - 4, "Конечный столбец описательных шкал" - 4;

- "Задание параметров формирования сценариев или способа интерпретации текстовых полей": "Применить сценарный метод АСК-анализа и спец.интерпретацию TXT-полей";

- «Параметры интерпретации текстовых полей Inp_data»: В качестве классов рассматривать элементы значений полей - слова, В качестве признаков рассматривать элементы значений полей - слова.

Затем кликнуть кнопку "ОК". Далее открывается окно, где размещена информация о размерности модели.

Рисунок Информация о размерности модели системы "Эйдос"

В этом окне необходимо нажать кнопку "Выйти на создание модели".

Далее открывается окно, отображающее стадию процесса импорта данных из внешней БД "Inp_data.xls" в систему "Эйдос" (рисунок 9), а также прогноз времени завершения этого процесса. В том окне необходимо дождаться завершения формализации предметной области и нажать кнопку "ОК".

Для просмотра описательных шкал и градаций необходимо запустить режим 2.2:

Рисунок. Описательные шкалы и градации (фрагмент)

Тем самым создаются все необходимые и достаточные предпосылки для выявления силы и направления причинно-следственных связей между значениями факторов и результатами их совместного системного воздействия (с учетом нелинейности системы [15]).

3.4 Синтез и верификация статистических и интеллектуальных моделей

Далее запускаем режим 3.5, в котором происходит выбор моделей для синтеза и верификации и нажмем кнопку "ОК". После успешного завершения, также необходимо нажать кнопку "ОК".

Рисунок Выбор моделей для синтеза и верификации

В данном режиме имеется много различных методов верификации моделей, в том числе и поддерживающие бутстрепный метод. Но мы используем параметры по умолчанию, приведенные на рисунке 13.

В результате выполнения режима 3.5 (рисунок 14) созданы все модели, со всеми частными критериями, перечисленные на рисунке 13, но ниже мы приведем лишь некоторые из них (таблицы 3-5).

Предварительно рассмотрим частные и интегральные критерии, применяемые в настоящее время в системе «Эйдос».

Отметим, что синтез и верификация всех 10 моделей на выборке 100 статей заняли около полутора часов (процессор i7).

3.5 Частные критерии и виды моделей системы «Эйдос»

Рассмотрим решение задачи идентификации на примере модели INF1, в которой рассчитано количество информации по А.Харкевичу, которое мы получаем о принадлежности идентифицируемого объекта к каждому из классов, если знаем, что у этого объекта есть некоторый признак. Это так называемые частные критерии сходства, приведенные в таблице 3.

Таблица 3 - Частные критерии знаний, используемые в настоящее время в АСК-анализе и системе «Эйдос-Х++»

Наименование модели знаний
и частный критерий

Выражение для частного критерия

через относительные частоты

через абсолютные частоты

INF1, частный критерий: количество знаний по А.Харкевичу, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу. Относительная частота того, что если у объекта j-го класса обнаружен признак, то это i-й признак

INF2, частный критерий: количество знаний по А.Харкевичу, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу. Относительная частота того, что если предъявлен объект j-го класса, то у него будет обнаружен i-й признак.

INF3, частный критерий: Хи-квадрат: разности между фактическими и теоретически ожидаемыми абсолютными частотами

---

INF4, частный критерий: ROI - Return On Investment, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу

INF5, частный критерий: ROI - Return On Investment, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу

INF6, частный критерий: разность условной и безусловной относительных частот, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу

INF7, частный критерий: разность условной и безусловной относительных частот, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу

Обозначения:

i - значение прошлого параметра;

j - значение будущего параметра;

Nij - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра;

M - суммарное число значений всех прошлых параметров;

W - суммарное число значений всех будущих параметров.

Ni - количество встреч i-м значения прошлого параметра по всей выборке;

Nj - количество встреч j-го значения будущего параметра по всей выборке; автоматизированный инсталляция верификация интеллектуальный

N - количество встреч j-го значения будущего параметра при i-м значении прошлого параметра по всей выборке.

Iij - частный критерий знаний: количество знаний в факте наблюдения i-го значения прошлого параметра о том, что объект перейдет в состояние, соответствующее j-му значению будущего параметра;

Ш - нормировочный коэффициент (Е.В.Луценко, 1979, впервые опубликовано в 1993 году [15]), преобразующий количество информации в формуле А.Харкевича в биты и обеспечивающий для нее соблюдение принципа соответствия с формулой Р.Хартли;

Pi - безусловная относительная частота встречи i-го значения прошлого параметра в обучающей выборке;

Pij - условная относительная частота встречи i-го значения прошлого параметра при j-м значении будущего параметра.

Таблица 4 - Матрица абсолютных частот (модель ABS) (фрагмент)

Таблица 5 - Матрица информативностей (модель INF1) в битах (фрагмент)

Таблица 6 - Матрица знаний (модель INF3) (фрагмент)

3.6 Ценность описательных шкал и градаций для решения задач идентификации текстов и авторов (нормализация текста)

Для любой из моделей системой «Эйдос» рассчитывается ценность градации описательной шкалы, т.е. признака, для идентификации или прогнозирования. Количественной мерой ценности признака в той или иной модели является вариабельность по классам частного критерия для этого признака (таблица 3) Мер вариабельности может быть много, но наиболее известными является среднее модулей отклонения от среднего, дисперсия и среднеквадратичное отклонение. Последняя мера и используется в АСК-анализе и системе «Эйдос».

В системе «Эйдос» ценность признаков нарастающим итогов выводится в графической форме.

При большом объеме обучающей выборки можно без ущерба для достоверности модели удалить из нее малозначимые признаки (Парето-оптимизация). Для этого в системе «Эйдос «также есть соответствующие инструменты.

Как показывает опыт, в результате такого удаления из текста малозначимых признаков (нормализации текста) из него прежде всего будут удалены различные предлоги, междометия и слова, состоящие из очень малого числа букв (от 1 до 3), а также отдельно стоящие символы типа наклонной черты (флеш) и т.п.

3.7 Интегральные критерии системы «Эйдос»

Но если нам известно, что объект обладает не одним, а несколькими признаками, то как посчитать их общий вклад в сходство с теми или иными классами? Для этого в системе «Эйдос» используется 2 аддитивных интегральных критерия: «Сумма знаний» и «Семантический резонанс знаний».

Интегральный критерий «Семантический резонанс знаний» представляет собой суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.

Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний, представленных в help режима 3.3:

В выражении круглыми скобками обозначено скалярное произведение. В координатной форме это выражение имеет вид:

,

где: M - количество градаций описательных шкал (признаков);

- вектор состояния j-го класса;

- вектор состояния распознаваемого объекта, включающий все виды факторов, характеризующих сам объект, управляющие воздействия и окружающую среду (массив-локатор), т.е.:

В текущей версии системы «Эйдос-Х++» значения координат вектора состояния распознаваемого объекта принимались равными либо 0, если признака нет, или n, если он присутствует у объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове «молоко» представлена 3 раза, а буква «м» - один раз).

Интегральный критерий «Семантический резонанс знаний» представляет собой нормированное суммарное количество знаний, содержащееся в системе факторов различной природы, характеризующих сам объект управления, управляющие факторы и окружающую среду, о переходе объекта в будущие целевые или нежелательные состояния.

Интегральный критерий представляет собой аддитивную функцию от частных критериев знаний, представленных в help режима 3.3 и имеет вид:

где:

M - количество градаций описательных шкал (признаков);

- средняя информативность по вектору класса;

- среднее по вектору объекта;

- среднеквадратичное отклонение частных критериев знаний вектора класса;

- среднеквадратичное отклонение по вектору распознаваемого объекта.

- вектор состояния j-го класса;

- вектор состояния распознаваемого объекта, включающий все виды факторов, характеризующих сам объект, управляющие воздействия и окружающую среду (массив-локатор), т.е.:

В текущей версии системы «Эйдос-Х++» значения координат вектора состояния распознаваемого объекта принимались равными либо 0, если признака нет, или n, если он присутствует у объекта с интенсивностью n, т.е. представлен n раз (например, буква «о» в слове «молоко» представлена 3 раза, а буква «м» - один раз).

Приведенное выражение для интегрального критерия «Семантический резонанс знаний» получается непосредственно из выражения для критерия «Сумма знаний» после замены координат перемножаемых векторов их стандартизированными значениями:

Свое наименование интегральный критерий сходства «Семантический резонанс знаний» получил потому, что по своей математической форме является корреляцией двух векторов: состояния j-го класса и состояния распознаваемого объекта.

3.8 Результаты верификации моделей

Результаты верификации (оценки достоверности) моделей, отличающихся частными критериями (таблица 3) с двумя приведенными выше интегральными критериями приведены:

Рисунок Результаты верификации моделей

Наиболее достоверной в данном приложении оказались модели INF4 при интегральном критерии «Резонанс знаний» (на рисунке 15 эта модель выделена красным цветом). Данная модель обеспечивает 100% достоверность идентификации статьи и ее авторов по библиографическому описанию этой статьи (достоверность отнесения объекта к классу, к которому он действительно относится), и 98% достоверность не отнесения статьи и ее авторов к тем классам, к которым они не относятся.

Для оценки достоверности моделей в АСК-анализе и системе «Эйдос» используется метрика, предложенная автором, сходная с F-критерием и дающая те же результаты ранжирования моделей по их качеству.

Кроме того в системе «Эйдос» используют уточненную F-меру, учитывающую не только сам факт идентификации или не идентификации, но и уровень сходства-различия при этом.

Также обращает на себя внимание, что статистические модели, как правило, дают более низкую средневзвешенную достоверность идентификации и не идентификации, чем модели знаний, и практически никогда - более высокую. Этим и оправдано применение моделей знаний.

4. Решение задач идентификации текстов и их авторов в наиболее достоверной модели

4.1 Присвоение наиболее достоверной модели статуса текущей и решение в ней задач идентификации

В соответствии со схемой этапов последовательного преобразования данных в информацию, а ее в знания в системе "Эйдос", приведенной на рисунке 3, присвоим статус текущей модели INF4, наиболее достоверной модели по данным верификации (рисунок 15). Для этого в режиме 5.6 системы «Эйдос» зададим эту модель и кликнем по кнопке Ok:

Рисунок Экранные формы режима присвоения модели статуса текущей

4.2 Отображение результатов идентификации

Режим 4.1.3 системы «Эйдос» обеспечивает отображение результатов идентификации в различных формах:

1. Подробно наглядно: "Объект - классы".

2. Подробно наглядно: "Класс - объекты".

3. Итоги наглядно: "Объект - классы".

4. Итоги наглядно: "Класс - объекты".

5. Подробно сжато: "Объект - классы".

6. Обобщенная форма по достоверности моделей при разных интегральных критериях.

7. Обобщенный статистический анализ результатов идентификации по моделям и интегральным критериям.

8. Статистический анализ результатов идентификации по классам, моделям и интегральным критериям.

9. Распознавание уровня сходства при разных моделях и интегральных критериях.

10. Достоверность идентификации классов при разных моделях и интегральных критериях.

Рассмотрим некоторые из них.

Рисунок Экранная форма результатов идентификации статьи и ее авторов

На рисунке 20 приведены результаты идентификации автора данной статьи по библиографическим описаниям его статей.

Рисунок Результаты идентификации автора данной статьи
по библиографическим описаниям его статей

Однако возникает закономерный вопрос о том, а будет ли вообще работать предлагаемый алгоритм и инструментарий на больших базах данных и о том, как он будет работать. Для ответа на этот вопрос был проведен численный эксперимент на выборке 3949 статьи.

Это означает, что поставленная в статье задача успешно решена. Если же различие в уровне сходства наиболее сходной статьи и следующей за ней незначительное, то информацию об этих статьях необходимо предоставить для принятия решения специалисту.

Рассмотрим теперь идентификацию статей с нестандартными и некорректными библиографическими описаниями в модели INF1, созданной на основе 3949 библиографических описаний статей.

Для формирования некорректных библиографических ссылок возьмем стандартную ссылку на статью автора (1-я строка таблицы 7) и будем, начиная с конца библиографического описания, последовательно удалять из него элементы описания и создавать новые строки с неполными библиографическими описаниями. Две последних строки получены не путем удаления элементов библиографического описания, что приводит к неполноте описания, а путем добавления лишних элементов (шума, выделено желтым фоном): наклонной черты после имени автора и неверного указания страниц. Как показывает опыт, в настоящее время подобные описания не идентифицируются программным обеспечением РИНЦ.

Рисунок Экранная форма универсального программного интерфейса с внешними базами данных для ввода распознаваемой выборки

Рисунок Экранная форма распознаваемой выборки некорректных библиографических описаний

Рисунок Экранная форма отображения стадии процесса идентификации нестандартных и некорректных библиографических описаний

На основе выше изложенного можно сделать обоснованный вывод о том, что АСК-анализ и его программный инструментарий интеллектуальная система «Эйдос», обеспечивают решение задачи идентификации текстов и авторов на основе библиографических описаний публикаций, в том числе нестандартных и некорректных, неполных и зашумленных. При этом обеспечивается очень высокий уровень достоверности идентификации объектов с классами, к которым он действительно принадлежат (100%) и очень высокий уровень достоверности не идентификации объектов с классами, к которым они действительно не принадлежат (около 98%).

5. Некоторые недостатки и перспективы

Конечно, предлагаемый подход не лишен и некоторых недостатков и ограничений, в преодолении которых состоят некоторые перспективы его развития.

5.1 Повышение быстродействия алгоритмов

Основной недостаток предлагаемых решений, выявленный на приведенных в данной статье примерах, состоит в довольно значительных затратах вычислительных ресурсов, внешней памяти и времени на создание моделей, их верификацию и решение в этих моделях задач идентификации. Особенно это заметно на примере со 3949 статей, 19989 слов.

Таким образом, как обычно возникает вопрос о том, что делать в этих условиях.

Прежде всего, возникает мысль о том, что в больших библиографических базах типа РИНЦ, Скопус и т.п., предлагаемые в данной статье решения целесообразно применять не ко всем статьям и авторам, а лишь к тем, которые не удалось идентифицировать с помощью более простых и быстродействующих алгоритмов, уже реализованных в программном обеспечении этих систем. Иначе говоря применять их в тех случаях, в которых ранее было необходимо участие человека.

Следующая очевидная мысль состоит в том, что необходимо оптимизировать предлагаемые решения алгоритмы и решения специально для их реализации в программном обеспечении больших библиографических баз данных, таких как РИНЦ, Скопус и др. Для того, чтобы это сделать необходимо предварительно разобраться с причинами возникновения этой ситуации. Мы видим две такие основные причины:

Во-первых, это универсальность и независимость от предметной области алгоритма, реализованного в системе «Эйдос». В процессе синтеза и верификации моделей в системе производится расчет большого количества различных выходных форм, которые не нужны при решении задач, поставленных в статье.

Во-вторых, это отсутствие морфологического анализатора в текущей версии системы «Эйдос», в результате чего слова не приводятся к начальной форме и используются все словоформы, реально встретившиеся в библиографических ссылках. Это на порядок увеличивает размерность моделей и время их создания и использования для решения задач.

Соответственно, представляется, что есть два основных пути повышения быстродействия предложенных алгоритмов при их использовании для решения задач идентификации литературных источников и авторов на основе библиографических описаний:

1) оптимизация алгоритма специально для очень больших библиографических баз данных, типа РИНЦ и Скопус;

2) лемматизация текста на основе морфологического анализа, т.е. приведение слов к их исходной форме, и сокращение за счет этого размерностей баз данных на порядок и такое же повышение быстродействия алгоритма.

Кроме того, на взгляд автора, для повышения быстродействия алгоритмов обработки матриц чрезвычайно перспективным является применение в системе «Эйдос» технологии CUDA или другой функционально аналогичной, но более универсальной и менее зависимой от аппаратного обеспечения технологии, обеспечивающей высокопроизводительные параллельные неграфические вычисления на графических процессорах, обладающих огромными вычислительными ресурсами, на порядки превосходящими ресурсы центрального процессора.

5.2 Перспективы применения АСК-анализа и системы «Эйдос» для решения задач идентификации и прогнозирования на основе анализа Internet-контента

Описанная в статье технология может быть применена для решения задач выявления взаимосвязей между динамикой Internet-контента и событиями в области экономики, политики, культуры и в других областях. Особенное значение это приобретает в условиях жесткого информационного противоборства, если не сказать информационной войны, ведущих центров влияния в мире.

Например, в работе [16] тотальная ложь рассматривается как стратегическое информационное оружие общества периода глобализации и дополненной реальности. Рассматривается возможность применения в современном обществе принципа наблюдаемости, как общепринятого в физике критерия реальности. Показано, в каких случаях применение данного принципа в исследованиях общества приводит к общественным иллюзиям, а когда дает адекватные результаты. Предлагаются понятие: «Степень виртуализации общества» и количественная шкала для ее измерения, а также вводится понятие «Общественный умвельт» под которым понимается область общества, существенно отличающаяся от остальных своими фундаментальными закономерностями.

В работах [17] и [18] рассматриваются применение технологий нейролингвистического программирования (НЛП) для астротурфинга и манипулирования сознанием больших масс людей и различных целевых групп населения.

Язык программирования Аляска xBase++, на котором написана система «Эйдос-Х++» позволяет реализовать все существующие в настоящее время возможности взаимодействия с Internet-ресурсами, но для этого необходима библиотека Xb2net.dll, которая у автора есть только в демо-версии (функционально-ограниченная).

Литература

1. Луценко Е.В. Атрибуция текстов, как обобщенная задача идентификации и прогнозирования / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ)

2. Луценко Е.В. Атрибуция анонимных и псевдонимных текстов в системно-когнитивном анализе / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) - Краснодар: КубГАУ, 2004. - №03(005). С. 44 - 64.

3. Луценко Е.В. Лабораторный практикум по интеллектуальным информационным системам: Учебное пособие для студентов специальности "Прикладная информатика (по областям)" и другим экономическим специальностям. 2-е изд., перераб. и доп. - Краснодар: КубГАУ, 2006. - 318с.

4. Луценко Е.В. Теоретические основы, технология и инструментарий автоматизированного системно-когнитивного анализа и возможности его применения для сопоставимой оценки эффективности вузов / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ). - Краснодар: КубГАУ, 2013. - №04(088). С. 340 - 359.

5. Луценко Е.В. Системно-когнитивный анализ как развитие концепции смысла Шенка - Абельсона / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ)

6. Луценко Е.В. Количественный автоматизированный SWOT- и PEST-анализ средствами АСК-анализа и интеллектуальной системы «Эйдос-Х++» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ)

7. Луценко Е.В. Системная теория информации и нелокальные интерпретируемые нейронные сети прямого счета / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ)

8. Луценко Е.В. Современное состояние и перспективы развития Политематического сетевого электронного научного журнала Кубанского государственного аграрного университета / Е.В. Луценко, В.И. Лойко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) Краснодар: КубГАУ, 2014. - №06(100). С. 146 - 176. - IDA [article ID]: 1001406008.

Аннотация

ПРИМЕНЕНИЕ АСК-АНАЛИЗА И ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ "ЭЙДОС" ДЛЯ РЕШЕНИЯ В ОБЩЕМ ВИДЕ ЗАДАЧИ ИДЕНТИФИКАЦИИ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ И АВТОРОВ ПО СТАНДАРТНЫМ, НЕСТАНДАРТНЫМ И НЕКОРРЕКТНЫМ БИБЛИОГРАФИЧЕСКИМ ОПИСАНИЯМ

Луценко Евгений Вениаминович д.э.н., к.т.н., профессор

Кубанский государственный аграрный университет, Россия, 350044, Краснодар, Калинина, 13

Проблемы идентификации авторов и литературных источников по библиографическим описаниям в списках литературы в последнее время приобретает все большее значение научное и практическое значение. Это связано в частности с политикой Министерства образования и науки Российской Федерации в области оценки качества результатов научной деятельности, которая предполагает использование количества ссылок на публикации авторов и индекса Хирша. В России создаются соответствующие аналитические инструменты и сервисы для оценки результатов научной деятельности, функционально аналогичные известным зарубежным библиографическим базам данных Scopus, Web of Science и другим. В настоящее время наиболее известным в России сервисом подобного назначения является Российский индекс научного цитирования (РИНЦ): http://elibrary.ru/. Однако, как показывает опыт, часто ссылки в списках литературы публикаций сделаны с нарушением ГОСТ 7.1--2003, а также с ошибочными выходными данными, например, неверно указанными номерами страниц, наименованием издательства и т.п. На практике это приводит к тому, что программная система библиографической базы не может определить, на какую статью сделана данная ссылка и кто авторы этой статьи. В результате для этих авторов теряется цитирование, что приводит к занижению их индексов Хирша и оценки результатов их научной деятельности руководством. Понятно, что эти отрицательные последствия желательно преодолеть. Данная статья посвящена изложению подхода, который позволяет решить эту проблему путем применения АСК-анализа и интеллектуальной системы «Эйдос», представляющих собой современную инновационную интеллектуальную технологию (готовую к внедрению)

Ключевые слова: АСК-АНАЛИЗ, ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА"ЭЙДОС", РЕШЕНИЕ ЗАДАЧИ ИДЕНТИФИКАЦИИ АВТОРОВ ЛИТЕРАТУРНЫХ ИСТОЧНИКОВ, СТАНДАРТНЫЕ, НЕСТАНДАРТНЫЕ, НЕКОРРЕКТНЫЕ БИБЛИОГРАФИЧЕСКИЕ ОПИСАНИЯ

THE APPLICATION OF ASC-ANALYSIS AND "AIDOS" INTELLIGENT SYSTEM TO SOLVE, IN GENERAL, THE PROBLEM OF IDENTIFYING THE SOURCES AND AUTHORS OF THE STANDARD, NON-STANDARD AND INCORRECT BIBLIOGRAPHIC DESCRIPTIONS

Lutsenko Eugeny Veniaminovich

Dr.Sci.Econ., Cand.Tech.Sci., professor

Kuban State Agrarian University, Krasnodar, Russia

The problem of identifying authors and literary sources for bibliographic descriptions in the literature in recent years become increasingly important scientific and practical value. This is, in particular, due to the policy of the Ministry of education and science of the Russian Federation in the field of quality assessment of the results of scientific activity, which involves the use of a number of references to publications of authors and the Hirsch index. In Russia, appropriate analytical tools to evaluate the results of scientific activity, functionally similar to the well-known foreign bibliographic databases such as Scopus, Web of Science and other. Currently, the most famous Russian similar service is the Russian science citation index (RSCI): http://elibrary.ru/. However, as experience shows, references in bibliography list of publications are often made with a violation of GOST 7.1-2003 rule, and with the erroneous output, for example, incorrectly specified page numbers, name of publisher, etc., In practice, this leads to the fact that software system of bibliographic database cannot determine what is the right reference for the article and who were the authors of this article. As a result, for these authors we lost the citation, which leads to an underestimation of their Hirsch indexes and evaluation of the results of their research activities and leadership. It is clear that these negative consequences should be overcome. This article is devoted to the presentation of the approach, which allows to solve the problem by applying an ASC-analysis and intelligent system named "Aidos", which is a modern innovative smart technology ready for implementation

Keywords: ASC-ANALYSIS, "AIDOS" INTELLIGENT SYSTEM, SOLVING THE PROBLEM OF IDENTIFICATION OF AUTHORS OF LITERARY SOURCES, STANDARD, NONSTANDARD, INCORRECT BIBLIOGRAPHIC DESCRIPTIONS

Размещено на Allbest.ru
...

курсовая работа "Применение автоматизированного системно-когнитивного анализа и интеллектуальной системы "Эйдос" для решения задачи идентификации литературных источников и авторов" скачать

Подобные документы

Библиотека методов когнитивного анализа задач
Предмет и этапы когнитивного анализа задач, его основные методы и их реализация на псевдокодовом языке. Виды факторов, использующихся при когнитивном моделировании систем. Предъявляемые к библиотеке требования, оценка ее экономической эффективности.

дипломная работа [1,3 M], добавлен 29.01.2013
Проектирование микропроцессорной системы для идентификации объекта управления
Анализ вариантов проектных решений и выбор на его основе оптимального решения. Синтез функциональной схемы микропроцессорной системы на основе анализа исходных данных. Процесс разработки аппаратного и программного обеспечения микропроцессорной системы.

курсовая работа [469,1 K], добавлен 20.05.2014
Разработка алгоритма и программы автоматизированного анализа динамики следящей системы с учетом люфта редуктора
Разработка программных средств автоматизированного анализа динамических свойств позиционной следящей системы с учетом люфта редуктора. Проектирование алгоритма и программы расчета и построения фазовых портретов или переходных процессов данной системы.

курсовая работа [432,5 K], добавлен 28.11.2012
Разработка базы данных для автоматизированного составления графика дежурств и учёта рабочего времени службы охраны предприятия
Описание предметной области и разработка программы для автоматизированного составления графика и табеля по учету рабочего времени службы охраны предприятия средствами Embracadero Builder C++. Инсталляция, общий дизайн и тестирование проекта базы данных.

дипломная работа [3,9 M], добавлен 05.08.2013
Синтез системы управления спуском космического аппарата на поверхность Марса методом интеллектуальной эволюции
Метод сетевого оператора и его применение в задачах управления. Исследование на основе вычислительного эксперимента синтезируемой системы автоматизированного управления космического аппарата, методом интеллектуальной эволюции. Алгоритм пчелиного роя.

дипломная работа [1,8 M], добавлен 17.09.2013
Основы системы автоматизированного проектирования
Системный подход как метод анализа объектов в процессе проектирования, задачи: принятия оптимального решения, разбиение задачи на части. Анализ требований, предъявляемых к проектам технических систем: эргономические, патентно-правовые, экономические.

лекция [149,3 K], добавлен 13.08.2013
Задачи синтеза систем регулирования
Анализ основных этапов решения задачи синтеза регуляторов в классе линейных стационарных систем. Нахождение оптимальных настроек регулятора и передаточной функции замкнутой системы. Изучение состава и структуры системы автоматизированного управления.

контрольная работа [3,0 M], добавлен 11.05.2012
Реализация анализа образовательной системы методом обращения в среде Rational Rose
Разработка системы автоматизированного анализа сложных объектов образовательной системы. Построение диаграмм последовательности, кооперации, классов, состояний, компонентов, а также развертывания. Представление сгенерированных кодов клиента и сервера.

курсовая работа [501,1 K], добавлен 23.06.2014
Обработка статистических данных по файлу
Описание решения задачи, ее постановка, общий подход к решению. Представление исходных данных, условий задачи и целей ее решения. Составление алгоритма решения поставленной задачи. Написание программного обеспечения и тестирование конечного продукта.

курсовая работа [1,1 M], добавлен 03.07.2011
Разработка автоматизированного рабочего места для работника предприятия
Создание автоматизированного рабочего места специалиста предприятия, ведущего государственную статистическую отчетность по форме 12-тэк "Отчет о расходе топливно-энергетических ресурсов". Структура информационной ASP.NET-системы. Верификация работы АРМ.

дипломная работа [9,9 M], добавлен 15.10.2011
Создание базы данных ГИБДД
Основные запросы, на которые ориентирована база данных. Описание источников и форм исходных данных. Комплектация автоматизированного рабочего места сотрудника ДПС. Формирование постановления об административном правонарушении в электронном виде.

курсовая работа [1,5 M], добавлен 14.11.2017
Разработка автоматизированного рабочего места работника склада ОАО "Торговый дом "Гольдштейн"
Обоснование необходимости и основные цели использования вычислительной техники для решения задачи. Используемые классификаторы и системы кодирования. Программное обеспечение разработки автоматизированного рабочего места. Описание программных модулей.

дипломная работа [3,9 M], добавлен 11.08.2015
Основы САПР (системы автоматизированного проектирования)
Технологии автоматизированного проектирования, автоматизированного производства, автоматизированной разработки и конструирования. Концептуальный проект предполагаемого продукта в форме эскиза или топологического чертежа как результат подпроцесса синтеза.

реферат [387,2 K], добавлен 01.08.2009
Теоретические основы автоматизированного управления
Разработка информационной системы (ИС) учета и анализа возникновения дорожных заторов в городе Иркутск. Разработка структуры ИС (модулей системы, модели данных, матрицу доступа пользователей ИС). Основные средства моделирования при проектировании ИС.

лабораторная работа [1,3 M], добавлен 23.07.2012
Системы автоматизированного проектирования и PLM-системы
Предпосылки внедрения систем автоматизированного проектирования. Условная классификация САПР. Анализ программ, которые позволяют решать инженерные задачи. Система управления жизненным циклом продукта - Product Lifecycle Management, ее преимущества.

контрольная работа [1,3 M], добавлен 26.09.2010
Разработка системы автоматизированного документооборота для Департамента информатизации и связи ОАО "Сибур-Нефтехим"
Описание разработанных программных модулей системы автоматизированного документооборота. Характеристика базы данных, нормативно-справочной, входной и выходной оперативной информации. Организация технологии сбора, передачи, обработки и выдачи информации.

дипломная работа [4,7 M], добавлен 16.02.2013
Система автоматизированного управления мобильной газораспределительной станцией
Назначение газораспределительных станций. Общие технические требования к системам автоматизированного управления газораспределительными станциями. Выбор промышленного контроллера. Разработка схемы соединений системы автоматизированного управления.

дипломная работа [2,2 M], добавлен 10.04.2017
Интеллектуальная система автоматизированного управления температурой ферментера
Понятия в области метрологии. Представление знаний в интеллектуальных системах. Методы описания нечетких знаний в интеллектуальных системах. Классификация интеллектуальных систем, их структурная организация. Нечеткие системы автоматического управления.

курсовая работа [768,2 K], добавлен 16.02.2015
Проектирование системы автоматизированного контроля работоспособности электронных плат
Анализ возможности разработки системы автоматизированного контроля на базе микроконтроллера МК51. Анализ структурной схемы МК51, портов ввода/вывода данных, возможности организации доступа к внешней памяти. Обзор системы команд МК51. Резидентная память.

курсовая работа [108,7 K], добавлен 15.01.2012
Системы автоматизированного проектирования и черчения
AutoCAD как одна из самых популярных графических систем автоматизированного проектирования, круг выполняемых ею задач и функций. Технология автоматизированного проектирования и методика создания чертежей в системе AutoCAD. Создание и работа с шаблонами.

лекция [58,9 K], добавлен 21.07.2009

Другие документы, подобные "Применение автоматизированного системно-когнитивного анализа и интеллектуальной системы "Эйдос" для решения задачи идентификации литературных источников и авторов"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Алгоритм шинглов	Алгоритм АСК-анализа, реализованный в системе «Эйдос»
Канонизация текста
Канонизация текста приводит оригинальный текст к единой нормальной форме. Текст очищается от предлогов, союзов, знаков препинания, HTML тегов, и прочего ненужного «мусора», который не должен участвовать в сравнении. В большинстве случаев также предлагается удалять из текста прилагательные, так как они не несут смысловой нагрузки.	Так как вычисляется количество информации в словах библиографической ссылки о том, что это ссылка на данную статью и данных авторов, а также ценность слов для идентификации статей и авторов (т.е. вариабельность количества информации в словах по статьям и авторам), то в этапе канонизации текста нет необходимости.
Также на этапе канонизации текста можно приводить существительные к именительному падежу, единственному числу, либо оставлять от них только корни.	Лемматизация текста на основе морфологического анализа, т.е. приведение слов к их исходной форме. Это целесообразно, но в настоящее время не реализовано.
Разбиение на шинглы
Шинглы (англ. - «чешуйки») - выделенные из статьи подпоследовательности слов. Необходимо из сравниваемых текстов выделить подпоследовательности слов, идущих друг за другом по 10 штук (длина шингла). Выборка происходит внахлест, а не встык. Таким образом, разбивая текст на подпоследовательности, мы получим набор шинглов в количестве равному количеству слов минус длина шингла плюс один.	Система «Эйдос» обеспечивает использование в качестве признаков текста последовательностей подряд идущих слов по 2, 3,…, N слов, т.е. шинглов, но это не имеет смысла делать при решении проблемы идентификации текстов и авторов по нестандартным и некорректным библиографическим описаниям, т.к. в них как раз эти последовательности могут быть нарушены, что приведет к понижению достоверности идентификации алгоритма шинглов. Кроме того использование таких подпоследовательностей само требует затрат вычислительных ресурсов, а также резко увеличивает количество признаков текста, размерность моделей и время идентификации.
Вычисление хэшей шинглов
Принцип алгоритма шинглов заключается в сравнении случайной выборки контрольных сумм шинглов (подпоследовательностей) двух текстов между собой.	Тексты сравниваются не по случайному подмножеству своих признаков, а по всем признакам, в качестве которых выступают слова. Считается идентифицированными тот источник и те авторы, о которых в словах ссылки содержится максимальное количество информации. Это может обеспечить более высокую достоверность алгоритма.
Проблема быстродействия алгоритма
Проблема алгоритма заключается в количестве сравнений, ведь это напрямую отражается на производительности. Увеличение количества шинглов для сравнения характеризуется экспоненциальным ростом операций, что критически отразится на производительности.	Проблема алгоритма заключается в количестве сравнений, ведь это напрямую отражается на производительности. Увеличение количества слов в библиографических ссылках, используемых для сравнения, приводит к линейному росту числа операций сравнения.

Наименование модели знаний и частный критерий	Выражение для частного критерия
	через относительные частоты	через абсолютные частоты
INF1, частный критерий: количество знаний по А.Харкевичу, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу. Относительная частота того, что если у объекта j-го класса обнаружен признак, то это i-й признак
INF2, частный критерий: количество знаний по А.Харкевичу, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу. Относительная частота того, что если предъявлен объект j-го класса, то у него будет обнаружен i-й признак.
INF3, частный критерий: Хи-квадрат: разности между фактическими и теоретически ожидаемыми абсолютными частотами	---
INF4, частный критерий: ROI - Return On Investment, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу
INF5, частный критерий: ROI - Return On Investment, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу
INF6, частный критерий: разность условной и безусловной относительных частот, 1-й вариант расчета относительных частот: Nj - суммарное количество признаков по j-му классу
INF7, частный критерий: разность условной и безусловной относительных частот, 2-й вариант расчета относительных частот: Nj - суммарное количество объектов по j-му классу

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

1. Описание проблемы и идея ее решения

2. Предыстория и задел для решения проблемы идентификации текстов и авторов в АСК-анализе и системе «Эйдос»

3. Описание предлагаемого решения проблемы

3.1 Этапы АСК-анализа и преобразование исходных данных в информацию, а ее в знания в системе "Эйдос"

3.2 Скачивание и инсталляция системы «Эйдос»

3.3 Автоматизированная формализация предметной области путем импорта исходных данных из внешних баз данных в систему "Эйдос"

3.4 Синтез и верификация статистических и интеллектуальных моделей

3.5 Частные критерии и виды моделей системы «Эйдос»

3.6 Ценность описательных шкал и градаций для решения задач идентификации текстов и авторов (нормализация текста)

3.7 Интегральные критерии системы «Эйдос»

3.8 Результаты верификации моделей

4. Решение задач идентификации текстов и их авторов в наиболее достоверной модели

4.1 Присвоение наиболее достоверной модели статуса текущей и решение в ней задач идентификации

4.2 Отображение результатов идентификации

5. Некоторые недостатки и перспективы

5.1 Повышение быстродействия алгоритмов

5.2 Перспективы применения АСК-анализа и системы «Эйдос» для решения задач идентификации и прогнозирования на основе анализа Internet-контента

Литература

Аннотация

1. Описание проблемы и идея ее решения

Предлагаемый алгоритм имеет ряд отличий от алгоритма шинглов, за счет чего может иметь определенные преимущества перед ним. Рассмотрим эти различия подробнее.

2. Предыстория и задел для решения проблемы идентификации текстов и авторов в АСК-анализе и системе «Эйдос»

В новой версии системы «Эйдос-Х++» этой теме посвящена лабораторная работа 3.02 (рисунок 1):

Рисунок 1. Экранная формы выбора лабораторной работы 3-го типа

На рисунке 2 приведен Help этой лабораторной работы:

Кроме того есть опыт анализ проблематики научного журнала в динамике с использованием технологии обработки текстов в интеллектуальной системе «Эйдос» [4].

3. Описание предлагаемого решения проблемы

3.1 Этапы АСК-анализа и преобразование исходных данных в информацию, а ее в знания в системе "Эйдос"

АСК-анализ включает следующие этапы:

3. Синтез и верификация моделей (оценка достоверности, адекватности). Повышение качества модели. Выбор наиболее достоверной модели для решения в ней задач.

4. Решение задач идентификации и прогнозирования.

5. Решение задач принятия решений и управления.

6. Решение задач исследования моделируемой предметной области путем исследования ее модели.

Рисунок 3. Этапы последовательного преобразования данных в информацию, а ее в знания в системе "Эйдос"

Подробно этот процесс описан в работах [9, 10]. Суть этого процесса в следующем:

1. Информация рассматривается как осмысленные исходные данные.

2. Смысл, согласно концепции Шенка-Абельсона [11] считается известным, когда выявлены причинно-следственные связи.

3. Анализ - это операция выявления смысла из исходных данных.

5. Поэтому перед анализом исходных данных необходимо предварительно преобразовать их в базы событий, т.е. в эвентологические базы.

8. Затем следуют остальные перечисленные выше этапы АСК-анализа:

- синтез и верификация моделей и выбор наиболее достоверной из них;

- решение в ней задач идентификации, прогнозирования, принятия решений и исследования предметной области, т.е. преобразование информации в знания.

Этап синтеза и верификации моделей завершает процесс анализа исходных данных и преобразования их в информацию, а ее в знания.

Но перед выполнением этого этапа АСК-анализа, естественно, необходимо сначала скачать и установить систему «Эйдос».

3.2 Скачивание и инсталляция системы «Эйдос»

Для скачивания и инсталляции системы «Эйдос» необходимо по адресу:

ИНСТРУКЦИЯ по скачиванию и установке системы «Эйдос» (объем около 50 Мб)

Далее запускаем систему "Эйдос" из папки "Aidos-X" файлом _aidos-x.exe. Система попросит ввести логин и пароль (рисунок 9). Необходимо ввести: логин - 1, пароль - 1.

Далее запускаем систему "Эйдос" из папки "Aidos-X" файлом _aidos-x.exe. Система попросит ввести логин и пароль.

FUNCTION Main()

CLOSE ALL

USE Inp_data EXCLUSIVE NEW;N_Obj = RECCOUNT()

aNumRec := {} // Массив номеров записей, которые останутся в БД Inp_data.dbf

N_Rec = 100 // Количество записей, которые останутся в БД Inp_data.dbf

SELECT Inp_data

DELETE ALL

// Сформировать массив кодов случайных объектов обучающей выборки без повторов из N элементов

DO WHILE LEN(aNumRec) < N_Rec // В массиве еще нет aNumRec элементов?

// Случайный номер записи от 1 до N_Rec

mRndRec = 1+INT(RANDOM()%N_Obj)

IF ASCAN(aNumRec, mRndRec) = 0 // Номер этого объекта еще не разыгрывался?

AADD (aNumRec, mRndRec)

ENDIF

ENDDO

ASORT(aNumRec)

FOR j=1 TO LEN(aNumRec)

DBGOTO(aNumRec[j])

RECALL

NEXT

PACK

LB_Warning( aNumRec, 'Удаление записей из БД "Inp_data.dbf"' )

LB_Warning( 'В базе даннных: "Inp_data.dbf" осталось '+ALLTRIM(STR(N_Rec))+' случайных записей', 'Удаление записей из БД "Inp_data.dbf"' )

CLOSE ALL

RETURN NIL

Далее везде, где это специально не оговорено, рассматривается модель, основанная на 100 статьях.

3.3 Автоматизированная формализация предметной области путем импорта исходных данных из внешних баз данных в систему "Эйдос"

Рисунок - Экранная форма Универсального программного интерфейса импорта данных в систему "Эйдос" (режим 2.3.2.2.)

В экранной форме, приведенной на рисунке 7, необходимо задать настройки, показанные на рисунке:

3.4 Синтез и верификация статистических и интеллектуальных моделей

Рисунок 3. Этапы последовательного преобразования данных
в информацию, а ее в знания в системе "Эйдос"