Розробка і дослідження векторних представлень інформації для задач пошуку і класифікації
Методи векторного представлення й обробки візуальної і текстової інформації в задачах пошуку і класифікації. Добір бінарних ознак, що засновані на використанні критеріїв інформативності і надмірності. Реалізація інтелектуальних інформаційних технологій.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | автореферат |
Язык | украинский |
Дата добавления | 28.08.2014 |
Размер файла | 137,8 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Національна академія наук україни
Інститут проблем математичних машин і систем
Автореферат
дисертації на здобуття наукового ступеня кандидата технічних наук
05.13.23 - Системи та засоби штучного інтелекту
Розробка і дослідження векторних представлень інформації для задач пошуку і класифікації
Місуно Іван Семенович
Київ 2006
Дисертацією є рукопис.
Робота виконана у Міжнародному науково-навчальному центрі інформаційних технологій та систем НАН і МОН України.
Науковий керівник: кандидат технічних наук Рачковський Дмитро Андрійович, Міжнародний науково-навчальний центр інформаційних технологій та систем НАН і МОН України, старший науковий співробітник
Офіційні опоненти: доктор технічних наук, професор Гладун Віктор Полікарпович, Інститут кібернетики ім. В.М. Глушкова НАН України, в.о. завідувача відділу доктор технічних наук, професор Замаруєва Ірина Вікторівна, Військовий інститут Київського національного університету ім. Тараса Шевченка, професор
Провідна установа: Державний науково-дослідний інститут інформаційної інфраструктури Державного департаменту з питань зв'язку та інформатизації України та Національної академії наук України, відділ високопродуктивних обчислювальних систем, м. Львів
Захист відбудеться “25” _жовтня____ 2006 року о _14_ годині на засіданні спеціалізованої вченої ради Д 26.204.01 в Інституті проблем математичних машин і систем НАН України за адресою: 03187, м. Київ-187, проспект Академіка Глушкова, 42.
З дисертацією можна ознайомитись у бібліотеці Інституту проблем математичних машин і систем НАН України за адресою: 03187, Київ-187, проспект Академіка Глушкова, 42.
Автореферат розісланий “19” __вересня__ 2006 року.
Вчений секретар спеціалізованої вченої ради, к.т.н. Ходак В.І.
1. Загальна характеристика роботи
інтелектуальний візуальний бінарний інформативність
Актуальність теми. Сучасний етап розвитку інформаційних технологій (ІТ) характеризується експоненційно зростаючими обсягами даних, що ставить задачу інтелектуалізації їх обробки в ряд найбільш актуальних задач інформатики. Важливими компонентами інтелектуалізації є класифікація і пошук інформації різного типу, зокрема, текстової і візуальної, які складають велику частку інформаційних масивів, що обробляються.
Для розв'язання задач пошуку і класифікації ключовою проблемою є вибір адекватних форм і ефективних методів представлення і обробки інформації. Найбільш перспективними в цьому плані є векторні представлення, які дозволяють використовувати ефективні методи обробки - лінійні моделі, асоціативну пам'ять, знаходження схожості скалярним добутком та ін. Векторні представлення широко використовуються в нейромережевому підході (М.М. Амосов, О.І. Галушкін, В.П. Гладун, В.Л. Дунін-Барковський, О.М. Касаткін, Л.М. Касаткіна, Б.В. Крижановський, В.Г. Редько, О.М. Різник, З.Л. Рабінович, І.О. Рибак, О.О. Фролов, J. Hopfield, T. Kohonen, F. Rosenblatt, B. Widrow, D. Willshaw та ін.) і, зокрема, в нейромережевих розподілених представленнях (Е.М. Куссуль, Д.А. Рачковський, P. Kanerva, T. Plate, J. Pollack та ін.). Перспективність векторних представлень і методів обумовлена також тим, що вони можуть бути природним чином інтегровані в більш розвинені концепції і системи штучного інтелекту (ШІ), зокрема, у системи обробки структурованої інформації.
Зростання обсягу і складності інформації, що обробляється, вимагає підвищення швидкодії і точності рішення задач пошуку і класифікації. Обчислювальна ефективність обробки векторних представлень текстів і зображень у значній мірі залежить від розмірності таких представлень. Це обумовлює важливість задачі зменшення розмірності векторів (D. Koller, D. Lewis, J. Pedersen, M. Sahami, Y. Yang та ін.), зокрема, шляхом відбору інформативних ознак або використання розподілених представлень. Інша актуальна задача - це підвищення якості самих методів класифікації багатовимірних векторних представлень (Y. Freund, J. Platt, R.E. Schapire, A.J. Smola, V. Vapnik, Е.М. Куссуль).
Перспективним шляхом інтелектуалізації сучасних систем обробки текстової інформації є використання семантики. Поширені методи повнотекстового пошуку (С. Buckley, S. Robertson, G. Salton, H-P. Frei) та в Інтернет (R. Baeza-Yates, S. Brin, A. Broder, L. Page) здійснюють пошук безпосередньо за словами запиту або вимагають використання дорогих лінгвістичних ресурсів - тезауруси, онтології, що конструюються людьми (C. Fillmore, G. Miller, N. Noy, І.В. Замаруєва, С. Ніренбург, В. Раскін). Тому актуальним є розвиток методів автоматичного формування відповідних векторних представлень (S. Deerwester, S. Dumais, T. Landauer, S. Wong).
Важливим аспектом подальшого розвитку систем і технологій ШІ є уніфікація методів і алгоритмів обробки інформації, засобів їх реалізації у прикладних системах та створення універсальних і спеціалізованих інструментально-технологічних засобів розробки інтелектуальних ІТ (наприклад, MathLab, NeuralWare, MNN-CAD та ін.).
Таким чином, загальна проблема підвищення ефективності та інтелектуальності обробки інформації обумовлює актуальність наукової задачі розвитку методів векторного представлення й обробки інформації для пошуку і класифікації, на вирішення якої спрямована дисертаційна робота.
Зв'язок роботи з науковими програмами, планами, темами. Робота виконувалася у відповідності з планами наукових досліджень відділу Міжнародного науково-навчального центру інформаційних технологій і систем в таких науково-дослідних роботах: “Розробка та дослідження нейромережевих методів моделювання когнітивних процесів № ДР 0101U002685 (2001-2003); “Дослідження та розроблення нових інтелектуальних інформаційних технологій на основі використання високоефективних нейромережевих методів та алгоритмів” № ДР 0102U002070 (2002-2006); “Розробка та дослідження нейромережевих інформаційних технологій роботи з базами знань” № ДР 0104U003191 (2004-2006); “Створити засоби автоматичної обробки інформації із застосуванням міркувань за аналогіями” № ДР 0103U008280 (2003-2006); “Створити дослідні зразки нейрокомп'ютерів нових поколінь” № ДР 0101U006718; за Державною науково-технічною програмою “Образний комп'ютер”: “Технологія, методи, алгоритми визначення міри семантичного зв'язку слів” № ДР 0102U005512 (2002); “Розробити комп'ютерну технологію цілеспрямованої обробки текстової і аудіоінформації” № ДР 0103U005770 (2003); “Розробити інтелектуальні інформаційні технології розпізнавання та ідентифікації аудіо-відеоінформації на основі нейромережевих технологій” № ДР 0104U008324 (2004).
Мета роботи - підвищення ефективності розв'язання задач пошуку і класифікації текстів і зображень шляхом розвитку методів векторного представлення і обробки інформації.
Відповідно до мети в роботі поставлені такі задачі:
- розробити методи добору інформативних ознак для векторних представлень даних;
- розробити методи підвищення якості класифікації даних, які мають векторне представлення;
- розробити методи формування векторних представлень текстової інформації, що враховують її семантичну близькість;
- розробити методи обчислювально ефективної обробки багатовимірних розріджених векторних представлень;
- експериментально дослідити ефективність і якість розроблених методів у задачах пошуку і класифікації візуальної і текстової інформації;
- розробити програмні засоби для створення і реалізації інтелектуальних інформаційних технологій класифікації та пошуку.
Об'єкт дослідження - комп'ютерні системи пошуку і класифікації текстової і візуальної інформації.
Предмет дослідження - представлення й обробка інформації: векторні представлення текстової і візуальної інформації, методи й алгоритми пошуку і класифікації, штучні нейронні мережі, нейрокомп'ютери.
Методи дослідження. Під час розробки та дослідження векторних представлень, методів обробки інформації і добору інформативних ознак використовувалися методи дискретної математики, теорії ймовірностей, теорії інформації, імітаційного моделювання. Під час розробки програмних засобів використовувалися методи системного аналізу, об'єктно-орієнтованого аналізу, проектування і програмування.
Наукова новизна одержаних результатів. Розробка і подальший розвиток методів векторного представлення й обробки інформації полягають у наступному:
- вдосконалено методи добору бінарних інформативних ознак шляхом розробки процедур ранжирування, що відрізняються застосуванням нового критерію надмірності та відомих критеріїв інформативності, а також можливістю добору ознак у процесі їхнього формування;
- вдосконалено правило навчання персептрона шляхом комбінування захисної смуги з одночасним навчанням на декілька класів;
- вдосконалено і систематично досліджено методи нейромережевого класифікатора LIRA шляхом введення процедур добору ознак, об'єднання множинних результатів класифікації, введення відмови від класифікації, а також модифікації правил навчання;
- вперше розроблено методи автоматичного формування розподілених векторних представлень текстової інформації з дискретними елементами, що враховують її семантичну близькість, шляхом використання текстів навчальної бази як контекстів під час формування контекстних векторів;
- вдосконалено методи пошуку і класифікації текстів із урахуванням семантичної близькості, що відрізняються використанням контекстних векторів з дискретними елементами;
- з метою підвищення обчислювальної ефективності вдосконалено методи виділення ознак, класифікації, пошуку, обчислення взаємної інформації завдяки уніфікованому застосуванню методу індексування під час оперування розрідженими векторними представленнями;
- розроблені нові засоби підтримки інтелектуальних інформаційних технологій, спрямованих на класифікацію і пошук текстової інформації, що відрізняються використанням оригінальних методів формування й оперування векторними представленнями інформації;
- вперше розроблена архітектура нейрокомп'ютера з візуальним формуванням проектованих алгоритмів у вигляді блок-схем, що відрізняється можливістю конфігурації алгоритмів за допомогою уніфікованих блоків обробки і управління.
Практичне значення одержаних результатів. На основі розроблених методів створені програмні засоби для реалізації ІТ класифікації і пошуку:
- програмний нейрокомп'ютер SNC - інструментальний засіб розробки і реалізації нейромережевих інформаційних технологій;
- CommonLіb - об'єктно-орієнтована бібліотека класів на С++, що реалізує ефективне оперування розрідженими розподіленими векторними представленнями в прикладних системах;
- Classifier Toolbox - програмні модулі класифікації зображень і текстів, а також програмні інтерфейси, що підтримують самостійне застосування модулів та розширення набору класифікаторів у SNC;
- Feature Toolbox - програмні модулі, що реалізують розроблені методи добору інформативних ознак і орієнтовані на використання в задачах, рішення яких пов'язано з оперуванням багатовимірними векторними бінарними ознаковими представленнями;
- Semantіc Toolbox - програмні модулі інтелектуальної обробки текстової інформації з елементами врахування семантики;
- TextSearch, TextClassifier - макети систем пошуку і класифікації текстів.
Створене програмне забезпечення використовується в наукових і практичних цілях, що підтверджується відповідними актами: Міністерства промислової політики України (від 26.10.2005 р.); НДІ нейрокібернетики Ростовського державного університету (від 29.09.2005 р.); ТОВ “Інтермедіа комунікації” (від 21.02.2006 р.).
Особистий внесок здобувача. У роботах, написаних у співавторстві й опублікованих у профільних виданнях, внесок здобувача полягає в наступному. [1, 2] - проектування системної архітектури і реалізація ядра, обчислювальних блоків, засобів проведення серійних експериментів програмного нейрокомп'ютера SNC; проведення досліджень задач класифікації й обробки даних. [3, 5] - методи формування й розробка систем розподілених представлень текстової інформації за контекстами документів; методи і системи пошуку текстів за такими представленнями, експериментальні дослідження. [4] - методи добору ознак за критеріями інформативності та дублювання, об'єднання множинних результатів класифікації, модифікації персептроноподібного класифікатора; дослідження на базі MNIST. [7, 9] - реалізація методів розподіленого кодування інформації (числової, текстової, зображень), розробка модифікованого класифікатора-персептрона, проведення та обробка результатів експериментів. [8] - розробка засобів представлення і розгортання епізодів-аналогів за допомогою XML-мови описування, розробка системи ефективного пошуку представлень епізодів. [10, 11] - розробка і реалізація ефективних методів обчислення перекриття розподілених представлень.
Апробація результатів дисертації. Результати дисертаційного дослідження були повідомлені на XІІІ, XІV Міжнародних конференціях з нейрокібернетики (Ростов-на-Дону, 2002, 2005); X-th Іnt. Conf. “Knowledge-Dіalogue-Solutіon” KDS_2003 (Bulgarіa, 2003); V Всеросійській науково-технічній конференції “Нейроінформатика-2003” (Москва); Міжнародному семінарі з індуктивного моделювання МСІМ-05 (Київ, 2005); постійно діючому семінарі “Проблеми нейрокомп'ютерів і нейромереж” (Київ, ІПММС та МННЦІТтаС, 2001-2006); у школі-семінарі “Про проблеми образного мислення” (Жукін, 2005).
Публікації. Основні результати дисертації викладені у 17 друкованих працях, у тому числі 11 - у фахових виданнях, рекомендованих ВАК України для спеціальності 05.13.23, з них 1 одноосібна та 6 тез доповідей на наукових конференціях.
Структура дисертації. Дисертація складається із вступу, п'яти розділів, висновків, списку використаних джерел із 148 найменувань, 2 додатків. Обсяг дисертації становить 148 сторінок основного тексту, включаючи 33 рисунка і 24 таблиці.
2. Основний зміст роботи
У вступі обґрунтовано актуальність теми дисертаційної роботи, сформульовано мету та задачі дослідження, показано наукову новизну і практичне значення отриманих результатів, зазначено особистий внесок здобувача.
У першому розділі дано огляд сучасного стану робіт в області пошуку і класифікації текстової і візуальної інформації.
Для вирішення задач класифікації широко застосовуються методи автоматичного конструювання класифікаторів шляхом навчання із вчителем (найближчих сусідів, одношарові та багатошарові нейронні мережі, метод опорних векторів та ін.). Однак в умовах зростання обсягів і складності даних вони не забезпечують поєднання високої обчислювальної ефективності та якості класифікації. Перспективним для підвищення швидкодії і якості є застосування розподілених векторних представлень, вдосконалення персептроноподібних класифікаторів, скорочення розмірності векторних представлень, об'єднання множинних результатів класифікації.
Поряд із задачами класифікації із зростанням обсягів інформації, що доступна в електронній формі, все більше значення набувають задачі пошуку. Сучасні методи пошуку текстової інформації засновані на моделях векторних просторів VSM. У цих моделях компоненти текстів, такі, як слова, словосполучення, фрагменти текстів або цілі документи, представлені багатовимірними векторами. Елементами векторів є значення деякої функції від частоти спільного знаходження компонентів текстів і їхніх контекстів. Ступінь подібності між компонентами текстів визначається величиною подібності між їхніми векторами, наприклад, скалярним добутком. Однак традиційні моделі векторних просторів не враховують семантичну близькість текстової інформації. Це стосується і задач класифікації текстової інформації. Для врахування семантичної близькості використовують методи, засновані на узагальненій моделі векторних просторів GVSM, а також розкладання за сингулярним значенням LSA, які є обчислювально складними при великих розмірностях простору ознак, типових для великих текстових масивів.
Таким чином, підвищення ефективності розв'язання задач пошуку і класифікації текстів і зображень потребує розвитку методів пошуку і класифікації інформації, що представлена у векторному форматі, створення уніфікованих засобів програмно-алгоритмічної підтримки і розробки нових та вдосконалення існуючих ІТ у напрямку підвищення обчислювальної ефективності, точності та привнесення якісно нових можливостей, що здатні забезпечити більш високий рівень інтелектуальної обробки інформації. Задачі пошуку і класифікації є типовими для ШІ, і створення нових методів та засобів їх вирішення є важливим не тільки в практичному плані, але і дозволить розширити теоретичну базу ШІ. Це обумовлює актуальність спрямованості дисертаційної роботи на підвищення ефективності рішення задач пошуку і класифікації на основі векторних представлень.
Другій розділ присвячений розробці методів підвищення ефективності класифікації даних, представлених у векторному форматі: добору інформативних ознак, модифікації правила навчання персептроноподібного класифікатора, об'єднанню множинних результатів класифікації.
Для скорочення розмірності векторних просторів з метою підвищення обчислювальної ефективності методів класифікації розроблено методи добору ознак, що використовують критерії інформативності (1) і дублювання (2) на основі взаємної інформації Шеннона. Ознаки розглядаються як незалежні (чи попарно залежні) для того, щоб уникнути експонентного росту числа членів під час обчислення взаємної інформації. Взаємна інформація між бінарною ознакою f і класами з множини С дорівнює
. (1)
Критерій дублювання ознаки f відносно множини ознак G
RE(f,G) = maxgG MI(f, g) / MI(g, g), (2)
де MI(f, g) - взаємна інформація двох бінарних ознак.
Нехай F{k} - шукана множина ознак потужністю k, Q1 - відношення числа переглянутих ознак до числа відібраних, - поріг до величини (2). Добір множини ознак виконується такою процедурою (а також її варіантами):
1. З початкової множини ознак F{Qk} береться qk (1?q?Q) ознак з максимальною величиною (1), і ці ознаки включаються у проміжну множину F{qk}:
F0{qk} = ; Fi{qk} = { f = } Fi-1{qk}, i=1,…, qk; F{qk} = Fqk {qk}.
2. Відібрані ознаки нумеруються: ознаці призначається номер vRE(f) за зростанням міри дублювання RE(f, F{qk}) і номер vMI(f) за зменшенням взаємної інформації MI(f,C). Рангом ознаки f є величина vRE(f)+vMI(f):
vRE(f) = | {gF{qk} : RE(g, G)<RE(f, G) } |; vMI(f) = | {gF{qk} : MI(g, G)>MI(f, G) } |.
3. До складу множини F{M} включається Mk ознак с максимальним рангом в F{qk}:
F0{M}=; Fi{M}={ f = } Fi-1{M}, i=1,…, M; F{M} = FM{M}.
4. Шукана множина F{k} є F{M}, доповнена інформативними ознаками із F{qk} з малою величиною дублювання RE(f, F{k})< відносно F{k}:
F0{k}*=F{M}; F0{k}=F{M}; Fi{k}*={ f = } Fi-1{k}*;
Fi{k} = { f : gFi{k}* RE(f, Fi-1{k})< }, i=1,…,(qk-M); F{k} = Fi*{k} : | Fi*{k} | = k.
Дублювання нових ознак оцінюється відносно малої множини вже відібраних ознак F{k}. Завдяки цьому обчислювальна складність процедури залишається низькою при рості розміру початкової множини ознак, що дозволяє працювати з необмеженими початковими множинами, наприклад, з “комбінаторними” ознаками LIRA, RSC. Варіанти процедур добору ознак відрізняються способом ранжирування ознак за критеріями (1) і (2), застосуванням порогу до мінімальної величини інформативності, критерієм останову.
Розроблено узагальнення правила навчання багатокласового персептрона з одним шаром зв'язків, що навчаються. Нехай активація вихідного нейрона класа с визначається як yc = x wc+bc, де wc - ваги зв'язків c-го нейрона; x - вхідний вектор; bc - поріг. Результатом класифікації є індекс c* нейрона з максимальною активацією: c* = argmaxс yc. Якщо c*ctrue, ваги зв'язків змінюються таким чином:
, i=1,N, (3)
де yc-true=yc-true(1_T), 0<T<1 - величина “захисної смуги”; ctrue - індекс нейрона правильного класу; >0 - інкремент, а f()>0 - декремент ваги зв'язку, що модифікується (наприклад, f() = /|c|, де |c| - число класів, для яких yc > yc-true).
З даного правила при T=0 одержуємо правило персептрона з навчанням на кілька класів одночасно. При модифікації ваг одного класу c* ctrue і при f()= одержуємо відоме правило персептрона з захисною смугою, а при T=0 - правило навчання звичайного персептрона. Для багатокласових задач правило (3), на відміну від звичайного персептрона, модифікує границі декількох класів одночасно, що, у сполученні із захисною смугою, дозволяє підвищити узагальнюючу здатність. На відміну від методу опорних векторів, (3) дозволяє природно вирішувати багатокласові задачі і має лінійну обчислювальну складність щодо довжини навчальної вибірки L.
Об'єднання множинних результатів класифікації і пошуку дозволяє підвищити їхню якість при незалежності або розбіжності окремих результатів.
Нехай Z - кількість поєднуваних результатів. Позначимо Rz z-й вихідний вектор розмірністю |C|. Підсумковий результат (класифікації або пошуку) може бути визначений такими способами:
(i) Максимум суми індивідуальних результатів ;
(ii) Голосування , де , (1)
де countZ(сz) - кількість “голосів” за клас с від усіх Z результатів.
Для кожного Rz визначимо числовий критерій корисності z, наприклад:
величину активації класу-переможця ; (B) відношення рівнів активації
; (C) суму активацій всіх класів . (2)
Тут с** позначає клас, що одержав друге після с* значення (1). Тоді результат класифікації
визначається серед Rz, для яких
Шляхом комбінування цих умов і критеріїв формуються різні варіанти визначення результату класифікації. Під час класифікації окремі результати можна вважати “невпевненими”, якщо клас-переможець не має суттєвої переваги над найближчим “суперником”.
Ряд методів і алгоритмів обробки векторних представлень (оцінка ймовірностей в (1)-(2), добування ознак, пошук, класифікація та ін.) вимагають обчислення L скалярних добутків вхідного вектора a і набору L векторів (матриця W): b=Wa (розмірність a дорівнює N, b - L). Ефективне виконання таких операцій над розрідженими векторами (з малою часткою p ненульових елементів) може бути реалізоване за допомогою індексування. Для цього формується структура даних, що складається з N векторів vn (n=1,N) перемінної розмірності і у vn записуються номера тих з L векторів набору, у яких елемент вектора з номером n ненульовий. Середнє число таких векторів Lp і, відповідно, розмірність структури даних O(N Lp). Тоді b обчислюється так: для кожного з ~Np векторів, що відповідають ненульовим елементам a, додаються значення an у ті елементи L-мірного b, номера яких зазначені в рядку: b[vn[j]]+a[n], n=1,N, j=0,jmax_n. Обчислювальна складність множення Wa складає O(NLp2), що для p<<1 набагато менше складності “прямого” множення O(NL). Ефективна реалізація векторно-матричних операцій з використанням даної процедури реалізована в програмних засобах розділу 5.
Третій розділ присвячений експериментальному дослідженню класифікації векторних представлень з використанням методів, розроблених у розділі 2.
Модифікація персептроноподібного класифікатора досліджувалася на штучних і реальних числових векторних даних з лінійно нероздільними областями класів: DGEN, задачі Leonard-Kramer і базі ELENA ([2, 7]), де бінарні ознаки виділялися кодуванням гіперпрямокутними рецептивними полями RSC [9], а також при класифікації зображень рукописних цифр бази MNIST [4] (рис. 1), де для виділення бінарних ознак використано метод LIRA. Отримані бінарні розріджені вектори використовувалися для навчання одношарового персептрона.
Результати експериментів показали, що при класифікації даних DGEN, Leonard-Kramer і MNIST персептрон із правилом навчання (3) показує кращі результати в широкому діапазоні параметрів (табл. 1, стовпець “Пр.0” - персептрон із захисною смугою і навчанням одного класу, стовпець “Пр.1” - з навчанням декількох класів; усереднення по 5...25 реалізаціям ознак).
Методи добору інформативних ознак досліджувалися при класифікації зображень бази MNIST і текстів бази Reuters-21578. На MNIST ефект від застосування добору ознак найбільше вагомий при малих N і Q<100. При збільшенні Q ефект від застосування добору зменшується, і при Q?100 спостерігається погіршення результатів, пов'язане з появою значного числа ознак, що дублюються (з великим значенням RE, рис. 2). При доборі ознак із урахуванням дублювання при збільшенні порога (див. розділ 2) середня помилка класифікації зменшувалася (табл. 2).
Застосування добору ознак без урахування можливого дублювання дозволило значно скоротити розмірність даних (з N=50000 до N=1000) при збереженні високих результатів класифікації MNIST на рівні 2,7-2,9% помилок. Добір ознак з урахуванням дублювання дозволив додатково зменшити відсоток помилок у середньому на 0,6%. Час навчання класифікатора зменшився при цьому з ~5 хвилин до 5 секунд, а добір ознак зайняв 75 секунд.
При дослідженні методів добору ознак у задачі класифікації текстів бази Reuters-21578 тексти були представлені як бінарні вектори, де елементами є індикатори наявності слів. Число ознак після попередньої обробки (див. розділ 5) складало N=33500, після добору - варіювалося від 10 до 10000. Класифікація проведена методами: kNN, опорних векторів (МОВ) і одношаровим персептроном, а результат оцінювався по точці перелому характеристики точність-повнота.
При доборі ознак результати класифікації залишаються високими, незважаючи на значне скорочення розмірності векторів (рис. 3). Для МОВ точність класифікації на 90 класах погіршилася з 0,879 при N=1000 до 0,864 при N=100; на 10 класах, відповідно, з 0,923 до 0,903. Результати методу kNN при N=100 склали 0,819 і різко погіршилися при збільшенні числа ознак (до 0,713 при N=300), що пов'язано зі збільшенням частки малоінформативних ознак. Добір ознак з урахуванням дублювання при кількості ознак N=500 дозволив поліпшити результат класифікації з 0,916 до 0,937 (табл. 3).
Таким чином, розроблені методи добору ознак з урахуванням дублювання дозволили поліпшити результати класифікації текстів для персептрона і kNN та зберегти високі результати для МОВ при значному скороченні витрат пам'яті й часу навчання і класифікації.
Об'єднання множинних результатів класифікації досліджувалося на базі MNIST. Генерувалося 5 реалізацій випадкових ознак LIRA (N=512000), за допомогою яких кодувалася збільшена в 25 разів навчальна і тестова вибірки та проводилося навчання 5 персептронів. Результат класифікації визначався голосуванням по (1)(i_ii), а також по “кращих” претендентах із сортуванням по (2)(A-C). Хоча розходження в індивідуальних результатах класифікаторів були малі, при виборі класифікаторів по (3)(с) було отримане зниження відсотка помилок у середньому з 0,72% до 0,60%. Таким чином, об'єднання результатів дозволило поліпшити підсумковий результат класифікації. Значення вираження (3)(a-c) використовувалося як критерій “впевненості” для прийняття рішення про відмову від класифікації (при його малому значенні). При числі відмов 0,5% точність класифікації зросла з 99,31% до 99,54%, при 1% - до 99,63%, при 3% - до 99,86%, при 10% - до 100%.
Усі досліджені методи класифікації зображень і текстів, а також методи добору ознак програмно реалізовані (розділ 5).
Четвертий розділ присвячений розробці й експериментальному дослідженню методів векторного представлення, класифікації і пошуку текстової інформації із урахуванням семантичної близькості.
Ступінь семантичної близькості між словами обчислюється як величина скалярного добутку (чи похідних мір) їх контекстних векторів, що формуються навчанням без вчителя на базі текстів. Для формування контекстних векторів текстової інформації на основі загального підходу до розподіленого представлення контекстних числових векторів розроблена процедура, де тексти використовуються як контексти при формуванні векторних представлень слів.
Формування контекстних векторів слів виконується шляхом множення матриці слова-тексти A [WL] на матрицю R [LN], у рядках якої знаходяться індексні вектори текстів rj розмірністю N<<L, для яких m<<N елементів з випадково обраними номерами встановлено в ненульове значення (+1, або {+1,-1}):
S = AR. (4)
В результаті матриця S [WN] буде містити в рядках si контекстні вектори слів розмірністю N. Контекстні вектори текстів, що враховують семантичну подібність слів, що входять в них, формуються так:
D = ATS. (5)
Матриця D [LN] містить у рядках dj контекстні вектори текстів. Для одержання векторів із дискретними елементами до них застосовуються поелементні порогові операції:
di* = { 1 при di > ; інакше 0 }- бінаризація (bin);
di* = { 1 при di > + 0; -1 при di < - 0; інакше 0 } - тернаризація (tern), (9)
де - величина порога, що впливає на кількість ненульових елементів у векторах.
В експериментах елементи матриці A фільтрувалися log(1+tfij idfj) (позначено lt); контекстні вектори слів і текстів нормувалися до довжини 1 по l2. На відміну від класичних методів VSM, завдяки наявності подібності між контекстними векторами різних слів, контекстні вектори текстів можуть бути подібні, навіть якщо в них не містяться однакові слова. Це дозволяє використовувати такі представлення для пошуку і класифікації текстів з урахуванням семантичної близькості. На відміну від методу GVSM, розподілені векторні представлення дозволяють скоротити розмірність і значно підвищити обчислювальну ефективність їхнього формування.
Ефективність класифікації текстів, що представлені контекстними векторами з дискретними елементами, досліджувалася на прикладі бази Reuters-21578, де отримано точність класифікації 0,910 (табл. 4), що відповідає якості класифікації за допомогою традиційних представлень (розділ 3). Об'єднання або перетин результатів класифікації з використанням контекстних векторів та традиційних методів дозволяє підвищувати їх повноту або точність.
Пошук інформації в базі текстів полягає у ранжируванні текстів бази за ступенем релевантності запиту. Ефективність пошуку з використанням контекстних векторів (Context) досліджувалася на прикладі трьох стандартних баз: Medlars, Time, Cranfield [5] (табл. 5).
Таким чином, найкращі результати пошуку VSM і GVSM забезпечуються при lt-фільтрації частотної матриці A. Застосування контекстних векторів із дискретними елементами (bin, tern) при класифікації і пошуку текстової інформації дає результати до 20% вище, ніж традиційний метод VSM. При цьому результати близькі до GVSM і контекстних представлень з дійсними елементами (l2), але дискретні вектори забезпечують підвищення ефективності їх обробки.
Проведено оцінку обчислювальної ефективності розроблених методів формування векторних представлень текстової інформації і методів пошуку. Обчислювальна складність пошуку для контекстних векторів з дійсними елементами CtxReal і дискретними елементами CtxDiscr у порівнянні з GVSM на різних етапах обробки приведена в табл. 6. Оцінювалася обчислювальна складність етапів: попередня обробка - формування по базі текстів матриці пошуку (виконується одноразово); формування вектора запиту; безпосередньо пошук - обчислення міри подібності запиту з кожним із текстів бази. Вибір k текстів бази з максимальною подібністю виконувався частковим сортуванням цього вектора за O(L log k) операцій. Розмірності матриць дані в квадратних дужках.
p1=||t||0/W
середня частка слів словника в текстах;
p=||s||0/N=||dj||0/N
розрідженість контекстних векторів слів і текстів; q - кількість слів в запиті.
При звичайному пошуку обчислювальна складність етапів попередньої обробки і пошуку у великих базах текстів L>>N найвища для методу GVSM. Для контекстних векторів CtxReal складність етапу попередньої обробки менше, ніж у GVSM при N<L, а застосування дискретних векторів CtxDiscr і ефективної процедури множення матриць (розділ 2) дозволяє прискорити попередню обробку і пошук (до 100..10000 разів при p~0.1-0.01) у порівнянні з CtxReal. При оптимізованому пошуку на етапі попередньої обробки обчислюється матриця подібностей усіх слів словника з кожним текстом бази. Завдяки цьому етап пошуку для всіх трьох методів складається в підсумовуванні рядків матриці подібностей, відповідних словам запиту. Для контекстних векторів CtxReal складність етапу попередньої обробки менше, ніж для GVSM при N<Wp1, для CtxDiscr - при Np2<W. Наприклад, для бази TASA (37600 текстів, 78000 слів) на попередню обробку GVSM необхідно ~5 годин (комп'ютер P4 2.8 ГГц), CtxReal - 2,5 години, а для CtxDisc - ~0,5 години. Етап пошуку для CtxReal ефективніше, ніж при звичайному пошуку при q<N, для CtxDiscr - при q<Np2.
Таким чином, при типових значеннях W, L, N оптимізований пошук із застосуванням дискретних контекстних векторів CtxDiscr забезпечує найкращу продуктивність.
П'ятий розділ присвячено питанням розробки програмних засобів для інформаційних технологій класифікації і пошуку.
Для обробки даних у форматі розріджених векторних представлень створено ієрархію програмних модулів Toolbox:
- CommonLib - уніфіковане оперування розрідженими векторними представленнями;
- Classifier Toolbox - класифікація векторної інформації;
- Feature Toolbox - ранжирування і добір ознак;
- Semantic Toolbox - формування контекстних векторів текстової інформації.
На базі Toolbox створені програмний нейрокомп'ютер SNC, макети систем контекстного пошуку текстів TextSearch і класифікації TextClassifier.
Програмний нейрокомп'ютер SNC призначений для розробки і дослідження нових алгоритмів і нейромережевих технологій обробки інформації, а також для створення прикладних систем класифікації і пошуку. В основу системної архітектури SNC покладено такі принципи: уніфікація представлення й обробки інформації, модульність архітектури, візуальне конфігурування.
Кожний етап обробки даних представлений як окремий блок, що виконує перетворення вхідної інформації. Послідовність викликів блоків задається користувачем у відповідності до алгоритму вирішення прикладної задачі. Блоки обробки, з'єднані зв'язками по даним і керуванню, створюють конфігурацію проекту нейрокомп'ютера.
- ConfigManager - центральний об'єкт системної архітектури SNC. Через його інтерфейси, реалізовані в ньому класи і методи виконуються: створення і конфігурування блоків обробки і зв'язків, перевірка цілісності і несуперечності зв'язків між блоками, збереження проекту, виконання проекту і запис експериментальних даних у БД;
- GraphShell/ConfTester - засоби клієнтської частини, за допомогою яких здійснюється взаємодія користувача з SNC у режимі САПР;
- Блоки обробки даних - основні обчислювальні блоки SNC: попередньої обробки, кодування, фільтрації і класифікації даних;
- Storage - класи взаємодії з базою даних, за допомогою яких виконується збереження і обробка експериментальних результатів;
- Utility - класи бібліотек, що реалізують ефективні операції з векторними представленнями та інші операції.
Така архітектура програмного нейрокомп'ютера забезпечує підвищення ефективності дослідження й розробки методів і технологій нейромережевої обробки даних завдяки спрощенню процесу їх створення та використанню засобів автоматизації нейрокомп'ютера для проведення експериментальних досліджень.
TextSearch - макет системи пошуку текстів на основі контекстних векторних представлень текстової інформації, який реалізовано під керуванням веб-сервера Microsoft IIS.
TextClassifier - макет системи класифікації текстів, реалізований як комплект модулів для виділення інформативних ознак, формування векторів текстової інформації на основі векторних моделей і методів контекстних векторів та класифікації.
При створенні макетів використані алгоритми і методи, реалізовані в Classifier Toolbox і Semantic Toolbox. Відомості щодо актів впровадження наведено в розділі “Практична значимість”.
Висновки
Сукупність отриманих у дисертації результатів забезпечує вирішення актуальної наукової задачі розвитку й підвищення ефективності методів векторного представлення й обробки інформації для задач пошуку і класифікації. Розроблені і досліджені методи представлення й оперування розрідженими векторними представленнями, відбору інформативних ознак, урахування семантичної близькості текстової інформації, класифікації і пошуку. Підвищена ефективність розв'язання задач пошуку і класифікації текстової і візуальної інформації, що показано експериментальними дослідженнями на реальних даних. Методи реалізовано у програмних засобах, які можуть бути використані як компоненти інтелектуальних інформаційних технологій.
За результатами проведеного дослідження зроблено такі висновки:
1. Розроблені методи добору бінарних інформативних ознак дозволяють зменшувати розмірність векторних представлень під час класифікації векторних даних. Методи, реалізовані програмними засобами Feature Toolbox, забезпечують зниження обчислювальних витрат при збереженні якості в задачах класифікації, що підтверджено на реальних даних. Так, для зображень бази MNІST при скороченні числа ознак у 10-50 разів отримана точність класифікації більше 97% і збільшена швидкість класифікації більше ніж у 10 разів; для текстів бази Reuter-21578 при скороченні розмірності текстових векторів у 20-100 разів отримано результат 0,903-0,937, близький до кращих світових (0,92).
2. Розроблено методи, що забезпечують підвищення якості класифікації даних, які мають векторне представлення, шляхом удосконалення навчання, об'єднання множинних результатів класифікації, застосування добору найбільш надійних результатів і відмови від класифікації. Методи реалізовано програмними засобами Classifier Toolbox та в нейрокомп'ютері SNC і експериментально досліджені. На базі MNIST об'єднання множинних результатів класифікації і застосування відбору найбільш надійних результатів дало зменшення помилки класифікації з 0,72% до 0,60%, а застосування відмови від класифікації дозволило додатково знизити рівень помилок.
3. Розроблено методи формування розподілених представлень текстової інформації з урахуванням її семантичної близькості, що відрізняються застосуванням контекстних векторів з дискретними елементами. Методи реалізовано програмними засобами Semantіc Toolbox і використано у макеті програмної системи контекстного пошуку текстів TextSearch, реалізованої в веб-серверній архітектурі. Показано поліпшення результатів пошуку на стандартних базах текстів Medlars, Cranfіeld, Tіme до 20% за 11-точковою усередненою характеристикою порівняно з VSM-пошуком. При класифікації бази Reuter-21578 за допомогою Semantic Toolbox та Classifier Toolbox отримано результати до 0,918, що відповідає рівневі кращих результатів традиційних методів.
4. Розроблені методи формування й оперування векторними представленнями дозволяють пропорційно квадрату розрідженості векторів зменшувати витрати часу на виділення ознак, обчислення інформативності ознак, класифікації і пошуку інформації, завдяки використанню уніфікованого представлення інформації у форматі розріджених векторів і обробки тільки значимих елементів. Методи реалізовано в об'єктно-орієнтованій бібліотеці класів С++ CommonLіb, використання якої дозволяє підвищити обчислювальну ефективність інформаційних технологій обробки текстів і зображень.
5. Створений програмний нейрокомп'ютер SNC є ефективним інструментальним засобом розробки нейромережевих інтелектуальних ІТ. Ефективність забезпечується архітектурою SNC, яка підтримує візуальне конфігурування проектованих алгоритмів у вигляді блок-схем, дозволяє створювати гнучко конфігуровані проекти для дослідницьких і прикладних цілей, розширювати клас вирішуваних задач шляхом включення нових функціональних модулів.
6. Розроблено нові програмні засоби для створення і реалізації інтелектуальних ІТ класифікації та пошуку, що використовують оригінальні методи формування й оперування векторними представленнями інформації (CommonLіb, Feature Toolbox, Classifier Toolbox, Semantіc Toolbox), та макети, що демонструють їх ефективність (TextSearch, TextClassifier).
7. Результати проведених досліджень показали перспективність застосування розроблених методів формування й обробки векторних представлень, а також розроблених програмних засобів для створення нових інтелектуальних інформаційних технологій, що включають задачі пошуку і класифікації візуальної і текстової інформації. Практична значимість розробок підтверджується актами впровадження.
Список опублікованих праць за темою дисертації
1. Гриценко В.И., Мисуно И.С., Рачковский Д.А., Ревунова Е.Г., Слипченко С.В., Соколов А.М. Концепция и архитектура программного нейрокомпьютера SNC // Управляющие системы и машины. - 2004. - № 3. - С. 3-14.
2. Мисуно И.С., Рачковский Д.А., Ревунова Е.Г., Слипченко С.В., Соколов А.М., Тетерюк А.Е. Модульный программный нейрокомпьютер SNC: реализация и применение // Управляющие системы и машины. - 2005. - № 2. - С. 74-85.
3. Мисуно И.С., Рачковский Д.А., Слипченко С.В. Векторные и распределенные представления, отражающие меру семантической связи слов // Математичні машини і системи. - 2005. - № 3. - С. 50-67.
4. Мисуно И.С., Рачковский Д.А., Слипченко С.В. Экспериментальное исследование классификации рукописных цифр // Системные технологии. - 2005. - №4. - С.110-133.
5. Мисуно И.С., Рачковский Д.А., Слипченко С.В., Соколов А.М. Поиск текстовой информации с помощью векторных представлений // Проблемы программирования. - 2005. - № 4. - С. 50-59.
6. Мисуно И.С. Векторное представление и классификация текстовой информации // Управляющие системы и машины. - 2006. - № 1. - С. 85-91.
7. Мисуно И.С., Рачковский Д.А., Слипченко С.В. Распределенное представление данных в задачах классификации // Системные технологии. - 2006. - № 1. - С. 109-118.
8. Рачковский Д.А., Мисуно И.С., Слипченко С.В., Соколов А.М. Поиск аналогов с помощью распределенных представлений // Проблемы программирования. - 2005. - № 1. - С. 39-50.
9. Слипченко С.В., Мисуно И.С., Рачковский Д.А. Свойства кодирования числовых величин случайными гиперпрямоугольными рецептивными полями // Математичні машини і системи. - 2005. - № 4. - С. 15-29.
10. Рачковский Д.А., Слипченко С.В., Мисуно И.С., Куссуль Э.М., Байдык Т.Н. Разреженное бинарное распределенное кодирование числовых векторов // Проблемы управления и информатики. - 2005. - № 6. - С. 57-72.
11. Слипченко С.В., Рачковский Д.А., Мисуно И.С. Декодирование разреженных бинарных распределенных кодов скалярных и векторных величин // Компьютерная математика. - 2005. - № 3. - С. 108-120.
12. Misuno I.S., Rachkovskij D.A., Revunova E.G., Sokolov A.M. SNC: The Software Neurocomputer With Modular Architecture // Междунар. конф. "Проблемы нейрокибернетики". - Ростов-на-Дону, Россия. - 2002. - Т. 2. - С. 109-113.
13. Рачковский Д.А., Мисуно И.С., Ревунова Е.Г. Случайное векторное индексирование документов и семантические представления слов // V Всероссийская конф. "Нейроинформатика-2003". - М.: МИФИ. - 2003. - Т. 2. - С. 213-218.
14. Markman A.B., Rachkovskij D.A., Misuno I.S., Revunova E.G. Analogical reasoning techniques in intelligent counterterrorism systems // X-th Int. Conf. "Knowledge-Dialogue-Solution" KDS-2003. - FOI-Commerce, Sofia, Bulgaria. - 2003. - P. 445-453.
15. Misuno I.S. Reduction of feature pool in large-scale classification tasks // Междунар. конф. "Проблемы нейрокибернетики". - Ростов-на-Дону, Россия. - 2005. - Т.2. - С.70-73.
16. Мисуно И.С., Рачковский Д.А., Слипченко С.В., Соколов А.М. Обработка текстовой информации с помощью векторных представлений // Международный семинар по индуктивному моделированию МСИМ-05. - Киев. - 2005. - С. 230-236.
17. Рачковский Д.А., Мисуно И.С., Ревунова Е.Г., Слипченко С.В., Соколов А.М. Концепция и методы нейросетевого распределенного представления информации в задачах ИИ // 14 Междунар. конф. "Проблемы нейрокибернетики". - Ростов-на-Дону, Россия. - 2005. - Т. 2. - С. 30-33.
Анотація
Місуно І.С. Розробка і дослідження векторних представлень інформації для задач пошуку і класифікації. - Рукопис.
Дисертація на здобуття наукового ступеня кандидата технічних наук за спеціальністю 05.13.23 - Системи та засоби штучного інтелекту. - Інститут проблем математичних машин і систем НАН України, Київ, 2006.
Дисертація присвячена розвитку і підвищенню ефективності методів векторного представлення й обробки візуальної і текстової інформації в задачах пошуку і класифікації. Розроблено методи добору бінарних ознак, що засновані на використанні критеріїв інформативності і надмірності. Методи забезпечують у задачах класифікації зниження обчислювальних витрат при збереженні якості. Розроблено методи підвищення якості класифікації даних, що мають векторне представлення, шляхом вдосконалення правила навчання персептрона, цілеспрямованого розширення навчальної вибірки, об'єднання множинних результатів класифікації і застосування добору найбільш надійних результатів, а також відмови від класифікації. Розроблено методи формування розподілених представлень текстової інформації з урахуванням її семантичної близькості, що відрізняються застосуванням контекстних векторів з дискретними елементами і використанням текстів навчальної бази як контекстів. Ефективність всіх розроблених методів експериментально підтверджено дослідженнями на реальних даних. Розроблено засоби підтримки створення і реалізації інтелектуальних інформаційних технологій класифікації і пошуку, що використовують оригінальні методи формування й оперування векторними представленнями інформації. Розроблено програмний нейрокомп'ютер SNC, який є інструментальнім засобом для розробки, дослідження і практичного застосування методів інтелектуальної обробки даних.
Ключові слова: класифікація, пошук текстів, семантична близькість, представлення даних, векторні представлення, нейронні мережі, нейрокомп'ютер.
Аннотация
Мисуно И.С. Разработка и исследование векторных представлений информации для задач поиска и классификации. - Рукопись.
Диссертация на соискание ученой степени кандидата технических наук по специальности 05.13.23 - Системы и средства искусственного интеллекта. - Институт проблем математических машин и систем НАН Украины, Киев, 2006.
Диссертация посвящена развитию методов векторного представления и обработки визуальной и текстовой информации с целью повышения эффективности решения задач поиска и классификации. Развиты и исследованы методы представления и обработки информации разного типа путем использования разреженных векторных представлений; методы отбора информативных признаков, учета семантической близости текстовой информации, классификации и поиска. Экспериментально показано, что применение разработанных методов повышает эффективность решения задач поиска и классификации текстовой и визуальной информации. Методы реализованы в виде программных средств, которые могут быть использованы как компоненты интеллектуальных информационных технологий.
Отбор признаков осуществлялся на основе критерия взаимной информации, используемого для ранжирования признаков. Для преодоления экспоненциального роста вычислительной сложности признаки считались независимыми. Разработаны методы отбора, обладающие линейной вычислительной сложностью относительно размера обучающей выборки, а также методы отбора признаков с учетом избыточности, позволяющие, несмотря на квадратичную сложность, работать с большими множествами признаков. В задачах классификации методы отбора обеспечивают снижение вычислительных затрат при сохранении качества, что подтверждено экспериментальными исследованиями на реальных данных. Так, для базы рукописных цифр MNIST (признаки - бинарные индикаторы наличия и отсутствия единичных пикселей в комбинациях точек сетчатки) при сокращении числа признаков в 10-50 раз получено качество классификации более 97% и увеличена скорость классификации более чем в 10 раз; для текстов базы Reuter-21578 (признаки - бинарные индикаторы слов) при сокращении размерности текстовых векторов в 20-100 раз получен результат 0,903-0,937, сопоставимый с лучшими мировыми (0,92).
Для повышения качества классификации предложена модификация известного правила обучения однослойного персептрона с несколькими нейронами выходного слоя и защитной полосой, разработаны методы объединения множественных результатов с отбором наиболее надежных результатов. Разработанные методы объединения результатов классификации на базе MNIST показали уменьшение ошибки с 0,72% до 0,60%.
Для повышения эффективности поиска и классификации текстов разработаны методы формирования распределенных представлений текстовой информации с учетом семантической близости, отличающиеся применением контекстных векторов с дискретными элементами. Применение полученных контекстных векторов при поиске и классификации текстов позволило повысить полноту и точность по сравнению с традиционными методами векторного представления текстовой информации. В экспериментах получено улучшение результатов поиска на стандартных базах Medlars, Cranfield, Time до 20%, а для классификации текстов базы Reuter-21578 получена точность классификации 91,8%, что находится на уровне лучших результатов традиционных векторных представлений.
Разработаны средства поддержки создания и реализации интеллектуальных информационных технологий классификации и поиска, использующие оригинальные методы формирования и оперирования векторными представлениями информации. Разработан программный нейрокомпьютер SNC - эффективное инструментальное средство разработки, исследования и практического применения методов интеллектуальной обработки данных. SNC поддерживает визуальное задание проектируемых алгоритмов в виде блок-схем со связями по управлению и данным, позволяет создавать гибко конфигурируемые проекты для исследовательских и прикладных задач, расширять класс решаемых задач путем включения новых функциональных модулей.
Ключевые слова: классификация, поиск текстов, семантическая близость, представление данных, векторные представления, нейронные сети, нейрокомпьютер.
Abstract
Misuno I.S. Vector representation of information for retrieval and classification tasks. - Manuscript.
Ph.D. thesis for acquiring scientific degree of Candidate of Technical Science on speciality 05.13.23 - Systems and Means of Artificial Intelligence. - Institute of Mathematical Machines and Systems, National Academy of Sciences of Ukraine, Kyiv, 2006.
Dissertation is devoted to developing and increasing efficiency of methods for vector representations and processing of visual and textual information in search and classification tasks. Methods for selection of binary features (elements of vector data representation) based on criteria of information and redundancy criteria have been developed. In classification tasks they provide computational savings preserving classification quality. Methods for increasing classification quality of data with vector representation have been developed, including elaboration of the perceptron rule, extending training set, combining multiple classification results and selection of reliable results, as well as rejecting unreliable classification results. Methods for distributed representation of text information taking into account semantic similarity have been developed that exploit context vectors with discrete elements formed using documents from a training collection as contexts. Efficiency of developed methods was experimentally confirmed on real-world data. New software tools have been developed that support creation and implementation of intellectual information technologies for classification and search that use original methods of formation and operation of vector information representations. Software Neurocomputer SNC has been developed that provide efficient instrumental tools for development, investigation, and practical application of methods for intelligent data processing.
...Подобные документы
Технологія пошуку інформації в мережі Інтернет. Можливості спеціальних служб, індексів. Інформаційні ресурси у каталогах. Системи мета-пошуку, пошуку в конференціях Usenet, пошуку людей. Знаходження інформації із застосуванням серверів глобального пошуку.
реферат [38,8 K], добавлен 20.05.2011Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.
магистерская работа [1,0 M], добавлен 14.06.2013Процеси пошуку інформацій та розробка структури даних для ефективного зберігання та обробки інформації. Як приклад розглянуто бінарне дерево. Бінарні структури широко використовуються у житті,широко використовуються в багатьох комп'ютерних завданнях.
курсовая работа [67,7 K], добавлен 24.06.2008Порядок та етапи розробки системи загальнодержавної класифікації економічної інформації, її призначення. Діяльність міжнародних статистичних організацій. Завдання Єдиної системи класифікації і кодування інформації. Можливості електронної пошти НБУ.
контрольная работа [39,1 K], добавлен 26.07.2009Нові інформаційні технології (НІТ) як сукупність нових засобів і методів обробки, зберігання і передачі інформації. Технологічна основа та основні принципи створення НІТ. Класифікатори техніко-економічної інформації в фінансовому контролі й аудиті.
контрольная работа [21,5 K], добавлен 27.09.2010Особливості та методика пошуку інформації та об’єктів у зовнішній пам’яті комп’ютера, в мережі або операційній системі Windows. Специфіка використання автономної й онлайнової довідки операційної системи. Параметри пошуку в прихованих або системних папках.
конспект урока [885,7 K], добавлен 03.01.2010Характеристика дослідження методу введення обмежених обсягів текстової інформації в ЕОМ. Аналіз механізму розробки програми, що передбачає можливість запису текстової інформації до файлу, а також завантаження тексту з файлу. Порядок роботи з програмою.
курсовая работа [74,1 K], добавлен 05.02.2010Історія розвитку і створення Інтернет. Протоколи передачі даних. Способи організації пошуку інформації Інтернет. Пошукові системи та сервіси: Яндекс, Google, шукалка. Послідовність виконання пошуку необхідної інормації за допомогою браузера Mozilla.
дипломная работа [4,9 M], добавлен 22.07.2015Вартість інформаційних технологій для бізнесових процесів. Вартість інформації з погляду її специфікації. Визначення ціни інформації виходячи з граничної вартості. Визначення вартості інформації, як суми витрат на її придбання. Сучасні пропозиції.
реферат [22,1 K], добавлен 22.12.2008Імовірнисний підхід у теорії ощадливого кодування. Оцінка інформативності ознак та їх оптимальна градація. Застосування імовірнісних методів для підвищення ефективності ощадливого кодування відеоінформації. Ефективні алгоритми кодування інформації.
реферат [1,6 M], добавлен 29.06.2009Дослідження можливостей пошуку в Google за тематикою. Використання можливості розширеного тематичного пошуку для підвищення релевантності пошуку за встановленим завданням. Розширений пошук зображень. Особливості пошуку щодо країн та наукових знань.
контрольная работа [4,6 M], добавлен 03.02.2014Основні ключові можливості комп’ютерної версії довідника. Вибір критеріїв пошуку. Фінальна стадія формування критеріїв інформаційної вибірки. Логічні операції з прошарками. Формування друкованих, табличних звітів. Перегляд докладної інформації про фірму.
лабораторная работа [344,4 K], добавлен 22.01.2013Методи результативного пошуку інформації в Інтернеті. Уявлення про пошукові служби, їх призначення та структура. Основні типи пошукових служб: пошукові каталоги, рейтингові системи, індексні бази даних. Спрямованість тематики і широта охоплення ресурсів.
реферат [33,5 K], добавлен 23.04.2010Інформаційна система НБУ грунтується на використанні інформаційних технологій. Основні функції інформаційної системи реалізуються в процесі роботи на автоматизованому робочому місці (АРМ) спеціаліста. Моделі інформаційних систем НБУ та захист інформації.
контрольная работа [23,2 K], добавлен 13.08.2008Задачі інформаційних систем криптографічного захисту інформації. Принципи шифрування даних на основі використання хеш-функцій. Розробка програмних компонентів інформаційних систем криптографічного захисту інформації. Види криптографічних алгоритмів.
курсовая работа [2,7 M], добавлен 23.01.2012Поняття інформації її властивості. У чому полягає робота брандмауера. Переваги використання брандмауера. Основи роботи антивірусних програм. Методи збору, обробки, перетворення, зберігання і розподілу інформації. Основні методи антивірусного захисту.
реферат [26,8 K], добавлен 29.05.2014Дослідження проблеми пошуку автомобілів та постановка задачі створення автокаталогу з використанням мови програмування PHP і JаvаScrіpt. Дослідження моделей прецедентів системи та їх класової архітектури. Моделювання розподіленої конфігурації систем.
курсовая работа [3,7 M], добавлен 11.10.2010Сутність ієрархічного методу класифікації. Характеристика основних сучасних класифікацій інформаційних товарів і послуг. Ознайомлення користувачів з можливостями доступу до інформації в режимі оn-linе і через електронну пошту. Дослідницькі послуги.
курсовая работа [250,1 K], добавлен 15.05.2014Побудова інформаційно-математичної моделі задачі. Визначення структури даних, розробка інтерфейсу. Складання коду програми за допомогою мови програмування Delphi 7.0. Реалізація проекту у візуальному середовищі. Інструкція з експлуатації програми.
курсовая работа [601,3 K], добавлен 03.09.2009Комп'ютерні інформаційні системи. Характеристика автоматизованої системи обробки економічної інформації на підприємстві. Технологічний процес обробки інформації конкретної задачі в системі. Впровадження в дію автоматизації бухгалтерського обліку.
контрольная работа [25,1 K], добавлен 26.07.2009