Інтегровані лексикографічні системи

Розгляд проблеми розробки сучасних засобів лінгвістичного забезпечення цифрових бібліотек. Застосування інструментальної лексикографічної системи, створеної в Українському мовно-інформаційному фонді, як засобу для розробки лінгвістичного забезпечення.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 29.01.2019
Размер файла 20,2 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

О. Г. Рабулець

Размещено на http://www.allbest.ru//

100

Размещено на http://www.allbest.ru//

Український мовно-інформаційний фонд НАН України Інтегровані лексикографічні системи в лінгвістичному забезпеченні цифрових бібліотек

О. Г. Рабулець

Розглянуто проблему розробки сучасних засобів лінгвістичного забезпечення цифрових бібліотек. Запропоновано застосування інструментальної лексикографічної системи, створеної в Українському мовно-інформаційному фонді, як засіб для розробки лінгвістичного забезпечення з розширеними інтелектуальними функціями.

Ключові слова: лінгвістичне забезпечення, цифрові бібліотеки, інтегровані лексикографічні системи.

лексикографічний бібліотека інструментальний

Проблема створення й використання великих цифрових сховищ інформації привела до концепції цифрових бібліотек (ЦБ), яка інституалізувалася у форму-люванні рядом провідних наукових установ США (NSF/DARPA/NASA) страте-гічної ініціативи цифрових бібліотек (Digital Library Initiative) та організації ними в 1995 році Національної асоціації цифрових бібліотек США. За ці роки техно-логія і практика цифрових бібліотек набула бурхливого розвитку і, разом із цим, постало завдання розробки досконаліших та зручніших технологій їх створення та функціонування. Зазначені технології повинні, з одного боку, бути узгодженими із сучасними об'єктно-реляційними («постреляційними») моделями та програмними засобами ведення великих баз даних, підтримуючи усі необхідні режими їх експлуатації (у тому числі мережевий); з другого боку -- їх слід розвивати у напрямі постійного зростання рівня їх інтелекту. Однією з констатацій останнього твердження є вимога наявності природномовного інтерфейсу -- як у користувацькій, так і в суто технологічній частині відповідного програмного інструментарію.

Слід зауважити, що природномовний інтерфейс досі є доволі екзотичним елементом структури ЦБ (принаймні українських); можна стверджувати, що він ще не набув рис обов'язковості в стандартному наборі засобів лінгвістичного забезпечення інформаційних систем того типу, до яких саме й належать ЦБ.

Причиною такого стану є, в першу чергу, та обставина, що для української мови досі не було створено необхідного програмно-інформаційного інструментарію, який можна було б використати при розробці зазначених засобів лінгвістичного забезпечення.

Певний крок у побудові такого інструментарію зроблений в Українському мовно-інформаційному фонді НАН України, де в межах проекту «Словники Ук-раїни», затвердженого Указом Президента України «Про розвиток національної словникової бази», створюється цілий ряд традиційних та комп'ютерних слов-ників і засобів опрацювання природної мови.

Зокрема, здійснено розробку інтегрованої лексикографічної системи «Словники України», версія 1.0, яку незабаром буде випущено у вигляді CD-ROM диска [1].

У ході виконання цього проекту створено інструментальний комплекс, який може бути з успіхом застосований як елемент технології лінгвістичного забезпечення будь-яких україномовних інформаційних систем [2, 3], у тому числі й ЦБ. Більше того, зазначений інструментарій вже зараз використовується в контурах технології природномовного індексування ЦБ Українського мовно-інформаційного фонду НАН України, яка представляє собою спеціалізовану ЦБ, орієнтовану на проведення лінгвістичних досліджень [4].

Створення засобів природномовного лінгвістичного забезпечення вимагає поєднання в єдину систему досить різнорідних лінгвістичних фактів, а це, у свою чергу, висуває ряд вимог, які необхідно реалізувати в технологічній схемі.

Перша з них стосується знакової системи. Для її представлення доцільно обрати найширшу на сьогодні систему кодування, розроблену концерном Unicode (версія 3.1), яка є міжнародним стандартом де факто, підтримується сучасними операційними середовищами, починаючи з Windows 2000, і містить широкий набір основних символів (будучи двобайтною системою кодування Unicode принципово надає можливість реалізації 216 = 65536 символів). Зазначена вимога випливає з того, що бібліотечні системи оперують надзвичайно широкою за своєю спрямованістю спеціалізацією та географією інформації, до того ж дотичною до різних історичних епох. Отже, знакова система ЦБ мусить в принципі підтримувати всю можливу символіку -- як в синхронному, так і діахронному зрізі. Проте, стандартний Unicode не завжди дає можливість представлення символів, які можуть міститися в об'єктах ЦБ. До таких відносяться символи старих абеток (наприклад, символи кирилиці рукописів та першодруків, які необхідно візуалізувати в оригінальному вигляді). Так само базова версія Unicode, як відомо, не містить певних символів, а саме -- наголошених літер кирилиці: И, и, І, і, Ї, ї, Є, є, У, у, Ю, ю, Я, я. Тому в системі передбачено наявність засобів до спеціальної генерації відсутніх символів із розташуванням їх у резервній зоні Unicode. Слід відзначити, що праця зі створення знакової системи не закінчується генеруванням зазначених символів, тому що вони зазвичай входять до підсистем сортування, індексування й пошуку.

Наступним елементом технології є підсистема природномовного індексування. Для ЦБ пошуковий природномовний індекс може бути організований як у підсистемі Електронного Каталогу (ЕК), так і в підсистемі Узагальнених Об'єктів Зберігання (GO) [4]. Що собою являє автоматична побудова пошукового індексу?

Для мов флективного типу -- серед них і української -- вона складається з таких кроків.

Виділення в тексті всіх словоформ.

Приписування їм відповідних локалізацій («координат»).

Побудова для кожного текстового слова його вихідної, словникової форми (лематизація).

Формування пошукового індексу.

Якщо кроки 1, 2, 4 не викликають серйозних проблем для програміста, то третій крок пов'язаний з виконанням комп'ютерно-лінгвістичного дослідження системи словозміни української мови, побудовою парадигматичної класифікації української лексики, її комп'ютерної реалізацією, створенням репрезентативної парадигматичної бази даних, побудовою системи лематизаційних переходів тощо.

Підсистема індексування в розробленому варіанті являє собою інтерактивну автоматизовану систему, яка працює переважно в автоматичному режимі і зупиняється лише на текстових словах, для яких не вирішено питання автоматичного зняття омонімії. Узагалі проблема омонімії для української мови опрацьована ще недостатньо, а що стосується граматичної омонімії (тобто омонімії між словофор-мами, які представляють граматичні значення лексем), то досі вона систематично не досліджувалася. Отже, необхідним елементом підсистеми індексації став спеціально сформований комп'ютерний словник, який враховує явище граматичної омонімії. З цього словника для омонімічних словоформ операторові автоматично пропонуються лематизаційні варіанти (варіанти вихідних форм), які він обирає, виходячи зі своєї лінгвістичної компетенції.

При виконанні природномовної індексації ЦБ відбувається автоматичне формування генерального словника, який є вхідним елементом пошукового апарату. У побудованій у такий спосіб системі легко реалізуються й більш складні варіанти пошуку, а саме:

послідовностей , де є довільні елементи генерального реєстру;

«перерваних» послідовностей < n > < m > … < q > , де між заданими словами можуть знаходитися послідовності з будь-яких n, m, … , q слів, від-повідно;

послідовностей  [], де означає будь-яку перестановку слів у вихідній послідовності.

Перевагою методу індексації є те, що в кінцевій послідовності знайдені слова можуть набувати будь-якого граматичного значення з тих, які допускає морфологічна модель.

Описана система дає змогу поповнити інтелектуальні функції пошуку шляхом розширення функцій пошукової словникової системи через інтеграцію до неї ряду гетерогенних лексикографічних структур. Наприклад, приєднання до базової лексикографічної системи словника синонімів дозволяє автоматично відшукувати за заданою також і [] [] … [], де [] -- певний синонім до .

Ще ширші можливості надає підключення семантичного словника, що в принципі дозволяє вести пошук не тільки за окремими словами та їх сполученнями, а й за семантичними станами мовних одиниць. Це вказує шлях до реалізації автоматизованої системи локалізації змісту в природномовних об'єктах ЦБ.

Література

Рабулець О.Г. Інтегрована лексикографічна система «Словники України» // Наукова і технічна інформація. -- 2001.

Широков В.А., Шевченко І.В., Рабулець О.Г. Природномовна індексація як засіб до вдосконалення пошукового апарату інформаційних систем // Наукова і технічна інформація. -- 2000. -- № 3.

Широков В.А., Шевченко І.В., Рабулець О.Г. Індексація повнотекстових баз даних // Тези Міжнародної науково-практичної конференції «Інформаційні ресурси науково-технічної інформації: проблеми створення і використання». -- 2000, 27-28 вересня.

Широков В.А. Інформаційна теорія лексикографічних систем. -- К.: Довіра, 1998. -- 331 с.

Размещено на Allbest.ru

...

Подобные документы

  • Проблеми розробки компонентного програмного забезпечення автоматизованих систем управління. Сучасні компонентні технології обробки інформації. Аналіз вибраного середовища проектування програмного забезпечення: мова програмування PHP та Apache HTTP-сервер.

    дипломная работа [2,8 M], добавлен 11.05.2012

  • Шаблони багатошарової архітектури. Методика застосування LINQ to SQL при розробці програмного забезпечення засобами Visual Studio. Підвищення ефективності навчального процесу, шляхом розробки та застосування засобів візуалізації технології LINQ to SQL.

    дипломная работа [1,3 M], добавлен 24.01.2015

  • Проблеми розробки сучасних баз даних. Моделювання предметної області "Адміністратор готелю". Застосування СУБД Microsoft ACCESS для реалізації системної архітектури бази даних. Результати тестування та рекомендації щодо удосконалення розробленої системи.

    курсовая работа [22,2 M], добавлен 29.04.2014

  • Етапи розробки проекту. Вимоги до апаратного і програмного забезпечення, до користувача. Специфікація та структура даних, які мають бути розміщеними в системі. Вигляд інтерфейсу системи програмного забезпечення. Розробка бази даних косметичного салону.

    дипломная работа [1,8 M], добавлен 21.02.2015

  • Комп’ютерна система фірми CodeGear - продукт JGear Team Client (Team In sight) - середовище розробки додатків (ІDE) для менеджерів. Безперервність вдосконалення ІС і засобів інструментальної розробки забезпечує виживання організації в ринкових умовах.

    реферат [2,0 M], добавлен 13.03.2009

  • Огляд засобів створення програмного забезпечення сучасних мікроконтролерів. Аналіз методів та налаштувань контролерів. Засоби генерації коду налаштувань. Детальний опис розробки програми генератора налаштувань ядра Cortex M4 та методики її тестування.

    курсовая работа [1,3 M], добавлен 20.05.2015

  • Опис основних етапів розробки архітектури програмної системи: структурування системи, моделювання управління, декомпозиція підсистем. Ознайомлення із кроками створення інтерфейсу користувачів як однієї із фаз проектування програмного забезпечення.

    реферат [20,7 K], добавлен 24.11.2010

  • Історія розробки та призначення FreeBSD – безкоштовної операційної системи з відкритим програмним кодом, особливості її взаємодії з іншими комп'ютерними системами в мережі. Загальна характеристика основних конфігурацій програмного забезпечення UNIX.

    реферат [27,9 K], добавлен 26.12.2010

  • Суперкомп'ютери в сучасному суспільстві. Області застосування суперкомп'ютерів. Програмне забезпечення суперкомп'ютерів. Технічні характеристики Hopper - Cray XE6. Масштабованість програмного забезпечення. Інтегровані апаратні системи телемеханіки.

    реферат [351,5 K], добавлен 22.04.2014

  • Зміст і структура інформаційного забезпечення. Області застосування штрихового кодування. Послідовність розробки позиційних і комбінованих систем кодування. Технологія застосування електронного документообігу. Особливості створення автоматизованих банків.

    реферат [30,2 K], добавлен 24.01.2011

  • Cтворення системи для впорядковування інформації про файли, що зберігаються на компакт-дисках або інших знімних носіях. Загальні вимоги до розробки. Технології розробки Windows-додатків. Опис функціональних можливостей і програмної реалізації системи.

    дипломная работа [891,7 K], добавлен 25.10.2012

  • Тенденції розвитку інформаційних технологій, зростання складності інформаційних систем, створюваних у різних галузях. Засоби, що реалізують CASE-технологію створення і супроводу інформаційних систем. Автоматизація розробки програмного забезпечення.

    реферат [21,5 K], добавлен 21.03.2011

  • Проблеми процесу тестування програмного забезпечення. Розробка алгоритму автоматичної генерації тестів і тестового набору для ручного виконання. Побудова тестів для системи "Банкомат" і для баг-трекінгової системи, представленої графом із циклами.

    дипломная работа [1,2 M], добавлен 26.02.2014

  • Методологія швидкої розробки застосувань RAD, оцінка її переваг та аналіз розповсюдженості на сучасному етапі. Етапи розробки програмного забезпечення та його життєвий цикл. Мета та порядок реалізації процесу моделювання даних. Організація проекту.

    контрольная работа [32,4 K], добавлен 12.04.2010

  • Мета, необхідність та ефективність створення єдиного інформаційного простору університету. Принципи будування програмного забезпечення, механізми використання Plugin-модулів. Обгрунтування вибору операційної системи, обладнання та середи розробки.

    статья [23,0 K], добавлен 19.11.2010

  • Основні поняття щодо захисту програмного забезпечення. Класифікація засобів дослідження програмного коду: відладчики, дизасемблери, діскомпілятори, трасировщики та слідкуючі системи. Способи вбудовування захисних механізмів в програмне забезпечення.

    курсовая работа [41,7 K], добавлен 14.11.2010

  • Опис інформаційного забезпечення системи для розробки сайту. Технічне завдання на розробку web-сторінки. Комплект засобів, проектування та завантаження сторінок. Тестування сайту в різних браузерах. Розрахунок собівартості та ціни програмного продукту.

    дипломная работа [1,8 M], добавлен 14.05.2012

  • Delphi як візуальне середовище розробки програмного забезпечення. Створення автоматизованої системи відстеження дзвінків з мобільних телефонів працівниками правоохоронних органів. Основи технології ACTIVEX DATA OBJECTS. Функціональні можливості системи.

    дипломная работа [5,0 M], добавлен 26.10.2012

  • Операційні системи реального часу сімейства VxWorks корпорації WindRiver Systems для розробки програмного забезпечення вбудованих комп'ютерів. Архітектура операційної системи VxWorks клієнт-сервер, побудова у відповідності з технологією мікроядра.

    реферат [1,7 M], добавлен 21.05.2010

  • Огляд існуючого програмного забезпечення для управління дистанційним навчанням. Структура системи дистанційного навчання Moodle, її встановлення та налаштування. Розрахунок експлуатаційних витрат і показників економічного ефекту від розробки проекту.

    дипломная работа [2,1 M], добавлен 16.02.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.