Формалізація знань та побудова термінологічних онтологій у правовій галузі

Побудова термінологічної онтології, придатної для автоматизованої обробки графів і складних мереж. Виокремлення й комп’ютеризована обробка ключових природномовних термінів. Розмічування частин мови та сегментація англомовних текстів на окремі речення.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 26.06.2022
Размер файла 867,7 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Інститут проблем реєстрації інформації НАН України

Формалізація знань та побудова термінологічних онтологій у правовій галузі

Ланде Д.В. доктор технічних наук, професор,

завідувач відділу спеціалізованих засобів моделювання

Дмитренко О.О. аспірант

Сучасні інформаційно-комунікаційні технології та загалом інформаційний простір розвиваються швидше, ніж коли-небудь раніше. Такий процес характеризується відповідно стрімким збільшенням об'ємів даних [1], які продукуються елементами інформаційного простору, зокрема, документами та найрізноманітнішими джерелами даних - файлами, електронними листами, веб сторінками та іншими джерелами не залежно від форматів їх подання. Важливо зазначити й той факт, що обсяг вищезгаданих даних подвоюється приблизно кожні 18 місяців [2]. Унаслідок цього за п'ять попередніх років людством було вироблено інформації більше, ніж за всю попередню історію. Та такий інформаційний сплеск, або так званий інформаційний вибух, супроводжується не лише припливом нових цінних знань. Основну частину накопичених даних складають неструктуровані дані (близько 95%), в тому числі й непотрібні та шумові, і лише зовсім мала частина представляє собою певну інформацію, яка може бути використана під час прийняття рішень.

Тож в результаті критичної невідповідності між розвитком сучасних інформаційних систем і збільшенням динамічних інформаційних потоків у глобальних комп'ютерних мережах перед інформаційним суспільством постає ряд проблем. Одна із них полягає у відсутності підходящих технологічних рішень та у неспроможності наявних систем обробляти величезні об'єми неструктурованих даних, зокрема текстових, й виокремлювати з них знання з тією ж самою швидкістю, з якою відповідні дані продукуються та накопичуються.

Тож величезні об'єми інформаційних потоків та динамічних текстових даних, що накопичуються у глобальних комп'ютерних мережах обумовлюють актуальність процесу концептуалізації цих даних та їх подальшої формалізації у вигляді певної онтологічної моделі [3].

Оскільки науково-технічний прогрес вплинув і на правову галузь, то кількість нормативно-правових документів поданих у електронній формі, а отже, і кількість інформації, з якою доводиться мати справу експерту у цій сфері, теж постійно зростає. І для прийняття законних рішень інколи необхідно ознайомлюватися з тисячами документів, свідомо відкидаючи інформаційний шум. Тож отримання коротких і водночас найважливіших відомостей чи викладок з одного або з декількох текстових документів, у вигляді так званих рефератів, а також генерація лаконічних інформаційно-насичених звітів на основі коротких анотацій або дайджестів є актуальним завданням. А отже, проблема комп'ютеризованої обробки правової інформації та удосконалення або розробка нових систем автоматичного реферування, які могли б прийнятною продуктивністю і якістю обробляти великі об'єми правових документів й надавати спрощений доступ до головного змісту правового тексту, виокремлювали з нього найважливіші відомості чи викладки, ідеї та заздалегідь заявлені змістові аспекти без необхідності опрацьовувати великий за обсягом текстовий документ або текстовий корпус є також актуальною. Також не менш важливим є завдання виявлення дублюючої інформації та протиріч у нормативно-правових документах.

Визначальною особливістю правової інформації є те, що пов'язані з нею тексти не у повній мірі вільнодоступні та неструктуровані. Наявна структура окремих видів документів і застосування найкращих універсальних систем реферування [4, 5] не дає задовільних результатів. Це важливо враховувати під час вибору потрібного методу чи підходу для вирішення вищезгаданої проблеми у галузі права.

Той факт, що під час комп'ютеризованої обробки текстових даних багато задач лежать на перетині між математичними науками та лінгвістикою, відкриває широкі можливості для застосування потужного математичного апарату (такого, як теорія графів та складних мереж) та лінгвістичної теорії (що враховує семантичну та синтаксичну структуру тексту). У цій роботі для побудови термінологічної онтології, придатної для автоматизованої обробки, застосовується лінгвомережева модель представлення текстових даних. Одним із видів такої мережевої моделі є мережа, що побудована із ключових слів та словосполучень (або просто - мережа термінів). В ній вузли відповідають окремим ключовим поняттям предметної галузі, а ребра - семантико-семантичним зв'язкам між ними.

Для виокремлення ключових термінів застосовується комп'ютерна обробка природномовних текстів, що включає автоматичну сегментацію на окремі речення, розбиття на токени та розмічування частин мови й присвоєння тегів кожному слову (Part-of-Speech tagging) [6]. Оскільки запропоновані у цій роботі методи орієнтовані на роботу з англомовними правовими текстами, то відповідно використовується класичний набір тегів, що сформований на основі Brown Corpus (стандартний корпус університету Брауна) та має назву »The Penn Treebank” [7].

Використовуючи шаблони ключових слів та словосполучень, що представлені у роботі [6], формується послідовність термінів. Далі здійснюється видалення одиничних стоп-слів (окремих артиклів, прийменників, сполучників, деяких дієслів, прислівників та займенників), які не несуть ніякого інформативного навантаження.

На наступному етапі для кожного сформованого терміна у порядку його зустрічання у тексті формується так званий кортеж. Кожен елемент кортежу складається з трьох значень: перше - термін (слово або словосполучення, що отримане за одним із шаблонів); наступне - тег, який присвоюється слову в залежності від його приналежності до певної частини мови; останній елемент такого набору - числове значення GTF [8] (глобальна частота терміна, що використовується для статистичного зважування слів та словосполучень, що входять у сформовану на попередньому етапі послідовність). мережа комп'ютеризований термін граф мова

Важливо зазначити, що GTF обчислюється з урахуванням двох попередніх значень кортежу - терміна та частини мови, до якої він належить. Кількість таких однакових кортежів у всьому тексті, що нормована на загальну кількість сформованих термінів, і визначає значення третього елемента. Для встановлення ненаправлених зв'язків між ключовими термінами в межах кожного окремого речення застосовується алгоритм графа горизонтальної видимості для часових рядів (Horizontal Visibility Graph algorithm - HVG) [9]. Сформована на попередньому етапі послідовність числових значень GTF, які відповідають окремим кортежам, є тим часовим рядом, який завдяки алгоритму HVG трансформується у ненаправлену мережу. Для встановлення напрямків зв'язків враховувались правила, представлені у роботі [6]. Після об'єднання однакових вузлів сумарна кількість однаково-направлених зв'язків між цими вузлами визначала вагове значення зв'язку.

Для апробації представленої у цій роботі методики побудови мережі термінів було використано вільнодоступний правовий документ «Convention on the Rights of the Child», поданий англійською мовою [10]. В результаті було отримано онтологічну модель у вигляді мережі із ключових термінів (рис. 1).

Рис. 1 Мережа термінів, що відповідає правовому документу «Convention on the Rights of the Child»

Література

1. Mayer-Schmiberger V, Cukier K. Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt, 2013.

2. Humanity Doubles Its Data Creation Every 18 Months, And It Has Powerful Implications. URL: https://www.fluxmagazine.com/data-creation- powerful-implications/ (дата звернення: 21.03.2021).

3. Lande D. V., Radziievska O. H. Subject Domain Models of Jurisprudence According to Google Scholar Scientometrics Data // Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020. CEUR Workshop Proceedings (ceur-ws.org). 2020. Vol-2604. pp. 32-43.

4. Best Text Summarizing Tool for Academic Writing [For Free]. URL: https://ivypanda.com/online-text-summarizer (дата звернення: 21.03.2021).

5. Ланде Д. В., Яньцін Чжао, Моцзі Вей, Шівей Чжу, Цзяньпін Ґо Система анотування китайської правової інформації // Інформація і право. № 3(26). C. 66-71.

6. Дмитренко О. О. Побудова направлених зважених мереж термінів із застосуванням Part-of-speech tagging. // Реєстрація, зберігання і обробка даних, 2020. Т 22, № 4. С. 47-55. DOI: 10.35681/1560-9189.2020.22.4.225914.

7. Marcus M., Santorini B., Marcinkiewicz M. A. Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics. 1993. Volume 19 № 2. pp. 313-330.

8. D. Lande, O. Dmytrenko, O. Radziievska, Determining the Directions of Links in Undirected Networks of Terms, in: CEUR Workshop Proceedings (ceur-ws.org). Vol-2577 urn:nbn:de:0074-2318-4. Selected Papers of the XIX International Scientific and Practical Conference «Information Technologies and Security» (ITS 2019), volume 2577, 2019, pp. 132-145. ISSN 1613-0073.

9. Luque B., Lacasa L., Ballesteros F., Luque J. Horizontal visibility graphs: Exact results for random time series. Physical Review E. 2009. Volume 80. № 4. 046103.

10. International Covenant on Economic, Social and Cultural Rights. URL: https://www.ohchr.org/EN/ProfessionalInterest/Pages/CESCR.aspx (дата звернення: 22.03.2021).

Размещено на Allbest.ru

...

Подобные документы

  • Структура та галузі застосування систем цифрової обробки сигналів. Дискретне перетворення Фур’є. Швидкі алгоритми ортогональних тригонометричних перетворень. Особливості структурної організації пам’яті комп’ютерних систем цифрової обробки сигналів.

    лекция [924,7 K], добавлен 20.03.2011

  • Комп'ютерні інформаційні системи. Характеристика автоматизованої системи обробки економічної інформації на підприємстві. Технологічний процес обробки інформації конкретної задачі в системі. Впровадження в дію автоматизації бухгалтерського обліку.

    контрольная работа [25,1 K], добавлен 26.07.2009

  • Особливості архітектури комп'ютерних мереж. Апаратні та програмні засоби комп'ютерних мереж, їх класифікація та характеристика. Структура та основні складові комунікаційних технологій мереж. Концепції побудови та типи функціонування комп'ютерних мереж.

    отчет по практике [1,2 M], добавлен 12.06.2015

  • Класифікація комп’ютерних мереж і топологій. Побудова функціональної схеми локальної мережі. Організація каналів зв’язку. Вибір способу керування мережею. Вибір конфігурації робочих станцій. Програмне забезпечення локальної мережі та захист інформації.

    курсовая работа [2,7 M], добавлен 15.06.2015

  • Поняття та характеритсики комп'ютерних мереж. Огляд існуючих варіантів побудови інформаційної системи для торгівельного підприємства. Побудова локальної мережі, загальної структури інформаційної системи, бази даних. Аналіз санітарно-гігієнічних умов.

    курсовая работа [624,4 K], добавлен 19.05.2015

  • Побудова і декомпозиція корпоративної комп'ютерної мережі з різною кількістю абонентів у системі проектування "Packet Tracer". Фіксація даних по завантаженню комутаторів і часу транзакції абонентів. Принципи висхідного та низхідного конструювання мережі.

    курсовая работа [2,5 M], добавлен 24.09.2010

  • Поняття локальних обчислювальних мереж. Опис об’єкту та план будівлі. Побудова функціональної схеми. Вибір обладнання. Моделювання комп’ютерної мережі в Packet Tracer. Вибір програмного забезпечення і забезпечення його роботи; налаштування сервера.

    курсовая работа [5,1 M], добавлен 04.10.2014

  • Визначення поняття і дослідження структури топології комп'ютерних мереж як способу організації фізичних зв'язків персональних комп'ютерів в мережі. Опис схеми топології типів шина, зірка і кільце. Багатозначність структур топології комп'ютерних мереж.

    реферат [158,1 K], добавлен 27.09.2012

  • Побудова апаратної структури для серверу, встановлення операційної системи і програмного забезпечення, розробка веб-сайту. Розрахунок річної суми економічного ефекту від впровадження комп’ютерної мережі. Проектування освітлення, засобів пожежогасіння.

    дипломная работа [5,6 M], добавлен 02.07.2015

  • Визначення та способи представлення графів. Основні алгоритми на графах. Побудова мінімального остового дерева. Алгоритми Прима та Дейкстри. Модель Флойда-Уоршалла. Огляд можливостей мови програмування. Опис функцій програмної моделі, інтерфейс програми.

    дипломная работа [563,7 K], добавлен 03.08.2014

  • Напрямки використання інформаційно-комунікаційних технологій в процесі навчання студентів. Визначення шляхів залучення комунікаційних мереж і сервісів в систему вищої освіти. Побудова функціонально-інформаційної та техніко-технологічної моделі деканату.

    дипломная работа [6,4 M], добавлен 27.01.2022

  • Побудова мaтpиці попapниx поpівнянь. Визнaчення локaльних пpіоpитетів для матриць. Індекс узгодженості і відношення. Побудова мaтpиці попapниx поpівнянь для комп’ютеpів A,B,С,D відносно кpитеpіїв швидкодії, можливості апгрейту, вартості утримання.

    контрольная работа [249,9 K], добавлен 15.10.2010

  • Автоматизована системи обробки економічної інформації, яка використовується на підприємстві, її характеристика. Технологічний процес обробки інформації конкретної задачі в системі. Зауваження користувача щодо функціональних і ергономічних характеристик.

    контрольная работа [26,5 K], добавлен 27.07.2009

  • Принцип роботи конвеєрних комп’ютерних систем. Опис можливостей паралельної обробки інформації обчислювальною системою. Конвеєрна обробка на кожному з рівнів. Розширення трирівневої моделі паралелізму засобами опису потенційних можливостей конвейєризації.

    лабораторная работа [44,0 K], добавлен 21.10.2014

  • Історія створення комп’ютерних комунікацій та принципи їх побудови. Характеристика устаткування для створення комп’ютерних мереж. Поняття адресації, види протоколів, їх розвиток, комбінування та особливості використання. Стандарти бездротових мереж.

    курс лекций [1,3 M], добавлен 04.06.2011

  • Огляд та конфігурація комп’ютерних мереж - двох або більше комп’ютерів, об’єднаних кабелем таким чином, щоб вони могли обмінюватись інформацією. Характеристика мереживих пристроїв иа середовища передачі даних. Під’єднання до мережі NetWare та Internet.

    дипломная работа [1,5 M], добавлен 15.02.2010

  • Загальна характеристика підприємства АТВТ "Суми-Авто", напрямки його діяльності та облікова політика. Опис автоматизованої системи обробки економічної інформації, яка використовується на підприємстві, процес обробки інформації конкретної задачі в ній.

    контрольная работа [20,4 K], добавлен 27.07.2009

  • Структуризація комп’ютерних мереж. Принцип роботи повторювача. Класифікація мережних адаптерів. Включення віддаленого комп’ютера. Додаткові функції серверних адаптерів стандартів Gigabit Ethernet. Етапи прийняття кадру з кабелю. Мости мереж Ethernet.

    лекция [3,7 M], добавлен 18.10.2013

  • Технологічні процеси складання, монтажу, налагодження і тестування комп'ютерних мереж між двома чи більше комп'ютерами. Функціонування локальної обчислювальної мережі. Офісні програмні продукти з пакету MS Office. Топологія мережі підприємства "зірка".

    отчет по практике [1,5 M], добавлен 28.08.2014

  • Огляд структури мережевої операційної системи; взаємодія її компонентів при взаємодії комп'ютерів. Особливості однорангових систем з виділеними серверами та мереж масштабу кампусу. Розгляд динамічної маршрутизації RIP та конфігурування локальних схем.

    курсовая работа [3,6 M], добавлен 24.04.2014

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.