Формалізація знань та побудова термінологічних онтологій у правовій галузі

Застосування лінгвомережевої моделі представлення текстових даних у правовій галузі для побудови термінологічної онтології, придатної для автоматизованої обробки. Застосування комп’ютерної обробки природномовних текстів для виокремлення ключових термінів.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык украинский
Дата добавления 22.05.2022
Размер файла 1,1 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Формалізація знань та побудова термінологічних онтологій у правовій галузі

Ланде Д.В., доктор технічних наук, професор, завідувач

відділу спеціалізованих засобів моделювання Інституту

проблем реєстрації інформації НАН України

Дмитренко О.О., аспірант Інституту проблем реєстрації

інформації НАН України

Сучасні інформаційно-комунікаційні технології та загалом інформаційний простір розвиваються швидше, ніж коли-небуть раніше. Такий процес характеризується відповідно стрімким збільшенням об'ємів даних [1], які продукуються елементами інформаційного простору, зокрема, документами та найрізноманітнішими джерелами даних - файлами, електронними листами, веб сторінками та іншими джерелами не залежно від форматів їх подання. Важливо зазначити й той факт, що обсяг вищезгаданих даних подвоюється приблизно кожні 18 місяців [2]. Унаслідок цього за п'ять попередніх років людством було вироблено інформації більше, ніж за всю попередню історію. Та такий інформаційний сплеск, або так званий інформаційний вибух, супроводжується не лише припливом нових цінних знань. Основну частину накопичених даних складають неструктуровані дані (близько 95%), в тому числі й непотрібні та шумові, і лише зовсім мала частина представляє собою певну інформацію, яка може бути використана під час прийняття рішень.

Тож в результаті критичної невідповідності між розвитком сучасних інформаційних систем і збільшенням динамічних інформаційних потоків у глобальних комп'ютерних мережах перед інформаційним суспільством постає ряд проблем. Одна із них полягає у відсутності підходящих технологічних рішень та у неспроможності наявних систем обробляти величезні об'єми неструктурованих даних, зокрема текстових, й виокремлювати з них знання з тією ж самою швидкістю, з якою відповідні дані продукуються та накопичуються.

Тож величезні об'єми інформаційних потоків та динамічних текстових даних, що накопичуються у глобальних комп'ютерних мережах обумовлюють актуальність процесу концептуалізації цих даних та їх подальшої формалізації у вигляді певної онтологічної моделі [3].

Оскільки науково-технічний прогрес вплинув і на правову галузь, то кількість нормативно-правових документів поданих у електронній формі, а отже, і кількість інформації, з якою доводиться мати справу експерту у цій сфері, теж постійно зростає. І для прийняття законних рішень інколи необхідно ознайомлюватися з тисячами документів, свідомо відкидаючи інформаційний шум. Тож отримання коротких і водночас найважливіших відомостей чи викладок з одного або з декількох текстових документів, у вигляді так званих рефератів, а також генерація лаконічних інформаційно-насичених звітів на основі коротких анотацій або дайджестів є актуальним заданням. А отже, проблема комп'ютеризованої обробки правової інформації та удосконалення або розробка нових систем автоматичного реферування, які могли б прийнятною продуктивністю і якістю обробляти великі об'єми правових документів й надавати спрощений доступ до головного змісту правового тексту, виокремлювали з нього найважливіші відомості чи викладки, ідеї та заздалегідь заявлені змістові аспекти без необхідності опрацьовувати великий за обсягом текстовий документ або текстовий корпус є також актуальною. Також не менш важливим є завдання виявлення дублюючої інформації та протиріч у нормативно-правових документах.

Визначальною особливістю правової інформації є те, що пов'язані з нею тексти не у повній мірі вільнодоступні та неструктуровані. Наявна структура окремих видів документів і застосування найкращих універсальних систем реферування [4, 5] не дає задовільних результатів. Це важливо враховувати під час вибору потрібного методу чи підходу для вирішення вищезгаданої проблеми у галузі права.

Той факт, що під час комп'ютеризованої обробки текстових даних багато задач лежать на перетині між математичними науками та лінгвістикою, відкриває широкі можливості для застосування потужного математичного апарату (такого, як теорія графів та складних мереж) та лінгвістичної теорії (що враховує семантичну та синтаксичну структуру тексту).

У цій роботі для побудови термінологічної онтології, придатної для автоматизованої обробки, застосовується лінгвомережева модель представлення текстових даних. Одним із видів такої мережевої моделі є мережа, що побудована із ключових слів та словосполучень (або просто - мережа термінів). В ній вузли відповідають окремим ключовим поняттям предметної галузі, а ребра - семантико-семантичним зв'язкам між ними.

Для виокремлення ключових термінів застосовується комп'ютерна обробка природномовних текстів, що включає автоматичну сегментацію на окремі речення, розбиття на токени та розмічування частин мови й присвоєння тегів кожному слову (Part-of-Speech tagging) [6]. Оскільки запропоновані у цій роботі методи орієнтовані на роботу з англомовними правовими текстами, то відповідно використовується класичний набір тегів, що сформований на основі Brown Corpus (стандартний корпус університету Брауна) та має назву »The Penn Treebank” [7].

Використовуючи шаблони ключових слів та словосполучень, що представлені у роботі [6], формується послідовність термінів. Далі здійснюється видалення одиничних стоп-слів (окремих артиклів, прийменників, сполучників, деяких дієслів, прислівників та займенників), які не несуть ніякого інформативного навантаження.

На наступному етапі для кожного сформованого терміна у порядку його зустрічання у тексті формується так званий кортеж. Кожен елемент кортежу складається з трьох значень: перше - термін (слово або словосполучення, що отримане за одним із шаблонів); наступне - тег, який присвоюється слову в залежності від його приналежності до певної частини мови; останній елемент такого набору - числове значення GTF [8] (глобальна частота терміна, що використовується для статистичного зважування слів та словосполучень, що входять у сформовану на попередньому етапі послідовність). Важливо зазначити, що GTF обчислюється з урахуванням двох попередніх значень кортежу - терміна та частини мови, до якої він належить. Кількість таких однакових кортежів у всьому тексті, що нормована на загальну кількість сформованих термінів, і визначає значення третього елемента.

Для встановлення ненаправлених зв'язків між ключовими термінами в межах кожного окремого речення застосовується алгоритм графа горизонтальної видимості для часових рядів (Horizontal Visibility Graph algorithm - HVG) [9]. Сформована на попередньому етапі послідовність числових значень GTF, які відповідають окремим кортежам, є тим часовим рядом, який завдяки алгоритму HVG трансформується у ненаправ- лену мережу.

Для встановлення напрямків зв'язків враховувались правила, представлені у роботі [6]. Після об'єднання однакових вузлів сумарна кількість однаково-направлених зв'язків між цими вузлами визначала вагове значення зв'язку.

Для апробації представленої у цій роботі методики побудови мережі термінів було використано вільнодоступний правовий документ «Convention on the Rights of the Child», поданий англійською мовою [10]. В результаті було отримано онтологічну модель у вигляді мережі із ключових термінів (рис. 1).

термінологічна онтологія правовий

Література

1. Mayer-Sch^berger V, Cukier K. Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt, 2013.

2. Humanity Doubles Its Data Creation Every 18 Months, And It Has Powerful Implications. URL: https://www.fluxmagazine.com/data-creation- powerful-implications/ (дата звернення: 21.03.2021).

3. Lande D. V., Radziievska O. H. Subject Domain Models of Jurisprudence According to Google Scholar Scientometrics Data // Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020. CEUR Workshop Proceedings (ceur-ws.org). 2020. Vol-2604. pp. 32-43.

4. Best Text Summarizing Tool for Academic Writing [For Free]. URL: https://ivypanda.com/online-text-summarizer (дата звернення: 21.03.2021).

5. Ланде Д. В., Яньцін Чжао, Моцзі Вей, Шівей Чжу, Цзяньпін Ґо Система анотування китайської правової інформації // Інформація і право. 2018. № 3(26). C. 66-71.

Рис. 1 Мережа термінів, що відповідає правовому документу «Convention on the Rights of the Child» Дмитренко О. О. Побудова направлених зважених мереж термінів із застосуванням Part-of-speech tagging. // Реєстрація, зберігання і обробка да-них, 2020. Т. 22, № 4. С. 47-55. DOI: 10.35681/1560-9189.2020.22.4.225914. Marcus M., Santorini B., Marcinkiewicz M. A. Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics. 1993. Volume 19 № 2. pp. 313-330. D. Lande, O. Dmytrenko, O. Radziievska, Determining the Directions of Links in Undirected Networks of Terms, in: CEUR Workshop Proceedings (ceur-ws.org). Vol-2577 urn:nbn:de:0074-2318-4. Selected Papers of the XIX International Scientific and Practical Conference «Information Technologies and Security» (ITS 2019), volume 2577, 2019, pp. 132-145. ISSN 1613-0073. Luque B., Lacasa L., Ballesteros F., Luque J. Horizontal visibility graphs: Exact results for random time series. Physical Review E. 2009. Volume 80. № 4. 046103. International Covenant on Economic, Social and Cultural Rights.

URL: https://www.ohchr.org/EN/ProfessionalInterest/Pages/CESCR.aspx

(дата звернення: 22.03.2021).

Размещено на Allbest.ru

...

Подобные документы

  • Структура та галузі застосування систем цифрової обробки сигналів. Дискретне перетворення Фур’є. Швидкі алгоритми ортогональних тригонометричних перетворень. Особливості структурної організації пам’яті комп’ютерних систем цифрової обробки сигналів.

    лекция [924,7 K], добавлен 20.03.2011

  • Основні підходи до проектування баз даних. Опис сайту Інтернет-магазину, характеристика його підсистем для обробки анкет і запитів користувачів. Розробка концептуальної, інфологічної, даталогічної, фізичної моделей даних. Побудова ER-моделі в CASE-засоби.

    курсовая работа [2,3 M], добавлен 01.02.2013

  • Аналіз відомих підходів до проектування баз даних. Ієрархічна, мережева та реляційна моделі представлення даних, їх особливості. Концептуальне проектування: приклад документів, побудова ER-діаграми, модель "сутність-зв'язок". Побудова фізичної моделі.

    курсовая работа [541,5 K], добавлен 29.01.2013

  • Комп'ютерні інформаційні системи. Характеристика автоматизованої системи обробки економічної інформації на підприємстві. Технологічний процес обробки інформації конкретної задачі в системі. Впровадження в дію автоматизації бухгалтерського обліку.

    контрольная работа [25,1 K], добавлен 26.07.2009

  • Історія розвитку інформаційних технологій. Швидка зміна концептуальних представлень, технічних засобів, методів і сфер їх застосування. Основні види, можливості та сфера застосування комп'ютерної графіки. Векторна та об'єктно-орієнтована графіка.

    курсовая работа [725,5 K], добавлен 28.03.2015

  • Внутрішнє представлення в пам’яті комп’ютера даних базових та похідних типів, масивів. Ідентифікатор, зв'язаний з константним виразом та основи представлення даних. Алгоритм представлення цілих, дійсних, логічних і символьних чисел, структур і об’єднань.

    курсовая работа [279,1 K], добавлен 25.08.2014

  • Проектування інформаційної системи для супроводу баз даних. Моделі запиту даних співробітником автоінспекції та обробки запиту про машини та їх власників. База даних за допомогою SQL-сервер. Реалізація запитів, процедур, тригерів і представлення.

    курсовая работа [1,7 M], добавлен 18.06.2012

  • Процеси пошуку інформацій та розробка структури даних для ефективного зберігання та обробки інформації. Як приклад розглянуто бінарне дерево. Бінарні структури широко використовуються у житті,широко використовуються в багатьох комп'ютерних завданнях.

    курсовая работа [67,7 K], добавлен 24.06.2008

  • Арифметичні основи, на яких ґрунтується функціонування комп'ютерної техніки. Основні поняття дискретної обробки інформації. Системи числення, форми подання чисел у комп'ютерах. Арифметичні операції, що виконуються над числами, подані у двійковому коді.

    учебное пособие [903,6 K], добавлен 18.12.2010

  • Фізичне та логічне представлення топології мереж, кабельна система. Вибір мережевого устаткування. Імітаційне моделювання корпоративної комп’ютерної мережі в NetCracker 4.0. Представлення локальної мережі в Microsoft Visio 2013, економічне обґрунтування.

    курсовая работа [993,5 K], добавлен 17.05.2015

  • Побудова і декомпозиція корпоративної комп'ютерної мережі з різною кількістю абонентів у системі проектування "Packet Tracer". Фіксація даних по завантаженню комутаторів і часу транзакції абонентів. Принципи висхідного та низхідного конструювання мережі.

    курсовая работа [2,5 M], добавлен 24.09.2010

  • Поняття та основна мета створення інформаційної системи, її різновиди та процедура побудови, підходи до обробки. Концепція баз даних та методи керування ними, предметна область і процес проектування. Структурована мова запитів SQL, елементи та оператори.

    учебное пособие [1,7 M], добавлен 14.11.2009

  • Аналіз предметної галузі, постановка задачі, проектування бази даних. UML-моделювання, побудова ER-діаграми, схеми реляційної бази даних у третій нормальній формі. Призначення і логічна структура. Опис фізичної моделі бази даних, програмної реалізації.

    курсовая работа [3,5 M], добавлен 28.11.2011

  • Обґрунтований вибір засобів для проектування автоматизованої інформаційно-довідкової системи. Опис структури технологічного процесу обробки даних для розв’язання задачі. Комп'ютерна реалізація окремих об'єктів системи (таблиці, форми, звіти, запити).

    курсовая работа [30,7 K], добавлен 14.05.2011

  • Поняття та характеритсики комп'ютерних мереж. Огляд існуючих варіантів побудови інформаційної системи для торгівельного підприємства. Побудова локальної мережі, загальної структури інформаційної системи, бази даних. Аналіз санітарно-гігієнічних умов.

    курсовая работа [624,4 K], добавлен 19.05.2015

  • Класифікація та статистичний аналіз наслідків надзвичайних ситуацій. Розробка архітектури, інформаційного забезпечення, програмних засобів комп'ютерної автоматизованої системи аналізу наслідків природного і техногенного впливу на будинки та споруди.

    дипломная работа [2,5 M], добавлен 02.10.2013

  • Алгоритм побудови лінії та використання графічної бібліотеки DirectX. Способи побудови довільної кількості довільного розміру точок на поверхні форми. Можливості комп'ютера виконувати мультимедійні програми під управлінням операційної системи Windows.

    контрольная работа [416,9 K], добавлен 22.10.2009

  • Аналіз предметної галузі задачі моделювання пострілу балісти через стіну по мішені. Структури даних та діаграми класів для розв'язання задачі. Схеми взаємодії об’єктів та алгоритми виконання їх методів. Опис розробленої програми, інструкція користувача.

    курсовая работа [1,0 M], добавлен 18.05.2014

  • Огляд програмного комплексу SPSS у ПАТ "Платинум Банк". Аналіз обробки результатів анкетування та ідентифікації інтересів опитаних. Система Access як інструмент управління базами даних. Метод інтеграції даних усіх типів досліджень на замовлення клієнта.

    реферат [2,5 M], добавлен 05.11.2012

  • Процес і результати проектування автоматизованої системи "Облік паспортних даних", призначеної для автоматизації обліку паспортних даних. Обґрунтування вибору методів та засобів обробки даних. Створення зручного графічного інтерфейсу користувача.

    курсовая работа [1,8 M], добавлен 23.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.