Система природномовного аналізу корпусного типу як засіб опрацювання Інтернет-видань
Оцінка світового обсягу створених і реплікованих людством даних в Інтернет-мережі. Розробка та опробування системи природномовного аналізу великих масивів інформації. Забезпечення індексації корпусів текстів, краулінгу й ранжування в пошукових системах.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | украинский |
Дата добавления | 15.07.2020 |
Размер файла | 1,1 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://allbest.ru
Національна академія наук України
Український мовно-інформаційний фонд
Система природномовного аналізу корпусного типу як засіб опрацювання Інтернет-видань
Надутенко М. В., кандидат технічних наук,
завідувач відділу інформаційних технологій
Старишко Ю. В., молодший науковий співробітник
Вступ
Постановка проблеми. За даними організації IDC, у 2016 р. загальний світовий обсяг створених і реплікованих людством даних становив більше 16 зеттабайт (ЗБ) (16 трильйонів ГБ). За прогнозами цієї ж організації до 2025 р. обсяг даних на планеті збільшиться в 10 разів і становитиме 163 ЗБ. (Для порівняння, увесь світовий обсяг інтернет-трафіку в 2016 р. перевищив 1 ЗБ, а ще в 2006 р. обсяг інформації, вироблений людством за всю свою історію, дорівнював 0,16 ЗБ). Попри безпрецедентне зростання інформації, у світі, за оцінками IDC, тільки 0,4% даних аналізується. Закономірно постає проблема опрацювання великих масивів даних, що зумовлює необхідність створення інтелектуальних систем опрацювання природномовної інформації. Індивідуальна пошукова система (адаптована до великих масивів даних, націлена на різноформатність, багатомовність) забезпечить широкі можливості індексації корпусів текстів.
Аналіз останніх досліджень і публікацій. На сьогодні пошукових систем існує досить багато і кожна виконує свої завдання (часто - комерційні). Попри це, створення індивідуальної системи інформаційного пошуку не втрачає актуальності, оскільки це дає змогу формувати власні великі індексовані масиви текстів з гіперпосиланнями. Роботу пошукової системи умовно можна поділити на три безперервні процеси: краулінг інтернет-сторінок, індексація отриманих даних і ран- жування. Цій проблематиці приділяли увагу іноземні (Pant G., Srinivasan P., Menczer F., Aggarwal C.C., Menczer F., Pant G., Srinivasan P. Micarelli A., Gasparetti F., Castillo C., Marin M., Rodriguez A. Ester M., Kriegel H.P., Pant G., Menczer F., Hesham A., Liu H., Milios E., Janssen J., Rennie J., McCal- lum A.K., Diligenti M., De Bra P., Rungsawang A., Angkawat- tanawit N., Aggarwal C.C., тощо) та українські (Замятін Д.С., Михайлюк А.Ю., Михайлюк В.А., Петрашенко А.В., Циган- кова К.Р., Шаповаленко Є.І., Широков В.А., Шевченко І.В., Рабулець О.Г. тощо) дослідники, але, як уже зазначалося, створення індивідуальної системи інформаційного пошуку, що включає інтернет-краулінг та автоматичне індексування отриманого тексту, є важливим і актуальним завданням, оскільки це стане основним джерелом наповнення корпусу текстів.
Мета статті - описати функціонал, технічні та користувацькі можливості Системи природномовного аналізу корпусного типу; проілюструвати застосування цієї системи на прикладі науково-освітнього веб-порталу для аналізу інтер- нет-видань.
Виклад основного матеріалу
Описаний нами стан сучасного інформаційного інтернет-середовища зумовлює необхідність створення систем, які без перешкод на великих масивах працюють із різноформатними та багатомовними файлами й адаптовані до подальшого аналізу природномовних об'єктів. Одна з таких систем розроблена співробітниками Українського мовно-інформаційного фонду Національної академії наук України спільно з Інститутом телекомунікацій та глобального інформаційного простору НАН України.
До створеної системи підключена підсистема краулінгу, яка є тісно інтегрованою з корпусною системою, системою індексації та полімовною синонімічною зоною. природномовний текст краулінг інформація
Краулери, як і корпусна система, є віртуалізованими лексикографічними агентами, тобто є різновидом лексикографічних систем. Ця система є першим кроком наповнення корпусу текстів і дозволяє в рази мінімізувати використання людських ресурсів у цьому напрямку роботи.
Вхідні дані подаються до системи у вигляді початкового списку сайтів та списку пошукових запитів. Вихідними даними системи є списки релевантних фрагментів тексту з активними посиланнями на джерело.
Застосування цієї системи проілюстровано на прикладі науково-освітнього веб-порталу «Тарас Шевченко».
Пошуковий апарат розглянутої системи дозволяє обрати індивідуальні параметри краулера та індексатора із зазначенням максимальної глибини краулінгу сторінок (див. Рис. 1. - Налаштування параметрів краулера та індексатора).
Рис. 1. Налаштування параметрів краулера та індексатора
Наступним діалоговим вікном є завдання пошукового слова. Результатом повнотекстового пошуку є список посилань (Рис. 2. Результат пошуку) з доступом до кожної локації пошукового фрагмента в тексті, тобто до всіх контекстів, які містить пошуковий фрагмент, із функцією відкрити посилання джерела контексту (Рис. 3. Результати повнотекстового пошуку).
Застосування спеціалізованих технологій онтологокерова- ного веб- чи інтернет-краулінгу дозволяє в подальшому створити систематизовану колекцію мережевих текстів, об'єднаних за однією або сукупністю ознак (мовних, понятійних, прагматичних, часових, стильових, функціональних, інтенціональних тощо).
Найбільш затребуваними є колекції текстів однієї тематики (навчальні та наукові колекції), одного автора (повне зібрання творів), певної історичної епохи, певною мовою (електронні бібліотеки Національних лінгвістичних корпусів) або створених за певних обставин, у певній формі, з певною метою (навчально-методичні матеріали, нормативно-правові акти, що регулюють правовідносини у визначеній сфері тощо), для категорії читачів із певним рівнем доступу (публічні дані, дані для службового користування) тощо. Колекція текстів може насамперед стати інструментом дослідження різних інтра- та екстра- мовних фактів.
Запропоновані нами підходи до створення інформаційно-комунікаційних і корпусних технологій дозволять у подальшому робити це динамічно, вибираючи релевантні запиту користувача повнотекстові документи з вебу - супермасиву проіндексованих текстів або локальних баз - спеціалізованих електронних бібліотек.
На рисунках 4-7 представлено систему природномовного аналізу корпусного типу, яка є модулем ІТ-платформи ТОДОС (Трансдисциплінарні Онтологічні Діалоги Об'єктно-орієнтовних систем), з її допомогою здійснено пошук контекстно пов'язаних концептів ЗМІ.
Рис. 6. Перегляд контекстів та пошук контекстно пов'язаних концептів
Рис. 7. Результат пошуку контексто пов'язаних концептів
Висновки
Таким чином, через швидке поширення інформації, особливості формату та відсутність географічних обмежень збір та аналіз даних в Інтернет-мережі загалом та в інтернет-ЗМІ зокрема потребують використання спеціальних технологій. Презентовані можливості новоствореної нами системи достатньо широкі.
Використовуючи її під час моніторингу інтернет-видань, із мінімальними витратами часу та людських зусиль дослідник може отримати найповнішу інформацію за певним запитом.
Література
1. Широков В.А, Шевченко І.В., Рабулець О.Г Природномовна індексація як засіб вдосконалення пошукового апарату інформаційних систем. НТІ. 2000. № 3. С. 23-25.
2. Ермаков А.Е. Извлечение знаний из текста и их обработка: состояние и перспективы. «Информационные технологии». Москва : Вид. «Новые технологии», 2009. С. 50-55.
3. Надутенко М. В., Старишко Ю. В. Система корпусного типа анализа естественного языка как средство обработки интернет-изданий
Анотація
Система природномовного аналізу корпусного типу як засіб опрацювання інтернет-видань. Надутенко М. В., кандидат технічних наук, завідувач відділу інформаційних технологій Українського мовно-інформаційного фонду Національної академії наук України. Старишко Ю. В.,молодший науковий співробітник Українського мовно-інформаційного фонду Національної академії наук України
У статті проаналізовано сучасний світовий обсяг створених і реплікованих людством даних. На основі цього аналізу розкрито проблематику збору та аналізу даних в Інтернет-мережі загалом та в інтернет-ЗМІ зокрема. Розроблено Систему природномовного аналізу корпусного типу, що адаптована до великих масивів різноформатних багатомовних даних. Проілюстровано застосування цієї системи на прикладі науково-освітнього веб-порталу.
Ключові слова: система природномовного аналізу, корпус текстів, автоматичний аналіз інтернет-видань, краулінг інтернет-сторінок.
Аннотация
В статье проанализирован современный мировой объем созданных и реплицированных человечеством данных. На основе анализа раскрыта проблематика сбора и анализа данных в Интернет-сети в целом и в интернет-СМИ в частности. Разработана Система анализа естественного языка корпусного типа, которая адаптирована к работе с большими разноформатными и многоязычными массивами данных и к дальнейшему анализу лингвистических объектов. Проиллюстрировано применение этой системы на примере научно-образовательного веб-портала.
Ключевые слова: система естественного анализа, корпус текстов, автоматический анализ интернет-изданий, краулинг интернет-страниц.
Summary
The system of natural- language analysis of text corpora as a mean of processing of Internet publications. Nadutenko M., Staryshko Yu.
The article analyzes the modem world of data created and replicated by humanity. The problems of collecting and analyzing data in the Internet network in general and in Internet media in particular are disclosed. A system of natural-language analysis for the personal use, adapted for large multilingual and multiformat data sets and further analysis of natural-language objects was developed. The application of this system is illustrated on the example of the scientific and educational web-portal.
Key words: system of natural-language analysis, corpus of texts, automated analysis of Internet publications, crawling of Internet pages.
Размещено на Allbest.ru
...Подобные документы
Комплексна обробка просторово-розподілених ресурсів мережі Інтернет. Системи інформаційного моніторингу в мережі. Обґрунтування технологій, розробка системи інтеграції Інтернет-контенту для конкурентного середовища ринку праці. Оцінювання систем аналізу.
дипломная работа [763,8 K], добавлен 14.07.2013Основні поняття та принципи всесвітньої павутини, пошукові машини в Інтернеті. Гарантування збереження значних обсягів інформації та надання доступу до неї користувачеві або прикладній програмі. Здійснення індексації сайтів в пошукових системах.
реферат [17,0 K], добавлен 20.12.2010Принципи та особливості роботи пошукових роботів. Аналіз відмінностей каталогів від пошукових систем. Шляхи та параметри оцінювання обсягів індексації сучасних пошукових систем. Загальні рекомендації щодо додавання сайту до пошукової системи чи каталогу.
реферат [101,3 K], добавлен 18.11.2010Інтернет як система об'єднаних комп'ютерних мереж для зберігання і передачі інформації. Літературні джерела щодо сутності баз даних та їх функціонування. Порівняльний аналіз MySQL, Oracle та Microsoft Access. Створення бази даних за допомогою MySQL.
курсовая работа [1,5 M], добавлен 05.02.2014Аналіз банківських автоматизованих систем та інтернет-банкінгу в Україні та світ. Проектування бази даних web-орієнтованої банківської системи та розробка програмного продукту. Моніторинг курсів валют банків держави. Розміщення системи у мережі Інтернет.
дипломная работа [2,7 M], добавлен 12.06.2013Історія розвитку і створення Інтернет. Протоколи передачі даних. Способи організації пошуку інформації Інтернет. Пошукові системи та сервіси: Яндекс, Google, шукалка. Послідовність виконання пошуку необхідної інормації за допомогою браузера Mozilla.
дипломная работа [4,9 M], добавлен 22.07.2015Аналіз питання розвитку глобальної мережі Інтернет в Херсонській області. Підходи щодо оцінки регіональних диспропорцій у кількості користувачів мережі за обліковими аккаунтами соціальних мереж. Оцінка забезпеченості населення доступом до мережі Інтернет.
статья [116,8 K], добавлен 05.10.2017Використання баз даних та інформаційних систем. Поняття реляційної моделі даних. Ключові особливості мови SQL. Агрегатні функції і угрупування даних. Загальний опис бази даних. Застосування технології систем управління базами даних в мережі Інтернет.
курсовая работа [633,3 K], добавлен 11.07.2015Структура системи "Інтернет" як джерело найрізноманітнішої інформації та її функції. Проблеми і перспективи її розвитку. Історія створення електронної пошти. Її характеристики, переваги та недоліки, правила роботи з нею. Технологія передачі даних.
курсовая работа [51,5 K], добавлен 07.07.2013Основні підходи до проектування баз даних. Опис сайту Інтернет-магазину, характеристика його підсистем для обробки анкет і запитів користувачів. Розробка концептуальної, інфологічної, даталогічної, фізичної моделей даних. Побудова ER-моделі в CASE-засоби.
курсовая работа [2,3 M], добавлен 01.02.2013Установки протоколів TCP/IP. Налаштування поштової програми MS Outlook Express. Класифікація пошукових систем та принципи їх роботи. Створення електронних документів в WWW для публікації в мережі Інтернет на мові HTML. Основи впровадження JavaScript.
лабораторная работа [259,9 K], добавлен 06.11.2011Автоматизація роботи інтернет-магазину ювелірних виробів з клієнтами як важлива частина діяльності мережі ювелірних крамниць. Розробка і реалізація інтернет-магазину ювелірних виробів для ювелірної корпорації. Аналіз зручності для користувачів інтерфейсу.
контрольная работа [31,1 K], добавлен 18.01.2013Онлайн-страхування в мережі Інтернет, його правовий аспект. Програмне забезпечення для організації веб-сайтів в мережі Інтернет: CMS. Система керування вмістом для публікації інформації в Інтернеті: Joomla. Описання процесу створення й реалізації програми
курсовая работа [4,3 M], добавлен 30.09.2014Інформаційні ресурси і технології у науковому дослідженні. Основні базові послуги, що надає Інтернет. Популярні інформаційно-пошукові системи. Пошук, відбір та накопичення наукової інформації. Методи аналізу і обробки первинної статистичної інформації.
научная работа [467,9 K], добавлен 15.04.2013Поняття фінансових інтернет-послуг. Підходи до класифікації за сферою надання і функціональною спрямованістю послуг. Інтернет-банкінг та інтернет-трейдинг: електронне управління рахунками, коштами та цінними паперами. Страхування через Інтернет.
контрольная работа [22,1 K], добавлен 26.07.2009Архітектура програмного забезпечення. Інтернет-журнал подій, інтернет-щоденник, онлайн-щоденник. Відмінності блогу від традиційного щоденника. Процес ідентифікації користувача. Логічне представлення даних. Керівництво, призначене для користувачів сайту.
курсовая работа [2,8 M], добавлен 26.06.2012Проблема порушення авторських прав в Інтернеті. Системи та сервіси пошуку плагіату. Захист електронних видань від плагіату в Інтернеті. Алгоритми аналізу, подання і порівняння текстової інформації. Вибір методу пошуку текстових документів з запозиченнями.
магистерская работа [1,0 M], добавлен 14.06.2013Національні інформаційні ресурси України, моніторинг згадувань об’єктів, подій у мережі Інтернет. Експертне оцінювання характеристик інформаційно-пошукових систем мережі Інтернет. Організаційне середовище та структура інформаційних потоків організації.
курс лекций [936,5 K], добавлен 12.11.2010Основні функції та принцип роботи в системах інтернет-банкінгу українських фінансових установ на прикладі ПриватБанку. Огляд можливостей сервісу "Приват24". Критерії та питання для аналізу безпеки систем електронних платежів передових банків в Україні.
лабораторная работа [2,2 M], добавлен 18.09.2013Проектування дієздатної демонстраційної моделі системи електронної комерції. Розробка сценарію купівлі з використанням мережі Інтернет. Архітектура механізму розповсюдження сертифікатів відкритих ключів. Підсистема асиметричної і симетричної криптографії.
дипломная работа [2,0 M], добавлен 10.08.2011