Оцінка ефективності використання семантичних пошукових систем у газетному дискурсі (на прикладі семантичної пошукової системи "Duck.duck.go")

Формулювання багатокомпонентного запиту природною мовою. Оцінка ефективності використання семантичної пошукової системи "Duck Duck Go" в газетному та журнальному дискурсі. Знижені позалітературні мовні засоби в сучасному публіцистичному дискурсі.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 17.12.2020
Размер файла 402,3 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ОЦІНКА ЕФЕКТИВНОСТІ ВИКОРИСТАННЯ СЕМАНТИЧНИХ ПОШУКОВИХ СИСТЕМ У ГАЗЕТНОМУ ДИСКУРСІ(на прикладі семантичної пошукової системи “Duck.Duck.Go”)

Юрій Линник, Мар'яна Гриб

У статті описано дослідження оцінки ефективності використання семантичних пошукових систем у газет - ному дискурсі. Дослідження проведено на прикладі семантичної пошукової системи “DuckDuckGo'\ Звернено увагу на поняття семантичної пошукової системи, дискурсу, газетного дискурсу та критерії пошуку інформації в Інтернеті. Досліджено принципи видобутку лінгвістично маркованих результатів роботи семантичної пошукової системи “DuckDuckGo'. Оцінювання отриманих даних проводилося згідно з відповідністю отриманої інформації критеріям пошуку інформації, серед яких виділяють релевантність, пертинентність, точність і повноту. Для здійснення аналізу змісту сучасного газетного дискурсу та проведення експерименту було обрано п'ять актуальних напрямів. Відібрано по три варіації в кожному з напрямів і, як наслідок, досліджено 15 різних запитів. Вони умовно поділені на одинарні, двокомпонентні та багатокомпонентні лексеми. Для ефективності й об'єктивності дослідження було проаналізовано перші 10 результатів пошукової видачі на кожен запит у семантичній пошуковій системі “DuckDuckGo”.

У роботі більш докладно описано методику проведення дослідження, а саме: сформульовано критерії пошуку та оцінки відповідності інформації. Оцінено результати видачі семантичної пошукової системи “DuckDuckGo” на кожен пошуковий запит. Для зручності аналізу отриманих результатів критерії релевантності, пертинентності й повноти були представлені у відсотковому еквіваленті. Схарактеризовано кожен критерій пошуку для різних видів запиту. Встановлено важливість критерія пертинентності в газетному дискурсі. Констатовано, що зі збільшенням довжини пошукового запиту він значно підвищується. Виявлено, що для досліджень газетного дискурсу найкращим варіантом є формулювання багатокомпонентного запиту природною мовою. Оцінено ефективність використання семантичних пошукових систем у газетному дискурсі. Доведено ефективність використання семантичної пошукової системи “DuckDuckGo” в газетному дискурсі.

Ключові слова: семантична пошукова система, пошукова система, критерії пошуку, дискурс, газетний дискурс.

мова семантичний газетний публіцистичний

Линник Юрий, Гриб Марьяна. Оценка эффективности использования семантических поисковых систем в газетном дискурсе (на примере семантической поисковой системы “DuckDuckGo”). В статье описано исследование оценки эффективности использования семантических поисковых систем в газетном дискурсе. Исследование проведено на примере семантической поисковой системы “DuckDuckGo”. Обращено внимание на понятие семантической поисковой системы, дискурса, газетного дискурса и критерии поиска информации в Интернете. Исследованы принципы добычи лингвистически маркированных результатов работы семантической поисковой системы DuckDuckGo. Оценка полученных данных проводилось согласно соответствия полученной информации критериям поиска информации, среди которых выделяют релевантность, пертинентнисть, точность и полноту. Для осуществления анализа содержания современного газетного дискурса, для проведения эксперимента были выбраны п'ять актуальных направлений. Было отобрано по три вариации в каждом из направлений и, таким образом, было исследовано 15 различных запросов. Они условно разделены на одинарные, двухкомпонентные и многокомпонентные лексемы. Для эффективности и объективности исследования были проанализированы первые 10 результатов поисковой выдачи на каждый запрос в семантической поисковой системе “DuckDuckGo”. В работе более подробно описана методика проведения исследования, а именно: сформулированы критерии поиска и оценки соответствия информации. Оценены результаты выдачи семантической поисковой системы DuckDuckGo на каждый поисковый запрос. Для удобства анализа полученных результатов, критерии релевантности, пертинентности и полноты были представлены в процентном эквиваленте. Проанализированы каждый критерий поиска для различных видов запроса. Установлена важность критерия пертинентности в газетном дискурсе. Констатировано, что с увеличением длины поискового запроса он значительно повышается. Выявлено, что для исследований газетного дискурса лучшим вариантом является формулировка многокомпонентного запроса на естественном языке. Оценена эффективность использования семантических поисковых систем в газетном дискурсе. Доказана эффективность использования семантической поисковой системы “DuckDuckGo” в газетном дискурсе.

Ключевые слова: семантическая поисковая система, поисковая система, критерии поиска, дискурс, газетный дискурс.

Lynnyk Yuriy, Hryb Mariana. Evaluation of the Efficiency of the Use of Semantic Search Engines in the Newspaper Discourse (Using the Example of the Semantic Search System DuckDuckGo). The article describes the study of the effectiveness of the use of semantic search systems in the newspaper discourse. The research was conducted on the example of the semantic search engine DuckDuckGo. The attention is paid to the notion of semantic search system, discourse, newspaper discourse and criteria for searching information on the Internet. The principles of extraction of linguistically marked results of semantic search engine DuckDuckGo are investigated. The evaluation of the received data was carried out in accordance with the received information to the criteria for the search of information, among which the relevance, pertinence, accuracy and completeness are distinguished. To carry out an analysis of the content of contemporary newspaper discourse, 5 actual directions were selected for the experiment. Three variations were selected in each of the directions, and thus, 15 different requests were examined. They are conventionally divided into single tokens, two-component tokens and multi-component tokens. For the effectiveness and objectivity of the study, the first 10 search results were analyzed for each query in the semantic search engine DuckDuckGo. The article describes in more detail the methodology of conducting the research, namely the formulation of the criteria for the search and evaluation of the conformity of information. The results of issuing of semantic search engine DuckDuckGo for each search query are evaluated. For ease of analysis of the obtained results, the criteria of relevance, pertinence and completeness were presented in percentage equivalents. Each search criterion for different query types is analyzed. The importance of the criterion of pertinency in the newspaper discourse is established. It is stated that with an increase in the length of the search query it is significantly increased. It was found that for the research of newspaper discourse the best option is to formulate a multicomponent query in the natural language. The effectiveness of using semantic search systems in the newspaper discourse is evaluated. The effectiveness of using the DuckDuckGo semantic search engine in the newspaper discourse is proved.

Key words: semantic search engine, search system, search criteria, discourse, newspaper discourse.

Постановка наукової проблеми та її значення. Кількість інформації, яку створює світова спільнота, зростає з кожним роком. Відкритість інформаційного поля теоретично забезпечує вільний і швидкий доступ до даних. Проте, у такої загальної доступності є і зворотний бік: щоб отримати інформацію, її потрібно спочатку знайти. Незважаючи на те, що дослідження у цій сфері активно ведуть уже досить давно, ефективність сучасних систем пошуку ще далека від досконалості. В останні роки особливу увагу приділяють пошуку інформації на основі роботи з семантикою. Адже існують гіпотези, що семантичні пошукові системи здатні “розуміти” користувача й давати чітку відповідь на запит.

Аналіз досліджень цієї проблеми. Структуру та принципи функціонування пошукових систем аналізували Т. Петрущенко, А. Струнгар. Принципи роботи семантичних пошукових систем вивчали А. Басіпов, О. Демич, Д. Гриньов Серед зарубіжних дослідників, які досліджували питання різних підходів до роботи пошукових систем, назвемо Т. Джона, Р. Гуху.

Мета і завдання статті - проаналізувати результати роботи семантичної пошукової системи “DuckDuckGo” й установити ефективність їх використання в газетному дискурсі.

Завдання статті полягає в дослідженні принципів видобутку лінгвістично маркованих результатів роботи семантичної пошукової системи “DuckDuckGo”.

Виклад основного матеріалу й обґрунтування отриманих результатів дослідження.

Семантичний пошук - це технологія покращення пошуку завдяки розумінню намірів користувача й контексту пошуку, що дозволяє створювати пошукові запити близькі до питань, які задаються природною мовою [9].

Семантичний пошук визначаємо як пошук інформації на основі мети шукача та контекстного значення термінів пошуку, а не залежно від словникового значення окремих слів у пошуковому запиті [9].

Принцип роботи семантичного пошуку вперше був продемонстрований у 2003 році. Він виник з семантичної мережі, яка базується на онтологіях. У сфері наук про інформацію та обчислювальну техніку онтологія спочатку означає інформаційну структуру і набір фактів, що представляють собою систему знань [8].

Отже, ми можемо констатувати, що семантичний пошук - це не просто контекстний пошук або пошук, базований на значенні запиту. Він також містить кілька інших чинників. Розумна пошукова система враховує чимало чинників, щоб забезпечити найбільш актуальні та корисні пошукові запити, зокрема:

1. Поточні тенденції.

2. Місцезнаходження користувача.

3. Мета пошуку.

4. Варіації слів у семантичному пошуку (семантичний пошук має передбачити лінгвістичні особливості слів).

5. Синоніми та семантичний пошук.

6. Загальні та спеціалізовані запити (семантична пошукова система повинна встановлювати зв'язок між загальними та спеціалізованими запитами і надавати відповідні результати).

7. Відповідність концепції (семантичний пошук повинен розуміти широке поняття запиту та повертати відповідні результати).

8. Природна мова при запитах [9].

Пошук достовірної інформації в мережі Інтернет потребує багато часу та зусиль, адже в сучасному інтернет-просторі є безліч сайтів із неправдивою, неповною та незмістовною інформацією. Дуже часто інформація повторюється. Є сайти, де до редагування інформації мають доступ усі користувачі. Тому потрібно завжди перевіряти отриману інформацію, зокрема на відповідність таким критеріям, як релевантність, пертинентність, точність і повнота.

Під релевантністю (англ. relevance) ми будемо розуміти міру відповідності отримуваного результату бажаному. Нерелевантний документ - документ, що був відібраний у результаті інформаційного пошуку, але зміст якого не відповідає запиту користувача [6].

Пертинентність - це відповідність знайдених інформаційно-пошуковою системою документів інформаційним потребам користувача незалежно від того, наскільки повно і як точно ця інформаційна потреба виражена в тексті інформаційного запиту [4, с. 48].

Щодо точності, то це заданий ступінь наближення даних, що подають певну інформацію, до об'єктивно наявної, тобто істинної, інформації. У різних галузях діяльності людей, як правило, визначені необхідні або допустимі рівні точності інформації для різноманітних технічних, економічних та інших показників, функцій управління тощо. Неточна інформація може призвести до серйозних помилок у прийнятті рішень [7].

Повнота інформації - це показник, який указує на міру достатності отриманих даних для вирішення того чи того завдання. Він дуже відносний, оскільки оцінюється по тому, наскільки ця інформація може допомогти при вирішенні тієї чи тієї проблеми. Якщо інформації достатньо для прийняття правильного рішення - вона повна. Якщо ні, то її використання не принесе очікуваного ефекту [3].

Підсумовуючи сказане вище, зазначимо, що використання всіх критеріїв пошуку є необхідністю, якщо користувач хоче досягти максимально ефективного результату. Релевантність, пертинентність, точність і повнота пошуку є взаємопов'язаними та при роботі вони доповнюють один одного.

Особливої актуальності питання пошуку набувають у медійному просторі, що в категоріях лінгвістики утворює медійний дискурс. Під медійним дискурсом будемо розуміти специфічний тип мовно-мисленнєвої діяльності, яка характерна виключно для інформаційного поля мас-медіа [2, с. 151]. Медіадискурс є діяльністю, що проводиться суб'єктами масової комунікації, саме тому він умотивований певною метою, залежно від якої набуває специфічного змісту. Можливими цілями медіадискурсу є: опис-пояснення, регулювання дійсності адресатів, вплив на свідомість адресатів, оцінка дійсності, прогнозування стану справ тощо [5, с. 18].

Серед підтипів медійного дискурсу виділяють газетний дискурс, який характеризується розривом у просторі й часі автора та читача. Тому, на відміну від звичайної комунікації, газетний текст стає більш широким, він має викласти все до кінця, не спираючись на можливі запитання читача, тому що їх фізично не може бути. Газетний дискурс є публічним, тому внормованість його дуже велика [1].

У сучасному світі велика кількість людей у ході інформаційної пошукової діяльності звертається саме до газет та журналів. Вони посідають одне з перших місць серед ресурсів отримання нової інформації, люди довіряють цій інформації, вважаючи її певною мірою достовірною та об'єктивною. Саме тому, ми вважаємо за доцільне провести наше дослідження в контексті газетного дискурсу. Це дозволить нам оцінити наскільки ефективними є у контексті вищесказаного семантичні пошуковики, зокрема семантична пошукова система “DuckDuckGo”.

Здійснивши аналіз змісту сучасного газетного дискурсу, нами для проведення експерименту було обрано п'ять актуальних напрямів. Ми відібрали по три варіації в кожному із напрямів. Відтак досліджено 15 різних запитів. Наші запити можна умовно поділити на:

1) одинарні лексеми (migration, terrorism, sanctions, warming, war);

2) двокомпонентні лексеми (migration in Europe, terrorism in Germany, European Union sanctions, global warming, Civil War);

3) багатокомпонентні лексеми (the causes of the migration crisis in Europe, why are there terrorist attacks in Germany, how effective are European Union sanctions against Russia, what are the consequences of global warming, what caused the Civil War in Syria).

Для ефективності й об'єктивності дослідження було проаналізовано перші 10 результатів пошукової видачі на кожен запит у семантичній пошуковій системі “DuckDuckGo” (див. рис. 1). Загальна сума пошукових запитів становила 150.

Рис. 1. Результат пошуку в системі “DuckDuckGo”

Вважаємо за доцільне більш докладно описати методику проведення дослідження. Передусім сформулюємо критерії пошуку й оцінки відповідності інформації.

Як уже згадувалося вище, релевантність - це відповідність інформації запиту користувача. Тобто отриманий результат відображає лише формальну відповідність тому, що зазначалося в пошуковому запиті. У нашому дослідженні інформація буде вважатися релевантною, якщо отримане посилання буде точно повторювати запит (дозволяється похибка на прийменники).

Пертинентність - це відповідність інформації намірам користувача. Це означає, що отримані результати повністю задовільняють наші потреби. Оскільки наше дослідження відбувається в контексті газетного дискурсу, то інформація буде відповідати цьому критерію, якщо вона виконана в газетному дискурсі. Тобто ми вирахуємо кількість посилань на онлайн- газети та журнали із загальної кількості проаналізованих результатів на кожен запит.

Критерій точності означає об'єктивно наявну, правдиву, істинну інформацію. Проте, для визначення цього критерія потрібно знати всі аспекти кожного з обраних нами напрямів аналізу. Крім того, у галузі газетного дискурсу це зробити практично неможливо, тому коефіцієнт точності в нашому аналізі буде визначатися як відношення знайдених посилань, які відповідають критерію релевантності, до проаналізованих нами запитів (для кожного з видів запиту ця сума становитиме 50). Отримані дані будуть означати точність отриманої інформації на конкретні запити.

Критерій повноти означає міру достатності отриманої інформації для її усвідомлення, розуміння та об'єктивного сприйняття. Цей критерій буде визначатися серед газетних статей, що відповідають критерію пертинентності. Інформація буде вважатися повною, якщо вона в повній мірі розкриває суть поняття з запиту та є достатньою для вирішення того чи того завдання.

Для зручності аналізу отриманих результатів критерії релевантності, пертинентності та повноти були представлені у відсотковому еквіваленті.

Отже, під час проведення нашого дослідження ми отримали такі результати. На запити з одинарними лексемами (migration, terrorism, sanctions, warming, war) система видала нам 9, 10, 10, 9, 10 релевантних запитів відповідно. У сумі це становить 48. Для представлення даних у відсотковому еквіваленті необхідно обчислити відношення отриманих результатів до кількості проаналізованих ресурсів:

Отже, інформація на запити з одинарними лексемами відповідає критерію релевантності на 96 %.

Ще одним критерієм є пертинентність. Для її оцінки ми використали кількість згенеро- ваних системою елементів газетного дискурсу, що становить 2, 1, 1, 1, 0 відповідно до вищевказаних одинарних лексем. Представимо цей результат у відсотковому еквіваленті:

Коефіцієнт критерію точності визначається відношенням знайдених посилань, які відповідають критерію релевантності, до проаналізованих запитів:

Щодо критерію повноти, то він становить 2, 1, 1, 1, 0, що дає у сумі 5. Для представлення даних у відсотковому еквіваленті необхідно обчислити відношення цієї суми до суми критерію пертинентності:

Аналогічно оцінюємо показники отриманої інформації для запитів з двокомпонентними та багатокомпонентними лексемами. Результати нашого дослідження вважаємо за доцільне представити у вигляді таблиці (див. табл. 1).

Таблиця 1 Результати оцінки ефективності використання семантичної пошукової системи “БискБискОо” в газетному дискурсі

Вид запитів

Критерії пошуку інформації

Релевантність

Пертинентність

Коефіцієнт точності

Повнота

Одинарні лексеми

96 %

10 %

0,96

100 %

Двокомпонентні лексеми

64 %

44 %

0,64

95 %

Багатокомпонентні лексеми

16 %

68 %

0,16

74 %

Аналіз отриманих результатів дозволяє зробити нам висновок, що найвищий показник за критерієм релевантності, точності й повноти демонструють одинарні лексеми. Це пояснюємо тим, що знайти відповідник до одного слова значно простіше, ніж передати зміст цілого речення.

Проте, картина кардинально змінюється з використанням двокомпонентних, а особливо багатокомонентних запитів. За критерієм пертинентність ми отримали відповідно 44 % збігів за змістом із досліджуваної пошукової видачі для двокомпонентних та 68 % для багатокомпонентних. Це демонструє, що зі збільшенням довжини пошукового запиту система починає “краще розуміти” користувача і видає посилання, які більшою мірою відповідають кінцевим цілям пошукової діяльності.

За критерієм релевантність ми отримали 64 % збігів за запитом для двокомпонентних та 16 % для багатокомпонентних запитів. Тобто, система не знайшла чіткого збігу запиту, але, як ми бачимо з показників інших критеріїв, інформація задовільняє потреби користувача. Це означає, що інформація в середині посилання не завжди відповідає заголовку статті.

Коефіцієнт точності становить 0,96, 0,64 та 0,16 для одинарних, двокомпонентних та багатокомпонентних запитів відповідно.

Оцінка критерію повноти показала досить високі результати для всіх типів запиту. Потрібно зважати на той факт, що ми вираховували його лише серед пертинентних запитів, як відношення посилань з повною інформацією до всіх пертинентних. А відсоток критерію пертинентності найвищий для багатокомпонентних запитів.

Отже, оскільки наше дослідження відбувається в галузі газетного дискурсу, то найважливішим для нас є саме критерій пертинентності. Ми бачимо, що зі збільшенням довжини пошукового запиту він значно підвищується. Це означає, що семантична пошукова система справилася з поставленим завданням.

Варто констатувати, що для досліджень газетного дискурсу найкращим варіантом є формулювання багатокомпонентного запиту природною мовою. Саме тоді семантична пошукова система зможе здійснити аналіз змісту пошукового запиту та згенерувати найбільшу кількість посилань у відповідь на цільовий пошуковий запит. У контексті нашого дослідження це онлайн газети та журнали.

Висновки та перспективи подальшого дослідження. Проведене дослідження показало, що семантична пошукова система “ВискОискОо” справилася з поставленим завданням. Це означає, що система справді використовує семантику в своєму пошуковому алгоритмі та показує доволі непогані результати. Як наслідок, це дозволяє значно покращити результати пошуку. Отже, у ході дослідження семантичної пошукової системи “БискОискОо” в газетному дискурсі було доведено ефективність її використання в газетному дискурсі.

Для отримання статистично достовірних результатів вважаємо за доцільне дослідити ефективність роботи інших семантичних пошукових системах у газетному дискурсі.

Джерела та література

1. Газетний дискурс [Електронний ресурс]. - Режим доступа : https://studfiles.net/preview/5484809/page:30/

2. Добросклонская Т. Г. Вопросы изучения медиатекстов. Опыт исследования современной английской медиаречи / Т. Г. Добросклонская. - М. : УРСС Эдиториал, 2005. - 288 с.

3. Повнота інформації - це що означає? [Електронний ресурс]. - Режим доступу : http://yrok.pp.ua/serednya- osvta/883-povnota-nformacyi-ce-scho-oznachaye.html

4. Словарь по кибернетике / под ред. акад. В. С. Михалевича. - 2-е. - Киев : Глав. ред. Укр. Совет. Энцикл. им. М. П. Бажана, 1989. - 751 с.

5. Соболєва І. О. Знижені (позалітературні) мовні засоби в сучасному публіцистичному дискурсі : автореф. дис. на здобуття наук. ступеня канд. філол. наук : спец. 10.02.02 “Російська мова” / І. О. Соболєва. - Сімферополь, 2002. - 20 с.: 18

6. Тлумачний словник з інтелектуальної власності. Основні терміни: понад 2000 термінів / уклад. : М. Д. Гінзбург, Л. М. Дунаєвський, І. О. Требульова та ін. ; за заг. ред. А. А. Рудника. - Харків, 1999. - 560 с.

7. Якісні і кількісні характеристики інформації [Електронний ресурс]. - Режим доступу : http://studopedia. com.ua/1_50298_vlastivosti-informatsii.html

8. Guha R., McCool R.; Miller E. (May 24, 2003). Semantic Search // WWW2003. - 2012. - Retrieved July 13.

9. John T. (March 15, 2012). “What is Semantic Search?” // Techulator. - 2012. - Retrieved July 13.

References

1. Hazetnyi dyskurs [Elektronnyi resurs]. - Rezhym dostupu : https://studfiles.net/preview/5484809/page:30/

2. Dobrosklonskaia, T. G. 2005. Voprosy Izucheniia Mediatekstov. Opyt Issledovaniia Sovremennoi Angliyskoi Mediarechi. Moskva: URSS Editorial.

3. Povnota Informatsii - tse shcho Oznachaie? [Elektronnyi resurs]. - Rezhym dostupu : http://yrok.pp.ua/serednya- osvta/883-povnota-nformacyi-ce-scho-oznachaye.html

4. Slovar po Kibernetike. 1989. Kiyev : Glav. red. Ukr. Sovet. Entsikl. im. M. P. Bazhana.

5. Sobolieva, I. O. 2002. Znyzheni (pozaliteraturni) Movni Zasoby v Suchasnomu Publitsystychnomu Dyskursi.

Simferopol.

6. Tlumachnyi Slovnyk z Intelektualnoi Vlasnosti. Osnovni Terminy: Ponad 2000 Terminiv. 1999. Kharkiv.

7. Yakisni i Kilkisni Kharakterystyky Informatsii [Elektronnyi resurs] - Rezhym dostupu : http://studopedia.com.ua/ 1_50298 vlastivosti-informatsii.html

8. Guha, R. and McCool, R. and Miller, E. 2012. “Semantic Search”. In WWW2003.

9. John, T. 2012. “What is Semantic Search?”. In Techulator.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.