Лінгвістичні аспекти моделювання знань у англомовному дискурсі програмного забезпечення

Ефективність моделювання знань у англомовному дискурсі програмного забезпечення шляхом використання категоріального потенціалу мовної системи. Механізми актуалізації синтаксичних і семантичних моделей для оптимізації взаємодії людини і комп’ютера.

Рубрика Иностранные языки и языкознание
Вид статья
Язык украинский
Дата добавления 05.02.2019
Размер файла 44,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http: //www. allbest. ru/

Київський національний університет імені Тараса Шевченка

Лінгвістичні аспекти моделювання знань у англомовному дискурсі програмного забезпечення

Біскуб І.П. - к.ф.н., доцент, докторант Інституту філології

Анотація

Роботу виконано на кафедрі прикладної лінгвістики

Волинського національного університету імені Лесі Українки і кафедрі англійської філології

Інституту філології Київського національного університету імені Тараса Шевченка

У статті наведено аргументи щодо ефективності моделювання знань у англомовному дискурсі програмного забезпечення шляхом використання категоріального потенціалу мовної системи. Проаналізовано лінгвістичні аспекти моделювання різних типів знань. Запропоновано механізми актуалізації синтаксичних і семантичних моделей для оптимізації мовленнєвої взаємодії людини і комп'ютера.

Ключові слова: моделювання знань, дискурс програмного забезпечення, лінгвістичні категорії, категоризації, семантичне моделювання, синтаксичне моделювання.

англомовний синтаксичний програмний

Annotatіon

I. Biskub Linguistic Aspects of Knowledge Engineering in the English Software Language Discourse.

The article gives arguments in favour of using the categorical potential of language system as a means of knowledge engineering in the English software language discourse. The linguistic aspects of knowledge engineering are carefully analyzed. The semantic and syntactic models are considered as the mechanisms of improving human-computer speech interaction.

Key-words: knowledge engineering, software language discourse, linguistic categories, categorization, semantic modeling, syntactic modeling.

Моделювання знань (Knowledge Engineering) - один із напрямків у галузі Штучного Інтелекту (ШІ), який розглядає принципи, методи і інструменти засвоєння знань і їх представлення у вигляді електронних банків знань [10, 162]. Проблема моделювання знань зобов'язана своїм виникненням процесам, що відбуваються у розвитку комп'ютерної техніки протягом останніх десятиліть, а саме появі і широкому розповсюдженню систем, які називають системами, заснованими на знаннях [1, 4].

Моделювання знань як галузь наукового знання знаходить своє застосування у лінгвістиці, математиці, логіці, психології, кібернетиці. Причиною такої зацікавленості, безумовно, є перспектива створення штучного інтелекту, пов'язана із розробкою високоінтелектуальних інформаційних технологій [9]. Водночас, будь-які сучасні моделі знань розробляються з урахуванням того, що знання надаються людині у мові і через мову. Знання актуалізуються як у спонтанному мовленні (монологах, діалогах, ситуативних репліках), так і у письмових текстах (пам'ятках писемності, художній літературі, науковій і технічній літературі).

Через мову передаються знання із покоління до покоління. Мова є формою збереження знань, і, водночас, засобом і способом їх передачі. У науці і техніці не існує знань поза текстами, а моделювання семантики науково-технічних текстів - це моделювання системи знань конкретної наукової галузі.

Метою цієї статті є обґрунтування теоретичних і методологічних засад щодо введення до вже існуючих концепцій моделювання лінгвістичних знань процедури формалізованого моделювання знань про світ за допомогою актуалізації семіотичного і когнітивного потенціалу лінгвістичних категорій, які за своєю природою є науково визнаним способом узагальнення і трансформації дійсності.

Робочою гіпотезою дослідження є теза про те, що лінгвістична категоризація як спосіб моделювання знань надає, перш за все, формальні можливості для систематизації різних типів знань, включаючи лінгвальні і позалінгвальні знання індивіда про світ. При цьому передбачається класифікація даних за різними видами параметрів.

Зважаючи на специфічні когнітивно-комунікативні особливості вербальної взаємодії користувача і комп'ютерної системи, під час якої активно актуалізується семіотичний потенціал мовної системи, вважаємо за доцільне вивчати способи і механізми моделювання знань на матеріалі англомовного дискурсу програмного забезпечення (ПЗ).

Беручи до уваги визначення дискурсу Т. Дейка, який розглядає його як складну єдність мовної форми, значення та дії [6, 3], а також користуючись здобутками вітчизняних і закордонних мовознавці, які ґрунтовно вивчали психологічний (М.Л. Макаров, Л.М. Мурзін), логічний (J. Searle), соціологічний (M. Foucault), когнітивний (Н.Д. Арутюнова, О.С. Кубрякова, О.В. Александрова, А.Д. Бєлова, К.Я Кусько), структурно-семіотичний (A. Греймас, Ж. Курте), комунікативний (Г.Г. Почепцов), культурологічний (Г.Г. Слишкін, A. Wierzbicka) аспекти категорії дискурсу, ми розглядаємо дискурс програмного забезпечення як лінгвістичну когнітивно-комунікативну діяльність користувача і комп'ютерної системи, яка передбачає формалізоване комп'ютерне моделювання різних типів знань і спрямована на забезпечення результативної взаємодії людини і машини.

Дискурс програмного забезпечення є діалогічним за структурою, тобто представлений у вигляді запитів і відповідей із можливістю деталізації інформації і перехоплення ініціативи з обох сторін. Тому для забезпечення достатнього рівня комунікативної компетентності у комп'ютерній системі передбачене інтегративне використання різних типів інформації, яка представляється користувачеві у вигляді письмового мовлення у поєднанні з іншими екстралінгвістичними (мультимедійними) засобами, такими як графіка, звук, анімація та ін. [5, 40]

Не викликає сумніву факт наявності певних обмежень і симпліфікацій при веденні письмового або усного мовленнєвого діалогу між людиною і машиною, які переважно стосуються лімітованої кількості мовних елементів і конструкцій, що входять до складу мовних пакетів програмного забезпечення [5, 38]. Однак, з функціональної, змістової і формальної точки зору комунікація користувача і комп'ютера має усі ознаки особливого виду дискурсу, оскільки передбачає використання сукупності лінгвістичних засобів і методів задля досягнення конкретної комунікативної мети (виконання комп'ютерною системою різноманітних операцій) шляхом надання команд і отримання відповідей природною мовою [3, 4].

Оскільки користувачем комп'ютерної системи завжди є людина, яка володіє певною мовою, виступає членом конкретного соціально-культурного середовища. Тому стає зрозумілим, що будь яка дискурсивна комунікація передбачає інтегрування розроблених логічних схем взаємодії і формалізованих моделей знань у середовище конкретної мовної системи [4, 12]. Користуючись термінологією, прийнятою у галузі інформаційних технологій, пропонуємо розглядати дискурс програмного забезпечення не як абстрактну когнітивно-комунікативну модель спілкування користувача і комп'ютерної системи, а як лінгвістично локалізований вид комунікативної діяльності, у процесі якої здійснюється багатоцільове використання елементів конкретної мовної системи, їх властивостей і функціональних зв'язків.

Локалізація (localization) - це переклад і адаптація елементів інтерфейсу, допоміжних файлів та документації. У англійській мові для слова «localization» іноді застосовується скорочення «l10n». При цьому число 10 означає кількість пропущених між «l» та «n» букв.

Лінгвістична локалізація дискурсу ПЗ проявляється, перш, за все, у тому, що кожен конкретний програмний продукт має графічний інтерфейс користувача, у якому, окрім графічних символів і піктограм, активно використовуються лінгвістичні одиниці конкретної мови (англійської, німецької, російської, української та ін.). У нашому дослідженні ми зосередимось на всебічному вивченні особливостей англомовного дискурсу програмного забезпечення, як на найпоширенішому серед усіх існуючих дискурсів ПЗ.

Усі види програмного забезпечення, які використовують англійську мову для спілкування з користувачем, маркуються так званими мовними тегами. Мовні теги можуть використовуватися для позначення регіональних особливостей тої чи іншої мови. Існує основний тег для ідентифікації мови (наприклад, "en" або “eng” для англійської), а також факультативний додатковий тег для уточнення регіону використання (наприклад, "GB" - Great Britain, Великобританія). Між субтегами зазвичай ставиться дефіс, у окремих випадках - риска знизу. Мовні теги визначаються міжнародним стандартом ISO 639 (1,2). Наведемо приклади мовних тегів:

Англійська мова: en-GB (Британська англійська), en-US (Американська англійська), en-CA (Канадська англійська).

Отже, об'єктом нашого дослідження є мовні засоби, які використовуються у англомовному дискурсі програмного забезпечення, тобто у програмах, мовні пакети яких мають розширення "en" або “eng”.

У дискурсі програмного забезпечення під час структурування висловлювань у вигляді повідомлень на екрані монітору моделювання знань безпосередньо реалізується під час моделювання змісту текстової інформації. Таким чином, у центрі уваги науковців опиняється питання про створення семантичних репрезентацій тексту, які б відображали відповідні моделі знань.

Більше того, ефективність практичного використання того чи іншого програмного продукту, для якого розроблений графічний інтерфейс користувача із лінгвістичними засобами для забезпечення дискурсивної комунікації, напряму визначається тим, наскільки детально описані усі можливі функції програми, які лексичні, граматичні і синтаксичні засоби використовуються у текстах повідомлень. Важливо також з'ясувати, чи наявний термінологічний словник, чи досліджені статистичні особливості структурних елементів текстових повідомлень, і, насамкінець, чи розроблені семантичні репрезентації (моделі) для текстів повідомлень. Усі зазначені типи інформації зберігаються у базах знань інтелектуальних комп'ютерних систем.

Формування бази знань інтелектуальної системи (ІС) передбачає розробку знакових лінгвістичних структур, що дозволяють фіксувати знання із галузі, для роботи у якій призначається система, і забезпечити виконання необхідних операцій над ними. Побудова ІС припускає також ті або інші способи одержання знань, які повинні бути представлені в даній системі. Сюди належить одержання знань із книг, текстів, що використовуються у даній області, а також у процесі організованої комунікації із професіоналами (експертами) у сфері, де буде застосовуватися система. Отже виняткова роль у формалізованому моделюванні знань належить природній мові, яка має достатній семіотичний і формально-функціональний потенціал для здійснення формального кодування різних видів інформації.

Відомо, що при з'ясуванні зв'язків мислення і інтелекту багато теоретиків ШІ не обмежувалися лише визначенням механізмів їх моделювання у комп'ютерних системах, але й паралельно розвивали погляди на мислення і інтелект як такі. На сучасному етапі розвитку лінгвістики і інформаційних технологій існують спроби розробки формальної теорії знань, яка б задовольнила потреби досліджень у галузі ШІ, робототехніки, когнітивної лінгвістики і була б спрямована на розв'язання прикладних завдань, найважливішим з яких є забезпечення ефективного мовленнєвого спілкування людини і комп'ютера.

Реалізація інтелектуальних функцій інформаційних систем безпосередньо пов'язана з обробкою різних видів інформації, які і є знаннями. Інакше кажучи, інтелектуальні системи водночас функціонують і як системи обробки знань. При розробці програмного забезпечення із використанням графічних інтерфейсів користувача для забезпечення результативної взаємодії інформаційної комп'ютерної системи і людини використовуються технології моделювання знань на основі символізму лінгвістичних одиниць шляхом формалізованого опису категорій і підкатегорій елементів природної мови.

Процес моделювання знань шляхом формалізованого опису лінгвістичних категорій елементів мови здійснюється на трьох основних рівнях:

1. Формальний опис знань - передбачає формалізацією і подання знань у пам'яті комп'ютерної системи. Для цього розробляються спеціальні моделі подання знань і мови опису знань, впроваджується спеціальна типологія знань. Для здійснення формального опису одиниць мови використовується існуюча система лінгвістичних категорій, які кодуються у вигляді спеціальних символьних абревіатур і присвоюються усім елементам масиву знань. Однак об'єднання елементів мови у класи не завжди співпадає із традиційним поділом категорій на граматичні і синтаксичні. Механізми і стандарти для формального опису знань визначаються проблемною галуззю, до якої вони належать.

2. Маніпулювання знаннями - передбачає визначення сукупності операцій, які система може потенційно виконувати над знаннями. На цьому рівні розробляються способи поповнення знань на основі їхніх неповних описів, створюються методи достовірного й правдоподібного висновку на основі наявних знань, пропонуються моделі міркувань, що спираються на знання, а також моделі, які імітують людські міркування. Маніпулювання лінгвістичними категоріями здійснюється шляхом таґування, тобто автоматичного розпізнавання категоріальних параметрів мовних елементів за умови їх релевантного формального опису. Маніпулювання знаннями тісно переплітається із формальним описом знань, і розділити ці два напрямки можна лише умовно.

3. Спілкування - передбачає «розуміння» і синтез зв'язних текстів природною мовою, автоматичний синтез і розпізнавання мовлення, розробка комунікаційних моделей спілкування людини і комп'ютерної системи. На основі досліджень у цьому напрямку формуються методи розробки лінгвістичних процесорів, питально-відповідальних систем, діалогових систем і інших систем ШІ, метою яких є забезпечення комфортних умов для спілкування людини і комп'ютера.

Враховуючи сучасні вимоги до комп'ютеризованих систем на невпинний розвиток інформаційних технологій, до окреслених вище рівнів слід додати ще наступні рівні:

4. Сприйняття - напрямок, який включає розробку методів подання інформації про зорові образи, створення методів переходу від зорових сцен до їх текстового опису й методів зворотного переходу, створення засобів, що породжують зорові сцени на основі їх опису засобами природної мови;

5. Навчання - розробка методів розв'язання завдань, з якими система раніше не зустрічалася, методів формування умов завдань по описі проблемної ситуації засобами природної мови, розробка механізмів поділу вихідного завдання дрібніші з їх подальшим описом за допомогою лінгвістичних одиниць.

6. Поведінка - розробка поведінкових процедур, які дозволятимуть комп'ютерним системам адекватно взаємодіяти з навколишнім середовищем і людьми, включаючи мовленнєву комунікацію.

Ці напрямки і досі залишаються недостатньо розвинутими, особливо беручи до уваги складності при забезпеченні ефективного використання мовних засобів, які, окрім комунікативного навантаження, виконують і функцію моделювання знань про світ.

Досягнення конкретних результатів на окреслених вище рівнях наукового пошуку у галузі новітніх інформаційних технологій здійснюється шляхом винайдення способів ефективної автоматичної (автоматизованої) обробки природної мови, які передбачають визначення й дослідження комп'ютерно-ефективних механізмів для забезпечення комунікації з ЕОМ засобами природної мови.

До кола власне лінгвістичних проблем, розв'язання яких сприятиме оптимізації мовленнєвого спілкування людини і комп'ютера, традиційно відносять створення формальних структурних моделей природної мови шляхом формалізованого опису елементів мови і їх параметрів. Перевага надається таким теоріям формалізації, які дозволяють віднайти якнайбільше мовних закономірностей і робити узагальнення стосовно цілої мовної системи.

Наведемо декілька прикладів застосування процедури моделювання у різних галузях мовознавства. У структурному синтаксисі використовуються два види формальних синтаксичних моделей - моделі безпосередніх складників і моделі залежностей. Обидва види широко застосовуються у автоматичному синтаксичному аналізі текстів природної мови, у машинному перекладі та в інших технологіях автоматичної обробки мови.

У межах генеративної граматики, яка є алгебраїчною за своєю природою, процедура категоризації і лінгвістичні моделі, які базуються на ній, отримали дещо математичне тлумачення із використанням принципу „усе або нічого” (all-or-none) для встановлення категоріального членства.

У працях К.Поларда і І.Сега зазначається, що “у будь-якій математичній теорії для опису емпіричних понять використовується їх моделювання за допомогою математичних структур, окремі аспекти яких за домовленістю співвідносяться із реальними характеристиками об'єктів моделювання” [8, 6]. Природно, що будь який опис мови - математичний чи дескриптивний - це завжди модель, яка відображає ментальні репрезентації мовної системи.

На початках генеративної лінгвістики основні лінгвістичні категорії (класи слів, фразові єдності та ін.) безапеляційно запозичувались із традиційної мовознавчої науки. Проблемною визнавалась лише відсутність концепції категорій синтаксису, оскільки не існувало уніфікованих принципів віднесення двох подібних синтаксичних елементів (структур) до одного синтаксичного класу. Із запровадженням Н.Чомським бінарної опозиції, яка включала особливий клас „формативів” (formatives) (лексичних або граматичних) і „категоріальних символів” (наприклад NP, N, VP, V та ін.), закладаються засади універсальної граматики, яка дозволила б категоризувати лінгвістичні елементи незалежно від їх приналежності до конкретної мови [7, 65-66]. Модель синтаксичної категоризації Н.Чомського стала першим кроком на шляху до розробки концепції міжкатегоріального узагальнення, що уможливила б встановлення подібностей між такими основними категоріями як N, V, A і P на лексичному і на фразовому рівнях.

Щодо способів семантичного моделювання, слід зауважити, що усі вони поєднують власне лінгвістичні методи із методами логічної семантики і теорії класифікацій. При моделюванні лексичної семантики у структурній лінгвістиці виниклі і успішно застосовуються методи семантичного поля, компонентного аналізу, тезаурусного опису лексики. Окрім того, у синтаксичній семантиці розроблено багато концепцій моделювання семантичної структури речення.

Семантичне моделювання і розробка лінгвістичних семантичних моделей асоціюється, перш за все, із запровадженням формальних механізмів репрезентації семантичних знань. У межах когнітивної лінгвістики практикується дослідження способів актуалізації ментальних репрезентацій у так званому внутрішньому лексиконі, тобто ментальному словнику людини. Як уже зазначалось, слова отримують семантичне наповнення завдяки поняттям, які вони представляють. Отже, досліджуючи способи екстракції і вживання слів, можна вивчати їх зміст, семантичну структуру і функції.

Слід зауважити, що питання про придатність розроблених формальних моделей з огляду на ефективність їх застосування для комп'ютерного кодуванні лінгвістичних знань залишалось поза увагою науковців. Таким чином виявилося, що запропоновані лінгвістичні моделі, відтворюючи власне мову і мовлення, не розглядали механізми їх породження й розпізнавання, у тому числі й комп'ютерного.

Комплексний характер людської поведінки, її варіативність у межах популяції, а також її ситуативність і залежність від контексту спричиняють ряд перешкод на шляху до створення будь-яких формальних моделей. У зв'язку із цим особливо актуальними нам видаються спроби моделювання лінгвістичних і екстралінгвістичних знань шляхом використання категоріального апарату природної мови як особливої знакової і понятійної системи.

Корисним у цьому контексті виступає припущення щодо раціонального характеру поведінки людей загалом і мовленнєвої поведінки зокрема. Отже, моделювання мовленнєвого спілкування людини і машини повинно відбуватись із урахуванням загальних принципів раціональності. Раціональність у комунікації проявляється на багатьох рівнях. По-перше, кожна із сторін має власну мету комунікації. По-друге, сторони намагаються досягнути цієї мети і під час цього отримують нові знання. По-третє, комунікація реалізується лише за умови наявності спільних знань, які є результатом реалізації певних когнітивних механізмів, спрямованих на концептуалізацію дійсності.

Підсумовуючи запропоновані аргументи щодо доцільності введення формалізованого моделювання знань про світ за допомогою актуалізації семіотичного і когнітивного потенціалу лінгвістичних категорій до розробки мовних інтерфейсів користувача, вважаємо, що основною перевагою категоріально орієнтованого моделювання знань є науково обґрунтований потенціал мовної системи як інструменту узагальнення і трансформації дійсності.

Так, наприклад, словоформи у мовознавстві можуть бути прокласифіковані за їх внутрішньою структурою, за їх статусом у мовній системі, за способами їх реалізації у мовленні і у текстах різних жанрів, за носіями мови, які їх використовують, за хронологією вжитку, за ареалом розповсюдження і за школами писемності.

Усі зазначені види категоріальної класифікації передбачають неодноразову перекласифікацію одного і того ж мовного матеріалу за різними параметрами. Отже, лінгвістичні категорії мовної одиниці дозволяють змоделювати різни типи знань (значень) стосовно неї. Однак вибір і актуалізація кожного виду цих знань відбуватиметься у конкретному виді дискурсу, оскільки саме комунікативний аспект формалізації і моделювання знань у дискурсі є прерогативним і дозволяє розв'язати проблему неоднозначності.

Такий підхід дозволить максимально використати сумарний досвід досліджень у галузі теоретичного мовознавства, і, водночас, сприятиме спеціальному вивченню різних видів дискурсу, серед яких особливе місце належить дискурсу програмного забезпечення.

Отже, саме цей вид дискурсу передбачає ведення мовленнєвого (усного або письмового) спілкування двох суб'єктів, один з яких є комп'ютерною системою. Комунікація між ними здійснюється шляхом використання обмеженої кількості мовних одиниць і конструкцій, вибір яких, як доводять експериментальні дослідження, залежить від їх категоріальної приналежності і здатності брати участь у когнітивному моделюванні дійсності. Подальші дослідження у цій галузі дозволять використання категоріального апарату мовної системи як універсального засобу комп'ютерного кодування різних типів знань, що сприятиме інтегративним процесам між сучасними прикладною і теоретичною лінгвістиками.

Література

1. Алексеева. И.Ю. Человеческое знание и его компьютерный образ. М.: Наука, 1992.

2. Арутюнова Н.Д. Дискурс // Лингвистический энциклопедический словарь. - М., 1990. - С. 136-137

3. Бацевич Ф. С. Текст, дискурс, речевой жанр: соотношение понятий // Вісник Харківського університету. Серія Філологія - № 520. - Вип. 33. - Харків, 2001. - С. 3-8.

4. Бєлова А.Д. Поняття «стиль», «жанр», «дискурс», «текст» у сучасній лінгвістиці //Вісник Київського національного університету. Іноземна філологія. - 2002. - № 32. - С. 10-13

5. Біскуб І.П. Концептуалізація лінгвістичної інформації в комп'ютерних лексиконах // Мовні і концептуальні картини світу. Збірник наукових праць. - Київський університет імені Тараса Шевченка. - № 10. - Київ. - 2004. - С. 37-45

6. Дейк Т. А. ван. Язык. Познание. Коммуникация - М.: Прогресс, 1989. - 307 с.

7. Chomsky N. Aspects of the Theory of Syntax. - Cambridge, MA: MIT Press, 1965

8. Pollard C., Sag I.A. Head-Driven Phrase Structure Grammar. - Chicago: The University of Chicago Press, Center for the Study of Language and Information, 1994

9. Schreiber A.T.H., Akkermans J.M., Anjewierden A., De Hoog R., Shadbolt N., Van de Velde W., Wielinga B. Knowledge Engineering and Management: The CommonKADS Methodology. - Cambridge, MA: MIT Press, 2000

10. Studer R., Benjamins V.R., Fensel D. Knowledge engineering, principles and methods // Data and Knowledge Engineering. - № 25. - 1998. - P. 161-197.

Размещено на Allbest.ru

...

Подобные документы

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.