Моделі та методи лінгвістичного аналізу тексту інтелектуальної системи оцінювання знань
Основні підходи до інформатизації та інтелектуалізації систем оцінювання знань. Проблеми автоматичного лінгвістичного аналізу тексту в контексті систем оцінювання знань. Специфіка методики дослідження моделювання процедур лінгвістичного аналізу тексту.
Рубрика | Иностранные языки и языкознание |
Вид | дипломная работа |
Язык | украинский |
Дата добавления | 20.10.2018 |
Размер файла | 5,2 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Відповідно до поставленої мети та завдань дослідження в дисертаційній роботі використано комплекс методів та процедур дослідження, таких як загальнонаукові методи (аналізу, синтезу, індукції, дедукції, моделювання, узагальнення), теоретичні (формалізації, історичний, логічний методи), емпіричні (спостереження, описові методи, вимірювання, експеримент) методи наукового пізнання, так і лінгвістичні методи, які конкретно в галузі прикладної лінгвістики характеризуються інтеграцією із методологією інших наук (математики, кібернетики, психології, інформатики тощо) у зв'язку із характерним для мовознавчих досліджень принципом експансіонізму.
Серед лінгвістичних методів широкого застосування у дисертаційному дослідженні набув структурний метод, який дозволяє аналізувати організацію мовної системи в парадигмі її інваріантних одиниць (грамем, морфем, лексем, синтаксем) і відношень між ними, як синтагматичних так і парадигматичних. За допомогою конструктивного методу здійснювалося моделювання лінгвістичного аналізу природномовної інформації, зокрема її семантичне представлення в інтелектуальній системі оцінювання знань. Прикладний характер лінгвістичних досліджень тексту детермінує застосування також і лінгвостатистичних методів, зокрема методу латентно-семантичного аналізу для виявлення прихованих асоціативно-семантичних залежностей у природномовних текстах відповіді студентів та еталонних варіантів. Важливу складову дослідження процесів розпізнавання та обробки природної мови складають також методи математичної лінгвістики (комбінаторні методи, методи теорії інформації, формальних граматик, алгоритмів, нечітких множин, математичної логіки), кібернетики і штучного інтелекту.
Важливою властивістю методів прикладної лінгвістики, на відміну від теоретичної та описової, є оптимізація, що передбачає дослідження та опис проблемної галузі для певної конкретної задачі. Тобто прикладний опис включає:
- складання технічного завдання;
- аналіз проблемної галузі;
- формування метамови, способів опису проблемної галузі;
- застосування метамови і, як результат, представлення (модель) проблемної галузі;
- перевірка результату роботи (комп'ютерна реалізація, експеримент) [73, с. 628; 13, с. 7].
З метою комплексного дослідження інтелектуальної систем оцінювання знань загалом та системи аналізу тексту зокрема як єдиного цілого із узгодженим функціонуванням усіх елементів і частин, було застосовано системний підхід. Відповідно до цього підходу необхідно дослідити кожний елемент системи у його зв'язку і взаємодії з іншими елементами, виявити вплив властивостей окремих частин системи на її поведінку загалом, встановити емерджентні властивості системи і визначити оптимальний режим її функціонування [163, с. 10]. Для цього потрібно виконати операцію декомпозиції системи на системи нижчого рівня (підсистеми), які почасти є досить різнорідними, досліджувати їх потрібно автономно, але з обов'язковим урахуванням подальшого узгодження цілей кожної підсистеми із загальною метою системи [163, с. 11].
Системний підхід у нашому дослідженні застосовано у двох аспектах. Перший з них стосується функціонально-структурної декомпозиції загалом і передбачає виділення ряду підсистем (забезпечувальні підсистеми: моделювання, програмна, алгоритмічна, технічна, інформаційна; підсистема представлення знань та лінгвістична підсистема). Другий аспект фокусується на функціонально-структурній декомпозиції лінгвістичної підсистеми, що приводить до визначення її компонентів: графематичного, морфологічного, передсинтаксичного, синтаксичного, постсинтаксичного, семантичного, прагматичного аналізу. Такий підхід дозволяє поелементно побудувати та проаналізувати структуру кожної підсистеми в контексті розв'язання єдиного наукового завдання дослідження.
Як відзначалося, письмову відповідь студента ми формалізуємо моделлю нечіткої лінгвістичної змінної. Для оперування об'єктами такого типу необхідні алгоритмічні засоби, спроможні здійснювати перевірку граматики та орфографії, на основі чого формується образ відповіді та його порівняння з еталонними лінгвістичними змінними бази знань. База знань представляє собою розгалужену структуру інформації предметної сфери.
Виходячи з мети дисертаційного дослідження - удосконалення моделей та методів лінгвістичного аналізу природномовного тексту та створення на цій основі автоматизованих лінгвістично-програмних засобів, придатних для застосування в системах оцінювання знань студентів з природничих, військово-спеціальних та гуманітарних дисциплін, - процес дослідження було організовано в декілька етапів, як це продемонстровано на рисунку 2.3.
На першому етапі було проаналізовано існуючі на сучасному рівні розвитку освіти системи оцінювання знань студентів вищих навчальних закладів із застосуванням методів спостереження, аналізу, синтезу, порівняння, узагальнення, описового методу, дедуктивно-індуктивного методу. Відповідні результати представлено у розділі 1.
На другому та третьому етапах , відповідно, було визначено концепцію побудови та розроблено функціональну структуру лінгвістичної підсистеми інтелектуальної системи оцінювання знань. Для побудови концептуальної моделі дослідження було застосовано метод моделювання.
Рисунок 2.3 - Структурно-логічна схема дослідження
Размещено на http://www.allbest.ru/
Також було використано елементи структурного методу, зокрема методику дистрибутивного аналізу для встановлення характеристик і функціональних властивостей мовної одиниці на підставі її оточення, методику аналізу безпосередніх складників для здійснення синтаксичного аналізу, методикукомпонентного аналізу орієнтовану на розроблення моделей семантичного аналізу текстової інформації. Відповідні результати представлено у розділі 2 та частково у розділі 3.
На наступному, четвертому етапі було розроблено технології, моделі та алгоритми лінгвістичного аналізу тексту інтелектуальної системи оцінювання знань. Це передбачало використання таких методів дослідження, як: конструктивний метод для інтерпретації значення за допомогою визначення елементарних складників і зв'язків між ними, моделювання пропозицій у семантичному й логічному аналізі природної мови, фреймів, представлення інформації в автоматизованих системах аналізу й розпізнавання природної мови; зіставний метод спрямовано на встановлення спільних і відмінних рис між текстами відповіді та зразка на різних мовних рівнях (морфологічному, синтаксичному, семантичному); лінгвоаналітичні (методи графематичного, морфологічного, передсинтаксичного, синтаксичного, семантичного аналізу), статистичні (латентно-семантичний аналіз), математичні методи (теорії нечітких множин, формалізації, математичного моделювання) та методи штучного інтелекту - для розроблення алгоритмів аналізу та порівняння текстів. Відповідні результати представлено у розділі 3.
На п'ятому та шостому етапах дослідження, відповідно, було створено бази даних (знань) та розроблено програмно-алгоритмічне забезпечення інтелектуальної системи оцінювання знань із застосуванням методів об'єктно-орієнтованого програмування та методів розпізнавання, вилучення, формалізації. Результати роботи цих етапів представлено у розділі 4.
Запропонована методика дослідження моделювання процедур лінгвістичного аналізу тексту в інтелектуальній системі оцінювання знань дозволить удосконалити моделі та методи лінгвістичного аналізу природномовного тексту в системах оцінювання знань студентів, що, у свою чергу покращить якість та ефективність контролю знань з природничих, військово-спеціальних та гуманітарних дисциплін завдяки можливості опрацьовувати та оцінювати відповіді на запитання відкритого типу, подані у довільній текстовій формі.
Висновки до розділу 2
Сучасний рівень розвитку інформаційно-комунікаційних технологій відкриває можливості створення інтелектуальних автоматизованих систем оцінювання знань. Методологічну основу таких систем складають технології лінгвістичного аналізу тексту, методи теорії нечітких множин, штучного інтелекту та математичного моделювання, зокрема, нечітка логіка і теорія експертних оцінок тощо. Процес обробки та аналізу природномовних текстів ускладнюється явищами нечіткості та неоднозначності природномовної інформації, (полісемії, омонімії тощо), чим обумовлено питання виникнення проблеми формального представлення семантичної структури тексту, розв'язання якої може бути здійснено засобами семантичного аналізу.
На сьогодні в напрямку комп'ютерної обробки природномовних текстів виділяють два основні підходи: лінгвістичний і статистичний. Найбільш перспективними та ефективними з них визнано, відповідно, експліцитні методи семантичного аналізу текстової інформації (алгоритми онтологічного семантичного аналізу) та методи латентно-семантичного аналізу. Саме ці методи дозволяють визначити та побудувати смислову структуру природномовного тексту у формалізованому вигляді.
Експліцитні методи аналізу природномовної інформації ґрунтуються на побудові бази знань предметної галузі, зокрема на побудові основної її частини - онтології. Алгоритми онтологічного семантичного аналізу широко застосовують лінгвістичні бази знань у поєднанні із процедурами токенізації, лексико-морфологічного, синтаксичного та семантичного аналізу.
Іншим ефективним і актуальним засобом вилучення семантики із тексту та її представлення є метод латентно-семантичного аналізу, який є теорією і методом екстракції і представлення контекстно-залежного змісту слів шляхом статистичної обробки великого корпусу текстів. Метод ЛСА дозволяє визначити асоціативну і семантичну близькість та вирахувати кореляції між двома термами, двома документами, або між термом і документом.
У рамках дослідження нами було розроблено лінгвістичну підсистему інтелектуальної системи оцінювання знань студентів, у якій реалізовано інтеграцію методів експліцитного семантичного аналізу, латентно-семантичного аналізу, нечіткої логіки, штучного інтелекту та ін. Для виділення семантики із природномовної текстової відповіді та її порівняння із еталонним варіантом у розробленій ІСОЗ застосовано метод латентного семантичного аналізу, який дозволяє на підставі оцінки кореляції між словами та текстами зробити висновок про ступінь близькості змісту цих слів чи групи слів. У рамках дисертаційного дослідження розроблено метод нечіткого семантичного порівняння за змістом розгорнутих відповідей студентів, поданих в електронному вигляді, з варіантами правильних відповідей в XML-форматі. Розроблений алгоритм застосовується під час здійснення латентно-семантичного аналізу на етапі формування частотної матриці індексованих слів (терм) і передбачає автоматизоване визначення лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Процедуру стемінгу було замінено на лематизацію текстових одиниць. Вихідним для дії автоматичного лематизатора є текст, всім словам якого присвоєно коди граматичних класів та підкласів. Для порівняння нечітких лексичних одиниць запропоновано використовувати удосконалену метрику Левенштейна, що дозволяє встановлювати ступінь відповідності тексту відповіді тому тексту, що міститься у базі даних предметної сфери. Для формування загальної оцінки відповіді на тестові завдання використовується комплексний показник, у якому враховано наявність у відповіді слів, присутніх у зразку (в тому числі й за умови нечіткості), відповідність структур зразка і відповіді (порядку слів). У концептуальній моделі порівняння текстової інформації за змістом на етапах семантичного та прагматичного аналізу запропоновано також застосовувати моделі штучного інтелекту, зокрема нейромережі.
Відповідно до поставленої мети та завдань дослідження в дисертаційній роботі використано комплекс методів та процедур дослідження, таких як загальнонаукові методи (аналізу, синтезу, індукції, дедукції, моделювання, узагальнення), теоретичні (формалізації, історичний, логічний методи), емпіричні (спостереження, описові методи, вимірювання, експеримент) методи наукового пізнання, так і лінгвістичні методи, які конкретно в галузі прикладної лінгвістики характеризуються інтеграцією із методологією інших наук (математики, кібернетики, психології, інформатики тощо) у зв'язку із характерним для мовознавчих досліджень принципом експансіонізму.
Серед лінгвістичних методів широкого застосування у дисертаційному дослідженні набув структурний та конструктивний методи, а також лінгвостатистичні методи. Важливою властивістю методів прикладної лінгвістики, на відміну від теоретичної та описової, є оптимізація, що передбачає дослідження та опис проблемної галузі для певної конкретної задачі. З метою комплексного дослідження інтелектуальної систем оцінювання знань загалом та системи аналізу тексту зокрема як єдиного цілого із узгодженим функціонуванням усіх елементів і частин, ми застосовували системний підхід.
Отже, запропонована методика дослідження моделювання процедур лінгвістичного аналізу тексту в інтелектуальній системі оцінювання знань дозволила створити ефективний інструментарій для обробки природномовної текстової відповіді студентів, а саме удосконалити моделі та методи лінгвістичного аналізу природномовного тексту в системах оцінювання знань студентів, зокрема вирішити проблему обробки природномовних відповідей студентів на запитання відкритого типу.
Основні положення розділу опубліковані в працях автора [60; 61].
РОЗДІЛ 3. ЛІНГВІСТИЧНА ПІДСИСТЕМА ІНТЕЛЕКТУАЛЬНОЇ СИСТЕМИ ОЦІНЮВАННЯ ЗНАНЬ
3.1 Метод семантичного порівняння нечіткої текстової інформації. Удосконалення методу латентно-семантичного аналізу
Оскільки основним завданням “Інтелектуальної автоматизованої системи контролю знань студентів у вищих навчальних закладах” є автоматичний аналіз текстів відповідей на предмет їхньої правильності та відповідності навчальному контенту, то для виконання цього завдання необхідні, насамперед, моделі і методи формалізованого опису лінгвістичної структури, на підставі та з використанням яких здійснюється розроблення відповідних алгоритмів аналізу.
Таким чином, розв'язання поставленого завдання передбачає виконання декількох кроків, які мають цілком визначений і лінгвістичний і системотехнічний смисл, а саме: автоматичну конвертацію відповіді студента природною мовою до внутрішньосистемної репрезентації, екстракцію лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Здійснення вказаних кроків ускладнюється тією обставиною, що паралельно необхідно усувати помилки, наявні у вихідному тексті (неправильні закінчення, нестандартні скорочення тощо).
Одним із засобів логічної семантики, що досліджує проблеми інтерпретації формалізованої мови з метою подолання семантичних парадоксів, є теорія нечіткої логіки (fuzzy logic), запропонована американським математиком Лотфі Заде у 1965 році у праці “Fuzzy sets” (“Нечіткі множини”) [209] та розвинений науковцями Е. Мамдані [196; 197], А. Кофманом [81], А. Н. Борисовим, А. В. Алексєєвим, Г. В. Меркурьєвою [109], Д. Рутковською [128], А. П. Ротштейном [123], В.А.Широковим [158] та іншими вченими.
Класична логіка має суттєве обмеження - неможливість формалізувати асоціативне, нечітке мислення людини, оперуючи лише двома поняттями, що виражають логічну дихотомію. Одним із шляхів розв'язання такої проблеми лінгвістичної невизначеності є застосування понять нечіткої логіки, зокрема нечітких множин і лінгвістичних змінних, що ґрунтуються на функції належності з застосуванням терм-множини значень і лінгвістичних термів факторів. Як зазначає Л. Заде, лінгвістичною називають змінну, значеннями якої є слова і вирази, виражені природною чи штучною мовою [210]. Наприклад, якщо висловлення про щось має відтінок нечіткості, то його можна характеризувати як істинне, дуже істинне, не дуже істинне, хибне, дуже хибне, не дуже хибне тощо.
Ще одним проявом нечіткості природномовних висловлювань, а конкретно, письмових текстових відповідей студентів, є неправильне написання слів (пропуск, вставка, транспозиція букв), вживання нестандартних скорочень тощо, що загалом не впливає на семантичне наповнення та, відповідно, на правильність відповіді, проте розцінюється традиційними системами тестування як помилка і, як результат, істотно знижує якість оцінювання.
У дисертаційному дослідженні запропоновано застосувати до лінгвістичних об'єктів методи нечіткої логіки як інструмент, що дозволяє певним чином формалізувати процес обробки природномовної відповіді студентів, поданої в довільній формі та процедуру її оцінювання.
Моделювання природної мови здійснюється на різних рівнях. Найбільш складними для моделювання є рівні, на яких ведеться робота із семантикою окремих одиниць і тексту загалом. Нетривіальні зв'язки між структурою тексту та його значенням (смислом) не дають можливості побудови навіть простих моделей опрацювання текстової інформації без урахування значень елементів, що складають текст. Велика кількість сучасних досліджень у сфері штучного інтелекту спрямована на розробку моделей семантики, які дозволять зробити якісний стрибок у семантичній інтерпретації текстів і поліпшити результати практичної роботи систем обробки текстової інформації.
Наведені положення обумовлюють актуальність досліджень, пов'язаних з подальшим розвитком та вивченням формалізації семантики природної мови. Дослідження, проведені в цій роботі, спрямовані на створення формальної моделі семантики та її застосування для побудови ядра інформаційної технології семантичного аналізу тексту, яка дозволить покращити якість аналізу текстів природної мови за рахунок детального аналізу багатозначності слів.
У системах тестового контролю для семантичного порівняння текстів відповіді та зразка застосовуються різні методи, одним з найефективніших з яких, на нашу думку, є метод латентно-семантичного аналізу. Принцип дії цього методу полягає у визначенні ступеня подібності за змістом текстів на підставі оцінки кореляції між різними текстовими одиницями. Проте, метод ЛСА для цілей цієї роботи необхідно вдосконалити, оскільки він не враховує суттєву лінгвістичну інформацію (не враховує порядок слів у реченні, ключові слова, помилки, і, як наслідок, нівелюються синтаксичні відношення, логіка та морфологія).
Роботу із удосконалення методу ЛСА у відзначених аспектах виконано в рамках науково-дослідних робіт [48; 115]. Робота лінгвістичної системи базується на алгоритмі порівняння за змістом розгорнутих відповідей студентів, представлених в електронному вигляді, з варіантами правильних відповідей, представлених в XML-форматі. Цей алгоритм надалі використовується при здійсненні латентно-семантичного аналізу і забезпечує автоматизоване формування індексу лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу, за результатами яких порівнюються представлені відповіді з варіантами правильних відповідей з бази знань.
У розробленій лінгвістичній підсистемі запропоновано алгоритм семантичного порівняння нечіткої текстової інформації (відповідей на запитання, що подані студентом природною мовою в довільній формі, із варіантами правильних відповідей), в якому формалізовано опис лінгвістичної структури навчального контенту та відповіді.
Розроблений алгоритм передбачає автоматичну конвертацію відповіді студента природною мовою до внутрішньо-системного вигляду, екстракцію лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Застосування розробленого алгоритму дозволяє усувати помилки, що можуть бути у вихідному тексті (неправильні закінчення, нестандартні скорочення тощо), визначати належність вихідного тексту до певної предметної сфери, формувати загальну оцінку відповіді на питання за комплексним показником, у якому враховується присутність у відповіді слів, які є у зразку (у тому числі за умови нечіткості), відповідність структур зразка і відповіді (порядку слів).
Також у лінгвістичній підсистемі удосконалено алгоритм методу латентно-семантичного аналізу, що передбачає на етапі формування частотної матриці індексованих слів застосування алгоритму нечіткого семантичного порівняння текстової інформації, внаслідок чого індексовані слова (терми) замінюються лексичними одиницями із баз даних, що містять перелік слів в усіх відмінках, перелік скорочень та значень абревіатур словосполучень, перелік ключових слів, котрі використовуються для опису процесів і явищ предметної сфери. Процедуру стемінгу замінено лематизацією [110] на основі результатів автоматичного морфологічного аналізу текстів задля забезпечення більш високої якості роботи алгоритму. Застосовано алгоритми нечіткого пошуку, а саме удосконаленого варіанту метрики Левенштейна для виправлення некоректних слів. Запропоноване суттєво розширює прикладне та наукове значення удосконаленого методу латентно-семантичного аналізу [57].
Розглянемо детальніше роботу методу нечіткого семантичного порівняння текстової інформації, що передбачає послідовне виконання наступних кроків:
1. Формування баз даних вихідної інформації предметної сфери: “Словозмінний словник”, “Абревіатури”, “Скорочення”, “Власні назви”, “Фрейми”, “Ключ” (перелік ключових слів предметної сфери) тощо. Оскільки зазначений метод аналізу тексту передбачає виявлення латентних (прихованих) асоціативно-семантичних залежностей при обробці великих масивів інформації, бази даних необхідно наповнити великою кількістю різних документів предметної галузі, зокрема навчально-методичним забезпеченням, електронними підручниками, варіантами відповідей, довідковими матеріалами тощо.
2. Конверсія відповіді до внутрішньосистемного вигляду: заміна регістру, видалення службових символів, зайвих пробілів тощо.
3. Графематичний аналіз, який є передумовою для здійснення усіх наступних етапів лінгвістичного аналізу тексту та забезпечує виділення синтаксичних та структурних одиниць із вхідного тексту: абзаців, речень, окремих слів та розділових знаків. Робота цього модуля виглядає наступним чином. Спершу графематичний аналіз за заданими критеріями виділяє абзаци. Далі виділяється рядок до першого розділового елемента (крапки, пробілу, переведення рядка, іншого розділового знака). У разі, якщо рядок складається лише із цифр, то його помічають позначкою “числівник” та відправляють у проміжний масив. У решті випадків рядок надходить до етапу ділення складених слів у морфологічному блоці [4].
Для усунення неоднозначності крапки, що може бути ознакою не лише кінця речення, а ще й скорочення, необхідно вводити правила аналізу скорочень, враховуючи їхні змінні та незмінні параметри. Проблему скорочень на цьому етапі також допомагає вирішити розглянута далі та використана нами метрика Левенштейна.
Після усунення зайвих крапок і встановлення маркерів про можливе закінчення речення відбувається його поділ на окремі слова та нерозривні словосполучення (наприклад, “для того, щоб”, “таким чином”), які далі доцільно обробляти як одну словоформу.
4. Морфологічний аналіз. Після здійснення графематичного аналізу інформація надходить до блоку морфологічного аналізу, завданням якого є нормалізація словоформ та отримання граматичної інформації про них. До інструментарію цього різновиду аналізу входять різні словники, які містять лексичний репертуар та морфемну структуру лексичних одиниць, словозмінні парадигми тощо, а також безсловникові методи, які дозволяють здійснювати розбиття слова на морфеми за заданими алгоритмами, забезпечувати віднесення слів до словозмінних парадигматичних класів, виконувати процедури лематизації (редукції текстових словоформ до початкових, вихідних форм тощо). На цьому ж етапі частково здійснюється і граматичний аналіз, тобто ідентифікація лексико-граматичних класів та значень граматичних категорій текстових слів.
5. Порівняння нечіткої текстової інформації. Цей етап аналізу здійснюється, перш за все, з метою подолання нечіткості природномовних відповідей студентів і складається з послідовності наступних процедур:
5.1. Здійснюється розподіл тексту відповіді на окремі слова. Слова подаються як окремі словоформи. Вони мають властивість нечіткості, оскільки, відповідаючи на запитання, студент може випадково у слові зробити помилку, вжити неправильні закінчення, нестандартне скорочення, абревіатуру тощо. Тоді кожне і-те речення представлятиме вектор лексичних одиниць:
. (3.1)
Текст відповіді формалізовано подається у вигляді матриці лексичних одиниць:
, (3.2)
де - номер речення у відповіді; - номер лексичної одиниці у реченні. Запис xij означає x(ij gij), де gij - індекс граматичного значення одиниці х у позиціїij.
5.2. Формування бази даних лінгвістичних змінних вихідного тексту (табл. 3.1).
Таблиця 3.1 - База даних лексичних одиниць вихідного тексту
Код запису |
Номер речення |
Значення лінгвістичних змінних |
Кількість змінних |
||||||
N |
i |
xv11 |
xv12 |
… |
xvij |
… |
xv1k |
kvi |
|
… |
5.3. Формування бази даних лінгвістичних змінних тексту еталонної відповіді (табл. 3.2), з яким порівнюється текст відповіді - матриця (3.2).
Таблиця 3.2 - База даних лексичних одиниць тексту оригіналу
Код запису |
Номер речення |
Значення лінгвістичних змінних |
Кількість змінних |
||||||
N |
i |
xk11 |
xk12 |
… |
xkij |
… |
xk1k |
kki |
|
… |
Текст еталонної відповіді представляє матрицю лексичних одиниць:
. (3.3)
5.4. Здійснюється порівняння лексичних одиниць, що містяться у матриці XV (3.2) - базі даних вихідного тексту, зі словами, що містяться у базах даних “Словозмінний словник”, “Абревіатури”, “Скорочення”, “Власні назви” тощо. Для цього застосовуємо так звану метрику Левенштейна, що дозволяє розпізнавати та виправляти слова, написані з помилками (вставки, заміни, пропуску, транспозиції). Перевагою даного методу також є те, він дозволяє встановлювати обмеження на кількість можливих у відповіді помилок, що сприяє адекватному оцінюванню знань тих, хто навчається.
На цьому кроці також здійснюється оцінка подібності між матрицями XV (3.2) та VK (3.3). Така оцінка передбачає пошук кількості лінгвістичних одиниць, що належать до обох матриць, та кількості ключових слів, які присутні у матриці (3.2) та базі даних “Ключ”. Крім того, проводиться оцінка збігу порядку слів у матрицях (3.2) та (3.3).
При нечіткому порівнянні використовується метрика Левенштейна, алгоритм застосування якої ми наведемо пізніше.
Рисунок 3.2 - Приклад роботи одного з етапів системи.
На підставі оцінок, одержаних на п'ятому кроці, приймається рішення щодо ступеня відповідності тексту відповіді з текстом, що міститься у базі даних предметної сфери. Для формування загальної оцінки відповіді на питання використовується комплексний показник, у якому враховується: наявність у відповіді слів присутніх у зразку (з урахуванням нечіткості), відповідність структур зразка і відповіді (порядку слів). Кожен із часткових показників нормується і їм присвоюються вагові коефіцієнти [47].
Графічне зображення алгоритму методу нечіткого семантичного порівняння за змістом розгорнутих відповідей наведено на рисунку 3.3.
Размещено на http://www.allbest.ru/
Рисунок 3.3 - Алгоритм методу нечіткого семантичного порівняння за змістом розгорнутих відповідей.
Таким чином, розроблений алгоритм надає можливості порівнювати за змістом тексти - відповіді на запитання, що подані студентом, з варіантами правильних відповідей. Розроблений алгоритм передбачає автоматизоване формування лексичних одиниць тексту з подальшим здійсненням морфологічного, синтаксичного, семантичного та прагматичного аналізу. Для порівняння нечітких лексичних одиниць використовується метрика Левенштейна.
Алгоритм аналізу рядків. Для нечіткого порівняння рядків можливо застосувати підхід, орієнтований на визначення метрики і обчислення відстані між рядками [122; 165; 182]. Такий підхід передбачає, що чим більшою є відстань між рядками, тим більшою є відмінність. Оскільки в комп'ютері текстова інформація кодується числами, кожний текстовий рядок представляє собою вектор в N-вимірному просторі, де N - кількість символів в рядку [47].
Функція d(x,y) для обчислення відстані між двома векторами x та y повинна мати такі властивості:
- невід'ємність: d(x,y)?0 x,y ;
- властивість нуля: d(x,y) = 0 x = y ;
- симетричність: d(x,y) = d(y,x) x,y ;
- нерівність трикутника: d(x,z)d(x,y) + d(y,z) x,y,z.
Відповідно до наведених властивостей існує можливість побудувати багато різних метрик, однією, з яких є Евклідова метрика:
.
Проте для завдання обробки текстової інформації така метрика є не досить зручною. Кількість символів, які студент використовує у відповіді на тестове питання не є константою. Тому виникає потреба порівнювати рядки різної довжини і, відповідно, розмірності просторів, в яких вони знаходяться [47]. Для цього у дослідженні запропоновано застосовувати метрику Левенштейна [92; 195], що дозволяє розв'язати цю проблему.
Однак, застосування метрики Левенштейна для нечіткого порівняння відповіді зі зразком у процесі тестування має досить суттєвий недолік. При незначних відхиленнях відповіді від зразка відстань за Левенштейном є невеликою. Проте, якщо в реченні присутній зайвий пропуск, вставка, перестановка слів або інші відхилення, несуттєві з огляду на зміст, інколи отримується значна відстань. У той же час на коротких текстових рядках (одне слово), цей підхід до порівняння показав задовільні результати. Все це свідчить про те, що безпосереднє застосування метрики Левенштейна для перевірки і оцінки відповідей у тестових системах не є ефективним. Тому для нечіткого порівняння текстової інформації у відповідях в ході тестування було розроблено алгоритм, у якому і зразок і відповідь розбиваються на окремі слова. Після чого проводиться нечіткий пошук збігів за словами між зразком і відповіддю, для чого застосовується алгоритм Левенштейна. На основі інформації про збіг слів формується оцінка, яка в подальшому є складником і формантом загальної зваженої оцінки відповіді. При незначних відхиленнях у відповіді від зразка виставляється оцінка близька до максимальної. Навіть при незначних спотвореннях речення, коли його зміст не втрачається, оцінка відповіді є високою. З іншого боку, коли надана відповідь не відповідає зразку, виставляється низька оцінка, яка
за 100-бальною шкалою прямує до 0 [47].
Деякі відомі алгоритми порівняння фрагментів текстів наведено у додатку А.
Отже, під час перевірки відповіді, наданої у текстовому форматі природною мовою, використовується алгоритм нечіткого порівняння, розглянутий вище, робота якого полягає у такому:
1) зразок і відповідь приводяться до одного регістру (верхнього) і видаляються службові символи;
2) здійснюється розбиття зразка і відповіді на окремі слова;
3) для формування загальної оцінки відповіді на питання використовується комплексний показник, в якому враховується: наявність у відповіді слів присутніх у зразку (з урахуванням нечіткості), відповідність структур зразка і відповіді (порядку слів).
У розглянутому вище алгоритмі метрика Левенштейна застосовується на кроці 5.4. Наприклад, даючи відповідь на запитання тесту, студент замість слова “рентабельність” випадково написав “ренаббельніст”. Тоді за алго-ритмом Левенштейна можна побудувати таблиці перетворень (табл. 3.3; 3.4).
Таблиця 3.3 - Вихідна таблиця розбіжностей за метрикою Левенштейна
M |
M |
M |
I |
D |
M |
M |
M |
M |
M |
M |
M |
M |
I |
|
Р |
е |
н |
а |
б |
б |
е |
л |
ь |
н |
і |
с |
т |
||
Р |
е |
н |
т |
а |
б |
е |
л |
ь |
н |
і |
с |
т |
ь |
Таблиця 3.4 - Таблиця перетворень за метрикою Левенштейна
M |
M |
M |
I |
D |
M |
M |
M |
M |
M |
M |
M |
M |
I |
||
0 |
р |
е |
н |
а |
б |
б |
е |
л |
ь |
н |
і |
с |
т |
||
1 |
р |
е |
н |
т |
а |
б |
б |
е |
л |
ь |
н |
і |
с |
т |
|
2 |
р |
е |
н |
т |
а |
б |
е |
л |
ь |
н |
і |
с |
т |
||
3 |
р |
е |
н |
т |
а |
б |
е |
л |
ь |
н |
і |
с |
т |
ь |
Примітка: D (англ. delete) - видалити, I (англ. insert) - вставити, M (match) - збіг.
Кожен з часткових показників є нормованим (в діапазоні 0?100) і з урахуванням вагових коефіцієнтів включається до узагальненого показника - нормовану оцінку за відповідь (в діапазоні 0?100). За необхідності вагові коефіцієнти можуть корегуватися з допомогою сторінки налаштувань sa.aspx (за замовченням перший показник враховується з коефіцієнтом 75, другий - 25 (значення показників було визначено на основі досліджень).
При обчисленні першого показника, обчислюється відсоток наявності слів зі зразка у відповіді. Для цього проводиться нечіткий пошук слів у відповіді по кожному слову, яке присутнє у зразку. При нечіткому пошуку використовується метрика Левенштейна. У випадку, коли відстань між словами, що обчислена за метрикою Левенштейна, є нижчою за порогове значення (визначене експериментально), слова вважаються однаковими.
У випадку наявності всіх слів зразка у відповіді перший показник дорівнює 100. Коли у відповіді немає жодного слова зі зразка, значення показника - 0.
При обчисленні другого показника, визначається наскільки порядок слів у відповіді (структура речення) збігається з порядком слів у зразку. У випадку повного збігу структури речення, значення показника - 100.
У випадку, коли при формулюванні питання тесту вказано декілька варіантів зразка відповіді, проводиться нечітке порівняння з кожним зразком і виставляється максимальна кількість балів. Це дає можливість для питань, на які можуть надаватись різні можливі варіанти вірних відповідей, внести всі ці варіанти, як зразкові.
Удосконалення алгоритму латентного семантичного аналізу. Природномовна відповідь студента потрапляє до системи оцінювання знань у XML-форматі. У подальшому цю інформацію необхідно порівняти з інформацією, що розміщена у базі знань системи. Для реалізації такої перевірки скористаємося методом латентного семантичного аналізу. Як зазначалося у попередніх розділах, зокрема у п. 2.1, застосування методу ЛСА у поєднанні з лінгвістичними технологіями аналізу тексту (морфологічного, синтаксичного, семантичного аналізу) дозволить значно покращити процедури екстракції, репрезентації та аналізу семантичних характеристик текстової відповіді. Головною ідеєю методу є можливість визначення асоціативної і семантичної близькості і вирахування кореляції між двома термами, двома документами або між термом і документом, оскільки простежується думка, що між словами і контекстом, в якому вони вживаються, існують приховані зв'язки [131; 141; 170; 183].
Необхідність застосування методу ЛСА обумовлюється наступним:
1. У більшості з широко поширених комп'ютерних систем навчання при тестуванні використовуються питання, засновані на прямому порівнянні відповіді з наперед заданим варіантом правильної відповіді. Такі тести підходять для перевірки фактологічних знань і розуміння концептуальних зв'язків у певній предметній сфері. До того ж вони не повністю придатні для оцінювання знань, пов'язаних зі здатністю студента практично демонструвати свої знання та вміння в міркуваннях, дискусіях, відповідях на питання тощо [1, с. 3].
2. Складність обробки природномовних відповідей також досить часто буває спричинена явищами омонімії, синонімії та полісемії.
3. Існує нагальна потреба у створенні ефективних технологій семантичного опрацювання природної мови, у тому числі й із застосуванням методу ЛСА для оцінювання українськомовних текстів.
Однак, метод ЛСА має один досить суттєвий недолік: він не враховує власне лінгвістичну специфіку природномовної інформації, зокрема її морфологічні та синтаксичні характеристики. Це значно впливає на якість та ефективність обробки природномовної відповіді загалом, і аналіз семантичної складової текстової відповіді зокрема. Тому класичний метод ЛСА необхідно удосконалити і застосовувати його у поєднанні з лінгвістичними методами обробки природномовної інформації для розв'язання задач дослідження.
Метод ЛСА був досить детально описаний в роботі [189] і потім розвинений в працях багатьох зарубіжних і вітчизняних фахівців [89; 112; 141; 177; 178; 194; 205 та ін.]. На сьогодні лідером в області застосування ЛСА у системах оцінювання текстових відповідей вважається компанія Pearson Knowledge Technologies. До прикладу, у 2010 році ця компанія опрацювала та оцінила більше 20 мільйонів усних та письмових відповідей по всьому світу [206, с. 3]. Однак унікальні технології застосування методу ЛСА і конкретні алгоритми його реалізації в системі оцінювання знань є комерційною таємницею, унаслідок чого здійснення імплементації цього методу в нашій системі та перевірку результатів його роботи на практиці ми змушені були виконати самостійно.
ЛСА можна розглядати в двох аспектах: як практичний прийом для отримання зразкових оцінок контекстного зв'язку слів у великих фрагментах за змістом, або оцінок смислових кореляцій між словом і набором слів (у разі присутності таких кореляцій); як комп'ютерну модель отримання та використання знань людиною, що читає текст [17, с. 16].
У методі ЛСА документ відображається як множина окремих слів, що містяться в ньому; вони формують так званий “семантичний простір”, у якому і проводяться всі подальші порівняння. При цьому в традиційних алгоритмах, що реалізують метод ЛСА, вжито такі припущення [33]:
1) документ моделюється набором наявних у ньому слів. Порядок слів у документах ігнорується. Важливо тільки те, скільки разів те чи інше слово зустрічається в документі (кратність входження). Отже, метод не враховує синтаксичні відношення, логіку та морфологію. Незважаючи на це, результати методу досить непогано відбивають смислові кореляції між словами і уривками;
2) семантичне значення документа визначається набором слів, які вживаються в одному контексті. Наприклад, у пунктах пропуску, часто зустрічаються слова: “паспорт”, “контроль”, “віза”;
3) кожне слово має лише одне значення. Це, звичайно, є сильним спрощенням, але саме воно робить проблему вирішуваною.
Алгоритм методу ЛСА.
1. Вилучення із тексту стоп-символів. Стоп-символи - слова, які зустрічаються в кожному тексті і не несуть у собі смислового навантаження, це, перш за все, всі сполучники, частки, прийменники та певні інші слова.
2. Проведення операції стемінга [144]. Стемінг (стематизація) - це процес пошуку основи слова (стеми) для заданого вихідного слова, яка необов'язково збігається з коренем або з морфологічною основою слова.
3. Вилучення слів, що зустрічаються у тексті в єдиному екземплярі (унікальних слів). Це також необов'язковий крок, він не впливає на кінцевий результат, але сильно спрощує математичні обчислення. У результаті залишаються індексовані слова.
4. Побудова частотної матриці індексованих слів. ЛСА використовує матрицю, яка описує частоту входження слів в уривках. Стовпчики матриці відповідають документам, а рядки - словам, що зустрічаються в документах. Тоді елементи матриці являють собою кількість вживань певного слова в певному уривку. Таким чином, матриця відображає зв'язки між словами і контекстами. У цій матриці рядки відповідають індексованим словам, а стовпці - документам. У кожній клітині матриці зазначено скільки разів слово зустрічається у відповідному документі. Такий підхід побудови частотної матриці відомий як BOW (bag of words). Однак існує також можливість застосування матриці TF-IDF (term frequency - inverse document frequency) як основи для здійснення сингулярного розкладу.
5. Сингулярний розклад матриці (SVD) й апроксимація її з матрицею з меншим рангом. Ця операція здійснюється з таких причин: високий ранг матриці призводить до ускладнення, а подекуди навіть і неможливості проведення обчислень із нею; вихідна матриця містить багато зайвої інформації, так звані шуми, а також є занадто розрідженою, тобто враховує терми, присутні у документі, а не пов'язані з ним. Розглянута процедура зменшує вплив синонімії, оскільки пониження рангу “зливає” розмірності, пов'язані зі словами, що мають близькі значення. Також зменшується вплив полісемії: у випадку, якщо багатозначне слово має “правильне значення”, то його елемент “зливається” з матричними елементами слів з таким же значенням. Якщо ж слово вжито в “неправильному” значенні, то відповідний елемент буде зменшений або відкинутий [139, с. 8; 193].
Відомо, що будь-яку прямокутну матрицю можна розкласти у добуток трьох матриць:
M = UЧSЧVТ,
де U і VТ - ортогональні матриці, а S - діагональна матриця. Діагональні елементи матриці S є сингулярними числами і розташовані у порядку убування.
Відомо, що якщо обрати k найбільших сингулярних значень і залишити відповідні їм сингулярні вектори з матриць U і V, то отримуємо найкращу апроксимацію матриці М матрицею рангу k:
Mk = UkЧSkЧVkТ
Отже результатом виконаних операцій є відображення структури асоціативних залежностей, що приховано містяться у вихідній матриці, та водночас нівелювання характерних великим корпусам документів шумів.
Ми пропонуємо удосконалити метод ЛСА при обробці текстової відповіді на етапі стематизації (п. 2 алгоритму). Це пояснюється тим, що результати стемінгу іноді дуже схожі на визначення кореня слова, але його алгоритми базуються на інших принципах. Тому слово після обробки алгоритмом стемінгу (стематизації) може відрізнятися від морфологічного кореня слова. Наприклад, слово “пальне” перетвориться на “пал” замість вірної форми “пальн”. Тому враховуючи особливості мови набір правил по відсіченню закінчень та суфіксів може бути досить складним. До недоліків також слід віднести обробку винятків, коли базові слова мають змінну форму. Наприклад, слова “бігом” та “біжу” повинні мати після стемінгу однаковий вигляд “біг”, але простим відсіканням закінчення це не можливо зробити. Алгоритм вимушений враховувати такі ситуації - це призводить до ускладнення правил, і врешті-решт негативно впливає на ефективність [144].
На нашу думку, доцільніше використовувати на даному етапі алгоритму більш комплексний підхід, що базується на визначенні основи слова шляхом лематизації або процесу зведення словоформ до їхньої канонічної (словникової) форми - леми (від лат. lзmma “заголовок; тема твору”). В алгоритмі лематизації враховано можливі форми-омографи, суплетивні форми. [49, с. 81] На першому кроці цього алгоритму за результатами морфологічного аналізу тексту комп'ютер визначає для кожної словоформи її граматичні характеристики та здійснює лематизацію текстових форм. Ці операції дають змогу організовувати слова за частинами мови. На другому кроці, до слова застосовуються правила стемінгу відповідно до частини мови. Тобто слова “пальне” та “вітальне” мають проходити через різні ланцюжки правил, тому що “пальне”-іменник, а “вітальне”- прикметник. Отже, алгоритми стемінгу, що базуються на лематизації мають високу якість і мінімальний відсоток помилок [110].
Удосконалення алгоритму методу ЛСА полягає ще й у тому, що на етапі формування частотної матриці індексованих слів (терм) - п. 4 алгоритму, застосовується алгоритм нечіткого семантичного порівняння текстової інформації (розглянутий у розділі 2.2), унаслідок чого індексовані слова (терми) перевіряються на відповідність лексичними одиницями із баз даних: “Словник”; “Абревіатура”; “Власні назви”, “Ключ” (містить перелік ключових слів предметної сфери) тощо із врахуванням нечіткості.
Застосування запропонованого підходу надає можливість:
1) виявляти приховані асоціативні залежності у текстах відповідей та еталонних варіантах;
2) використовувати автоматичні процедури лематизації, або виведення канонічних форм змінюваних слів на основі результатів автоматичного морфологічного аналізу текстів задля забезпечення більш високої якості дії алгоритму;
3) застосовувати алгоритми нечіткого пошуку, а саме метрики Левенштейна, з метою виправлення слів, що написані студентом з помилками;
4) враховувати порядок слів у документах, синтаксичні відношення, логіку побудови терм у контексті предметної сфери;
5) враховувати омонімію, синонімію та полісемію.
Зазначене значно розширює прикладне й наукове значення удосконаленого методу латентно-семантичного аналізу.
Програмна реалізація методу ЛСА. Для програмної реалізації ЛСА будо обрано системи програмування Java, C++. У якості вихідних даних використовується файл, що містить уривки тексту і ключові слова. Дані у файлі представлені у форматі XML, що дозволяє використовувати при роботі з файлом стандартні бібліотеки. Після обробки даного файлу програма формує ієрархічну структуру з вузлів, з якої, у свою чергу, виокремлюються вихідні дані для роботи алгоритму ЛСА: набір фрагментів тексту, набір ключових слів або словоформ тощо. Таким чином, XML-файл слугує проміжною формою зберігання оброблюваних текстів, зручною для вирішення поставленого завдання.
Наступним кроком є формування матриці вживаності: відбувається підрахунок кількості вживань словоформ в уривках тексту і відкидаються рядки і стовпці, що містять тільки нульові значення. При виконанні сингулярного розкладання використовується бібліотека JAMA. Ця вільно розповсюджувана бібліотека дозволяє виконувати основні операції з матрицями (додавання, множення, транспонування, сингулярне розкладання і т.д.). Після виконання сингулярного розкладання і пониження рангу (ранг матриці визначається користувачем і задається у вхідному XML-файлі) матриця аналізується на предмет кореляцій. В окрему підпрограму винесено алгоритм розрахунку коефіцієнта кореляції Спірмена, що використовується при обчисленні кореляції між контекстами.
Таким чином, результатом роботи ЛСА є створення кореляційної матриці, котра відображає смисловий зв'язок між уривками. Можливе збереження цієї матриці у файлі для її подальшого аналізу. Програмна реалізація методу ЛСА підтвердила його ефективність.
Розглянемо приклад роботи розробленої системи.
Удосконалений алгоритм методу ЛСА застосовується у розробленому і вищерозглянутому методі семантичного порівняння нечіткої текстової інформації на шостому кроці, після здійснення описаних операцій формування баз даних і баз знань, декапіталізації, лінгвістичного аналізу тексту, порівняння нечіткої текстової інформації, в тому числі з використанням метрики Левенштейна для усунення помилок у тексті відповіді, і передбачає послідовне виконання наступних операцій:
Наприклад, на тестове запитання “Назвіть основні показники рентабельності підприємства”, студенти дали такі відповіді:
В1. “Показниками рентабельності підприємства є: рентабельність активів; рентабельність капталу за чистим прибутком; рентабельність реалізованої продукції; рентабельність виробничих фондів; коефіцієнт стійккості; рентабельність власного капіталу”;
В2. “Найважливішими показниками рентабельності підприємства є: рентабельність ресурсів за прибутком від звичайної діяльності; коефіцієнт стійкості економічного розвитку; рентабельність капіталу”;
В3. “Рентабельність грошей і продукції на підприємстві”;
В4. “До основних показників рентабельності підприємства відносять: рентабельність активів; коефіцієнт стійкості економічного зростання рентабельність капіталу; рентабельність продукції”.
Необхідно знайти відповідь, яка найбільше відповідає правильній (еталонній), що зберігається в базі даних системи:
Е. “Основні показники рентабельності підприємства: рентабельність активів за прибутком від звичайної діяльності; рентабельність капіталу за чистим прибутком; рентабельність власного капіталу; рентабельність виробничих фондів; рентабельність реалізованої продукції; коефіцієнт стійкості економічного зростання”.
1. По-перше, потрібно вилучити стоп-символи - слова, що мають невелике змістове навантаження (сполучники, прийменники, частки та багато інших слів, що є загальновживаними у різних предметних сферах). Це не є обов'язковим кроком, він не впливає на кінцевий результат, але дуже спрощує математичні обчислення. У результаті у нас залишилися, так звані, індексовані слова (у прикладах відповідей - підкреслені).
2. Виконання процедури лематизації. Зазвичай наступним кроком у методі ЛСА є здійснення операції стемінгу [200], однак, на наш погляд, більш доцільно для якісного аналізу тексту застосовувати процедуру лематизації, що передбачає зведення формальних варіантів слова у тексті до його певного усталеного інваріанта - леми, або канонічної (вихідної, словникової) форми слова. Підставою для створення такої автоматичної процедури стали результати роботи модуля автоматичного морфологічного аналізу тексту, розглянуті у пункті 4 алгоритму методу семантичного порівняння нечіткої текстової інформації. Вихідним для дії процедури автоматичного лематизатора є текст, всім словам якого присвоєно коди граматичних класів та підкласів. Наприклад, всім іменникам української мови приписані коди граматичних підкласів роду, числа та відмінка. Для кожного роду іменників створено свої алгоритмічні правила лематизації, оскільки однакові за виглядом флексії по-різному функціонують, наприклад, в складі іменників чоловічого та жіночого родів [49].
3. Складання частотної матриці вживаності індексованих слів (табл. 3.5). ЛСА використовує матрицю, яка описує частоту використання слів в уривках. Стовпчики матриці відповідають документам (варіантам відповідей студентів), а рядки - словам, що зустрічаються в документах. Тоді елементи матриці являють собою кількість вживань певного слова в певному уривку. Такий підхід стандартний для всіх семантичних моделей.
Таблиця 3.5 - Матриця вживаності індексованих слів
Е |
В1 |
В2 |
В3 |
В4 |
||
рентабельн |
6 |
6 |
3 |
1 |
4 |
|
актив |
1 |
1 |
0 |
0 |
1 |
|
прибутк |
2 |
1 |
1 |
0 |
0 |
|
капітал |
2 |
2 |
1 |
0 |
1 |
|
чист |
1 |
1 |
0 |
0 |
0 |
|
власн |
1 |
1 |
0 |
0 |
0 |
|
фонд |
1 |
1 |
0 |
0 |
0 |
|
продукц ... |
Подобные документы
Проблеми лінгвістичного аналізу художніх творів. Мета лінгвостилістичного тлумачення - вивчення засобів мови у тексті. Методи проведення лінгвістичного аналізу на прикладі оповідання класика американської літератури XX ст. Дж. Стейнбека "The Pearl".
курсовая работа [74,4 K], добавлен 28.10.2014Теоретичні засади дослідження компресії як лінгвістичного явища при перекладі публіцистичного тексту. Механізм стиснення тексту на синтаксичному рівні. Єдність компресії та декомпресії під час перекладу газетних текстів з англійської мови українською.
курсовая работа [63,8 K], добавлен 21.06.2013Основні характеристики казки та значення цього виду літературного твору. "Морфологія казки" Проппа. Надсинтаксичні рівні одиниць тексту: супрасинтаксичний, комунікативний. Закони компресії тексту. Переклад як складова частина утворення вторинних текстів.
дипломная работа [104,3 K], добавлен 06.12.2015Принципи вибору перекладацьких стратегій при перекладі текстів типу інструкцій до технічного обладнання. Сучасний стан лінгвістичного та перекладацького аналізу в галузі дослідження перекладу тексту-інструкції як особливого виду міжнародного документу.
курсовая работа [66,0 K], добавлен 29.11.2009Основні аспекти лінгвістичного тексту, його структура, категорії та складові. Ступінь уніфікації текстів службових документів, що залежить від міри вияву в них постійної та змінної інформації. Оформлення табличних форм, опрацювання повідомлення.
статья [20,8 K], добавлен 24.11.2017Проблеми фразеології у світлі наукових парадигм. Аспекти лінгвістичного аналізу фразеологічних одиниць у мовознавстві. Класифікація фразеологічних одиниць. Культурологічний аспект аналізу фразем, які не мають лексичних відповідників, у системі слів.
дипломная работа [105,4 K], добавлен 19.08.2011Основні категорії та ознаки тексту, поняття типу тексту. Функціонально-семантичні особливості загадок, питання їх класифікації. Структурно-типологічні особливості загадки. Лінгвопоетична специфіка і особливості метафоричного переносу в німецьких загадках.
дипломная работа [69,0 K], добавлен 21.03.2012Головна, загальна мета створення будь-кого тексту - повідомлення інформації. Поняття іформаційної насиченості тексту та інформативності. Визначення змістовності тексту - встановлення співвідношення між висловлюванням і ситуацією, відбитою в ньому.
реферат [28,3 K], добавлен 08.04.2011Аналіз фонових знань перекладача, необхідних для роботи із текстами у галузі неврології. Переклад тексту з англійської мови на українську (історія хвороби). Розгляд головних перекладацьких прийомів, застосованих для перекладу термінологічних сполук.
курсовая работа [95,1 K], добавлен 09.05.2012Огляд проблеми багатозначності англійської мови. Морфологічний та синтаксичний аналіз тексту. Правила контекстного аналізу, які дозволяють зняти морфологічну омонімію. Коротка характеристика головних особливостей алгоритму прихованої Марківської моделі.
курсовая работа [119,3 K], добавлен 06.06.2013Порівняльно-історичне мовознавство другої половини XIX ст. продовжує вдосконалення прийомів наукового лінгвістичного аналізу. Встановлюються зв'язки мовознавства з іншими науками, формуються нові школи: натуралізм, психологізм, молодограматизм.
реферат [27,9 K], добавлен 14.08.2008Основні поняття лінгвістики тексту, його категорії, ознаки та проблема визначення. Функціонально-семантичні та структурно-типологічні особливості загадок, їх класифікація. Поняття типу тексту. Особливості метафоричного переносу в німецьких загадках.
дипломная работа [129,6 K], добавлен 01.02.2012Ресурси реалізації лексико-семантичних аспектів у перекладах художніх творів на українську мову шляхом їх порівняно-порівняльного аналізу. Національно-культурні та мовні особливості тексту аналізованого твору, способи їх передачі на українську мову.
курсовая работа [133,1 K], добавлен 24.03.2015Текст як спосіб організації значень, структуризації смислової інформації. Закономірності формування когнітивної структури в семантичній пам'яті на підставі стосунків інтерпретації і репрезентації. Когерентні засоби. Критерії оцінювання зв'язності тексту.
реферат [17,8 K], добавлен 08.04.2011Ознаки релігійного дискурсу. Протестантська проповідь як тип тексту. Лінгвокультурна адаптація тексту релігійного характеру при перекладі. Особливості використання перекладацької адаптації англомовної проповіді при відтворенні українською мовою.
дипломная работа [166,6 K], добавлен 22.06.2013Проблема лінгвістичного аналізу художнього твору як одна з найактуальніших у сучасній філології. Функціональна літературно-книжкова лексика як неоднорідні групи слів, роль та значення в ній поетизмів. Місце фразеологічних поетизмів в англійській мові.
контрольная работа [21,9 K], добавлен 28.07.2009Лексика і лексикологія. Термінологія як наука про слова фахової лексики. Особливості перекладу термінів у професійному мовленні. Дослідження знань термінів напрямку "Машинобудування". Специфіка аналізу способів перекладу термінів технічної терміносистеми.
курсовая работа [63,4 K], добавлен 06.03.2015Опис психологічних особливостей сприйняття тексту. Тлумачення змісту малозрозумілих елементів тексту. Трактування поведінки персонажа та його мотивів, виходячи з власного досвіду та існуючих теорій. Проектування своїх уявлень, відчуттів на художні образи.
презентация [228,6 K], добавлен 03.03.2016Підструктури тексту як моделі комунікативного акту. Співвідношення авторського та читацького дискурсів на основі аналізу поетичних творів. Дискурс як складова комунікативного акту. Особливості поетичного твору. Проблематика віршованого перекладу.
дипломная работа [89,2 K], добавлен 16.09.2011Текст як добуток мовотворчого процесу, що володіє завершеністю. Історія формування лінгвістики тексту. Лінгвістичний аналіз художнього тексту. Інформаційна самодостатність як критерій тексту. Матеріальна довжина текстів. Поняття прототипових текстів.
реферат [25,1 K], добавлен 30.01.2010