Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Система автоматичної оцінки якості машинного перекладу, що базується на алгоритмі метрики BLEU

Система автоматичної оцінки якості машинного перекладу, що базується на алгоритмі метрики BLEU

Переваги систем машинного перекладу, методи його автоматичної оцінки. Розробка інтелектуальної системи автоматичної оцінки якості машинного перекладу з використанням метрики BLEU. Проблема кореляції автоматичної та експертної оцінки машинного перекладу.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	украинский
Дата добавления	17.01.2013
Размер файла	3,0 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

Размещено на http://www.allbest.ru/

Зміст

Вступ
1. Огляд предметної області
1.1 Машинний переклад
1.1.1 Підходи до реалізації систем машинного перекладу
1.1.2 Якість машинного перекладу
1.1.3 Основні переваги систем машинного перекладу
1.2 Методи оцінки машинного перекладу
1.2.1 Суб'єктивні методи оцінки
1.2.3 Інженерно-лінгвістичні методи оцінки
1.2.4 Програмні методи оцінки
1.3 Постановка задачі
2. Розробка інтелектуальної системи автоматичної оцінки якості машинного перекладу з використанням метрики BLEU
2.1 Специфіка автоматичної оцінки машинного перекладу
2.2 Розповсюджені метрики оцінки машинного перекладу
2.3 Проблема кореляції автоматичної та експертної оцінки машинного перекладу
2.4 Оцінка якості перекладу PROMT і Pragma за метрикою BLUE
2.4.1 Характеристики системи машинного перекладу PROMT
2.4.2 Характеристики системи машинного перекладу Pragma
2.5 Програмна реалізація
2.6 Організація експерименту
2.7 Результати
3. Техніко-економічне обгрунтвання розробки
3.1 Опис об'єкта розробки
3.2 Опис програмного продукту
3.3 Оцінка ринку збуту
3.4 Розрахунок витрат на розробку програмного продукту
3.4.1 Визначення потреби в матеріальних ресурсах
3.4.2 Витрати на оплату праці
3.4.3 Розрахунок додаткової заробітної плати
23.4.4 Розрахунок амортизації
3.4.5 Відрахування на соціальні заходи
3.4.6 Загальновиробничі витрати
3.4.7 Адміністративні витрати
3.4.8 Витрати на збут
3.4.9 Калькуляція собівартості
3.5 Фінансовий план
3.6 Висновки по розділу 3
4. Охорона праці і навколишнього середовища
4.1 Загальні питання
4.2 Виробнича санітарія
4.3 Параметри мікроклімату
4.4 Виробниче освітлення
4.5 Вимоги до рівнів шуму та вібрації
4.6 Вимоги щодо рівня неіонізуючих електромагнітних випромінювань, електростатичних та магнітних полів
4.7 Електробезпека
4.8 Пожежна безпека
4.9 Охорона навколишнього середовища
4.10 Висновки
Висновки
Список джерел інформації
Додаток

Перелік позначень та скорочень

МП - машинний переклад

СМП - система машинного перекладу

ПЗ - програмне забезпечення

ПК - персональний комп'ютер

Вступ

У міру того як розширюється інформатизація сучасного суспільства при переході до суспільства майбутнього, зростає значення комп'ютерної (обчислювальної, інженерної) лінгвістики, науки, що знаходиться на стику глибоко людяної, гуманітарної науки лінгвістики (мовознавства), що вивчає закони розвитку і користування могутнім засобом мислення і комунікації мовою, - і комп'ютерного знання, за допомогою якого машині передається все більша частина інтелектуальної праці людини. Людина звикла автоматизовувати процеси, щоб полегшити виконання роботи або отримання необхідної інформації. Переклад не є виключенням. Системи машинного перекладу (СМП) текстів з одних природних мов на інші моделюють роботу людини-перекладача. Їх корисність залежить від того, якою мірою в них враховуються об'єктивні закони мови і мислення людини. Однак незважаючи на усі успіхи і переваги машинного перекладу, якість перекладу залишається на досить низькому рівні в порівнянні з перекладами, зробленими людиною. Для роботи над вдосконаленням СМП важливе значення мають методики оцінки результатів їх роботи. В зв'язку з тим, що методики експертної оцінки машинного перекладу потребують багато часу і коштів, важливого значення набувають методики автоматичної оцінки якості МП за спеціальними метриками.

Метою роботи є вивчення розповсюджених методів автоматичної оцінки машинного перекладу та дослідження порівняльної оцінки популярних систем машинного перекладу з використанням розробленої системи автоматичної оцінки якості машинного перекладу, що базується на алгоритмі метрики BLEU.

1. Огляд предметної області

1.1 Машинний переклад

Машинний (автоматичний, комп'ютерний, електронний) переклад - дія з перетворення тексту однієї природної мови в еквівалентний за змістом текст на іншій природній мови, а також результат такої дії [1]. Програмний комплекс системи машинного перекладу (СМП) включає в себе двомовні словники, забезпечені граматичною інформацією (морфологічною, синтаксичною та семантичною), необхідної для передачі перекладних відповідників, а також засоби граматичного аналізу.

Програми перекладу (системи машинного перекладу) з'явилися у відповідь на потреби користувачів в оперативному перекладі різної комерційної, технічної або INTERNET-інформації, яка подана в електронному вигляді. Крім перекладу з іноземних мов, важливе значення має переклад з української (російської) мови іншими мовами, зокрема англійською. Аналізуючи програми машинного перекладу, потрібно відразу уточнити, що вимоги до них не повинні бути такими ж, як і до перекладу, який виконує людина. Переклад, зроблений комп'ютером, поки що далеко не ідеальний, але текст, отриманий в результаті роботи електронного перекладача, дозволяє в більшості випадків зрозуміти суть документа, який перекладався. Далі цей документ можна корегувати, маючи базові знання іноземної мови та добре орієнтуючись в предметній галузі, до якої належить інформація, що перекладається [2].

Вперше думку про можливість машинного перекладу висловив Чарльз Беббідж (1791-1871), який розробив в 1836-1848 рр. проект цифрової аналітичної машини - механічного прототипу електронних цифрових обчислювальних машин, що з'явилися через 100 років. Ідея Ч. Беббіджа полягала в тому, що пам'ять об'ємом 1000 50-розрядних десяткових чисел (по 50 зубчастих коліс у кожному регістрі) можна використовувати для зберігання словників. Ч. Беббідж привів цю ідею як обґрунтування для запиту в англійського уряду коштів, необхідних для фізичного втілення аналітичної машини, яку йому так і не вдалося побудувати. Завдання аксіоматизації лінгвістики була висунута одним з найвизначніших лінгвістів московської школи П.С. Кузнєцовим як задача формалізації граматики, висхідна до ідей видатного російського мовознавця Ф.Ф. Фортунатова (1848-1914) Перші експерименти по машинному перекладу, що підтвердили принципову можливість його реалізації, були проведені в 1954 р. в Джорджтаунському університеті (м. Вашингтон, США). Незабаром після цього в промислово розвинених країнах світу були розпочаті дослідження та розробки, спрямовані на створення систем машинного перекладу (систем МП). І хоча з тих пір пройшло півстоліття, проблема машинного перекладу все ще не вирішена на належному рівні. Вона була значно складнішою, ніж це уявляли собі піонери і ентузіасти МП кінця п'ятдесятих початку шістдесятих років минулого століття. Тому, оцінюючи сьогоднішню реальність, доречно говорити і про розчарування, і про надії в цій області.

У 70-х роках розробку основ технології машинного перекладу продовжила група фахівців у ВІНІТІ під керівництвом професора Г.Г. Белоногова. У результаті в 1993 р. була створена промислова версія системи RETRANS фразеологічного машинного перекладу з російської мови на англійську і назад, яка застосовувалася в міністерствах оборони, шляхів сполучення, науки і технологій, а також під ВНТІЦ. Практичне застосування принципів смислового аналізу текстів треба було при створенні систем машинного перекладу з ієрогліфічних мов (китайського, японського та ін.) Питання створення таких систем були розроблені в дисертації В.М. Зелко в 80-х роках. Перші комерційні продукти машинного перекладу, що знайшли практичне використання, з'явилися в середині 80-х років. Вони були реалізовані на персональних комп'ютерах і були системами прямого перекладу, можливості яких базувалися на величезних (в порівнянні з першими системами) словниках, а не на умінні аналізувати і синтезувати тексти.

Автоматизований переклад передбачає такі можливості:

· Частково автоматизований переклад: наприклад, використання перекладачем-людиною комп'ютерних словників.

· Системи з поділом праці: комп'ютер навчений перекладати лише фрази жорстко заданої структури (але робить це так, щоб виправляти за ним не було потрібно), а все, що не уклалося в схему, віддає людині [3].

Як і кожна система, машинний переклад має свій основний алгоритм переробки тексту. Найбільш поширеною є наступна послідовність формальних операцій, які забезпечують аналіз і синтез тексту в системі машинного перекладу [4]:

1) На першому етапі здійснюється введення тексту і пошук вхідних словоформ (слів в конкретній граматичній формі, наприклад давального відмінка множини) у вхідному словнику (словнику мови, з якого виробляється переклад) із супутнім морфологічним аналізом, у ході якого встановлюється приналежність даної словоформи до певної лексеми (слова як одиниці словника). У процесі аналізу з форми слова можуть бути отримані також відомості, що відносяться до інших рівнів організації мовної системи.

2) Наступний етап включає в себе переклад ідіоматичних словосполучень, фразеологічних єдностей або штампів даної предметної області (наприклад, при англо-російському перекладі обороти типу in case of, in accordance with отримують єдиний цифровий еквівалент і виключаються з подальшого граматичного аналізу); визначення основних граматичних (морфологічних, синтаксичних, семантичних і лексичних) характеристик елементів вхідного тексту (наприклад, числа іменників, часу дієслова, синтаксичних функцій словоформ в даному тексті та ін.), вироблене в рамках вхідної мови; дозвіл омографи (конверсійної омонімії словоформ - скажімо, англ. round може бути іменником, прикметником, прислівником, дієсловом або ж приводом); лексичний аналіз і переклад лексем. Зазвичай на цьому етапі однозначні слова відокремлюються від багатозначних (що мають більше одного переказного еквівалента у вихідному мовою), після чого однозначні слова переводяться за списками еквівалентів, а для перекладу багатозначних слів використовуються так звані контекстологічні словники, словникові статті яких представляють собою алгоритми запиту до контексту на наявність/ відсутність контекстних визначників значення.

3) Остаточний граматичний аналіз, під час якого допрацьовується необхідна граматична інформація з урахуванням даних вихідного мови (наприклад, при російських іменників типу сани, ножиці дієслово повинен стояти у формі множини, при тому що в оригіналі може бути і єдине число).

4) Синтез вихідних словоформ і пропозиції в цілому на вихідному мовою.

1.1.1 Підходи до реалізації систем машинного перекладу

Системи машинного перекладу можуть використовувати метод перекладу заснований на лінгвістичних правилах. Найбільш відповідні слова з вихідного мови просто замінюються словами мови перекладу.

Існує твердження, що для успішного вирішення проблеми машинного перекладу, необхідно вирішити проблему розуміння тексту природною мовою. Як правило, метод перекладу заснований на правилах використовує символічне уявлення (посередника), на основі якого створюється текст на мові перекладу. А якщо враховувати природу посередника то можна говорити про інтерлінгвістичний машинний переклад або трансферний машинний переклад. Ці методи вимагають дуже великих словників з морфологічної, синтаксичної та семантичної інформацією і великого набору правил.

Якщо у системи машинного перекладу буде достатня кількість даних, то можна отримати переклад хорошої якості. Основна складність полягає у формуванні цих даних. Наприклад, великі корпуси тексту необхідні для статистичних методів перекладу, для переведення заснованого на граматиці виявляються недостатніми. Більше того, для останніх, потрібно додаткове завдання граматики. Для перекладу споріднених мов (російська, українська) може виявитися достатньо проста заміна слів.

Сучасні системи машинного перекладу ділять на три великі групи:

побудовані на правилах;

побудовані на прикладах;

статистичні.

СМП побудовані на правилах. Системи машинного перекладу засновані на правилах - загальний термін, який позначає системи машинного перекладу на основі лінгвістичної інформації про вихідний і перекладному мовах в основному отримані з (двомовних) словники і граматики, що охоплюють основні семантичні, морфологічні, синтаксичні та закономірності кожної мови. Такий підхід до машинного перекладу ще називають класичним. На основі цих даних вихідний текст послідовно, за реченнями, перетвориться в текст перекладу. Часто, такі системи протиставляють системам машинного перекладу заснованих на прикладах.

Основний принцип роботи таких систем - зв'язок структури вхідного і вихідного речення. Переклад при цьому виходить не особливо гарної якості. Але на простих прикладах працює.

Переклад з англійської на німецьку буде виглядати як:

A girl eats an apple. Ein Madchen isst einen Apfel.

Ці системи діляться на три групи:

· системи прямого перекладу;

· трансферні системи;

· інтерлінгвістичні;

Прямий переклад. В таких системах перехід до синтезу перекладу відбувається після мінімального аналізу вхідного речення. В найпростішому варіанті це є послівний переклад або переклад словосполучень, сучасні системи такого типу використовують морфологічний на частковий синтаксичний аналіз речень. Незважаючи на свою примітивність цей підхід дає непогані результати при перекладі між близькоспорідненими мовами, де відсутність глибинного аналізу речень компенсується схожістю синтаксичних структур мов.

Трансферні системи. Як трансферні системи так і інтерлінгвістічні мають одну і ту ж загальну ідею. Для перекладу необхідно мати посередника, який в собі несе зміст вислову, що перекладається. У інтерлінгвістічних системах посередник не залежить від пари мов, у той час як в трансфертних - залежить. Трансферні системи працюють за дуже простим принципом: до вхідного тексту застосовуються правила, які ставлять у відповідність структури вихідного і переказного мов. Початковий етап роботи включає в себе морфологічний, синтаксичний (а іноді і семантичний) аналіз тексту для створення внутрішнього подання. Переклад генерується з цього подання з використанням двомовних словників і граматичних правил. Іноді на основі первинного подання, яке було отримано з вихідного тексту, будують більш "абстрактне" внутрішньо подання. Це робиться для того, щоб акцентувати місця важливі для перекладу, і відкинути несуттєві частини тексту. При побудові тексту перекладу перетворення рівнів внутрішніх уявлень відбувається в зворотному порядку. При використанні цієї стратегії виходить досить висока якість перекладів, з точністю в районі 90% (хоча це сильно залежить від мовної пари). Робота будь-якої системи трансфертного переказу складається як мінімум з п'яти частин:

1) морфологічний аналіз - слова вихідного тексту класифікуються за частинами мови. Виявляються їх морфологічні ознаки. Визначаються леми слів;

2) лексична категоризація - у будь-якому тексті деякі слова можуть мати більш ніж одне значення, викликаючи неоднозначність в аналізі. При лексичної категоризації виявляється контекст слова. Можливі різного роду позначки і уточнення;

3) лексичний трансфер - на основі двомовного словника відбувається переклад лем слів. Дія дуже схоже на послівний переклад;

4) повний синтаксичний аналіз речень з побудовою синтаксичної або семантико-синтаксичної структури речення, характерної для даної мови;

5) структурний трансфер - перетворення внітрішніх синтаксичних структур зі структур властивих вхідній мовіу структурі мови перекладу;

6) морфологічна генерація - на основі вихідних даних структурного трансферу створюються словоформи перекладного тексту.

Інтерлінгвістичний машинний переклад. Інтерлінгвістичний машинний переклад - один з класичних підходів до машинного перекладу. Оригінальний текст трансформується в абстрактне уявлення, яке не залежить від мови (на відміну від трансферного перекладу). Перекладний текст створюється на основі цього подання. Основною перевагою такого підходу є те, що для додавання нової мови в систему. Можна довести математично, що в рамках цього підходу, створення кожного нового інтерпретатора мови для такої системи буде здешевлювати її, в порівнянні, наприклад, з системою трансфертного перекладу. Крім того, в рамках такого підходу можна:

реалізувати "переказ тексту", перефразування вихідного тексту в межах однієї мови;

відносно проста реалізація перекладу сильно різних мов, таких як, наприклад російська та арабська.

Недоліки таких систем:

1) складність створення абстрактного опису сенсу речення;

2) неможливо використовувати подібні риси мов, бо поверхневі риси повністю втрачаються в інтерлінгві.

У цьому методі перекладу, міжмовна уявлення можна розглядати як спосіб опису аналізу тексту, на мові оригіналу. При цьому, у поданні зберігаються морфологічні, синтаксичні характеристики тексту. Передбачається, що таким чином можна передати "сенс" при створенні перекладного тексту.

Такий підхід не новий для лінгвістики. Він заснований на ідеї близькості мов. Для поліпшення якості перекладу, природна мова використовується як міст між двома іншими мовами. Наприклад, при перекладі з української на англійську, іноді використовується російська мова. Для використання системи інтерлінгвістичного машинного перекладу необхідні:

словники для аналізу і генерації текстів;

опис граматик мов;

база знань понять (для створення міжмовного подання);

правила проекції понять для мов та подання.

Найскладнішим моментом при створенні такого типу є неможливість побудувати базу для широких областей знань. А ті бази, які створюються для дуже специфічною тематики, мають високу обчислювальну складністю.

Системи машинного перекладу засновані на перекладах людини. Переклад заснований на прикладах - один з підходів до машинного перекладу, при якому використовується двомовний корпус тексту. Цей корпус тексту під час перекладу використовується як база знань. Грубо кажучи, це переклад за аналогією. Якщо задуматися про те, як людина перекладає, то ми навряд чи прийдемо до висновку, що перекладач здійснює глибокий лінгвістичний аналіз. Передбачається, що люди розкладають вихідний текст на фрази, потім переводять ці фрази, а далі складають перекладний текст з фраз. Причому, переклад фраз зазвичай відбувається за аналогією з попередніми перекладами.

Для побудови системи машинного перекладу, заснованої на прикладах потрібно мовної корпус, складений з пар пропозицій.

Наприклад:

Англійська

Японська (латиниця)

How much is that red umbrella?

Ano akai kasa wa ikura desu ka.

How much is that small camera?

Ano chiisai kamera wa ikura desu ka

Мовні пари - тексти, що містять речення на одній мові і відповідні їм речення на іншій, можуть бути як варіантами написання двох речень людиною - носієм двох мов, так і набором речень та їх перекладів, виконаних людиною.

Статистичний машинний переклад - це метод машинного перекладу. Він використовує порівняння великих обсягів мовних пар, так само як і машинний переклад заснований на прикладах.

Статистичний машинний переклад має властивість "самонавчання". Чим більше в розпорядженні є мовних пар і чим точніше вони відповідають один одному, тим краще результат статистичного машинного перекладу. Статистичний машинний переклад заснований на пошуку найбільш ймовірного перекладу речення з використанням даних із двомовних корпусів текстів. В результаті при виконанні перекладу комп'ютер не оперує лінгвістичними алгоритмами, а обчислює ймовірність застосування того чи іншого слова або виразу. Слово або послідовність слів, що мають оптимальну ймовірність, вважаються найбільш відповідними перекладу вихідного тексту і підставляються комп'ютером в отримується в результаті текст. У статистичному машинному перекладі ставиться завдання не перекладу тексту, а завдання його розшифровки. Ми припускаємо, що стаття, написана англійською мовою, насправді є статтею, написаної англійською, але текст зашифровано (чи спотворений шумом). При такому підході стає зрозуміло чому, чим далі мови, тим краще працює статистичний метод, у порівнянні з класичними підходами.

1.1.2 Якість машинного перекладу

Якість машинного перекладу в першу чергу залежить від обсягу словника і вірному підбору тематичного спрямування перекладного тексту у відповідності з обраним словниковим запасом бази даних: значну роль відіграє обсяг перекладної інформації, в якій можуть бути об'єднані різні тематики, і - синоніми слів, при цьому, можуть бути підібрані алгоритмом програми не зовсім вірно; від старанності складання і перевірки роботи алгоритмів аналізу та синтезу приписуваного лексичним одиницям тексту, а також від ефективності програмного забезпечення залежить і якість. Важливу роль для правильності і якості машинного перекладу грає і грамотність складеного (вихідного для переказу) тексту, з вірним підбором слів і словосполучень в передачі бажаного і описуваного образу, сюжету, події чи дії.

Говорячи про якість машинного перекладу, слід зазначити, що вона безпосередньо залежить від складності тексту, мовних пар, а також його стилістичної спрямованості. Так, найчастіше текст художнього стилю виходить незадовільної якості. А тексти технічного характеру, за наявності спеціалізованих словників і налаштування програми перекладу під особливості тексту, переводяться задовільно і потребують лише незначною редакторської правки. Найкращого якості перекладу досягають тексти, складені в офіційно-діловому стилі, а також тексти технічної спрямованості (всякого роду інструкції, описи, керівництва) і максимально формалізовані.

Якщо реально порівнювати перекладацькі здібності людини та системи машинного перекладу, якість перекладу СМП буде виглядати досить низькою. Це пов'язано з принципово різним сприйняттям тексту людиною та програмою. Можна порівняти особливості перекладу людини та СМП наступними чинниками.

Таблиця 1.1 - Порівняльна характеристика якості перекладу спеціаліста та СМП

Особливості перекладу тексту

Людина

СМП

Речення побудовані вірно

Речення побудовані синтаксично непов'язані

Стилістичне оформлення тексту, включаючи підтекст

Ігнорується стилістичне забарвлення

Підбір необхідних термінів в залежності від тематики

Використовує найбільш широко вживане слово незважаючи на термінологію

Точний і виключний переклад

Потребує корегування та доопрацювання

машинний переклад оцінка метрика

1.1.3 Основні переваги систем машинного перекладу

Машинний переклад значно дешевший і швидший від традиційного, хоч і поступається йому за якістю. Ним користуються в тих випадках, коли важливіше зрозуміти зміст документа, ніж перекласти текст відповідно до літературних критеріїв. Машинний переклад обіцяє стати важливим інструментом для розвитку міждержавної торгівлі, тому що він спроможний значно спростити і прискорити одержання інформації про товари, що випускаються в інших країнах. Останнім часом в цій галузі досягнуто значних успіхів [5].

Сучасні системи перекладу пропонують користувачам приблизно однаковий спектр можливостей:

- редагування тексту в багатомовному режимі з розбиттям екрана так, що в кожному вікні знаходиться текст відповідною мовою;

- розпізнавання термінів;

- пошук слів у словниках, вставка перекладів у текст;

- так звана "пам'ять перекладача" - переклад з використанням нагромадженого досвіду;

- створення паралельних двомовних текстових баз даних;

- збереження форматування;

- підтримка великого спектра мов.

Якщо більш докладно роздивитися переваги СМП як інструменту для використання на підприємствах чи приватного користування, слід звернути уваги на деякі визначні моменти:

1) Висока швидкість. Всього кілька секунд і Ви отримуєте переклад багатосторінкового тексту. Це дозволяє швидко зрозуміти зміст тексту, а якщо система налаштована на переклад текстів цієї тематики, потрібна мінімальна редакторська правка.

2) Низька вартість. Це дуже легко оцінити: якщо ви звертатаєтеся до професійних перекладачів, доводиться платити за кожну сторінку перекладеного тексту (залежно від регіону і рівня кваліфікації перекладача сторінка перекладу буде коштувати від 5 до 20 доларів), або ви наймаєте штатного перекладача, яким треба платити зарплату. У випадку з системою машинного перекладу, ви платите гроші тільки один раз - при купівлі програми.

3) Доступ до послуги. Важливий фактор, який багато критиків систем МП не беруть до уваги. Програма-перекладач завжди під рукою, а звертатися до перекладацьке бюро в багатьох випадках пов'язане з додатковими витратами часу і сил.

4) Конфіденційність. Системі МП ви можете довірити будь-яку інформацію. Програма-перекладач збереже в таємниці будь-які тексти, якій Ви їй довірите.

5) Універсальність. Будь-який перекладач завжди має спеціалізацію, тобто переводить тексти з тієї теми, якої він добре володіє. Коли перекладач художньої літератури береться за переклад, наприклад, технічних текстів, ляпсусів не уникнути. Взяти хоча б класичний приклад: "Голий провідник біжить по автобусу" (в оригіналі "Naked conductor runs along the bus"). І це не результат творчості комп'ютера, цей історичний приклад мав місце, коли комп'ютер ще був рідкістю. Система МП вигідно відрізняється тим, що вона абсолютно універсальна. Потрібно тільки грамотно підключити спеціалізований словник з відповідної тематики. Слід врахувати і ще одна перевага систем МП: поповнення їх спеціалізованих словників новітніми термінами значно випереджає аналогічні словники поліграфічного виконання. У ряді випадків також рекомендується вести свій власний словник нових термінів або нових значень. У цьому випадку ви гарантовано отримуєте необхідну якість перекладу.

6) Переклад інформації в Інтернеті. В онлайні найяскравіше проявляються всі переваги систем МП. Більш того, в більшості випадків переводити інформацію в Інтернеті, якщо Ви, звичайно, самі не знаєте декількох мов, можна тільки за допомогою програм-перекладачів. Саме ця потреба зумовила величезне зростання інтересу до систем МП зараз у світі. Тільки завдяки онлайновим системам МП з'явилася можливість переглядати іноземні сайти, не важко з їх перекладом. Крім того, тут діють всі перераховані вище переваги систем МП: переклад текстів з будь-якої тематики проводиться швидко і конфіденційно.

Статистичні оцінки підтверджують постійне зростання продаж систем машинного перекладу. На ринку зараз знаходиться понад тисячу різних пакетів (якщо враховувати окремо кожну мовну пару). Популярність машинного перекладу пояснюється не тільки простою цікавістю, хоча і це є однією з основних причин поширення систем машинного перекладу. Велика частина користувачів використовує невідредагований машинний переклад текстів великих обсягів з метою ознайомлення, коли низька якість перекладу цілком допустима.

1.2 Методи оцінки машинного перекладу

Оцінка якості машинного (комп'ютерного) перекладу прямо або опосередковано цікавить досить широке коло осіб: користувачів систем, споживачів продуктів подібних систем, всіх тих, хто вирішує, чи застосовувати йому такі системи в їх сфері діяльності. Оцінка, звичайно, є цікавою і для перекладачів-практиків, незалежно від іх мотивів: чи то бажання бути поінформованим про стан та перспективи галузі з позиції своєї власної діяльності, чи намірів щодо майбутньої діяльності у галузі машинного перекладу, наприклад у ролі постредактора. Безумовно, поняття "оцінка" є важливим і для науковців, особливо для тих, хто займається науковою діяльністю в галузі перекладу, і професійна діяльність яких майже щоденно пов'язана з проблематикою оцінювання та критики перекладу [6].

Зараз досить очевидно, що неможливо замінити людини-перекладача машиною. Однак, можна сильно полегшити працю перекладача і підвищити його продуктивність. Для того, щоб судити на скільки праця перекладача став ефективніше і простіше використовуються різноманітні методи оцінки СМП.

Слід зазначити, що існує дуже багато різних методів оцінки СМП, в тому числі і експериментальних. Проте слід констатувати, що всі вони містять різні методологічні підходи до питання оцінювання якості або підходи до питання оцінювання якості або такі підходи відсутні взагалі, а оцінювання здійснюється на основі механічного підрахунку помилок. Нас цікавлять найбільш розповсюдженні методики, що базуються на конкретних практичних принципах. Зазначимо, що не усі методи оцінки спрямовані тільки на машинний переклад, а мають загальний характер використання у різних галузях науки.

Рисунок 1.1 - Методи оцінки машинного перекладу

Розглянемо ці методи більш детально та наведемо приклади їх реалізацій.

1.2.1 Суб'єктивні методи оцінки

Суб'єктивні методи оцінки називають ще експертними. Вони здійснюються спеціалістом перекладачем. Людина порівнює текст оригіналу з перекладом, зробленим СМП. При цьому критеріями вважаються:

· точність (достовірність) - характеризується тим, наскільки точно переклад передає зміст вихідного тексту; робить він це, додаючи або віднімаючи що-небудь зі змісту, посилюючи або послаблюючи будь-які елементи змісту

· прозорість (адекватність) перекладу - міра, в якій переклад сприймається носієм мови не як переклад, а як оригінальний текст на іншому язику, відповідний граматичним, синтаксичним і ідіоматичним нормам мови [7].

Переклад, що відповідає першому критерію, можна назвати "вірним перекладом"; переклад, що відповідає другому критерію, характеризується як ідіоматичний переклад. Мовою перекладачів-практиків "найбільш адекватно переклад" означає найбільш точний переклад або переклад, найбільш близький до оригіналу. Це може також означати "найбільш вдалий переклад" конкретного слова або виразу. Адекватний переклад тексту підпорядковується принципом композиціональності. Принцип композиціональності означає в даному контексті, що переклад тексту повністю зводиться до перекладу речень, з яких він складається, а переклад речень - до перекладу слів. Єдина поправка, яку при цьому допускається робити - це поправка на граматичні взаємозв'язки, які природно повинні безумовно дотримуватися. Це відноситься абсолютно до тексту будь-якої тематики.

1.2.2 Статистичний метод редакторської правки

Під статистичним методом оцінки якості машинного перекладу найчастіше розуміють підрахунок об'єму редакторської правки (редагування). Етапи редагування тексту:

1) Перевірка лексики (лексичні помилки - порушення норм слововживання).

2) Стилістична правка тексту - усунення необґрунтовано спожитих слів іншої стилістичного забарвлення.

3) Усунення семантичних помилок - порушення вимог точності слововживання: вживання слів у невластивих їм значеннях; тавтологія (вживання однокореневих слів).

4) Перевірка логіки побудови тексту (логічна випрямлення) - наскільки логічно і грамотно текст розбитий на частини і абзаци; поліпшення композиції тексту [8].

Розрізняють чотири основних види редакторської правки [9]:

· правка-вичитування;

· правка-скорочення;

· правка-обробка;

· правка-переробка.

Правка-вичитування максимально близька до коректорської роботі. Вона являє собою виправлення орфографічних і пунктуаційних помилок і друкарських помилок. Такі виправлення зазвичай не вимагають узгодження з особою, яка підписує документ, бо сучасні текстові редактори (наприклад, Microsoft Word) дозволяють перевіряти правопис і вносити виправлення безпосередньо під час набору тексту. Доводиться мати на увазі, що комп'ютерні текстові редактори "не знають" багатьох власних імен. Прізвища, ініціали, географічні назви, найменування підприємств і установ необхідно вивіряти з особливою ретельністю. Крім того, комп'ютер здатний виявити далеко не всі помилки. Він "не помітить", наприклад, перетворення прийменника "на" в прийменник "за", частки "не" у "ні": для нього все це однаково правильні слова. Автоматична перевірка не дасть результатів, якщо ви помилково набрали "1897" замість "1997". Тільки людина, що розуміє зміст висловлювання, в змозі виявити такі помилки.

Правка-скорочення проводиться у двох основних випадках:

1) коли необхідно будь-якими способами зробити документ коротше (тоді можна піти на деяке зменшення обсягу змісту);

2) коли в тексті міститься надмірна інформація - повтори і "загальні місця".

Редактор зобов'язаний усунути з документа загальновідомі факти, прописні істини, зайві вставні слова і конструкції. Як зазначено вище, словесні повтори також відносяться до числа стилістичних недоліків, але уникнути їх іноді не представляється можливим. Важливо, щоб редактор добре орієнтувався в матеріалі і був в змозі визначити, наскільки виправдане повторення одних і тих же слів і чи припустима їх заміна синонімами.

Правка-обробка є поліпшення стилю документа. Усуваються помилки і недоліки, пов'язані з порушенням сполучуваності слів, не розрізнення паронімів, використанням громіздких синтаксичних конструкцій і т.д.

Правка-переробка - ґрунтовна обробка такого тексту, який не зовсім влаштовує замовника чи видавця. Поширена у випадках, коли інформація дуже цікава читачеві, але автор з причин особистої зайнятості або незнайомства з літературною працею не може підготувати текст до публікації.

Узагальнюючи, можна визначити найбільш важливі принципи редакторської правки:

- збереження змісту документа незмінним;

- можливість довести, що втручання в текст необхідно;

- цілісність і послідовність (усі недоліки відзначаються і виправляються відразу, оскільки одна зміна може спричинити за собою інше);

- чіткість і акуратність

1.2.3 Інженерно-лінгвістичні методи оцінки

Інженерно-лінгвістичні методи оцінки якості машинного перекладу орієнтовані переважно на оцінювання та тестування загальної ефективності систем машинного перекладу на основі розгляду якості перекладених даною системою текстів.

Такі методи можна розділити на:

· принцип "чорної скриньки"

· тестові масиви тексту

· принцип "білої скриньки"

Розглянемо підхід до оцінки СМП за принципом "чорної скриньки" (або "чорного ящика"). Повний опис методики "чорної скриньки" є недоцільним, тому що він містить багато математичних формул та етапів виконання, які використовуються для тестування програм чи окремих її режимів та виявлення непомітних на перший погляд помилок при введенні відповідних даних. У цій стратегії програма розглядається як "чорний ящик", тобто ми не маємо уявлення про внутрішню структуру організації та функціонування системи [10]. Метою тестування ставиться з'ясування обставин, в яких поведінка програми не відповідає специфікації. Для виявлення всіх помилок в програмі необхідно виконати вичерпне тестування, тобто тестування на різноманітних наборах даних. Для більшості програм таке неможливо, тому застосовують розумне тестування, при якому тестування програми обмежується невеликим підмножиною всіляких наборів даних. При цьому необхідно вибирати найбільш підходящі підмножини, підмножини з найвищою імовірністю виявлення помилок. Якщо застосувати цей принцип для оцінювання якості перекладу, то виглядає усе дуже прозоро. Коли система машинного перекладу розглядається з позиції "чорної скриньки", метою дослідження є припущення про внутрішню систему СМП та її тип на основі оцінки перекладів. Зрозуміло, що в якості вхідної інформації буде надходити сцеціально-підготовлений текст, або декілька текстів за допомогою яких робиться тестування ефективності СМП. Методи стратегії "чорного ящика":

· Еквівалентне розбиття - класи еквівалентності виділяються шляхом вибору кожної вхідної умови, які беруться за допомогою технічного завдання або специфікації і розбиваються на дві і більше за групу та розробляються тести.

· Аналіз граничних значень - тобто ситуацій, що виникають на вищих і нижніх межах вхідних класів еквівалентності.

· Аналіз причинно-наслідкових зв'язків - на основі аналізу семантичного (смислового) змісту специфікації будується таблиця істинності, у якій послідовно перебираються всілякі комбінації причин і визначаються наслідки для кожної комбінації причин.

· Припущення про помилку - програміст із великим досвідом вишукує помилки без всяких методів, але при цьому він підсвідомо використовує метод припущення про помилку та власну інтуїцію.

Протиставленням принципу "чорної скриньки" є принцип прозорості системи, коли функціонування та структура системи повністю відомі чи вивчені. Проте інженерні методи оцінки також включають проміжний крок: тестові масиви тексту та іх розпізнавання. Дуже часто для оцінювання можливостей конкретної СМП робляться спеціальні тестові масиви тексту, які мають своє стилістичне забарвлення та структуру побудови. Фахівці, що працюють у цій галузі, вивчають первинний аналіз текстів, який, як усякий лінгвістичний алгоритм, являє собою досить складний і громіздкий механізм. Важливість цього етапу була усвідомлена не так давно, а саме, коли від експериментальних вправ з аналізом окремого речення увага розробників систем переключилася на проблеми обробки реальних масивів природних текстів. Перш за все з проблемою масиву і "цілого тексту" у всіх технічних деталях зіткнулися працюючі системи машинного перекладу, що приймають на вході масиви текстів на машинозчитуваних носіях в різних форматах. Масив, або корпус, текстів став головним об'єктом дослідження у "корпусній лінгвістиці". Але корпусна лінгвістика та МП мають різні цілі, і якщо перша може обмежитися спрощеним підрахунком для обробки сирого текстового матеріалу у великих обсягах, то для МП важливо значення кожного знака пунктуації: так, неправильне визначення границь речення призводить до спотворення перекладу. Задачу розбиття масиву на підмасиви не можна вважати "зовнішньою": адже подібне вичленення система повинна проводити і всередині кожного тексту, виділяючи заголовки, підзаголовки, імена авторів, виноски, епіграфи та інші лінгвістично значущі частини. Подібно складним пропозиціям, що складається з декількох простих речень, існують і складні тексти, що складаються з декількох простих текстів, та ще належать різним жанрам (вірш, вставлене у прозовий текст, списки і т.п.) Обробку масиву і тексту, що виділяє найбільші одиниці, можна назвати композиційним або структурним аналізом масиву і тексту. До нього належить виділення в складі тексту схем, таблиць і малюнків з написами, виносок, приміток, додатків і т.д., сюди ж віднесемо і уточнення меж абзаців, які можуть бути розірвані різними вставками (малюнками, формулами, довгими списками). У системах МП їх виносять у "посттекст", щоб переводити окремо, а потім вставляти в текст на потрібні місця (коли виникає необхідність вирівнювання (alignment) вихідного тексту і тексту перекладу). Ці та інші подібні завдання об'єднують в окрему підсистему, звану препроцесором, що розглядається спеціалістами як компонент первинного аналізу тексту.

1.2.4 Програмні методи оцінки

Оскільки СМП являються програмами для них використовуються програмні методи оцінки, що включають в себе найвищий рівень правил та рекомендацій з розробки програмних продуктів та затвердженні міжнародні стандарти оцінювання якості. Головна особливість таких методів - широке коло використання та визнання у всьому світі. Розглянемо деякі приклади, які тісно пов'язані з темою оцінки машинного перекладу.

ISO 9126 (ДСТУ ISO / IEC 9126-93) - "Інформаційна технологія. Оцінка програмного продукту. Характеристики якості і керівництво щодо їх застосування". ISO 9126 - це міжнародний стандарт, що визначає оціночні характеристики якості програмного забезпечення (далі ПЗ). Стандарт поділяється на 4 частини, що описують такі питання: модель якості; зовнішні метрики якості; внутрішні метрики якості; метрики якості у використанні [11].

Модель якості, встановлена в першій частині стандарту ISO 9126-1, класифікує якість ПЗ в 6-ти структурних наборах характеристик, які в свою чергу деталізовані під-характеристиками (субхарактеристиками), такими як:

· Функціональність - набір атрибутів характеризує, відповідність функціональних можливостей програмного набору необхідної користувачем функціональності. Деталізується придатністю для застосування, коректністю (правильністю, точністю), здатністю до взаємодії (зокрема мережному), захищеністю.

· Надійність - набір атрибутів, що відносяться до здатності ПЗ зберігати свій рівень якості функціонування у встановлених умовах за певний період часу. Деталізується рівнем завершеності (відсутності помилок), стійкістю до дефектів, відновлюваністю, доступністю, готовністю.

· Практичність (застосовуваність) - набір атрибутів, що відносяться до обсягу робіт, необхідних для виконання і індивідуальної оцінки такого виконання певним або удаваним колом користувачів. Деталізується зрозумілістю, простотою використання, привабливістю.

· Ефективність - набір атрибутів, що відносяться до співвідношення між рівнем якості функціонування ПЗ і обсягом використовуваних ресурсів при визначених умовах. Деталізується тимчасовою ефективністю, вистачанням ресурсів.

· Стабільність - набір атрибутів, що відносяться до обсягу робіт, необхідних для проведення конкретних змін (модифікацій). Деталізується зручністю для аналізу, змінюваністю.

· Мобільність - набір атрибутів, що відносяться до здатності ПЗ бути перенесеним з одного оточення в інше. Деталізується адаптованістю, простотою установки (інсталяції), співіснуванням (відповідністю).

Всі перелічені атрибути можуть використовуватися безпосередньо для оцінки якості СМП, тому що кожна зареєстрована система машинного перекладу підпадає під визначення "програмний продукт" (програмне забезпечення) і підлягає оцінці за стандартом міжнародних критеріїв якості.

Професійні програмісти мають специфічний підхід до оцінки якості програмних продуктів. Роберт Гласс описує ознаки якості ПЗ наступним чином. Під якістю в індустрії розробки ПЗ розуміють наявність семи властивостей, якими повинен якими повинен володіти програмний продукт: переносимості, надійності, ефективності, зручності у використуванні (або врахування людського фактора), тестованості, зрозумілості і кодифікованості [12]. Різні фахівці дають цим властивостям не зовсім однакові назви, але даний список прийнятий переважною більшістю і існує майже тридцять років. Розглянемо зміст властивостей якості ПЗ:

1) Переносимість означає, що програмний продукт можна без зусиль перенести на іншу платформу.

2) Надійність - це властивість програмного продукту належним чином виконувати свої функції.

3) Під ефективністю програмного продукту розуміють економне витрачання їм часу і займаного місця.

4) Прийняття в розрахунок людського чинника (що називають також словом "юзабіліті") має на увазі, що з програмним продуктом легко і зручно працювати.

5) Тестованість ПЗ є властивістю, що характеризую легкість його тестування.

6) Зрозумілість ПЗ - це властивість, що характеризує, наскільки легко (або важко) фахівцю, який супроводжує програмний продукт, зрозуміти його роботу.

7) ПЗ володіє ознакою модифікованості, якщо його зміна не викликає труднощів.

1.3 Постановка задачі

Огляд предметної області виявив велике значення розвитку автоматичних методів оцінки якості машинного перекладу. Беручи до уваги велику вартість експертної оцінки, автоматичні методи є необхідним інструментом при розробці та тестуванні систем машинного перекладу. В зв'язку з цим в даній дипломній роботі було поставлено задачу.

1. Дослідити відомі методики автоматичної оцінки якості МП, їх алгоритми, особливості застосування та можливі недоліки.

2. Розробити програму оцінки якості МП за однією з відомих методик.

3. Спланувати та провести експеримент з порівняльної оцінки якості перекладу відомих СМП за допомогою розробленої програми.

2. Розробка інтелектуальної системи автоматичної оцінки якості машинного перекладу з використанням метрики BLEU

2.1 Специфіка автоматичної оцінки машинного перекладу

Людські оцінки якості машинного перекладу надійні та точні, але дорогі, тобто потребують багато часу та великого залучення людської праці, при цьому у подальшому неможливо повторно використовувати людські методи оцінки без докладання подальших людських зусиль. Тому запропоновано розглянути автоматичну оцінку машинного перекладу, що є швидкою, недорогою, не залежить від мови перекладу та найбільш важливе - має високу кореляцію з людською оцінкою якості перекладу. У випадку автоматичної оцінки перекладу система виступає як дублер експерта з оцінки перекладу, враховуючи основні критерії якості перекладу і повністю бере на себе усі необхідні підрахунки. Проте для розробки інтелектуальної системи автоматичної оцінки перекладу слід уважно розглянути деякі важливі подробиці специфіки автоматичної оцінки якості машинного перекладу. Перш за все, автоматична оцінка МП потребує наявності еталонного перекладу (перекладу, зробленого людиною професіоналом) та машинного перекладу, тобто перекладу, зробленого системою машинного перекладу. Це означає, що порівнюються два вхідні тексти. При цьому підраховується кількість (відсоток) слів, співпадаючих у машинному та еталонному перекладі. Основними критеріями якості, як правило, виступають:

· точність - відношення кількості співпадаючих слів до загальної кількості слів у перекладі, зробленому СМП. Цей критерій показує наскільки правильно (коректно) машинний переклад передає зміст еталонного перекладу.

· повнота (достатність, плавність) - відношення кількості співпадаючих слів до загальної кількості слів у еталонному перекладі. Цей критерій показує наскільки машинний переклад відповідає еталонному перекладу за.

Результатом автоматичної оцінки якості перекладу є число від 0 до 1. Автоматична оцінка не дає повної уяви про якість перекладу, але дозволяє порівняти відповідність тексту, наприклад, декількох машинних перекладів перекладу, зробленому професійним перекладачем за основними критеріями якості перекладу. Наприклад, в даній роботі продемонстрована автоматична оцінка якості машинного перекладу двох популярних СМП Pragma і PROMT. Найбільш ефективно автоматична оцінка МП використовується для оцінки якості перекладу великих масивів (корпусів) тексту технічної чи офіційно-ділової тематики, адже такі тексти характеризуються конкретними термінами та прямотою висловлювання думки. Художні тексти оцінювати автоматичними методами не ефективно, і переклад часто далекий від буквального.

Автоматичні методи оцінки МП мають свої підходи до реалізацій, різновиди, та алгоритми роботи, що спрямовані на більш глибоку та повноцінну оцінку якості МП.

2.2 Розповсюджені метрики оцінки машинного перекладу

При автоматичній оцінці якість МП вимірюється за спеціальними метриками. Розглянемо найбільш поширені метрики.

BLEU була однією з перших метрик, що показують високу кореляцію з людською оцінкою якості МП. Метрика BLEU на даний час є однією з найпопулярніших в цій області. Основна ідея метрики: чим ближче машинний переклад відповідає професійному людського перекладу, тим краще. Метрика підраховує бали по окремих сегментах, як правило, вибирає середні ці бали за весь корпус для остаточного результату. Було доведено, що високо корелює з людським розумінням якості на рівні корпусу текстів, однак має погані показники оцінки для окремих речень. Вихідним показником BLEU завжди є число між 0 і 1. Це значення вказує, наскільки перекладений текст за допомогою МП відповідає еталонному перекладу. BLEU використовує модифіковану форму точності, щоб запобігати поліпшенню оцінки за рахунок невиправданого повтору окремих слів, наприклад артиклів в англійській мові. Наведемо приклад роботи алгоритму для невдалого машинного перекладу з високою точністю.

Таблиця 2.1 - приклад поганого вихідного тексту МП з високою точністю

МП

the

the

the

the

the

the

the

Еталон 1

the

cat

is

on

the

mat

Еталон 2

there

is

a

cat

on

the

mat

Із семи слів у порівняльному МП кандидата, всі вони з'являються у еталонних текстах 1 та 2. Таким чином показник якості МП за методом уніграмної точності дорівнює:

- кількість слів машинного перекладу, які були знайдені в еталонних текстах 1 та 2;

- загальна кількість слів у машинному перекладі;

Це відмінний результат, незважаючи на те, що машинний переклад кандидата зберігає мало змісту від будь-якого з еталонних текстів 1 та 2.

Модифікована точність BLEU обчислюється наступним чином. Для кожного слова в машинному перекладі алгоритм бере максимальну загальну кількість для кожного з еталонних перекладів. В кожному з еталонних перекладів слово "the" з'явилося два рази у тексті 1, та один раз у тексті 2. Отже загальна кількість слів дорівнює 2, тобто = 2.

Для машинного перекладу кількість для кожного слова обрізається до максимуму від для цього слова. Отже слово "the" має і , тоді обрізається до 2. Потім сумується за всіма словами еталонного перекладу. Ця сума ділиться на загальну кількість слів у машинному перекладі. У наведеному вище прикладі, оцінка модифікованої уніграмної точності буде [13]:

Описаний вище метод використовується для підрахунку оцінки для ряду N-грамної довжини. Уніграмні оцінки відповідають за адекватність (точність) перекладу, тобто наскільки у машинному перекладі зберігається інформація еталону. Розширені N-грамні оцінки підраховують плавність перекладу, тобто в якій мірі текст перекладу читається як "добра англійська мова".

Модифікація, що внесена в точність, не вирішує проблеми коротких перекладів, які можуть показувати високі показники точності, навіть з використанням вже модифікованої точності. Приклад машинного перекладу може мати містити такі слова еталонних речень: the cat. У цьому випадку отримаємо наступну зміну уніграмної точності:

Результат такий, оскільки у кожному з двох еталонних текстів 1 та 2 є слово "the" і слово "cat”, і загальна кількість слів дорівнює двом. Отже модифікована біграмна точність буде 1/1, оскільки "the cat" з'являється у перекладі тільки один раз. Якщо, оцінювати ці переклади за критерієм n-грам результат буде для першого тексту-еталону буде 2/6 та для другого - 2/7 [14]. Для отримання балів оцінки за весь корпус тексту, модифікована точність оцінки для сегментів об'єднується, використовуючи середнє геометричне помножене на штраф стислості для запобігання отримання занадто високих оцінок якості дуже короткими прикладами перекладів. Нехай буде загальною довжиною еталонного корпусу тексту, і буде загальною довжиною порівняльного корпусу тексту МП. Якщо застосовується на штраф стислості, тоді формула має наступний вигляд:
...

Страница:

1
2
3

дипломная работа "Система автоматичної оцінки якості машинного перекладу, що базується на алгоритмі метрики BLEU" скачать

Подобные документы

Машинний переклад
Історія машинного перекладу як науково-прикладного напряму. Теорія машинного перекладу. Особливості використання систем, орієнтованих на персональні комп’ютери. Напрямки розвитку та застосування машинного перекладу. Приклади систем машинного перекладу.

реферат [21,5 K], добавлен 19.02.2011

Системи машинного перекладу: оглядовий аналіз
Автоматизований та машинний види перекладу. Можливості подолання мовного бар’єру у спілкуванні. Існуючі класифікації систем машинного перекладу. Лінгвістичне дослідження міри автоматизованості перекладацької системи. Словник і синтаксис вхідної мови.

статья [23,5 K], добавлен 14.08.2017

Особливості використання системи Google Translator Toolkit сучасним перекладачем
Причини та історія виникнення машинного перекладу. Його функції, можливості, переваги та недоліки. Основні підходи до автоматичного перекладу. Принцип роботи Google Translator Toolkit, порівняння системи з її аналогами та іншими онлайн-сервісами.

дипломная работа [1,7 M], добавлен 16.07.2013

Програма для автоматизації перекладу слів
Особливості автоматизованого перекладу іноземних мов. Розробка програми для перекладу слів та певних мовних конструкцій молодіжного сленгу на загальновживану мову. Опис структури файлів. Специфікація функцій програми, оцінка достовірності результатів.

курсовая работа [943,8 K], добавлен 15.03.2014

Побудова моделі автоматичної системи управління технологічним процесом
Використання комп'ютерного моделювання. Особливості проектування моделі автоматичної системи управління технологічним процесом. Визначення кількості пропущених через відмову даних та часу знаходження системи в загальмованому стані. Опис алгоритму моделі.

контрольная работа [501,7 K], добавлен 13.01.2014

Комп’ютерна реалізація комплексної моделі оцінки конкурентоспроможності страхової компанії
Аналіз існуючих методів оцінки конкурентноспроможності підприємства. Процес навчання нечіткої експертної системи. Модель комлексної оцінки конкурентоспроможності страхової компанії методом візуального моделювання пакету Simulink середовища Matlab.

дипломная работа [2,0 M], добавлен 27.05.2014

Системы машинного перевода
История автоматизированного перевода. Современные компьютерные программы перевода. Сфера использования машинного перевода. Формы организации взаимодействия человека и ЭВМ в машинном переводе. Интерредактирование и постредактирование машинного перевода.

курсовая работа [30,0 K], добавлен 19.06.2015

Інформаційна система оцінки інвестиційних проектів
Структура і функції інформаційної системи. Ситуаційний аналіз процесу оцінки проектів. Аналіз процесу розробки та створення технічного завдання. Створення протоколу якості системи. Структура та принцип роботи програмного продукту, опис прецендентів.

курсовая работа [980,0 K], добавлен 22.09.2014

Створення баз знань і документів в оболонці ESTA
Класифікація експертних систем. Представлення знань, переваги та слабкі місця. База знань як елемент експертної системи. Сфера застосувань та перспективи розвитку. Створення експертної системи для оцінки ступеня підготовленості студента до іспиту.

курсовая работа [1,4 M], добавлен 04.02.2014

Дослідження двоконтурної автоматичної системи регулювання з динамічною корекцією
У роботі розглянуті особливості промислових об’єктів регулювання. Обгрунтована необхідність застосування двоконтурних автоматичних систем регулювання з динамічною корекцією для покращання якості регулювання складних у динамічному відношенні об’єктів.

дипломная работа [382,0 K], добавлен 11.10.2017

Разработка человеко-машинного интерфейса в GraphWorX32
Человеко-машинный интерфейс. Текстовый и смешанный (псевдографический) интерфейсы. Применение человеко-машинного интерфейса в промышленности. Программные средства для разработки человеко-машинного интерфейса. Среда разработки мнемосхем GraphworX32.

дипломная работа [5,3 M], добавлен 19.03.2010

Адаптивний контроль знань в системах дистанційного навчання. Модуль оцінки складності завдань на основі параметричної моделі Раша
Теоретичне дослідження особливостей проектування систем дистанційного навчання. Створення програмного забезпечення процедури статистичної обробки результатів тестування знань і оцінки якості тесту. Економічне обґрунтування доцільності розробки програми.

дипломная работа [3,6 M], добавлен 22.10.2012

Машинный перевод
История возникновения, эволюция машинного перевода. Основные требования к коммуникативной эквивалентности. Последовательность формальных операций в системе машинного перевода, ее концепции развития. Переводчик для офиса. Преимущества электронных словарей.

презентация [455,3 K], добавлен 22.10.2013

Программа для иерархической классификации веб-сайтов
Получение и обработка данных о веб-сайте. Иерархическая классификация, алгоритмы машинного обучения. Решающие деревья, плоские классификаторы. Метрики оценки качества. Полная точность (accuracy), кросс-валидация. Параллельные вычисления, хранение данных.

курсовая работа [276,8 K], добавлен 04.09.2016

Розробка автоматизованої системи оптимального використання заготовок за для розкрою площинних матеріалів
Вибір і обґрунтування інструментальних засобів. Проектування блок-схем алгоритмів та їх оптимізація. Розробка вихідних текстів програмного забезпечення. Інструкція до проектованої системи. Алгоритм базової стратегії пошуку вузлів та оцінки якості.

дипломная работа [2,8 M], добавлен 05.12.2014

Автоматичні засоби перекладу
Порядок використання комп'ютера для автоматичного перекладу текстів, умови доцільності використання спеціального програмного забезпечення. Характеристика програми PROMT, її можливості та опис інтерфейсу, принцип та правила роботи. Переклад Web-сторінок.

реферат [14,9 K], добавлен 21.09.2009

Автоматизація процесів тестування програмного забезпечення
Проблеми процесу тестування програмного забезпечення. Розробка алгоритму автоматичної генерації тестів і тестового набору для ручного виконання. Побудова тестів для системи "Банкомат" і для баг-трекінгової системи, представленої графом із циклами.

дипломная работа [1,2 M], добавлен 26.02.2014

Планирование машинного эксперимента с имитационной моделью системы массового обслуживания
Моделирование системы массового обслуживания. Анализ зависимости влияния экзогенных переменных модели однофазной одноканальной СМО на эндогенные переменные. План машинного эксперимента множественного регрессионного анализа и метода наименьших квадратов.

лабораторная работа [107,5 K], добавлен 15.06.2010

Розробка моделі комплексної оцінки конкурентоспроможності страхової компанії
Конкурентоспроможність страхового продукту та ринку. Фазифікація та дефазифікація. Етапи моделювання комплексної оцінки конкурентоспроможності компанії. Комп’ютерна реалізація моделі. Графіки функцій належності гаусівського типу вхідних змінних системи.

курсовая работа [1,7 M], добавлен 14.06.2014

Метод Крамера
Розробка програмного забезпечення для розв'язку системи лінійних рівнянь за формулами Крамера, головні особливості мови Turbo Pascal. Методи розв'язування задачі, архітектура програми та її опис. Контрольний приклад та результат машинного експерименту.

курсовая работа [47,7 K], добавлен 23.04.2010

Другие документы, подобные "Система автоматичної оцінки якості машинного перекладу, що базується на алгоритмі метрики BLEU"

главная

рубрики

по алфавиту

вернуться в начало страницы

вернуться к началу текста

вернуться к подобным работам

Рубрики

По алфавиту

Закачать файл

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.

Англійська	Японська (латиниця)
How much is that red umbrella?	Ano akai kasa wa ikura desu ka.
How much is that small camera?	Ano chiisai kamera wa ikura desu ka

Особливості перекладу тексту
Людина	СМП
Речення побудовані вірно	Речення побудовані синтаксично непов'язані
Стилістичне оформлення тексту, включаючи підтекст	Ігнорується стилістичне забарвлення
Підбір необхідних термінів в залежності від тематики	Використовує найбільш широко вживане слово незважаючи на термінологію
Точний і виключний переклад	Потребує корегування та доопрацювання

МП	the	the	the	the	the	the	the
Еталон 1	the	cat	is	on	the	mat
Еталон 2	there	is	a	cat	on	the	mat

Система автоматичної оцінки якості машинного перекладу, що базується на алгоритмі метрики BLEU

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Вступ

1. Огляд предметної області

1.1 Машинний переклад

Автоматизований переклад передбачає такі можливості:

· Частково автоматизований переклад: наприклад, використання перекладачем-людиною комп'ютерних словників.

4) Синтез вихідних словоформ і пропозиції в цілому на вихідному мовою.

1.1.1 Підходи до реалізації систем машинного перекладу

Сучасні системи машинного перекладу ділять на три великі групи:

побудовані на правилах;

побудовані на прикладах;

статистичні.

Переклад з англійської на німецьку буде виглядати як:

A girl eats an apple. Ein Madchen isst einen Apfel.

Ці системи діляться на три групи:

· системи прямого перекладу;

· трансферні системи;

· інтерлінгвістичні;

1) морфологічний аналіз - слова вихідного тексту класифікуються за частинами мови. Виявляються їх морфологічні ознаки. Визначаються леми слів;

3) лексичний трансфер - на основі двомовного словника відбувається переклад лем слів. Дія дуже схоже на послівний переклад;

4) повний синтаксичний аналіз речень з побудовою синтаксичної або семантико-синтаксичної структури речення, характерної для даної мови;

5) структурний трансфер - перетворення внітрішніх синтаксичних структур зі структур властивих вхідній мовіу структурі мови перекладу;

6) морфологічна генерація - на основі вихідних даних структурного трансферу створюються словоформи перекладного тексту.

реалізувати "переказ тексту", перефразування вихідного тексту в межах однієї мови;

відносно проста реалізація перекладу сильно різних мов, таких як, наприклад російська та арабська.

Недоліки таких систем:

1) складність створення абстрактного опису сенсу речення;

2) неможливо використовувати подібні риси мов, бо поверхневі риси повністю втрачаються в інтерлінгві.

словники для аналізу і генерації текстів;

опис граматик мов;

база знань понять (для створення міжмовного подання);

правила проекції понять для мов та подання.

Для побудови системи машинного перекладу, заснованої на прикладах потрібно мовної корпус, складений з пар пропозицій.

Наприклад:

1.1.2 Якість машинного перекладу

Таблиця 1.1 - Порівняльна характеристика якості перекладу спеціаліста та СМП

1.1.3 Основні переваги систем машинного перекладу

Сучасні системи перекладу пропонують користувачам приблизно однаковий спектр можливостей:

- редагування тексту в багатомовному режимі з розбиттям екрана так, що в кожному вікні знаходиться текст відповідною мовою;

- розпізнавання термінів;

- пошук слів у словниках, вставка перекладів у текст;

- так звана "пам'ять перекладача" - переклад з використанням нагромадженого досвіду;

- створення паралельних двомовних текстових баз даних;

- збереження форматування;

- підтримка великого спектра мов.

4) Конфіденційність. Системі МП ви можете довірити будь-яку інформацію. Програма-перекладач збереже в таємниці будь-які тексти, якій Ви їй довірите.

1.2 Методи оцінки машинного перекладу

Рисунок 1.1 - Методи оцінки машинного перекладу

Розглянемо ці методи більш детально та наведемо приклади їх реалізацій.

1.2.1 Суб'єктивні методи оцінки

1.2.3 Інженерно-лінгвістичні методи оцінки

Такі методи можна розділити на:

· принцип "чорної скриньки"

· тестові масиви тексту

· принцип "білої скриньки"

· Аналіз граничних значень - тобто ситуацій, що виникають на вищих і нижніх межах вхідних класів еквівалентності.

1.2.4 Програмні методи оцінки

1) Переносимість означає, що програмний продукт можна без зусиль перенести на іншу платформу.

2) Надійність - це властивість програмного продукту належним чином виконувати свої функції.

3) Під ефективністю програмного продукту розуміють економне витрачання їм часу і займаного місця.

4) Прийняття в розрахунок людського чинника (що називають також словом "юзабіліті") має на увазі, що з програмним продуктом легко і зручно працювати.

5) Тестованість ПЗ є властивістю, що характеризую легкість його тестування.

6) Зрозумілість ПЗ - це властивість, що характеризує, наскільки легко (або важко) фахівцю, який супроводжує програмний продукт, зрозуміти його роботу.

7) ПЗ володіє ознакою модифікованості, якщо його зміна не викликає труднощів.

1.3 Постановка задачі

1. Дослідити відомі методики автоматичної оцінки якості МП, їх алгоритми, особливості застосування та можливі недоліки.

2. Розробити програму оцінки якості МП за однією з відомих методик.

3. Спланувати та провести експеримент з порівняльної оцінки якості перекладу відомих СМП за допомогою розробленої програми.

2. Розробка інтелектуальної системи автоматичної оцінки якості машинного перекладу з використанням метрики BLEU

2.1 Специфіка автоматичної оцінки машинного перекладу

Автоматичні методи оцінки МП мають свої підходи до реалізацій, різновиди, та алгоритми роботи, що спрямовані на більш глибоку та повноцінну оцінку якості МП.

2.2 Розповсюджені метрики оцінки машинного перекладу

При автоматичній оцінці якість МП вимірюється за спеціальними метриками. Розглянемо найбільш поширені метрики.

Таблиця 2.1 - приклад поганого вихідного тексту МП з високою точністю

Подобные документы