Лексикографічна база галицьких народних приповідок

Українська комп’ютерна лексикографія як важливий інноваційний чинник. Характеристика сучасних електронних словників та online-перекладачів. Аналіз структури словникових статей етнографічного збірника І. Франко "Галицько-руські народні приповідки".

Рубрика Иностранные языки и языкознание
Вид курсовая работа
Язык украинский
Дата добавления 13.06.2016
Размер файла 1,0 M

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://allbest.ru

Зміст

Вступ

Розділ 1. Теоретичні засади дослідження

1.1 Комп'ютерна лексикографія: предмет та завдання

1.2 Українська комп'ютерна лексикографія як важливий інноваційний чинник

1.3 Сучасні електронні словники як база лінгвістичного аналізу слова

1.3.1 Перекладні електронні словники

Розділ 2. Створення лексикографічної бази приповідок (Іван Франко «Галицько-руські народні приповідки». Етнографічний збірник Т.24)

2.1 Підготовчий етап

2.2 Аналіз структури словникових статей

2.3 Створення лексикографічної бази приповідок

Висновки

Список літератури

Вступ

Швидкий розвиток інформаційних технологій, розширення електронних бібліотек та зростання кількості літератури на електронних носіях, зокрема й словників - це лише невелика частина умов, що спровокувала розвиток комп'ютерної лексикографії.

З самого початку вона була задумана не як самостійна наукова галузь, а як автоматизація трудомістких процесів у лексикографії.

Реалізація цього задуму поступово не лише накопичила досвід автоматичного аналізу мовного матеріалу з позицій лексикографії, а й привела до виникнення теоретичних засад автоматизації в лексикографії та автоматизованого укладання словників.

Електронний словник, як явище достатньо нове і водночас вельми динамічне, нині досліджується багатьма вітчизняними та зарубіжними науковцями (В.В. Дубічинський, М.П. Пещак, В.А. Широков, Є.А. Карпіловська, Селегей В.П., Перванов Я.А. та ін.). Увага мовознавців прикута передовсім до проблем його укладання, особливостей функціонування та використання.

Актуальність теми дослідження полягає в тому, що за допомогою лексикографічної бази можна досліджувати структуру приповідок. А також актуальність полягає в тому, що на даний момент лексикографічна база приповідок є відсутня.

Об'єкт дослідження - лексикографічна база приповідок.

Предмет дослідження - галицько-народнї приповідки Івана Франка, взяті з Ентнографічного збірника Т.24.

Мета роботи - створити лексикографічну базу приповідок.

Поставлена мета передбачає розв'язання таких завдань:

· проаналізувати структуру статей;

· розробити інформаційно-структурну модель словника;

· на основі інформаційно-структурної розробити концептуальну модель бази даних;

· реалізувати концептуальну модель в середовищі MS Access;

· наповнити базу даних даними;

· створити користувацький інтерфейс для роботи у середовищі бази даних.

Практичне значення роботи

Лексикографічна база приповідок може бути корисною та використаною у подальших сучасних дослідженнях, оскільки це дає змогу швидко та легко здійснювати пошук потрібного матеріалу та дослідити його.

Розділ 1. Теоретичні засади дослідження

1.1 Комп'ютерна лексикографія: предмет та завдання

Комп'ютерна лексикографія - сукупність методів і програмних засобів обробки текстової інформації для створення словників. Вона виникла порівняно недавно, але дуже швидко розвивається. Перші плоди розвитку цієї галузі лінгвістики - вбудовані в текстові процесори орфографічні словники, а також багато інших інформаційно-програмих продуктів.

Завдання комп'ютерної лексикографії - розробити комп'ютерні алгоритми, програми, системи та технології для укладання та використання словників. Лексикографічні системи дають змогу формувати словникові статті; зберігати текстову, візуальну та звукову інформацію; здійснювати обробку словникової інформації (аналіз, пошук, фільтрування, відтворення тощо). Використання у словникових статтях аудіо- та відеоінформації вимагає потужного програмного та технічного забезпечення і спричиняє ускладнення структури баз даних та інтерфейсу користувача лексикографічних систем.[10]

Для електронної лексикографії особливе значення має принцип гіпертексту як основного способу організації віртуального текстового простору. На думку А. Баранова, практична цінність гіпертексту полягає в тому, що "він описує тип інтерактивного середовища з можливістю переходу за посиланнями". Посилання, якими можуть бути слова, фрази або малюнки, дозволяють користувачу вибрати той чи той текст або малюнок і виводити на екран відомості, пов'язані з ним. Нелінійний характер гіпертексту уможливлює подавання інформації у вигляді розгалуженої структури, що дозволяє значною мірою розширити рамки словникової статті.

Комп'ютерна лексикографія є перспективною наукою. Швидкий темп сучасного життя постійно змінюють мову, а, отже, словники повинні оновлюватися відповідно до вимог часу.

На сьогодні є різні потрактування поняття «електронний словник». Зокрема під цим терміном мають на увазі:

- електронну копію друкованого словника або "комп'ютерну копію традиційного словника - комп'ютерний аналог тексту традиційного словника, створений без додаткового втручання лінгвіста-дослідника". Поняття "електронна версія" передбачає інформацію, представлену в електронному вигляді, яка працює статично і не потребує спеціальних програмних засобів для функціонування;

- комп'ютерну версію друкованого словника. "Комп'ютерний аналог тексту традиційного словника, який має спеціальну граматику його опрацювання (правила аналізу та синтезу інформації), підготовлену лінгвістом-дослідником". Йдеться про інформацію, взяту з паперового словника, яку опрацьовано та подано в інтерактивному вигляді.

- власне електронний (мультимедійний) словник, укладений на основі фактичного матеріалу і створений за допомогою комп'ютерних програм.[8]

Електронні словники й енциклопедії розробляють сьогодні як автономні й мережеві програмні продукти. Не викликає сумніву той факт, що електронні словники надають користувачеві безліч додаткових можливостей порівняно з друкованими аналогами. Перевага такого словника полягає у :

-зберіганні великого обсягу інформації за рахунок гіперпосилань: електронний словник передбачає вміщення до своєї структури кількох словників різних типів і жанрів (словника сполучуваності, термінології, граматичних норм та ін.). На одному компакт-диску міститься інформація, що зберігатиметься в декількох томах друкованого словника. Сучасні електронні словники не тільки значно перевершують за обсягом паперові, а й знаходять шукане слово або словосполучення за кілька секунд

-доступності словника за рахунок ефективної системи пошуку (повнотекстовий пошук, одночасний пошук у декількох словниках, швидкість пошуку); Найголовніша перевага електронних словників - одночасний пошук не лише за назвою словникової статті, а й за всім величезним обсягом словника, що просто нереально в паперовому варіанті. Такий пошук створює багатовимірний портрет слова, при цьому увочевиднюються не тільки конкретні приклади використання слова і стійкі вирази, в яких воно вживається, але й мовні закони, яким підлягають правила словотворення.

- застосуванні засобів мультимедіа для семантизації лексики: озвучування заголовних слів, уведення ілюстративного матеріалу з фотографіями, анімацією, відеофрагментами;

- використанні словників у локальній і глобальній мережах, при цьому робота зі словниками може проводитися багатьма користувачами одночасно;

-е кономії часу й матеріальних витрат для створення комп'ютерних словників.

Донедавна єдиним недоліком електронних словників було встановлення і використання їх на комп'ютері користувача. Однак цей недолік сьогодні усунуто внаслідок зростаючих темпів комп'ютеризації і появи он-лайн версій в Інтернеті. Водночас, електронні словники все-таки успадкували деякі недоліки звичайних словників. Передусім ідеться про неповноту словника та підтримання словника в актуальному стані. Перша проблема вдало розв'язується за допомогою різноманітних способів використання комп'ютерних програм :

- залучення фахівців для поповнення словників

- надання можливості користувачам самим поповнювати і редагувати словники

- імпорт даних із різних словників (зокрема, і з відсканованих копій паперових словників, із використанням інструментів розпізнавання).[2]

Наприклад, online-перекладачі та словники Google після невдалого пошуку слова або словосполучення пропонують ввести свій варіант перекладу (тлумачення) і зберегти його. Енциклопедія Wikipedia працює за тією ж схемою.

Найпопулярнішими електронними словниками в Україні є МультиЛекс, Lingvo, Контекст, Polyglossum. Кращими продуктами можна назвати «Мультилекс» та AbbyyLingvo, оскільки вони мають найбільш повні словникові бази, зручний інтерфейс та різноманітні додаткові можливості, які спрощують вивчення іноземної мови, роботу перекладача та пересічних користувачів, котрі потребують оперативного перекладу іншомовної інформації. Серед електронних енциклопедій найбільшою популярністю користується Wikipedia. Із власне-українських розробок виокремимо «Великий тлумачний словник сучасної української мови» на порталі slovnyk.net та Систему "Словники України", укладену на основі сучасних академічних словників української мови за допомогою словозмінної класифікації та комп'ютерних програм, розроблених фахівцями Українського мовно-інформаційного фонду. Найкращими електронними словниками термінів є словники термінографічної серії СловоСвіт.

Теоретичною та практичною розробкою електронних словників в Україні займаються: Український мовно-інформаційний фонд НАН України, лабораторія комп'ютерної лінгвістики Київського національного університету імені Тараса Шевченка, лабораторія комп'ютерної лінгвістики Київського національного лінгвістичного університету, кафедра загального та прикладного мовознавства Харківського національного університету імені Каразіна та інші приватні структури.

1.2 Українська комп'ютерна лексикографія як важливий інноваційний чинник

Щодо розробки електронних лінгвістичних словників в Україні, то на сьогодні це надзвичайно актуальна проблема. Диктує умови інтенсивного розвитку не лише власне наукова потреба об'єктивації досліджень (оптимізація та раціоналізація професійної роботи мовознавця), а й позанаукова - необхідно задовольнити зростаючий попит пересічного користувача на адаптовану для нього об'єктивну, достовірну інформацію мовознавчого характеру у вигляді електронних словників різного типу.

На сьогодні співробітниками Лабораторії комп'ютерної лінгвістики Інституту філології КНУ ім. Т. Шевченка розробляється некомерційний мовний портал mova.info[11], який уже зараз містить такі словники, як “Відкритий словник'' (новітніх термінів), “Відкритий словник виправлень суржику” (з можливістю для користувачів вносити правки), “Електронний словник порівнянь”, частотні словники (сучасної української прози та поезії), декілька перекладних словників тощо. Також існують галузеві словники енциклопедичного типу при відповідних тематичних сайтах.

Наприклад, на сайті Інтернет-видання Проза створено “Енциклопедію української літератури”[12], з актуальним, але поки що, на жаль, необ'ємним наповненням.

Частина енциклопедії “Українська мова” опублікована на сайті Ізборник[14], який подає та систематизує тексти давньої української літератури та супровідні матеріали. “Великий тлумачний словник сучасної української мови”[16], що базується на основі одноіменного словника за редакцією В. Бусела (170 000 слів), має реєстр в понад 207 000 словникових статей та інтерактивно поповнюється кожного дня. Кілька українсько-іншомовних словників також розміщено на сайті Novamova [17] та на сайті Українського мовно- інформаційного фонду “Лінгвістичний портал”[18].

Початковим етапом подібних комп'ютерних досліджень в Україні можна вважати Всесоюзну конференцію з проблем створення машинного фонду для автоматизованої системи лексикографічних досліджень (1983 рік) за участі українських науковців - працівників Інституту української мови ім. О.О. Потебні та Інституту кібернетики ім. В.М. Глушкова (В.С. Перебийніс, М.М. Пещак та інших). комп'ютерний лексикографія електронний словник

Нині існує декілька наукових установ, де проводиться наукова робота з впровадження комп'ютерних технологій у царину лінгвістичних досліджень.

Відділ структурно-математичної лінгвістики Інституту мовознавства ім. О.О. Потебні НАН України можна назвати фундатором комп'ютерної лінгвістики в українському мовознавстві. Тут створено Морфемно-словотвірний фонд української мови, який має розгалужену архітектоніку і складається з трьох основних підфондів:

1)текстової бази, що містить на сьогодні близько 700 000 слововживань, оснащена процедурами орфографічного контролю текстів, аналізу їхньої морфологічної, синтаксичної та семантичної структури;

2)генерального реєстру українських слів, що становить 166385 лексем, зведеного за матеріалами 5-ти найґрунтовніших українських словників-джерел;

3)текстових процесорів, що виконують морфологічний, синтаксичний та логіко-семантичний аналіз фактичного матеріалу.

За матеріалами фонду укладені комп'ютерні: Словник символьних моделей морфемної будови слова, Словник афіксальних морфем української мови (виданий також у паперовому вигляді), Кореневий гніздовий словник української мови Є.А. Карпіловської, Ідеографічний словник іменників української мови Н.В. Сніжко, Ідеографічний словник дієслів переміщення української мови А.Я. Середняцького. Здійснюються спроби створити комп'ютерні версії Словника староукраїнської мови ХІV-ХV століття та декількох словників лінгвістичних термінів.

Національний мовно-інформаційний фонд НАН України. Тут під керівництвом В.А Широкова створюється Національна словникова база України. У 2001 році випущено компакт-диск інтегрованої лексикографічної системи Словники України, яка має абетковий принцип побудови та пошукову систему обсягом близько 152000 лексем (виданий також друком). Користувачам запропоновано здійснювати роботу у 5-ти режимах: “парадигма”, “транскрипція”, “фразеологія”, “синонімія” та “антонімія”. В основу кожного з цих розділів покладено по декілька найґрунтовніших словників відповідного різновиду. У цьому фонді також започатковано універсальну систему підтримки дослідницьких лексикографічних проектів - Український лінгвістичний корпус, що на сьогодні нараховує 36 млн. слововживань з українських текстів різної стильової спрямованості. Подальша робота фонду зорієнтована на видання нової версії тлумачного Словника української мови обсягом на рівні 20 томів.

Лабораторія комп'ютерної лінгвістики кафедри сучасної української мови Київського Національного Університету ім. Т. Шевченка має такі основні напрямки діяльності, як комп'ютерна лексикографія, створення навчальних програм та машинний переклад. Основні здобутки лабораторії у створенні Морфемно- словотвірної бази української мови (170000 слів); виданні електронного підручника української мови з інтерактивним тестуванням для широкого загалу; створенні граматичного словника українських дієслів з перекладом на італійську мову (близько 3000 одиниць); створенні частотних словників художньої прози та публіцистики та частотного словника сучасної поетичної української мови кінця ХХ століття обсягом у 300000 слововживань. Тут також досліджуються принципи англо-українського та українсько-англійського машинного перекладу, розробляються прикладні та термінологічні словники, програми аналізу та синтезу людського мовлення.

Відділ лексикології та комп'ютерної лексикографії Інституту української мови НАН України здебільшого спеціалізується на теоретичній роботі з проблем комп'ютерної лінгвістики. Одним із основних здобутків його є електронна картотека, яка перебуває у перманентній стадії наповнення текстами. Також започатковано велику роботу над створенням Національного корпусу української мови з мінімальною кількістю слововживань в 1 млн. одиниць, призначеного для суто наукових завдань: збереження текстового матеріалу, забезпечення наукових досліджень лексичної та граматичної структури мови, а також - простеження динаміки і якості змін у мовній системі протягом певного хронологічного періоду.

Кафедра української мови Донецького національного університету. У 2000 році тут упорядковано та видано на компакт-диску фонотеку Українські говірки Донеччини - базу діалектологічних даних у звуковій та графічній формах. До диска увійшли аудіозаписи зв'язаних текстів, здійснених у 65 населених пунктах Донеччини протягом 1997-2000 років.

У стінах Університету “Львівська політехніка” створено лексикографічний процесор Слово, який дозволяє на основі бази даних термінологічних одиниць створювати одно- та багатомовні термінологічні словники. В основу Слова покладений Англо-українсько-російський словник з інформатики та обчислювальної техніки.[3]

1.3 Сучасні електронні словники як база лінгвістичного аналізу слова

Словники традиційно є об'єктом і результатом лексико-графічних досліджень, специфічне ж призначення тлумачних словників визначило різноманітність і ретельність їх опису (Ю. Апресян, Р. Будагов, В. Виноградов, О. Киселевський, М. Семенов, Г. Скляревська, Ф. Сороколєтов, Н. Шведова та ін.).

Від початку 90-х років ХХ ст. активізується словникова робота у зв'язку зі становленням України як самостійної держави. У кількісному плані переважають перекладні загальномовні та термінологічні словники.

Електронний словник - це особливий лексико-графічний об'єкт, у якому може бути реалізовано і введено до обігу багато продуктивних ідей, які з різних причин не мали попиту в паперових словниках. Для масових програмних продуктів, якими є електронні словники, характерними є часті зміни версій та наявність зворотного зв'язку з тисячами користувачів. Тому комп'ютерна лексикографія - це незмінно актуальна лексикографія.

Аналіз сучасних українських електронних словників представлено в роботах В. Широкова [9]. Його книги присвячено дослідженню феноменології та розробці теорії лексикографічних систем. На основі вивчення інформаційно-лінгвістичних аспектів функціонування систем різного походження робиться висновок про існування лексикографічного ефекту, який покладено в основу визначення поняття і конструкції лексикографічного середовища, що використовується для розробки інтегрованих лексикографічних систем. Висвітлюється зв'язок теорії лексикографічних систем з логіко-лінгвістичним численням. Вона ілюструється на багатьох

прикладах з української комп'ютерної лексикографії, серед яких - створення інтегрованої лексикографічної системи «Словники України» й розробка нової інформаційної технології тлумачної лексикографії.

Сучасна лексикографія визначає електронний словник як комп'ютерну базу даних, що включає в особливий спосіб закодовані словникові статті, які здійснюють швидкий пошук потрібних слів із урахуванням морфологічних форм і з можливістю пошуку сполучень слів (прикладів уживання), а також з можливістю зміни напрямку перекладу [7].

Залежно від наявності паперового прототипу електронні словники поділяють на ті, що мають паперові прототипи і на ті, що не мають їх. Словники, що мають паперові прототипи, у свою чергу можна поділити на такі, що відповідають своїм прототипам, та на такі, що мають відмінності. До останньої групи належить більшість електронних словників.

Система українських електронних словників на сучасному етапі нараховує 50 словників, серед яких можна виділити:

- тлумачні словники - «Великий тлумачний словник сучасної української мови»;

- спеціальні словники (історичний, етимологічний, складних випадків наголошення - загалом 13);

- термінологічні (науково-технічний, фізичних термінів, мови програмування та Інтернету - загальною кількістю 17);

- словники територіальних варіантів української мови (буковинських, гуцульських говірок тощо - 10 словників);

- двомовні перекладні словники (російсько-український академічний словник, англо-українсько-російський словник наукової лексики, англо-український словник тощо - усього 9).

Особливостями, що відрізняють електронний словник від його паперового, традиційного варіанта, є:

- значно менший обсяг і, відповідно, ціна;

- можливість швидше знаходити необхідний матеріал завдяки особливостям відповідної комп'ютерної програми. Але потрібно зазначити, що системи автоматичного пошуку в цьому словнику, як і в інших, немає.

Розглянувши сиcтему електронних словників української мови, можемо зробити висновок, що ця система є розгалуженою і різноманітною, дозволяє вирішувати важливі проблеми лексикології та семантики. Але безпосередньо «електронний» характер словників ще поступається їх лексикографічній базі. Електронний словник є універсальним і очевидним об'єктом використання різних мовних технологій, і комп'ютерна лексикографія не повинна обмежуватися тільки застосуванням нових технологій до старого словникового змісту.

1.3.1 Перекладні електронні словники

ABBYY Lingvo: Словник Лінгво добре відомий українським користувачам, він представлений на ринку вже 15 років у 3х варіантах: паперовому, електронному на СД-диску та електронному в мережі інтернет. Спочатку розробкою української частини у версії для СД-дисків займалися співробітники Лабораторії комп'ютерної лінгвістики КНЛУ, сьогодні - приватні організації. Розробкою сервісу lingvo.ru та lingvo.ua і, відповідно, електронного варіанта в мережі інтернет є російська компанія ABBYY СофтХаус. За своєю структурою і СД-диск, і сервіс Лінгво.ру практично ідентичні своїй паперовій версії: до кожного слова подано кілька перекладів і контекстні приклади використання слова. Безперечно зручністю є наявність цілого набору словників із різних тем, об'єднаних у рамках одного сервісу.

Інтернет-Версія електронного словника Лінгво здійснює переклад на російську з англійської, німецької, французької, італійської та іспанської мов і навпаки, а також містить 13 тематичних словників.[15]

MultiLex: Компанія МедиаЛингва дотримується при створенні словників МультиЛекс досить простої стратегії. В основу електронних словників закладені словникові бази книжкових видань, що вже завоювали популярність і визнання серед перекладачів, викладачів іноземних мов, студентів і школярів.

Онлайн-словник МультиЛекс (online.multilex.ru) містить більш ніж 40 загальних, тематичних та тлумачних словників, що заслуговують на довіру професійних лінгвістів та перекладачів. Інтернет версія електронного словника здійснює переклад на російську з англійської, французької, німецької, італійської, португальської, іспанської та узбекської мов і навпаки. Словник може здійснювати переклади текстів будь-якої складності, використовуючи докладні та актуальні статті, що містять докладні тлумачення слів, транскрипцію та приклади вживання. Для перекладу спеціалізованої лексики до складу МультиЛексу входять тематичні онлайн-словники багатьох галузей, таких як: будівництво, економіка, банківська справа, комп`ютери, право, техніка, медицина тощо.

Електронна енциклопедія Вікіпедія. Wikipedia («Вікіпедія») -- найповніша енциклопедія у світі. Це унікальний міжнародний інтернет-проект, що складається з 253 мовних проектів Вікіпедії, яким можна скористатись на сайті www.wikipedia.org. З-поміж них найбільшу кількість має англійська Вікіпедія - 2,3 млн. статей. «Вікіпедія» стартувала 15 січня 2001 р. Проект створили вчений-філософ Ларрі Сенгер і підприємець Джиммі Вейлс, котрі той час вже займалися Nupedia - інтернет-енциклопедією, яка відрізнялася від своїх попередниць тим, що була простішою та доступнішою.

Одним із ноу-хау першого проекту було залучення авторів-добровольців до створення вивірених енциклопедичних статей, які потім могли б використовуватися усіма охочими. Спочатку робота йшла повільно, тому що написання й рецензування статей виявилося складною справою, але увагу ентузіастів привернула комплексна інтернет-видавнича система Wiki, розроблена в 1995 р. програмістом Уордом Каннінгемом. Вона дозволяє підтримувати інтернет-сайти, інформацію на яких можна редагувати й доповнювати в онлайновом режимі. Учасник Wiki може внести зміни на будь-яку сторінку сайту, відтак їх відразу побачать усі відвідувачі. При цьому між сторінками активно розставляються гіперпосилання, від чого довідкова функція сайту поліпшується.

На сьогодні у Вікіпедії 29 447 статей (не враховуючи зображень). Українську частину Вікіпедії активовано 4 квітня 2004. Спочатку вона містила 1000 статей. 28 березня 2008 року українська Вікіпедія вийшла на рівень 100 тисяч статей і посідає дев'ятнадцяте місце серед проектів іншими мовами. Для порівняння, англійська Вікіпедія налічує понад 2,3 млн. статей, німецька понад 700 тисяч та французька понад 600 тисяч статей, польська та японська 470 тис., російська, китайська приблизно 200 тис. За дотримуванням правил Вікіпедії спостерігають 14 адміністраторів.[19]

Одна з головних переваг сайту - наявність функції тлумачного словника, який окрім обґрунтованого тлумачення слова дає посилання на статті, де було знайдено те чи те слово або словосполучення. Це дає можливість глибокого вивчення всіх аспектів заданого слова.

Тлумачний словник - Словник.Нет: Великий тлумачний словник сучасної української мови онлайн (slovnyk.net) містить понад 207 000 словникових статей та близько 18 000 фразеологізмів. У ньому представлено активну лексику української літературної мови, терміни, номенклатурні та складноскорочені слова, слова історичного фонду, що свого часу належали до широковживаних, найвідоміші у вжитку слова, пов'язані з релігійними та філософськими поняттями, найуживаніші архаїзми, лексичні діалектизми та найпоширеніші неологізми, що з'явилися протягом останніх років. Проект Словник.Нет базується на другому виданні Великого тлумачного словника СУМ / Голов. ред. В.Т.Бусел. - К.: Ірпінь: ВТФ "Перун", 2005 і розрахований на широке коло користувачів, що вивчають українську мову, послуговуються нею у повсякденному житті, цікавляться українською культурою. Словник має кілька позитивних моментів - по-перше, він активно поповнюється новими словами, які ще не ввійшли до ВТС СУМ. По-друге, містить посилання на Вікіпедію та є функція пошуку в пошукових системах. Також, якщо ви не згодні з тлумаченням слова, ви можете обговорити його на форумі сайту.[16]

Комплексний словник української мови - «Словники України»: Український мовно-інформаційний фонд розробив програму «Словники України» на базі академічних словників, яка об'єднує п'ять словників: орфографічний, орфоепічний, синонімічний, антонімічний та фразеологічний, а також функцію словозміни.

За допомогою системи «Словники України» користувач може дізнатися про написання, наголошення, вимову близько 152 тисяч слів української літературної мови, одержати повну інформацію про відмінювання цих слів у всіх граматичних значеннях (відмінках, числах, особах тощо). Також на екрані при розкриванні парадигми того чи того слова над кожним із них є наголос, що є дуже важливим для тих, хто не проживає в українському природному середовищі. Словник існує у двох версіях - на СД-диску та в мережі Інтернет.

В електронному словнику української мови можна дізнатися про синоніми та антоніми, про вживання заданого слова у цілісних виразах зі спеціальним значенням (фразеологізмах). У ньому міститься інформація про 2200 антонімічних пар, 9200 синонімічних рядів та 56 тисяч фразеологічних одиниць.

Систему «Словники України» укладено на основі сучасних академічних словників української мови за допомогою словозмінної класифікації та комп'ютерних програм, розроблених фахівцями Українського мовно-інформаційного фонду. Авторами цього електронного словника є В. Широков, І. Шевченко, О. Рабулець, О. Костишин, М. Пещак.[18]

Словники термінів: В Україні найкращими електронними термінологічними словниками є словники Термінографічної серії СловоСвіт, що започаткована у 2004 році (головний редактор - Б.Є. Рицар). У рамках цього проекту разом виданням паперових версій термінологічних словників почалося розроблення системи для укладання комп'ютерних словників під назвою PolyDic 1.0. За допомогою цієї системи укладено та видано три комп'ютерних словники, які вийшли в світ одночасно з їхніми паперовими версіями: «Російсько-український словник будівництва й архітектури», «Російсько-український словник з інженерних технологій» та «Російсько-український коксохімічний словник». З-поміж позитивних ознак системи виокремимо:

- простоту у використанні; зручний пошук (за першими літерами слів та за заданою маскою);

- можливість одночасного введення декількох окремих баз з подальшим їхнім злиттям в одну, що значно пришвидшує роботу з укладання словника;

- наявність редактора словникових статей;

- можливість конвертувати словникові бази в текстовий формат RTF, для їх коректування та редагування;

- можливість створювати спливні інформаційні вікна для тлумачення словникових позначок, зокрема приналежність терміна до певної галузі;

- компактний обсяг програми та словникових баз; непотрібність встановлення додаткового програмного забезпечення.

Серед недоліків системи потрібно вказати на обмеженість кількості мов перекладних словників (дві); вбудований шрифт не підтримує Unicode і не дає змогу вводити літери з діакритичними знаками; система не підтримує мультимедійні об'єкти.

2007 р. у термінографічній серії СловоСвіт вийшов друком п'ятимовний словник інсталяційних термінів і заплановано укласти та видати ілюстрований багатомовний словник з будівництва й архітектури. Усе це зумовило розроблення нової системи для укладання багатомовних мультимедійних комп'ютерних словників PolyDic ML 3.0. Як і попередня версія, вона складається з двох модулів: один для введення та редагування словникових баз, другий ? для їхнього відтворення на комп'ютерних дисках. Основні функції та засоби нової системи:

- незалежне введення словникових баз на декількох комп'ютерах з подальшим злиттям даних в єдину базу;

- підтримка кодової таблиці Unicode символів усіх національних алфавітів; - експортування введеної словникової інформації у формат RTF;

- вибір вхідної мови багатомовного словника;

- вибір мови інтерфейсу програми;

- можливість відтворення синонімів, антонімів, абревіатур, скорочень, транскрипції, транслітерації, наголосів, морфологічної інформації, позначок (граматичних, стилістичних, спеціальних);

- відтворення зображень, формул та графіків, звукових файлів, кліпів (для ілюстрації словникової статті);

- сортування за вибраною вхідною мовою або за заданими розділами;

- розгорнута та зручна система пошуку (за першими літерами слів чи за поєднанням символів у всіх текстових полях електронного словника);

- уведення довільної кількості мов, підтримуваних операційною системою Windows (кількість мов словника програмно не обмежена, не потрібно встановлювати додаткові шрифти);

-у систему можна заносити декілька словників та відтворювати їх спільно або окремо.

Розділ 2. Створення лексикографічної бази приповідок (Іван Франко «Галицько-руські народнї приповідки».Етнографічний збірник Т.24)

2.1 Підготовчий етап

На цьому етапі було здійснено перетворення сканованого тексту в електронну форму. Є два шляхи оцифрування відсканованого текстового матеріалу:

1. Розпізнавання за допомогою відповідного програмного забезпечення.

2. Набір тексту “вручну” за допомогою програми Microsoft Word.

Під час оцифрування виникли труднощі, оскільки результати розпізнавання тексту засобами ABBYY FineReader були не цілком коректними. Проте розпізнавання не дало бажаних ефективних результатів, тому текст був приведений у електронну форму вручну. Після того як текст був приведений в електронну форму, він був звірений зі сканованим варіантом та вичитаний.

2.2 Аналіз структури словникових статей

Під час дослідження галицько-руських приповідок Івана Франка було виявлено декілька типів приповідок, а саме:

1. Існує одне головне слово, а далі перелік приповідок із вживанням цього слова. Також вказано місце фіксації приповідки та її коментар.

Наприклад: Нагріти.

1. Кого біда нагріє, той дуріє. (Цен.)

Від біди чоловік розум тратить.

2. Нагрів би ти Бог душу. (Березів)

Щоб упокоїв її в раю.

3. Нагріло би тя нещастє. (Снят)

Інформаційно-структурну модель приповідки зображено на Рис.1.

Рис.1. Інформаційно-структурна модель приповідки з головним словом «Нагріти»

2. Існує одне головне слово, а далі перелік приповідок із вживанням цього слова. Проте коментар до цих приповідок є спільний.

Наприклад: Надолобень.

1. Чи подобень надолобень? (Наг.)

Чи сподобемн пень на жолобемнь? (Пужн.)

Давно возили дівчат від хати і отак запитували, чи її хто хоче взяти?

Інформаційно-структурну модель приповідки зображено на Рис.2.

Рис. 2. Інформаційно-структурна модель приповідки з головним словом «Надолобень»

3. Головне слово представлене словами синонімами.

Наприклад: Нищета, нищій.

1. Нищита не позбавляє ні ума, ні чести.(Гнідк.)

Книжне.

2. Нищому гордість, як корові сідло.(Гнідк.)

Не випадає бідному гордість.

Інформаційно-структурну модель приповідки зображено на Рис.3.

Рис. 3. Інформаційно-структурна модель приповідки з головними словами-синонімами «Нищета, нищий»

2.3 Створення лексикографічної бази приповідок

На цьому етапі приповідки, які були набрані у середовищі MS Word та вивірені, були перенесені у Excel.

Заголовному слову присвоюється спеціальний код, у якому: перша цифра- це номер групи студента, наступні дві- порядковий номер студента та наступні три - порядковий номер слова (Рис.4).

Рис.4. Таблиця «Заголовок»

У таблицю Гніздо було внесено код головного слова (NestWordId), порядковий номер(NestNumber) та коментар приповідки(Remark) (Рис.5).

Рис. 5. Таблиця Гніздо

У таблиці Приповідка міститься інформація про код гнізда(NestId), текст (ProverbText) та місце фіксації (Source) приповідки (Рис.6).

Рис. 6. Таблиця Приповідка

Далі за допомогою спеціальної фукції (Рис. 7) всі дані без змін із средовища MS Excel автоматично було перенесено у середовище MS Access.

Рис. 7. Функція переносу даних

Після того, як усі таблиці були перенесені в Access було створено схему даних (Рис. 8).

За допомогою встановлених зв'язків можна з легкістю переглядати якій приповідці відповідає певний коментар чи який коментар відповідає певному головному слову (Рис. 9 та Рис. 10).

Рис. 8. Схема даних

Рис. 9. Коментар та приповідки, до яких він належить

Рис. 10. Головне слово та зв'язок з гніздом приповідки

Висновки

Протягом останніх років електронні словники завдяки своїй функціональності, зручності та обсягу інформації все більше витісняють свої паперові аналоги. Саме через зростання популярності електронних словників виникла потреба у створенні нового напрямку лінгвістики - комп'ютерної лексикографії, яка вивчає методи і програмні засоби обробки текстової інформації для укладання комп'ютерних словників. Завдання комп'ютерної лексикографії - розробити комп'ютерні алгоритми, програми, системи та технології для укладання та використання словників.

Електронний словник - комп'ютерна база даних, яка містить особливим чином закодовані словникові статті, що дозволяють здійснювати швидкий пошук потрібних слів, словосполучень часто з урахуванням морфологічних форм і з можливістю пошуку поєднань слів (прикладів вживання). Після аналізу електронних словників можна стверджувати, що потреба в словниках подібних типів зростає, оскільки такий вид видання є дешевшим за друковану продукцію, прискорює пошук необхідної інформації та полегшує навчальний процес. Без сумніву, розвиток електронних словників прогресує, складаючи конкуренцію традиційним виданням.

Електронні словники зручніші у користуванні і розробляються для різних цілей користувачів різних галузей знання та покликані стати новим етапом в історії лексикографії. Для масових програмних продуктів, якими є електронні словники, характерні часта зміна версій. Тому комп'ютерна лексикографія - це актуальна лексикографія, адже, виявивши чергову помилку, є можливість виправити її відразу, а не через десятиліття.

Створена лексикографічна база приповідок може бути корисною та використаною у подальших сучасних дослідженнях, оскільки це дає змогу швидко та легко здійснювати пошук потрібного матеріалу.

Список літератури

1. Балог В. Сучасний стан української комп'ютерної лінгвістики / В. Балог // Лексикографічний бюлетень (ІУМ). - Вип. 11. - К., 2005.

2. Дарчук Н. П. Комп'ютерна лінгвістика (автоматичне опрацювання тексту) : підручник [для студ. вищих навч. Закладів] / Н. П. Дарчук ; КНУТШ. - Київ : Київський університет, 2008. - 352 с.

3. Дубічинський В. В. Українська лексикографія : історія, сучасність та комп'ютерні технології : навч. посібник / В. В. Дубічинський. - Харків, 2004.

4. Корпусна лінгвістика / відпов. ред. Широков В. А. - К., 2005.

5. Карпіловська Є. Вступ до комп'ютерної лексикографії / Є. Карпіловська. - К., 2004.

6. Проблеми українізації комп'ютерів. - К., 1993.

7. Селегей В. Электронные словари и компьютерная лексикография http://www.lingvoda.ru/transforum/articles/selegey_a1.asp

8. Широков В. А. Елементи лексикографії / В. А. Широков. - К., 2005.

9. Широков В. А. Інформаційна теорія лексикографічних систем. - К.: Довіра, 1998. - 331 с.; Широков В. А. Інформаційно-енер-гетичні трансформації та інформаційне суспільство / В. А. Широ-ков // Українсько-польський науково-практичний журнал «Наука, інновація, інформація». - К., 1996. - С. 48-66.

10.Широков В.А. Компютерна лексикографія. - К.: Наукова думка, 2011. - 351 с.

11. http://www.mova.info

13. http://lcorp.ulif.org.ua/dictua/

14. http://litopys.org.ua/ukrmova/um.htm

17. http://novamova.com.ua

18. http://www.ulif.org.ua

Размещено на Allbest.ru

...

Подобные документы

  • Лексикографія як розділ мовознавства, пов’язаний зі створенням словників та опрацюванням їх теоретичних засад. Староукраїнська лексикографія. Українська лексикографія з кінця XVIII ст. по ХХ ст. Етапи розвитку концепції і принципів укладання словників.

    статья [25,8 K], добавлен 14.02.2010

  • Поняття словника, його види та призначення. Давня та сучасна українська лексикографія. Місце і значення словників у житті сучасників. Антропонімічні, двомовні і багатомовні перекладні словники, діалектні, граматичні та лінгвокраїнознавчі словники.

    реферат [28,2 K], добавлен 05.01.2013

  • Давня та сучасна українська лексикографія. Поняття словника. Орфографічний словник української мови. Тлумачний словник української мови. Словник синонімів української мови. Винекнення лексикографії з практичних потреб пояснення незрозумілих слів.

    реферат [33,0 K], добавлен 25.01.2009

  • Поняття теоретичної і практичної лексикографії та напрямки її розвитку. Принципи класифікації словників, що вміщують інформацію про речі, явища, поняття та слова. Різниця між енциклопедичними та лінгвістичними (одномовними й багатомовними) словниками.

    реферат [27,9 K], добавлен 28.03.2014

  • Збір та характеристика наукових та народних назв птахів, їх походження за етимологічними словниками. Аналіз та механізми взаємозв’язків між науковими та народними назвами та біологією птахів. Типологія наукових і народних назв за їх етимологією.

    курсовая работа [50,6 K], добавлен 20.12.2010

  • Лексичне значення слова. Явище омонімії у сучасній українській мові. Слова індоєвропейського походження. Перифрази та евфемізми як різновиди синонімів. Синтаксичні функції фразеологічних одиниць. Предмет та завдання лексикографії. Типи словників.

    курс лекций [90,5 K], добавлен 03.09.2013

  • Задачі та історія тлумачного словника. Переваги електронних словників. Характеристика найпопулярніших тлумачних словників англійської мови та механізм роботи з ними. Якість тлумачень лексики: загальновживаної, сленгової, спеціалізованої та неологізмів.

    курсовая работа [1,9 M], добавлен 07.10.2009

  • Поняття архаїзми, напрямки дослідження архаїзмів в лексикографі. Тематичнi групи архаїзмiв, значення слiв архаїзмiв у тлумачному словнику української мови А. Iвченка. Співвідношення архаїчного значення слів, особливості створення сучасних словників.

    реферат [33,1 K], добавлен 16.08.2010

  • Вивчення основ педагогічної лексикографії. Історія створення двомовних словників. Характеристика структури англо-українського перекладача бібліотечної, економічної термінології та навчального із методичними коментарями і граматичними таблицями.

    курсовая работа [42,0 K], добавлен 03.02.2010

  • Визначення поняття терміну у лінгвістиці. Класифікація англійських термінів. Особливості відтворення комп'ютерної термінології українською мовою. Кількісний аналіз засобів перекладу англійських скорочень з обчислювальної техніки, Інтернету, програмування.

    курсовая работа [48,8 K], добавлен 22.02.2015

  • Лінгвістичні особливості словникової статті політичного характеру як типу тексту. Тлумачні та енциклопедичні словники в англомовній лексикографічній традиції. Аналіз перекладів американських словникових статей політичного характеру українською мовою.

    дипломная работа [142,2 K], добавлен 22.06.2013

  • Пошукові системи Інтернет-мережі. Популярні он-лайн перекладачі, переваги електронних словників. Використання ресурсів Інтернету при перекладі науково-технічної літератури. Помилки і неточності, що виникають в процесі комп’ютерного перекладу текстів.

    курсовая работа [46,3 K], добавлен 09.02.2013

  • Дослідження лексико-семантичних особливостей концепту Beauty на матеріалі англомовних лексикографічних джерел, представлення фреймової структури концепту Beauty. Порівняльний аналіз словникових дефініцій, навколоядерний простір суперфрейму "beauty".

    курсовая работа [72,2 K], добавлен 31.03.2019

  • Стан мовознавства в Європі епохи середньовіччя, Відродження. Формування національних мов і закріплення їх в літературі. Укладання національних емпіричних граматик та словників. Звуконаслідувальна теорія походження мови. Лексикографія у східних слов'ян.

    реферат [47,0 K], добавлен 20.07.2009

  • Боротьба І. Франка за широке запровадження фонетичного правопису в Західній Україні та його пропаганда "конечності літературного і національного поєднання галицьких русинів з українцями". Перехід західноукраїнської інтелігенції до фонетичного правопису.

    реферат [22,7 K], добавлен 22.12.2007

  • Словотвірні процеси у дериваційній системі пізньої середньоукраїнської мови. Особливості основоскладання, суфіксального, конфіксального та нульсуфіксального словотвору та активності використання дериватів. Українська наукова історична лексикографія.

    дипломная работа [126,6 K], добавлен 19.09.2010

  • Вживання іншомовних запозичуваних слів в українській мові та витоки їх появи. Короткий термінологічний словничок. Укладання перекладних багатомовних словників. Проблеми української термінології, основні напрями дослідження та розвитку термінознавства.

    лекция [28,4 K], добавлен 17.05.2009

  • Використання словників для з'ясування значення неологізму або з контексту. Способи передачі неологізмів сфери економіки, комп`ютерних технологій та Інтернет засобами української і російської мов. Особливості адекватного перекладу даних типів неологізмів.

    дипломная работа [93,7 K], добавлен 20.03.2011

  • Современное состояние исследования метафор в лингвистике. Подходы к классификации текстов. Функциональный стиль массовой коммуникации и медиа-текст online формата. Специфичность метафорической репрезентации концептов в различных языковых сознаниях.

    дипломная работа [761,1 K], добавлен 25.02.2011

  • Аналіз стратегій і тактик мовлення персонажів. Використання комунікативних стратегій у сучасних німецькомовних оповіданнях: втішання, вмовляння та залякування. Аналіз їх визначальних характеристик на мовленнєвому, лексичному та синтаксичному рівні.

    статья [25,1 K], добавлен 07.11.2017

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.