Семантическая разметка указателя академического собрания сочинений

Семантическая разметка собраний сочинений. Указатель как способ структурирования информации. Вспомогательные указатели и их типология. Анализ алгоритма семантической разметки именного указателя Льва Толстого. Основные проблемы семантической разметки.

Рубрика Литература
Вид дипломная работа
Язык русский
Дата добавления 29.11.2015
Размер файла 421,5 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Б.3. Имена artworks

Однословное имя

"Беседа", журнал - || 40.

"Беседа"

Библия - || 128, 339.

Библии

Библия

- "Совесть" (картина) - ||161.

"Совесть"

Двухсловное имя

"Археологический вестник" - || 98.

"Археологическом вестнике"

"Биржевые ведомости" - || 328, 359, 396, 409, 441.

"Биржевых ведомостях"

"Выборгское воззвание" - || 190.

Выборгскому воззванию

Булгаков Вал.Ф. "Памяти Давыдова" - || 142.

В. Булгаков, "Памяти Давыдова"

Многословное имя

- "Источники словаря русских писателей" - || 107.

"Источники словаря русских писателей"

- "М.А. Энгельгардт" - || 127.

"М.А. Энгельгардт"

Васильев В. "Религии востока. Конфуцианство, буддизм, таосизм" - || 448

В. Васильев, "Религии востока. Конфуцианство, буддизм, таосизм"

Булгаков Вен.Ф. "Дом Льва Николаевича Толстого в Хамовниках" - || 105.

Вениамин Булгаков

"Дом Льва Николаевича Толстого в Хамовниках"

- "Жизнь и учение Конфуция" - || 100.

"Жизнь и учение Конфуция"

Лаврентьева С. "Друг детей - Е.М. Бем. Биографический эскиз" - || 257.

С. Лаврентьева, "Друг детей - Е.М. Бем. Биографический эскиз"

В данной группе особенность соотношения имени из указателя и текста связана только с теми названиями художественных произведений, автор которых указан в том же заголовке, что и название.

Инициалы автора произведения в тексте указываются вначале; в указателе, наоборот, на первом месте стоит фамилия. Такой порядок в указателе обусловлен тем, что фамилия - "основное" имя, поэтому и стоит на первом месте в индексе:

Васильев В. "Религии востока. Конфуцианство, буддизм, таосизм" - || 448

В. Васильев, "Религии востока. Конфуцианство, буддизм, таосизм"

Иногда даже возможно, что в тексте указано полное имя автора:

Булгаков Вен.Ф. "Дом Льва Николаевича Толстого в Хамовниках" - || 105.

Вениамин Булгаков

"Дом Льва Николаевича Толстого в Хамовниках"

Кроме того, заголовок из указателя и текст могут различаться знаками препинания внутри:

Лаврентьева С. "Друг детей - Е.М. Бем. Биографический эскиз" - || 257.

С. Лаврентьева, "Друг детей - Е.М. Бем. Биографический эскиз"

Для таких названий художественных произведений, в заголовке которых указан и автор (редактор, составитель и др.), предлагается искать в тексте только название произведения без автора.

Б.4. Имена person

В данную группу включены имена реальных людей и вымышленных персонажей.

Однословное имя

Болхин (Блохин) - 204, || 206.

Болхин

Болхину

Блохина

Блудовы - 92 || 93.

Блудовы

Гёте - 38, || 39.

Гете

Гёте

Давид - 282.

Давида

Двухсловное имя

Алешка дьячек - 188, || 190.

Алешка дьячекъ

Алешке дьячке

Беккер Сарра - || 291.

Сарры Беккер

Бентам Иеремия (Bentham) - 25, 26, || 30.

Иеремия Бентам (Bentham)

Бентамъ

Голицын Борис - || 229.

Б. Голицыным

Многословное имя

Баршева Ольга Алексеевна - 337, 385, 411, 417, || 337, 387, 412, 419.

Ольги Алекс?евны Баргиевой

Ольга Алексеевна Баршева

О [льг?] А [лекс?евн?]

О [льгой] Алексеевной]

О.А. Баршева

Ол [ьга] Алекс? [евна]

Бахрушин А.П. - || 414.

А.П. Бахрушина

Бем Елизавета Меркурьевна, рожд. Эндаурова - || 257.

Е.М. Бем

Елизавета Меркурьевна Бем

Елизавет? Меркурьевн? Бёмъ

Гаррисон Вильям Ллойд (Garrison William Lloyd) - 344, 430, 431, || 344, 345, 431.

Вильяма Ллойда Гаррисона

В. Гаррисона

Mr. Garrison

Гаррисону

Однословные личные имена проблем, не описанных в пункте А, не имеют.

Проблемы возможны при разметке двухсловных и многословных имен.

Б.4.1 В тексте можно найти только часть двухсловного и многословного имени из указателя (имя, имя и отчество, имя и фамилия, фамилия):

Бруно Джиордано - 221, || 222.

Бруно

Джиордано Бруно

Арбузов Иван Павлович - 294, || 295.

Ив [анъ] Павл [овичъ]

Иванъ Павлычъ

Иван Павлович Арбузов

И.П. Арбузов

Гоголь Николай Васильевич - 201.

Гоголя

Алексеев Гавриил Иванович - 105, || 106, 107.

Брата

Гавриил Иванович Алексеев

Гавриил

Арбузова Марья Афанасьевна - || 451.

450 - Марьи Афанасьевны

В последнем примере также найдено расхождение в страницах. Имя было обнаружено не на указанной странице (стр.451), а на предыдущей (стр.450).

Б.4.2 Двухсловное и многословное имя может быть представлено в тексте в другом, отличном от указателя, порядке:

Фамилия - Имя - Отчество (если есть)

Имя - Отчество (если есть) - Фамилия

Бибиков Александр Николаевич - 74, 188, || 41, 74, 88, 189, 462.

Бибикова

А.Н. Бибикову

Александр Николаевич Бибиков

Александру Николаевичу Бибикову

Бибикову

Бондарев Тимофей Михайлович - 275, 332, 352, 358, 363, 434, || 275-278, 328, 334, 335, 339, 353, 359, 435, 463.

Молоканина

Тимофей Михайлович Бондарев

Т.М. Бондареве

Т.М. Бондареву

Т.М. Бондаревым

Бондареву

Бондарев

Т.М. Бондарева

Бондаревым

Бондарева

Гаевский В.П. - || 152.

В.П. Гаевского

Гаррисон Вендель (Garrison Wendel) - 430, 431, || 344, 345, 431.

Mr. Garrison

Гаррисону

Гаррисона

Гаррисон

Вендель Гаррисон

Вендель Гаррисон (Wendel Р. Garrison)

В. Гаррисона

Венделя Гаррисона

Б.4.3 В тексте может быть представлена сокращенная запись двухсловного и многословного имени (инициалы):

Гейден гр. Петр Адамович - || 190.

П.А. Гейден

Гершензон Михаил Осипович (М. Г.) - || 341.

М.О. Гершензона

Голицын Борис - || 229.

Б. Голицыным

Гольденвейзер Александр Борисович - || 434.

А.Б. Гольденвейзеру

Б.4.4 Личное имя встречается в тексте в уменьшительно-ласкательной форме, при этом эта форма может быть не указана в заголовке:

Алексеев Николай Васильевич (Колюшка) - 76, 81, 106, 146.438, || 78, 84, 146.

Колюшку

Колю

Николай Васильевич

Николай Васильевич Алексеев

Алексеева Надежда Васильевна (Надя) - 432, || 433.

Надю

Нади

Берс Степан Андреевич - 294, || 295.

Степа

Степан Андреевич Берс

Ге Екатерина Ивановна - 377, 387, 400, 403, || 186, 250, 312, 378, 404.

Кат [ерин?] Ив [ановн?]

Е.И. Ге

Екатерина Ивановна Ге

К [атерину] Иванов [ну]

Катерину Ивановну

Кат?

Б.4.5 Омонимия личных имен

Ге Николай Николаевич (отец) - 168, 369, 381, 404, 418, ||160, 161, 165, 166, 168, 174, 183, 186, 191, 208, 250, 315, 316, 336, 342, 343, 369, 371, 378, 382, 387, 400, 403, 406, 428, 461, 462.

Н.Н. Ге

Ге

Н.Н. Ге (отца)

Н.Н. Ге (отцу)

Николай Николаевичъ

Ге Николай Николаевич (сын) (Количка) - 164, 165, 173, 182, 185, 249, 335, 342, 371, 382, 387, 418, 428, || 105, 162, 165, 166, 186, 191, 208, 336, 352, 368, 382, 388, 393, 448, 451.

Н.Н. Ге

Николай Николаевичъ

Ник [олая] Ник [олаевича] младшаго

Николая

Николая Ге

Н.Н. Ге-сыне

Николая Николаевича

Количку

Количкой

Количка

Колички

Количка Ге

Вопрос омонимии предлагается решать следующим образом: если одной и той же форме записи имени соответствует несколько имен из указателя, то этой форме будут приписываться как исходный вариант все возможные имена. Например, если в тексте найдено Н.Н. Ге, то эта запись будет относить к именам Ге Николай Николаевич (сын) (Количка) и Ге Николай Николаевич (отец).

Для всех имен person будут прописаны варианты записи имени, за исключением уменьшительно-ласкательных форм, если они не указаны в заголовке. Эти формы в противном случае искать в рамках алгоритма не предполагается:

Ге Петр Николаевич - 164, 165, 342, 387, 400, 403, || 165, 166, 343, 378.

П [етру] Н [иколаевичу]

Петр [омъ] Ник [олаевичемъ]

Ге

Петру Николаевичу

Брату

Петруша

Петр Николаевич Ге

Петра Николаевича

Петрушу

Таким образом, большую трудность при разметке представляют именно личные имена, поэтому, в первую очередь, необходимо определять тип имени. Однословные имена любого типа не имеют частных проблем, не описанных в пункте А. Общие проблемы.

§ 6. Алгоритм семантической разметки именного указателя ПСС Толстого

Алгоритм разметки основного текста согласно индексу включает в себя несколько этапов.

Первый этап - подготовительный.

На данном этапе, во-первых, на основе сводного указателя ПСС Толстого (91-й том) был создан словарь Словарь доступен в формате csv (кодировка utf-8) в электронном виде. Разделитель - «;". , в котором для 25 тысяч имен из указателя прописаны возможные варианты. В первом столбце указано исходное имя из указателя, во втором - тип имени, в остальных столбцах после типа имени перечисляются возможные варианты употребления данного исходного имени в тексте (см. Таблица 3).

Таблица 3. Пример словаря вариантов

Юсупов работный дом, в Москве

organization

Юсупов работный дом

Корша Ф.А. драматиче-ский театр, в Москве

organization

Драмати - ческий театр Корша

Малый театр в Москве

organization

Малый театр

Алисон (Alison)

person

Алисон

Alison

Бессонов Иван Ильич

person

Иван Ильич Бессонов

Иван

Иван Ильич

Бессонов

Иван Бессо-нов

И. Бессо-нов

И.И. Бессо-нов

И.И.

Колодези Рязанской губ. ("другие")

place

Колодези

Колодези

другие

Ломитен ("Миштен", Восточная Пруссия)

place

Ломитен

Миштен

Куликовы Н.И. и Н.Ю., "Семейные расчеты"

artworks

"Семейные расчеты"

"Счастье" ("Le bonheur")

artworks

"Счастье"

"Le bonheur"

Варианты имен в сводном указателе приписывались согласно типу имени и тому, в каком виде это имя указано в заголовке. Следует напомнить, что подтип имени в заголовке определяется количеством слов в основном имени и не включает другие варианты записи имени или количество слов в описательном имени. В Таблице 4 ниже представлены разные варианты записи заголовков к каждому подтипу имени.

Таблица 4. Заголовки указателя и варианты записи к данным заголовкам

Тип имени

Подтип имени

Заголовок

Варианты записи

Place

Однословное имя

Багдад

Багдад

Гюнцбург (Бавария)

Гюнцбург

Акка (Акра)

Акка

Акра

Юрбург (Юнсбург) Виленской губ.

Юрбург

Юнсбург

Абастуман Тифлисской губ.

Абастуман

Албат, селение (Кавказ)

Албат

Будешти (Будшеты), селение (Валахия)

Будешти

Будшеты

Дюренстейн (Дирнштейн, Дарнстейн), селение (Австрия)

Дарнстейн

Дюренстейн

Дирнштейн

Аустерлиц (Моравия) ("аустерлицкое сражение")

Аустерлиц

Аустерлицкое сражение

Эберсдорф ("Erensdorf", Австрия)

Эберсдорф

Erensdorf

Ломитен ("Миштен", Восточная Пруссия)

Ломитен

Миштен

Урал (Уральские горы)

Урал

Уральские горы

Двухсловное имя

Японское море

Японское море

Неаполитанское королевство ("Королевство обеих Сицилий")

Неаполитанское королевство

Королевство обеих Сицилий

Курдюковская станица (Курдюки)

Курдюковская станица

Курдюки

Gressoney St. - Jean (Швейцария)

Gressoney St. - Jean

Gressoney Saint-Jean

Saint-Jean Gressoney

St. - Jean Gressoney

Алаторский уезд Симбирской губ.

Алаторский уезд

Многословное имя

Область Войска Донского (Земля Войска Донского)

Область Войска Донского

Земля Войска Донского

Ионических островов республика (Республика семи островов)

Республика ионических островов

Республика семи островов

Organization

Однословное имя

Колизей (Рим)

Колизей

Эрмитаж, музей в Петербурге

Эрмитаж

Дюссо, ресторан в Петербурге (Дюс)

Дюссо

Дюс

"Волжанин", саратовское книгоиздательство

"Волжанин"

Двухсловное имя

Флорентийский собор

Флорентийский собор

Кензингтонский музей (Лондон)

Кензингтонский музей

"Петрушка Уксусов", кукольный театр

"Петрушка Уксусов"

"Bouffes Parisiens", театр в Париже

"Bouffes Parisiens"

"Свободное слово" ("The Free Age Press"), издательство

"Свободное слово"

"The Free Age Press"

Многословное имя

Трапезников (торговый дом)

Дом Трапезникова

Торговый дом Трапезникова

Московский художествен-ный театр

Московский художественный театр

Пате бр., кинемато-графическая компания

Кинемато-графическая компания бр. Пате

бр. Пате

Пате

"Функ и Вагналль", издательство

"Функ и Вагналль"

издательство "Функ и Вагналь"

изд. "Функ и Вагналь"

Ясенковская волостная школа

Ясенковская волостная школа

Artworks

Однословное имя

"Истина"

"Истина"

Photer (книга о Китае)

Photer

Книга о Китае

Молитва ("Хочется помощи от бога. ") (1909)

Молитва

"Хочется помощи от бога. "

[Молитва] ("По утрам. ") (1909)

[Молитва]

"По утрам. "

"Весельчак", сборник

"Весельчак"

"Плутос" ("Плутон")

"Плутос"

"Плутон"

Дашкова Е.Р., "Записки"

Дашкова Е.Р., "Записки"

"Записки"

Двухсловное имя

Губернскому присутствию

Губернскому присутствию

Куликовы Н.И. и Н.Ю., "Семейные расчеты"

"Семейные расчеты"

Куликовы Н.И. и Н.Ю., "Семейные расчеты"

"Из тюрьмы", дневник

"Из тюрьмы"

"First reader"

"First reader"

Проект разверстания

Проект разверс-тания

Рассказы дедушки (1837-1838)

Рассказы дедушки

Многословное имя

Блудову Д. H., Председателю департамента законов Государст-венного совета

Блудову Д.H., Председателю департамента законов Государст-венного совета

Председателю департамента законов Государст-венного совета

Дело об открытии в Ясной Поляне курсов по подготовке народных учителей

Дело об открытии в Ясной Поляне курсов по подготовке народных учителей

Le non agir (1893)

Le non agir

[Предисловие к письму T.Л. Сухотиной в редакцию "Голос Москвы"] (1907)

[Предисловие к письму T.Л. Сухотиной в редакцию "Голос Москвы"]

Алфеев П., "Краткое изложение Евангелия" и "Соединение и перевод четырех Евангелий" графа Л.Н. Толстого"

Алфеев П., "Краткое изложение Евангелия" и "Соединение и перевод четырех Евангелий" графа Л.Н. Толстого"

"Краткое изложение Евангелия" и "Соединение и перевод четырех Евангелий" графа Л.Н. Толстого"

Биньон Луи (Bignon), "Des cabinets et des peuples depuis 1815"

Биньон Луи (Bignon), "Des cabinets et des peuples depuis 1815"

"Des cabinets et des peuples depuis 1815"

Игнатович Ю., "Сборник игр для детей", вып.1

Игнатович Ю., "Сборник игр для детей", вып.1

"Сборник игр для детей"

Диксон Вильям Гепворт, "Благодетели человечества. Вильям Пенн, основатель Пенсильвании"

Диксон Вильям Гепворт, "Благоде-тели человечества. Вильям Пенн, основатель Пенсильва-нии"

"Благодетели человечества. Вильям Пенн, основатель Пенсильвании"

"Более близкий взгляд на Толстого" ("А nearer view of Tolstoy"), статья

"Более близкий взгляд на Толстого" ("А nearer view of Tolstoy")

"Более близкий взгляд на Толстого"

"А nearer view of Tolstoy"

"The light of Asia" ("Свет Азии")

"The light of Asia" ("Свет Азии")

"The light of Asia"

"Свет Азии"

"Отрывки задушевного дневника" ("Fragments d'un journal intime")

"Отрывки задушев-ного дневника" ("Fragments d'un journal intime")

"Отрывки задушевного дневника"

"Fragments d'un journal intime"

"Житие протопопа Аввакума"

"Житие протопопа Аввакума"

Person

Однословное имя

Протопопов (мальчик)

Протопо-пов

Рустан (Roustan)

Рустан

Roustan

Arnaldi (Arnolde)

Arnaldi

Arnolde

Лжедимитрий (Отрепьев Григорий)

Лжедимитрий

Отрепьев Григорий

Григорий Отрепьев

Отрепьев

Двухсловное имя

Перро Шарль

Перро

Шарль

Ш. Перро

Шарль Перро

Ферстер-Ницше Елизавета

Ферстер-Ницше

Елизавета

Е. Ферстер-Ницше

Елизавета Ферстер-Ницше

Arnould-Plessy Jeanne

Arnould-Plessy

Jeanne

J. Arnould-Plessy

Jeanne Arnould-Plessy

Многословное имя

Паульсон Иосиф Иванович

Иосиф Иванович Паульсон

Иосиф

Паульсон

Иосиф Паульсон

И. Паульсон

И.И. Паульсон

И.И.

Иосиф Ивано-вич

Рубенс Петер Пауль

Петер Пауль Рубенс

Петер

Петер Пауль

Рубенс

Петер Рубенс

П.П. Рубенс

П.П.

П. Рубенс

Пелагеюшкин Степан Михайлович (Полин)

Пелагеюш-кин Степан Михайлович

Степан Пелагеюшкин

Степан

С.М.

Пелагеюш-кин

С. Пелагеюшкин

Степан Михайлович

С.М. Пелагеюш-кин

Степан Михайлович Пелагеюшкин

Полин

Сухотин Федор Михайлович (дядя М.С. Сухотина)

Сухотин Федор Михайлович

Ф. Сухотин

Федор Сухотин

Федор Михайлович

Ф.М. Сухотин

Федор Михайлович Сухотин

Федор

Сухотин

Ф.М.

Таухниц Христиан Бернгард (Tauchnitz)

Таухниц Христиан Бернгард

Таухниц

Христиан

Х.Б. Таухниц

Х. Таухниц

Христиан Таухниц

Tauchnitz

Христиан Бернгард

Христиан Бернгард Таухниц

Х.Б.

Итак, заголовки оформлены по-разному, в первую очередь, пунктуационно. В скобках могут быть указаны:

описательные имена (Область Войска Донского (Земля Войска Донского)),

описательные имена и другие поясняющие имена (Аустерлиц (Моравия) ("аустерлицкое сражение")),

варианты имени (орфографические или же записанные латиницей) (Биньон Луи (Bignon), "Des cabinets et des peuples depuis 1815"),

комментарии, пояснения к имени (Гюнцбург (Бавария)),

год написания художественного произведения (Le non agir (1893)),

В кавычках же указаны:

описательные имена (Неаполитанское королевство ("Королевство обеих Сицилий")),

имена, записанные латиницей (Эберсдорф ("Erensdorf", Австрия)),

большая часть имен типа artworks ("Волжанин", саратовское книгоиздательство).

В квадратных скобках указаны названия художественных произведений, данных не самим автором, а редакторами или восстановленных в результате текстологической подготовки текста:

[Предисловие к письму T.Л. Сухотиной в редакцию "Голос Москвы"] (1907)

Комментарии и пояснения могут стоять сразу после основного имени или же разделяться запятой с именем:

Черная, река

Арбат улица в Москве.

Кроме того, нет единообразия и в подаче имен в заголовке. Если у лица есть фамилия, то традиционно на первом месте в указателе стоит фамилия, при отсутствии фамилии - имя.

Бронте Шарлотта

Бронте Эмилия

Брофферио Анджело

Раиса Львовна

Мария-Луиза Пармская

Владимир Мономах

В именах типа artworks указание автора и года создания произведения, перевод названия художественного произведения на русский или другие европейские языки факультативно.

Словарь вариантов был создан полуавтоматически. Сначала были выделены типы имен по определенным признаком (ключевым словам или пунктуационным знакам). Так, например, если заголовок содержал слова город, аул, губ. и т.д., то эти заголовки относились к типу place. Если заголовок начинался с кавычек, то этим заголовкам приписывался тип artworks. Впоследствии результаты разделения на типы были проверены вручную. Автоматически было почти невозможно определить заголовки, относящиеся к типу organization, кроме тех заголовков, которые содержали ключевые слова музей, издательство, дом, ресторан, школа, завод, театр, контора, компания, лагерь, фабрика, монастырь, агентство, отель. Других особенностей данного типа, помогающих отличить их от типа place, обнаружено не было. Затем варианты имен автоматически приписывались к каждому типу. Заголовки, относящиеся к типам place, organization, artworks, разделялись по запятой и по скобкам, каждый вариант записывался в свою ячейку. Заголовки из группы person были классифицированы по количеству основных слов в заголовке и формату записи имени. Для каждого класса были прописаны свои варианты.

Принципы, по которым прописывались варианты:

1. Для всех типов имен

1) Если в заголовке указан вариант имени (орфографический вариант, описательное имя, имя на другом языке), то это имя выносилось как самостоятельный вариант:

Гаше K. (Gachet)

person

Гаше K.

Gachet

"Политик" ("Politique")

artworks

"Политик"

"Politique"

2) Если в заголовке содержатся пояснения (или указание на год написания произведения), то как вариант записывается имя без комментариев:

"Сон", замысел (1851 г.)

artworks

"Сон"

"Сон" (1859-1863)

artworks

"Сон"

"Сон" (1909-1910)

artworks

"Сон"

2. Для двухсловных и многословных имен типа person

Рассмотрим на примере двух имен (Лефорт Петр, Николай Иванович Ашанов) принцип приписывания вариантов.

1) Изменяется порядок записи частей имени:

Фамилия - Имя - Отчество (если есть)

Лефорт Петр

Ашинов Николай Иванович

Имя - Отчество (если есть) - Фамилия

Петр Лефорт

Николай Иванович Ашанов

2) Опускается часть имени:

Фамилия - Имя

Ашанов Николай

Имя - Фамилия

Николай Ашанов

Имя - Отчество

Николай Иванович

Фамилия

Лефорт

Ашанов

Имя

Николай

Петр

3) Имя и отчество (если есть) записывается в сокращенной форме, если в заголовке имя и отчество представлены в полной форме.

И.О. Фамилия

Н.И. Ашанов

И. Фамилия

Н. Ашанов

П. Лефорт

И.О.

Н.И.

Вторая часть подготовительного этапа заключается в подготовке индексов каждого тома ПСС Толстого как самостоятельных словарей. Так, указатель из каждого тома был обработан определенным образом и представляет собой словарь пар "имя из заголовка - страница":

Страхов Николай Николаевич; 61

Страхов Николай Николаевич; 62

Страхов Николай Николаевич; 65

Страхов Николай Николаевич; 69

Страхов Николай Николаевич; 72

Третья часть подготовки - обработка исходного файла тома (в формате xhtml). Файл был нарезан постранично и представляет собой словарь "номер страницы - текст соответствующей страницы". Это было необходимо, т.к. соотношение указателя и текста основано на постраничном поиске.

Для более удобного описания алгоритма соотношения имени из указателя с именем из текста предлагается еще раз пояснить основные понятия:

Сводный словарь вариантов - словарь имен из сводного указателя ПСС, в котором каждому имени приписан тип имени и возможные варианты записи.

Словарь имен - словарь пар "имя из указателя одного конкретного тома" - "страница".

Исходное имя, заголовок - имя, указанное в заголовке в сводном словаре вариантов и в словаре имен.

Содержание страницы - текст, содержащийся на определенной странице.

Алгоритм

1. В словаре имен берется пара "исходное имя - страница".

2. Исходное имя из словаря имен ищется в сводном словаре вариантов в первом столбце.

Словари имен для каждого тома создаются автоматически на основе изданий, подготовленных в разные годы. Кроме того, сводный указатель был создан с целью объединить все имена из указателей ПСС, и в словаре имен, и в сводном словаре возможны ошибки автоматической обработки, опечатки, пропущенные пробелы и знаки препинания. Например, исходное имя не дописано до конца, "потерялась" запятая и т.д. Задача данного этапа - соотнести два исходных имени, найти максимально совпадающую пару. В противном случае пара "исходное имя - страница" записывается в отдельный файл, в котором фиксируется все, что не было найдено программой.

3. После того как исходное имя из словаря имен и исходное имя из сводного словаря были соотнесены, то берутся соответствующие им строки в обоих файлах.

Сводный словарь

"Вестник Европы", журнал

artworks

"Вестник Европы"

Словарь имен

"Вестник Европы", журнал

272

Программа запоминает в переменные возможные варианты имени и само исходное имя, а также соответствующий тип имени.

4. В файле тома, подготовленном как словарь "номер страницы - содержание страницы", находится номер страницы той пары, с которой сейчас мы работаем, и для работы используется соответствующее этой странице содержание.

5. Поиск исходного имени и (или) варианта (вариантов) имени в тексте.

На данном этапе соотношения имени из указателя и имени из текста программа умеет находить однословные и двухсловные имена типа place, organization без учета проблем, описанных в пункте А (стр.25-29), а также имена artworks в том виде, в каком они представлены в заголовке указателя.

Однако работа программы в будущем этим не будет ограничиваться. Так, предполагается отсортировать варианты имени по количеству слов в убывающем порядке, потому что приоритет поиска в тексте отдается многословному имени.

Отсортированные имена и варианты имени

Исходное имя

Варианты имени

Сухотин Федор Михайлович (дядя М.С. Сухотина)

Сухотин Федор Михайлович

Федор Михайлович Сухотин

Ф.М. Сухотин

Федор Сухотин

Ф. Сухотин

Ф.М.

Федор Михайлович

Федор

Сухотин

6. Тегирование найденного имени.

Обнаружив имя на странице, предполагается это имя тегировать. В качестве тегов используются теги TEI:

· Person - <persName> </persName> [http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-persName.html].

· Place - <placeName> </placeName> [http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-placeName.html].

· Organization - <orgName> </orgName> [http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-orgName.html].

· Artworks - <bibl> </bibl> [http://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-bibl.html].

Тегируя, необходимо при дальнейшем переборе вариантов на этой странице ввести ограничение, что если есть теги (см. список тегов выше) перед именем, то тегировать заново не нужно. Также предполагается добавить такую опцию, как приписывать к найденному в тексте имени затегированное исходное имя из сводного словаря. В TEI для этого есть тег <orig>…</orig>.

<bibl>"Вестнике Европы" </bibl><orig>"Вестник Европы"</orig>

Дальнейший перебор необходим, т.к. на одной странице возможно несколько употреблений одного имени и (или) вариантов этого имени.

Отдельно следует рассмотреть алгоритм поиска многословных имен типа person. Многословное имя представляется как список имен. Сначала находим первое слово имени с учетом всех проблем, описанных в пункте А (см. стр.25-29), затем - второе, третье и т.д. Как только не нашли, например, второе слово из исходного имени/варианта имени, то берем следующий вариант имени из сводного словаря. Если ни исходное имя, ни вариант (ы) имени не были найдены на странице, то пара "исходное имя - страница" записывается в дополнительный log-файл, в котором фиксируется все, что не было найдено в тексте.

Алгоритм разметки индекса Данная схема является результатом описания алгоритма на стр. 47-50. Каждый шаг алгоритма пронумерован и соответствует нумерации в описании (шаги 1-6).

Заключение

Дигитализация культурного наследия (особенно литературного) является одним из основных направлений деятельности гуманитарных наук. Однако просто оцифровать литературный памятник не представляется сейчас сложным процессом. Перед исследователями и разработчиками стоит задача структурировать информацию о тексте, "вписать" этот текст во множество других текстов, позволить работать с текстом как с базой данных. Для этого необходима семантическая разметка текста.

Семантическую разметку можно осуществлять "с нуля", а можно использовать уже имеющиеся данные, например, указатели собраний сочинений. Вспомогательный указатель - первый "доцифровой" способ структурирования информации о тексте.

Автоматическая семантическая разметка текста на основе именного указателя сопряжена с рядом трудностей. Алгоритм разметки включает в себя несколько этапов, на каждом из них необходимо учитывать эти трудности. Алгоритм на данный этап умеет работать с однословными именами, в дальнейшем планируется в алгоритм включить и остальные типы имен с учетом всех особенностей, описанных в данной работе.

Литература

Собрания сочинений

1. Баратынский Е.А. Полное собрание стихотворений: В 2 т. / Л.: Сов. писатель, 1936. - Т.1-2. - (Б-ка поэта / Под ред.М. Горького).

2. Батюшков К.Н. Сочинения: В 3 т. / СПб.: П.Н. Батюшков, 1885-1887.

3. Боратынский Е.А. Полное собрание сочинений: В 2 т. / СПб.: Изд. Разряда изящной словесности Имп. акад. наук, 1914-1915. - (Акад. б-ка рус. писателей; Вып.10-11).

4. Гоголь Н.В. Полное собрание сочинений: [В 14 т.] / [М.; Л.]: Изд-во АН СССР, 1937-1952.

5. Гончаров И.А. Собрание сочинений: В 8 т. / М.: Гос. изд-во худож. лит., 1952-1955. - Т.1-8.

6. Гончаров И.А. Полное собрание сочинений и писем: В 20 т. / РАН. Ин-т рус. лит. (Пушкин. Дом); СПб.: Наука, 1997-.

7. Грибоедов А.С. Полное собрание сочинений: [В 3 т.] / СПб.: Изд. Разряда изящной словесности Имп. акад. наук, 1911-1917. - (Акад. б-ка рус. писателей;.). - Место изд.3 т.: Пг.

8. Грибоедов А.С. Полное собрание сочинений: В 3 т. / СПб.: Нотабене, 1995-2006.

9. Достоевский Ф.М. Полное собрание сочинений: В 30 т. / Л.: Наука, 1972-1990.

10. Жуковский В.А. Полное собрание сочинений и писем: В 20 т. / М.: Яз. рус. культуры, 1999-. (т.1-9, 12-14).

11. Ленин В.И. Полное собрание сочинение. [В 55 т.] / М., 1958-1975.

12. Лермонтов М.Ю. Полное собрание сочинений: В 5 т. / М.; Л.: Academia, 1935-1937.

13. Лермонтов М.Ю. Полное собрание сочинений: В 5 т. / СПб., 1910-1913.

14. Лермонтов М.Ю. Собрание сочинений: В 4 т. / Изд.2-е, испр. и доп. - Л.: Наука. Ленингр. отд-ние, 1979-1981.

15. Лермонтов М.Ю. Сочинения: В 6 т. / М.; Л.: Изд-во АН СССР, 1954-1957.

16. Пушкин А.С. Полное собрание сочинений, 1837-1937: В 16 т. / М.; Л.: Изд-во АН СССР, 1937-1959.

17. Толстой Л.Н. Полное собрание сочинений: В 90 т. Юбилейное издание (1828-1928) / М.; Л.: Гос. изд-во, 1928-1964. - Т.1-90.

18. Тютчев Ф.И. Полное собрание сочинений и писем: В 6 т. / М.: Издат. центр "Классика", 2002-2005.

19. Чехов А.П. Полное собрание сочинений и писем: В 30 т. / М.: Наука, 1974-1983.

Цитируемая литература

20. Вершинина Н.Л. Введение в литературоведение. М., 2005. http://www.textologia.ru/yazikoznanie/tekstologiya/izdanie-tekstov/izdanie-tekstov-edicionnie-voprosi-tekstologii/2398/? q=641&n=2398

21. Картышева М.С. Типология именных указателей и ссылочной системы в академических собраниях сочинений в перспективе автоматической семантической разметки". Курсовая работа. Москва, 2014.

22. Манифест Digital Humanities. 2011. http://tcp. hypotheses.org/501

23. Мильчин А.Э. (ред. ) Словарь издательских терминов. М., 1983

24. Мильчин А.Э. Издательский словарь-справочник: [электронное издание]. - 3-е изд., испр. и доп. - М.: ОЛМА-Пресс, 2006. http://slovari. yandex.ru/~%D0%BA%D0%BD%D0%B8%D0%B3%D0%B8/%D0%98%D0%B7%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%B8%D0%B9%20%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C

25. Толдова С.Ю. Конкорданс. 2011. http://www.lomonosov-fund.ru/enc/ru/encyclopedia: 0127200

Приложение

Соотношение имени из указателя и текста (в формате xhtml) 63-го тома ПСС Толстого В данной работе публикуется только фрагмент таблицы. Таблица доступна в электронном виде.

А.А. - || 429.

А.А.

Абамелик-Лазарев кн. Семен Семенович - 204, || 205.

Абамелик?

Семен Семенович Абамелек-Лазарев

Абрамович М.И. - || 77.

М.И. Абрамович

Аввакум Петрович - 286, || 287.

Авакума

Аввакум Петрович

Аврелий Марк (Антонин - Марк-Анний-Вер - 237, 318, || 161, 320, 458.А. А.; 429;

Марк [а] Авр [елія]

Марка-Аврелія

Марк Аврелий

Марк Аврелий; Антонин - Марк-Анний-Вер

Австрия - 269.

Австрія

Австро-Венгрия - || 306,

Австро-Венгрии

Академия генерального штаба - || 340.

Академию генерального штаба

Академия наук - || 67, 151.

Академии наук

Академии наук

Академия художеств (в Петербурге) - || 160, 223.

Академию художеств

Академию художеств

Аккерман (город в Бессарабии) - || 305.

в Аккермане (Бессарабия)

Аксаков Иван Сергеевич - 64, 112, 113, 117, || 62, 65, 124-128.

Аксаковъ

И.С. Аксакова

Иван Сергеевич Аксаков

Аксакову

Аксаковъ

Аксаковыхъ

И.С. Аксаковым

Аксакову

Аксакову

И.С. Аксакова

И.С. Аксакову

Аксаков Сергей Тимофеевич - || 65.

С.Т. Аксакова

Акулина. См. Толстой Л.Н. "Власть тьмы".

Александр II император - 45, 50, 63, 68, || 54, 54, 55, 57, 58.306, 444.

Царю

Царя

Ц [аря]

Государь

Александра II

готовящемся убийстве

отца

Александр II

страшныхъ событій посл?дняго времени

отца Вашего</em>, русского государя

которого

добрымъ Царемъ

убійство царя

Александра II

444 - не найдено

Александр III император - 57, 59, 163, 166, 171, 443, || 52-55, 57-61, 164, 213, 443.

Государю

Александра III

Александру III

Александр</span> III

Александре III

Александр III

Александра</span> III

Государь

А.

Государю

Государю

К императору Александру III

171 - не найдено

Александра III

по высочайшему повелению

"Александр Андреевич Иванов, его жизнь и переписка.1806-1858 гг.", издал Михаил Боткин - 10, || 11.

"Александр Андреевич Иванов, его жизнь и переписка.1806-1858 гг.", издал Михаил Боткин

Александринский театр в Петербурге - || 456.

Александринского театра

Александровский лицей в Петербурге - 222.

Александровском лицее

Алексеев Василий Иванович - 43, 76, 192, 241, || 44, 53, 54, 66, 77, 78, 81-82, 84, 106, 107, 146, 169, 182, 185, 187, 196, 433, 438, 439.

43 - не найдено

Василій Ивановичъ

Вас [илія] Ив [ановича]

Василья Иваныча

Василий Иванович Алексеев

53 - не найдено

В.И. Алексеев

В.И. Алексеевым

В.И. Алексеева

В.И. Алексееву

Написал письмо Вас [илию] Ив [ановичу] [т.е. Алексееву

- "Воспоминания о Толстом" - || 54, 72, 82, 146, 433-434 (цит.), 438.

"Воспоминания о Л.Н. Толстом"

"Воспоминания"

"Воспоминания В.И. Алексеева"

"Воспоминаниях"

"Воспоминания"

Алексеев Гавриил Иванович - 105, || 106, 107.

Брата

Гавриил Иванович Алексеев

Гавриил

Алексеев Н.А. (московский городской голова) - || 158.

Н.А. Алексеевым

Алексеев Николай Васильевич (Колюшка) - 76, 81, 106, 146.438, || 78, 84, 146.

Колюшку

Колю

Николай Васильевич

Николай Васильевич Алексеев

Алексеева Надежда Васильевна (Надя) - 432, || 433.

Надю

Нади

Алексеевский равелин Петропавловской крепости - || 83.

Алексеевский равелин Петропавловской крепости

Алешка дьячек - 188, || 190.

Алешка дьячекъ

Алешке дьячке

Алешки дьячка брат - 188, || 190.

Брате

братъ

Алчевская Христина Даниловна, рожд. Журавлева - || 110-111, 216.

X.Д. Алчевская

X.Д. Алчевской

X.Д. Алчевскою

- "Пять отрывков из школьных заметок учительницы X.Д. Алчевской (в ответ на вопрос: воспитывает ли воскресная школа?)" - 108, || 111.

отрывокъ изъ школ [ьныхъ] зам?т [окъ]

"Пять отрывков из школьных заметок учительни...


Подобные документы

  • Проблема лексико-семантической группы "глаголов говорения". Семантическая классификация глаголов говорения по В.И. Кодукову, Л.М. Васильеву и А.А. Зализняк. Анализ "глаголов говорения" главных героев повести С. Довлатова "Зона", характеристика текста.

    реферат [36,9 K], добавлен 22.11.2012

  • Ознакомление с идейно-тематическим содержанием романа Ф.М. Достоевского "Игрок". Разделение членов лексико-семантической группы "игра", представленных в произведении классика, исходя из наличия определенных интегральных сем в значениях этих слов.

    курсовая работа [58,5 K], добавлен 18.02.2012

  • Краткий очерк биографии и анализ самых ярких сочинений Ф. Бэкона. Главные идеи философии данного автора. Четыре рода "призраков" – помех, препятствующих подлинному, истинному познанию. Основная цель собственных сочинений по мнению самого Бэкона.

    реферат [31,0 K], добавлен 19.02.2011

  • Основные процессы архаизации и обновления русской лексики. Повесть "Детство" Л.Н. Толстого: история создания, её место в русской литературе. Лингвистическая наука об архаизмах и их стилистическом использовании. Семантическая классификация историзмов.

    дипломная работа [53,7 K], добавлен 11.05.2010

  • Краткие сведения о жизненном пути и деятельности Льва Николаевича Толстого - выдающегося русского писателя и мыслителя. Его детские годы и период образования. Расцвет творчества Толстого. Путешествия по Европе. Смерть и похороны писателя в Ясной Поляне.

    презентация [2,2 M], добавлен 02.05.2017

  • Детство и отрочество Льва Николаевича Толстого. Служба на Кавказе, участие в Крымской кампании, первый писательский опыт. Успех Толстого в кругу литераторов и за границей. Краткий обзор творчества писателя, его вклад в русское литературное наследие.

    статья [17,0 K], добавлен 12.05.2010

  • Рецензия на компиляцию или развернутый письменный ответ по литературе. Методика проверки сочинений. Двойная отметка за сочинение: за содержание и за грамотность. Отметка за сочинение — дело тонкое, особенно когда сочинение написано старшеклассником.

    учебное пособие [26,9 K], добавлен 08.03.2009

  • Исследование художественного и литературного наследства Льва Николаевича Толстого. Описания детских годов, отрочества, юности, службы на Кавказе и Севастополе. Обзор творческой и педагогической деятельности. Анализ художественных произведений писателя.

    реферат [49,2 K], добавлен 24.03.2013

  • Метафора как семантическая доминанта творчества М.И. Цветаевой. Семантическая и структурная классификация метафор. Функции метафоры в стихотворениях М.И. Цветаевой. Взаимосвязь между метафорой и другими выразительными средствами в творчестве поэтессы.

    дипломная работа [66,1 K], добавлен 21.08.2011

  • Основные вехи жизненного пути Л.Н. Толстого: происхождение, детство, образование, литературная и педагогическая деятельность, военная карьера. Обзор наиболее известных произведений Толстого: "Война и мир", "Анна Каренина". Причины отлучения от церкви.

    реферат [39,4 K], добавлен 26.01.2011

  • История происхождения рода Толстых. Биографические данные Льва Николаевича Толстого (1828-1910), общая характеристика его творческого пути. Анализ наиболее известных произведений Толстого – "Казаки", "Война и мир", "Анна Каренина", "Воскресение" и другие.

    курсовая работа [62,0 K], добавлен 04.01.2011

  • "Радостный период детства" великого русского писателя Льва Николаевича Толстого. "Бурная жизнь юношеского периода" в жизни писателя. Женитьба, мечты о создании новой религии. История написания романов "Война и мир", "Анна Каренина", "Воскресение".

    презентация [7,4 M], добавлен 05.03.2015

  • Краткая биографическая справка из жизни Л.Н. Толстого. Школа в Ясной Поляне. Работа над романом "Война и мир". Социальный, психологический разрыв в повести писателя "Хозяин и работник". Статья Толстого "Не могу молчать", рассказы "После бала" и "За что?".

    презентация [1,9 M], добавлен 25.09.2012

  • Этапы жизненного и идейно-творческого развития великого русского писателя Льва Николаевича Толстого. Правила и программа Толстого. История создания романа "Война и мир", особенности его проблематики. Смысл названия романа, его герои и композиция.

    презентация [264,6 K], добавлен 17.01.2013

  • Жизнь в столице и московские впечатления великого русского писателя Льва Николаевича Толстого. Московская перепись 1882 года и Л.Н. Толстой - участник переписи. Образ Москвы в романе Л.Н. Толстого "Война и мир", повестях "Детство", "Отрочество", "Юность".

    курсовая работа [76,0 K], добавлен 03.09.2013

  • Эстетические взгляды Льва Николаевича Толстого конца XIX века. Л.Н. Толстой об искусстве. Художественное мастерство Л.Н. Толстого в романе "Воскресенье". Проблема искусства на страницах романа "Воскресение". Путь духовного развития Нехлюдова.

    курсовая работа [41,6 K], добавлен 24.01.2007

  • Происхождение семьи русского писателя Льва Николаевича Толстого. Переезд в Казань, поступление в университет. Лингвистические способности юного Толстого. Военная карьера, выход в отставку. Семейная жизнь писателя. Последние семь дней жизни Толстого.

    презентация [5,8 M], добавлен 28.01.2013

  • Описание образов князя Андрея Болконского (загадочного, непредсказуемого, азартного светского человека) и графа Пьера Безухова (толстого, неуклюжего кутилу и безобразника) в романе Льва Толстого "Война и мир". Выделение темы родины в творчестве А. Блока.

    контрольная работа [20,1 K], добавлен 31.05.2010

  • Изучение истории создания романа "Воскресенье", его места в творчестве Л.Н. Толстого. Характеристика художественной и идейно-тематической специфики романа в контексте философских течений эпохи. Анализ проблем, затронутых писателем в своем произведении.

    курсовая работа [40,4 K], добавлен 22.04.2011

  • Тема красоты в романе-эпопее Льва Толстого "Война и мир". Сравнительный анализ образов Элен, которая считалась идеалом высшего света, и Марии Болконской, преданной своей семье. Богатство внутреннего мира как тот ориентир, к которому нужно стремиться.

    эссе [6,6 K], добавлен 29.10.2013

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.