Создание электронного словаря ключевых слов творчества С.А. Есенина
Подсчет ключевых слов, употребленных поэтом в его произведениях с помощью специальной компьютерной программы. Принцип составления базы данных полученных ключевых слов для электронного словаря. Разработка электронного словаря ключевых слов, его функции.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | дипломная работа |
Язык | русский |
Дата добавления | 30.11.2016 |
Размер файла | 62,5 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Довольно много лексем вошло в подкластеры растительного и животного мира. Благодаря им, автор в своей художественной прозе создаёт картину классической русской природы, рисует пейзаж русской деревни. Пространство показано обширным - («леса», «поля», «луга», «чащи» и «рощи»), что является характерной чертой русской природы. Возможно, распространённость глаголов перемещения в кластере предикатов тоже связана с идеей обширности русских пространств.
Ещё четыре подкластера представляют время суток и светила, относящиеся к соответствующему времени суток. Можно объединить подкластеры и противопоставить «утро и день» - «вечер и ночь»: получим, что ночное время суток незначительно преобладает в художественной прозе Есенина над дневными образами.
Далее по убыванию частотности следует кластер служебных слов. Самой высокой частотностью в нем обладает частица «не», что показывает, что художественная проза Есенина - это проза отрицательных величин.
Следующий важный кластер - кластер характеристик. Первое, на что следует обратить внимание - подкластер с семантикой «тихо», а также слова, входящие в данное семантическое поле: «тихо», «глухо», «спокойный», «тихий». Несомненно, что такие характеристики связаны с описанием окружающей среды и обстановки - русская деревня, которая как раз символизирует тишину и глушь.
Во-вторых, данные таблицы показывают, что количество слов, вошедших в семантические поля «плохо» и «хорошо» примерно равно, а в характеристиках, выраженных прилагательными, примерно равны по числу употреблений слова «старый», «родной», «милый», «мертвый». Указанные подкластеры демонстрируют, отмеченный ранее мотив тоски и грусти с оттенком трагичности сочетается в есенинской прозе с мотивом грусти светлой и обнадеживающей. Примером того, что выделение такого сочетания правомерно для всего художественного мира С.А. Есенина, могут послужить строки из его стихотворений, например:
«Опять я теплой грустью болен
От овсяного ветерка…» [3; стр. 52]
«О верю, верю, счастье есть!
Еще и солнце не погасло…» [3; стр. 60]
Состав кластера артефактов подтверждает и развивает идею о том, что бытовые заботы человека играют немаловажную роль в повествовании. Также, лексемы данного кластера («окна», «крыльцо», «изба», «хата», «рубаха», «мельница» и т.д.) показывают, что в произведениях описан именно крестьянский быт.
Суммарная частотность слов в кластере «Вера, религия» меньше, чем в кластере артефактов, однако это не снижает его значимости. Несомненно, слова данного кластера свидетельствуют о важности тематики веры в художественной прозе Есенина, ведь самыми частотными лексемами стали «Бог», «церковь», «душа» и «господь», а также «поп», «дьякон» и «батюшка». Кроме того, в указанном кластере есть слова, которые подтверждают мысль о том, что в произведениях проходит мотив трагичной грусти: «могила», «грех», «смерть», «чёрт», «гроб».
Наконец, кластером, который выражен наименьшим количеством слов, стал кластер «Цвета», в который вошли лексемы: «белый», «жёлтый», «синий», «красный», «чёрный», «серый». Белый цвет является символом чистого и светлого (для автора это символ утраченной юности). Однако присутствует контрастный ему черный цвет, который в художественном мире лирики и поэм Есенина всегда был символом мрачности, несчастья и злых сил (например, в поэме «Черный человек») [21]. Такое сочетание цветов можно соотнести с предложенной выше мыслью о том, что есть два мотива грусти: одна грусть светлая, а другая трагичная (белое и черное, соответственно). Переход между белым и черным цветом - полутон - серый, который можно соотнести с мотивом грусти и тоски. Все остальные цвета в кластере - яркие, интенсивные, что поддерживает повышенную эмоциональность и экспрессивность в художественной прозе автора.
Таким образом, среди дополнений, выявленных в ходе анализа ключевых слов, к тому, что утверждали исследователи творчества С. Есенина, можно выделить: в художественном мире художественной прозы Есенина мужские образы преобладают над женскими (что подтверждается преобладанием существительных мужского рода и глаголов прошедшего времени этого же рода в кластерах «Человек» и «Предикаты»), а в центре повествования оказывается крестьянин. Анализ ключевых слов показал, что есенинский герой следует рассудку, а не сердцу, в то время как женские образы его художественной прозы больше полагаются на чувства. Важную роль в мире художественной прозы Есенина играет категория судьбы, которая находит выражение в языковом мире романа через повышенное количество безличных конструкций. Фоном к развертыванию сюжета становится русская природа, в широких пространствах которой перемещается герой. Она задает общую атмосферу повествованию: тишина, глушь, тоска, уныние и даже трагичность. Анализ ключевых слов позволил выделить основные мотивы: мотив старости и мотив тоски, грусти, а также расширить понимание видения Есениным мотива грусти: было доказано, что грусть в художественном мире Есенина может быть как трагичной и угнетающей, так и светлой, обнадеживающей. Трагичность, присущую жанру художественной прозы Есенина, можно объяснить событиями в стране и мире, волновавшими автора - Первая мировая война (стихотворение «Польша», написанное в 1915 году, связанное с началом оккупации Польши и описывающее ожесточенные сражения: «Над Польшей облако кровавое повисло…» [3; стр.111]), а также предчувствия автором революции 1917 года и изменений в жизни деревни. Наконец, обсчет ключевых слов отразил жанровые особенности художественной прозы Есенина: сочетание авторского повествования и диалогической речи персонажей, а также выявил, что есенинская художественная проза - это проза отрицательных величин.
Публицистическая проза.
Жанровой особенностью публицистической прозы является отсутствие героев, персонажей, то есть той «переходной ячейки», которая передаёт, транслирует взгляды и идеи автора. Публицистическая проза напрямую отражает авторское сознание, так как он открыто декларирует свои взгляды, точку зрения, мысли, ценности и идеи.
Компьютерная обработка корпуса текстов есенинской публицистической прозы (см.Приложение, Таблица 8) показала, что кластером, обладающим наибольшей суммарной частотностью ключевых слов, стал кластер «Человек», что позволяет выделить одну из ключевых тем публицистической прозы Есенина. Такой результат представляется закономерным, так как выделение темы человека как ключевой предполагает сам жанр публицистической прозы. Кроме того, данный жанр неразрывно связан с общественной жизнью автора и с событиями, происходящими в его жизни.
Большое влияние оказала на Есенина поездка в Америку в 1923 году, после которой был написан очерк «Железный Миргород» - самое объёмное произведение среди всей публицистической прозы автора. Именно поэтому во многих смысловых кластерах прослеживается тематика, связанная с Америкой. Облик этой страны формируется в авторском сознании через противопоставление «русское - американское». Такое умозаключение помогли сделать лексемы из кластера характеристик: здесь почти в равной частотности присутствуют прилагательные «американский» и «русский», «новый» и «типический», «иной» и «крестьянский», «изобретательный» и «примитивный», а также наречия «замечательно» и «ничтожно», дающие оценку. Можно предположить, что, проводя параллель между Россией и Америкой, Есенин раскрывает здесь концепт «своё - чужое», в пользу чего свидетельствует также частотность таких местоимений, как «мы - они», «наш, мой, свои - их», «тот - этот». Кроме того, из состава кластеров «Государство, общество» и «Человек» видно, что автора волнуют как «быт» и «культура» страны, так и «народ», «жизнь» и «нравы».
В смысловом кластере «Человек» в подкластере «Конкретные личности» находятся лексемы также непосредственно связанные с биографией Есенина. Конфликт с Зинаидой Гиппиус и Дмитрием Мережковским - лексемы «Гиппиус» и «Мережковский», уважение к Александру Блоку за его творческий талант - «Блок», поездка в Америку с Айседорой Дункан (В 1921 году Есенин познакомился со знаменитой американской танцовщицей Айседорой Дункан, с которой вскоре отправился в большую заграничную поездку) - «Дункан». Частность употребления имен конкретных личностей - результат жанровых особенностей публицистической прозы.
Как видно из таблицы (см.Приложение, Таблица 8), анализ результатов машинной обработки публицистической прозы автора позволил объединить группу лексем в новый смысловой кластер, связанный с творчеством писателя. В нём встречаются слова: «образ», «искусство», «слова», «стихи», «поэт», «поэзия» и др., а также слово «читатель» в кластере человека. В первую очередь, это говорит о том, что тема искусства и творчества является для Есенина немаловажной в публицистической прозе, а больше всего автора интересует образ, образность, которая была особенно важна для него как для поэта-имажиниста.
Кластер «Природа», хотя и утратил свою частотность и обширность в публицистической прозе, но не исчез вовсе: сохранились лексемы, связанные с природными стихиями, временем суток, и одна лексема, связанная с животным миром (в тексте очерка «Железный Миргород» используется по отношению к человеку). Всё это свидетельствует о том, что природа является неотъемлемой деталью авторского видения мира, человек и даже его общественная жизнь неразрывно связаны с природными образами.
На основе данных представленной таблицы можно выделить нескольких жанровых особенностей публицистической прозы Есенина. Во-первых, очевидно, что автор использует много местоимений (личных и притяжательных), а самыми частотными являются местоимения первого лица («я», «мне», «меня», «мои», «моих», «мы», «нас», «нашей»). Объясняется это тем, что С.А. Есенин в публицистических произведениях выражает собственную точку зрения на ту или иную проблему. Во-вторых, достаточно частотными являются слова из нового кластера союзов и союзных слов, которые организуют структуру сложноподчиненных предложений с придаточными изъяснительными, сравнительными, времени и причины - «что, «как», «когда», «поэтому». С их помощью автор доказывает, расширяет, обосновывает, объясняет собственную точку зрения. В-третьих, кластер предикатов («можно», «нужно», «должны») выражает личные представления автора о возможном, необходимом и должном; глаголы «нравится» и «считаю» выражают предпочтения и точку зрения автора, соответственно.
Говоря о кластере предикатов, необходимо отметить еще несколько интересных особенностей: во-первых, относительно широк подкластер, связанный с речевой деятельностью (например, «сказал», «говорить», «спрашиваю», «общаюсь»), что снова свидетельствует о том, что публицистическая проза связана с общественной жизнью. Во-вторых, в подкластерах кластера предикаты, а также в кластере характеристик есть лексемы «плакать», «вспомнил» и «грустно», которые, казалось бы, характерны лишь для художественной прозы автора и несут в себе мотив тоски и грусти (причем, здесь - светлой). Значит, что и в публицистической прозе проходит данный мотив, хоть и не так выразительно и очевидно. Выделять мотивы в публицистической прозе С. Есенина считается правомерным в связи с тем, что речь идет о публицистической прозе поэта, которая характеризуется образностью и некой лиричностью (например, «…в водяных провалах эта громадина качается своей тушей…» <о корабле> [3; стр. 300]; «Звуки умеют привязывать и развязывать, останавливать и гнать бурей» [3; стр. 322]).
Таким образом, анализ ключевых слов значительно расширил выводы, сделанные отечественными литературоведами: ключевые темы публицистической прозы С.А. Есенина прочно связаны с событиями и реалиями его жизни: человек, его общественная жизнь, а также быт, искусство и творчество. Тему Америки автор осмысливает путём противопоставления русского и американского, раскрывает концепт «своё - чужое». В теме творчества его больше всего интересует вопрос об образности, что не удивительно: Есенин принадлежал к числу поэтов-имажинистов. Также, было выявлено, что и в публицистической прозе у Есенина сохраняются образы природы, однако они употребляются не так частотно, как в художественной прозе, что свидетельствует о неразрывном существовании человека и природы в сознании автора. Кроме того, удалось выявить, что в и данной жанровой разновидности есенинской прозы присутствует мотив светлой тоски, грусти, однако, он выражен небольшим количеством ключевых слов, по сравнению с художественной прозой. Наконец, данные обсчета отразили жанровые особенности публицистической прозы: выражение и обоснование собственной точки зрения, а также представлений автора о должном, необходимом, возможном.
Критическая (литературно-критическая) проза.
В критической прозе, как и в публицистической, нет героев, персонажей, которые бы передавали взгляды автора, она напрямую отражает авторское сознание. Однако, в отличие от публицистической прозы, связанной с общественной жизнью писателя, критическая связана с эстетикой и его взглядами на искусство.
Данные таблицы (см.Приложение, Таблица 9) позволяют считать тему человека ключевой, так как суммарная частотность входящих в кластер человека слов значительно выше, чем в других кластерах, это понятно, ведь в литературной критике автор уделяет внимание не только произведениям, но и их авторам (например, лексемы «поэт» и «писатель»). Именно поэтому был сформирован подкластер «Конкретные личности», причем, если обратиться к содержанию критических статей Есенина, то легко будет обнаружить, что в список ключевых слов попали те личности, чье творчество симпатизировало Сергею Александровичу, и о ком он давал положительную оценку. В доказательство, можно привести примеры из автобиографий Есенина, где он писал: «Мой любимый писатель - Гоголь» [3; стр.332], «Из поэтов-современников нравились мне больше всего Блок, Белый и Клюев» [3; стр.336], «В смысле формального развития теперь меня тянет все больше к Пушкину» [3; стр.336]. Всё это неким образом характеризует его тактику: он не стремится жестко критиковать чье-либо творчество, а наоборот ищет идеал в соответствии, сближении со своей точкой зрения, а не в противопоставлении ей. Этот факт доказывает и частотная лексема «вместе».
Важно, что это соответствие он ищет ни в чем ином, как в образах, описанных авторами, чьи произведения он рассматривает и критикует. Доказать это можно повышенной частотностью слова «образ» в кластере, связанном с творчеством писателя, а также частотностью лексемы «знак», семантику которой можно связать с образностью. Наиболее частотная лексема «новый» в кластере характеристик может означать, что автор не просто выявляет схожие образы, а еще и делает попытку найти новые.
В кластере «Человек» интересными представляются две лексемы - «мужик» и «крестьянин», которые являются образами, характерными для художественной прозы автора. Так проявляется взаимосвязь разных видов прозы: в художественной прозе Есенин описывает эти образы, а в критической обсуждает их, ищет им соответствие в творчестве других писателей.
В подкластере частей тела частотность слова «сердце» является самой высокой и в два раза превышает частотность лексемы «голова», однако ещё большей суммарной частотностью (чем лексема «сердце») обладают слова «мысль» и «разум», а также слова из подкластера «Мыслительная деятельность» кластера предикатов. Можно сделать вывод, что автор, в первую очередь, следует своему разуму и рассудку, а лишь потом - чувствам.
Как видно из таблицы ключевых слов, для Есенина в критической прозе важной, ключевой стала тема природы, так как слова в одноименном кластере имеют достаточно высокую суммарную частотность. Удивительно, что автор не отходит от ключевой темы всех своих художественных произведений и в критической прозе. Учитывая выявленное выше, можно сделать вывод, что в кластере природы представлены образы, наиболее волнующие и интересующие автора, близкие ему в творчестве других поэтов и писателей: среди стихий это «земля» и «воздух» с «небом», во времени суток и светилах это противопоставление «дня» и «ночи» и незначительное превосходство «дневных» образов, в растительном мире - «древо» и «цветы», а в животном - преобладание образов птиц («птица», «крылья», «петух», «соловей»). Важно, что Есенина более всего заботит, как устроено в произведениях «пространство», «время» и «путь» (самые частотные слова в подкластере «Абстрактные» кластера «Артефакты», которые подкрепляются достаточно объёмным подкластером характеристик времени и места), именно поэтому и появляются перечисленные выше образы природы.
Доказывая то, что образы, характерные сознанию автора, исконно русские, можно также привести примеры из кластера «Артефакты»: это и «орнамент» с «узором», «баян», «изба» с её «крыльцом», «окнами» и «ставнями»; частотная лексема «русский» из кластера характеристик. Также, интересно заметить, что в кластере природы нет таких тяжелых и угнетающих образов стихий, как в художественной прозе, а наоборот здесь данные образы чистые и светлые.
Наиболее интересным представляется узнать, проявляется ли в критической прозе Есенина мотив тоски и грусти, и каким образом. Выделение мотивов в критической прозе Есенина является правомерным, так как, в первую очередь, это проза поэта, обладающая образностью и лиричностью, например: «угасшая весна», «плачет сердцем» [3; стр. 307-308] и др.
В кластере предикатов в подкластере «Чувства и эмоции» преобладают словоформы глагола «плакать», а в кластере «Человек» частотностью в 6 слов обладает лексема «слезы», что, несомненно, свидетельствует о вхождении данных слов в одно семантическое поле и о наличии мотива грусти. Важно, что здесь преобладает светлая грусть, а не трагичная, ведь и в образах природы нет нагнетающих стихий, и среди характеристик лидируют лексемы с позитивной коннотацией. Кроме того, частотность слова «жизнь» в 8 раз превышает частотность слова «смерть», а в кластере веры самым частотным стало слово «душа», затем «дух», «храм» и «Бог», что также является свидетельством преобладания чистоты и светлости в сознании автора.
На основе данных представленной таблицы (см.Приложение, Таблица 9) справедливым будет выделение нескольких жанровых особенностей критической прозы Есенина. Во-первых, автор использует много местоимений (личных и притяжательных), а самыми частотными стали местоимения третьего лица («он», «его», «они», «она», «ее»), а затем - первого лица. Объясняется это тем, что С.А. Есенин в критических статьях анализирует творчество других писателей и выражает собственную точку зрения на этот счёт. Во-вторых, частотными являются слова из кластера союзов и союзных слов, которые организуют структуру сложноподчиненных предложений с придаточными определительными, изъяснительными, сравнительными, времени и причины - «который», «что, «как», «когда», «поэтому». Так автор описывает и анализирует произведения, а также обосновывает собственную точку зрения. В-третьих, жанр характеризует и кластер предикатов: предикаты «должны», «можно», «нужно», «нельзя» выражают личные представления автора о должном, возможном, необходимом и запрещенном в творчестве других писателей и поэтов.
Таким образом, анализ ключевых слов критической прозы автора значительно расширил выводы, сделанные отечественными литературоведами. А именно удалось выявить, что: критическая проза С.А. Есенина в целом основана не на жесткой критике и противопоставлении своего видения искусства, а на сближении, поиске общего и нового в произведениях других авторов, творчество которых симпатизировало писателю - таков выбранный Есениным подход. Важно, что основой этого сопоставления стали образы, которые были близки авторскому сознанию: русская природа и деревня, мужик и крестьянин. Ключевыми стали темы человека, природы и творчества, кроме того, с образами природы оказалось непосредственно связано устройство пространства, времени и пути. Также, удалось выявить наличие мотива светлой тоски и грусти в данном виде прозы, что свидетельствует о его важности и постоянном присутствии в сознании автора. Наконец, анализ ключевых слов подтвердил жанровые особенности критической прозы: описание и анализ творчества других авторов, выражение и обоснование собственной точки зрения, а также представлений Есенина о должном, возможном, необходимом и запрещенном в творчестве других авторов.
В целом, анализ ключевых слов всех жанров прозы С. Есенина дал возможность сделать следующие выводы:
Ключевой темой во всех жанрах прозы Есенина стала тема человека, раскрывающаяся по-разному в каждом жанре. В центре художественной прозы - крестьянин, мужик, чья судьба вместе с бытом и верой волнует автора. Публицистическая проза оказалась неразрывно связанной с реальной жизнью Есенина - с событиями, которые происходили, и с людьми, которые его окружали. В центре критической прозы - писатели и поэты, чье творчество было близко и интересно Есенину (таким стал его подход в литературной критике).
Тема природы с ее классическими русскими образами также является значимой для Есенина во всех жанрах прозы. В художественной прозе она играет самую значительную роль, создавая общее настроение, однако, уступая по частотности теме человека. В публицистической прозе тема природы наименее развита по сравнению с другими жанрами прозы, однако она все же не уходит из сознания автора. Для критической прозы данная тема имеет большое значение, так как именно природные образы интересуют Есенина в произведениях других писателей - в них он видит сходство со своим творчеством.
Важным стало выделение основного мотива всей прозы Есенина, которым стал мотив грусти и тоски разных видов: трагичная грусть и грусть светлая. Мотив трагичной грусти звучит лишь в художественной прозе автора, а грусть светлая, обнадеживающая проходит через все жанры прозы и является характерной для художественного мира Есенина в целом. В доказательство можно привести цитату из одной его автобиографии: «…однажды читал стихи императрице. Она после прочтения моих стихов сказала, что стихи мои красивые, но очень грустные. Я ответил ей, что такова вся Россия» [3; стр. 333]. Или, например, строки из его стихотворения:
«…Но, наверно, навеки имею
Нежность грустную русской души».[3; стр. 76]
Остальные ключевые темы зависят от жанра прозы и сменяют друг друга. Например, тема искусства и творчества появляется в публицистической и критической прозе, а для художественной прозы она не характерна.
Наконец, удалось доказать, что метод анализа ключевых слов позволяет выявить жанровые и синтаксические особенности текста: например, в художественной прозе - сочетание авторского повествования и диалогической речи персонажей и утверждение, что есенинская художественная проза - это проза отрицательных величин. В критической прозе - описание и анализ творчества других авторов, выражение и обоснование собственной точки зрения, а также представлений Есенина о должном, возможном, необходимом и запрещенном в творчестве других авторов.
Основные выводы по части 1 главы I.
Метод анализа ключевых слов разных жанров творчества С.А. Есенина позволил доказать, что художественный мир поэта является уникальным и неповторимым, а его характерные и отличительные черты повторяются в лирике, поэмах и прозе. К примеру, тема человека и природы является ключевой для всего творчества автора (образы природы присутствуют даже в публицистической и критической прозе).
Наконец, все указанные в таблицах и проанализированные выше лексемы, кластеры и подкластеры, действительно являются ключевыми для творчества С.А.Есенина и по праву могут считаться неотъемлемой составляющей для описания и понимания художественного мира поэта. Каждое из выявленных ключевых слов и смысловых кластеров в дальнейшем будет включено в базу данных, а затем и в электронный словарь ключевых слов автора.
1.2 Создание базы данных ключевых слов
Составление базы данных ключевых слов является следующим шагом к созданию электронного словаря после подсчета и анализа ключевых лексем.
Одно из самых распространенных определений базы данных - «это совокупность материалов, систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью компьютера» [6; стр.170]. Такими материалами в рамках настоящей работы стали таблицы, созданные в программе Microsoft Office Excel и пересохраненные в формате *csv (данный формат позволяет получить документ, где элементы столбцов таблицы будут разделены между собой «;») и с кодировкой UTF-8 (которая в дальнейшем позволит избежать проблем с распознаванием кириллических символов).
Рассмотрим более подробно содержание указанных таблиц. Каждый файл имеет название определенного смыслового кластера, рассмотренного в работе ранее. В таком файле находится таблица с шестью столбцами:
1. Ключевое слово, входящее в данный кластер.
2. Частотность указанной лексемы.
3. Жанр (условные обозначения: 1 - лирика, 2 - поэмы, 3 - проза).
4. Для лирики и поэм - период (условные обозначения: 1, 2, 3 - первый, второй и третий период, соответственно).
Для прозы - жанр прозы (условные обозначения: 1 - художественная проза, 2 - публицистическая проза, 3 - критическая (литературно-критическая) проза).
5. Номер кластера, в который входит указанное слово (общее число смысловых кластеров - 10).
6. Номер подкластера, в который входит данная лексема, если он имеется (общее число подкластеров - 28).
Таким образом, вся информация о том или ином ключевом слове будет находиться в той строке, где оно указано.
База данных ключевых слов есть реляционная база данных, так как она состоит из таблиц, каждая которых имеет имя и связь с другими таблицами. Для того чтобы создать взаимосвязь между таблицами и управлять базой данных, существуют специальные системы управления базами данных (СУБД). Одной из самых распространенных СУБД является MySQL.
MySQL является свободно распространяемой [2; стр.12] и обладает следующими преимуществами по сравнению с другими СУБД:
· Имеет открытый код - систему, при желании, можно доработать;
· Кроссплатформенная - используется практически на всех операционных системах;
· Много программных интерфейсов - к базе данных можно подключиться, используя приложения, написанные с помощью различных языков программирования (Python в том числе);
· Такие технические характеристики, как: многопользовательский доступ, быстродействие, встроенная система безопасности.
В рамках настоящей работы, доступ к СУБД и последующее создание запросов на языке SQL осуществлялись через сервис pythonanywhere.com [https://www.pythonanywhere.com], позволяющий загружать файлы, работать с базами данных, создавать приложения и программы на языке программирования Python.
В приложении к работе (см.Приложение, Изображение 2, 3) можно ознакомиться со снимками экрана, на которых представлено, как осуществлялось соединение базы данных воедино путем использования вышеупомянутого сервиса.
2. Создание электронного словаря ключевых слов
2.1 Проектирование электронного словаря ключевых слов
Проектирование электронного словаря ключевых слов лирики, поэм и прозы С.А. Есенина - значимый этап перед непосредственной разработкой. Этот шаг позволяет определить цели создания программы, ее тип, целевую аудиторию, а также основные опции и структуру словаря.
Цели.
Логичным представляется начать с постановки целей разработки указанного словаря, среди которых основными будем считать:
· Поиск ключевых слов;
· Поиск ключевых тем текстов.
Напомним, что созданная ранее база данных ключевых слов, содержащая ключевые слова и тематические кластеры, позволит достичь вышеупомянутых целей.
Формат.
Далее следует отметить, что электронный словарь ключевых слов лирики, поэм и прозы С.А. Есенина будет создан в формате веб-приложения.
В одной из статей на официальном сайте IBM (крупнейшая американская IT-компания), написанной Бреттом МакЛафлином [18], указываются и описываются различия между веб-сайтом и веб-приложением. Автор утверждает, что разница между ними выявляется не на уровне создания, генерации программы, а путем анализа того, как представлена информация на веб-странице и какие функции являются доступными для пользователя. Так, отличительная черта веб-сайтов - информативность: пользователь использует такие веб-страницы для получения информации и считается пассивным (потребляет информацию). В свою очередь, веб-приложениям присуща интерактивность - посетитель страницы вовлечен в процесс ее использования (нажимает кнопки и клавиши, осуществляет поиск, заполняет формы, чтобы достичь определенного результата) и является активным участником.
Говоря об электронном словаре ключевых слов, можно предположить, что его пользователь будет являться активным участником веб-страницы - к примеру, будет осуществлять поиск ключевых слов (более подробно функции словаря будут описаны далее в этой части работы). Следовательно, выбранный формат «веб-приложение» считается верным и подходящим.
Целевая аудитория.
Определение целевой аудитории веб-приложения - еще одна неотъемлемая часть проектирования, необходимая для описания и представления портрета тех людей, которые будут использовать электронный словарь.
Во-первых, важно дать общую характеристику предполагаемых пользователей:
1. Социально-демографические параметры:
· Пол: любой - творчество Есенина изучается и мужчинами, и женщинами;
· Возраст: начиная со школьного - произведения автора начинают изучаться в рамках школьной программы, далее - не ограничено, в зависимости от интереса и потребностей;
· Сфера: гуманитарная.
2. Психографические характеристики:
· Интересующиеся творчеством С.А. Есенина;
· Изучающие произведения поэта;
· Заинтересованные методом анализа ключевых слов.
3. Географические характеристики:
· Россия и страны СНГ, в связи с тем, что язык веб-страницы - русский.
Во-вторых, необходимо описать типичный портрет пользователя электронного словаря ключевых слов творчества С.А. Есенина.
Предположим, что такое веб-приложение будет использовать некая аспирантка, возраст которой 25 лет. Ее специальность - филология, интересы - Есенин, имажинизм, ключевые слова художественных миров. Она использует электронный словарь для написания научной работы.
Представляется возможным описать еще один типичный портрет: студент, 20 лет, специальность - лингвистика. Его интересы - семантика, увлечен чтением и заучиванием наизусть стихотворений Есенина. Он использует веб-приложение для того, чтобы узнать, какие слова и темы в стихотворениях поэта явились самыми частотными.
Функции и структура.
Описание конкретных функций и структуры электронного словаря является следующей важной частью для понимания того, как должен быть устроен его программный код при разработке.
В первую очередь, электронный словарь должен иметь оригинальную и привлекательную для пользователя стартовую страницу, где будут находиться фотографии поэта и небольшое описание словаря и творчества Есенина. На этой же странице должно располагаться меню, перечисляющее основные опции, которые можно выбрать:
· Поиск по слову - пользователь вводит интересующее его ключевое слово. Если лексема действительно является ключевой, то посетитель веб-страницы получает информацию о частотности и о том, в каком жанре и периоде встречается данное слово, к какому кластеру и подкластеру оно относится.
· Поиск по теме - пользователь выбирает одну из тем (смысловых кластеров), предложенных в списке и получает ключевые слова, которые вошли в нее.
· Список тем - пользователь может ознакомиться со списком всех выявленных в ходе исследования тематических кластеров.
Выгода для пользователей.
Используя электронный словарь ключевых слов творчества С. Есенина, посетитель получает определенную выгоду. К примеру, у пользователя не будет необходимости проводить обсчет ключевых слов самостоятельно, разбираясь со специально предназначенными для этого программами (AntConc или Textus Pro), анализировать их и выделять тематические кластеры. Кроме того, веб-приложение работает в любом браузере, бесплатно и круглосуточно.
Конкуренты.
Переходя к теме поиска конкурентов и аналогичных веб-приложений, следует подчеркнуть, что в сети интернет не удалось найти как электронных, так и печатных словарей ключевых слов творчества Есенина.
Одним из отдаленных аналогов разрабатываемого в рамках настоящего исследования словаря можно считать «Словарь языка Есенина», несколько частей которого было написано Г.И. Шипулиной и издано в 2012 и 2013 гг. Бакинским славянским университетом. Указанный словарь существует в печатном виде, в нем приводятся описания всех слов (а не только ключевых) поэтических текстов (не учитывая прозаические) Есенина. Следовательно, «Словарь языка Есенина» не является конкурентным для электронного словаря ключевых слов.
В завершение части, связанной с проектированием электронного словаря, необходимо отметить, что его создание будет: во-первых, уникальным, с точки зрения отсутствия конкурентов и близких аналогов; во-вторых, полезным и интересным для изучающих не только творчество С.А. Есенина, но и метод анализа ключевых слов; в-третьих, выгодным для пользователей, так как его использование позволит сэкономить временные и денежные ресурсы.
2.2 Разработка электронного словаря ключевых слов
В первой главе настоящей работы было указано, что разработка веб-приложения «Электронный словарь ключевых слов творчества С.А. Есенина» будет производиться на языке программирования Python в специальном сервисе pythonanywhere.com [https://www.pythonanywhere.com].
Язык программирования Python. Преимущества.
Python является современным и популярным языком программирования, предназначенным для решения самых различных задач. Он был разработан в конце 1980-х - начале 1990-х нидерландским программистом Гвидо ван Россумом и на сегодняшний день используется для обработки разного рода данных, работы с базами данных, разработки сайтов и приложений с графическим интерфейсом [12].
Помимо этого, выбор Python в качестве языка разработки веб-приложения обоснован преимуществами, которыми он обладает:
· Бесплатный - свободно загружается с официального сайта и устанавливается на персональный компьютер;
· Удобный синтаксис - немного знаков препинания;
· Имеет множество встроенных модулей и библиотек - очень удобны при разработке;
· Интерпретируемый язык - не требующий компиляции;
· Универсальный язык - поддерживает разные методы программирования: объектно-ориентированное и процедурное (императивное);
· Гибкий - используется для решения разного типа задач: к примеру, написание консольных программ или написание веб-приложений;
· Развивающийся - появляются новые, более совершенные версии (последняя версия 3.5.1 была выпущена 7 декабря 2015 года [19]).
Таким образом, язык программирования Python действительно является мощным и подходящим инструментом для разработки электронного словаря ключевых слов.
Принципы работы программы.
Большим преимуществом сервиса pythonanywhere.com является автоматическая генерация ссылки (после регистрации) на свободную и доступную для пользователя веб-страницу, доступ к которой можно осуществлять путем загрузки файлов с программным кодом и подключения встроенных модулей и платформ (например, микрофреймворка Flask, созданного специально для разработки веб-приложений на языке Python).
Указанная программная платформа использовалась для создания и загрузки каждой из страниц веб-приложения. Принцип их разработки можно представить следующим образом: для каждой из страниц был создан свой дескриптор и функция, возвращающая загруженный HTML-шаблон; для двух страниц, где пользователь будет осуществлять поиск по словам и по темам, создавались формы и переменные - места для заполнения; в случае если форма была вызвана пользователем, то программа осуществляет поиск в базе данных ключевых слов и тем, а затем загружает шаблон и помещает необходимую информацию на место переменных.
Среди решений, принятых при разработке веб-приложения, можно выделить:
· Создание на сервере во вкладке Files главной папки mysite (см.Приложение, Изображение 1), в корне которой находятся файлы с программными кодами для формирования базы данных (database.py и code.py - для автоматического создания общего файла со всеми ключевыми словами), а также файл flask_app.py (см.Приложение, Изображение 13), генерирующий веб-страницы приложения (принцип работы его кода описан выше).
· Добавление в mysite папки templates (см.Приложение, Изображение 4), куда поочередно добавлялись три документа формата .html для трех страниц веб-приложения соответственно: главная страница (home), слова (words), темы (themes). В каждом из файлов прописан HTML-шаблон веб-страниц - их структурные элементы (заголовки, меню, формы, текст, изображения и т.д.) (см.Приложение, Изображения 5 - 7).
· Создание в корневой папке mysite еще одной папки static (см.Приложение, Изображение 8), где находятся три папки для каждой из страниц: home, words, themes (см.Приложение, Изображения 9, 11, 12). В указанных папках обязательно хранятся файлы (по одному для каждой папки) формата .css с названием styles и прописанными параметрами CSS-стилей для формирования интерфейса - шрифт, цвета, положение элементов на странице (см.Приложение, Изображение 10). Необязательными или сменными элементами в папках home, words, themes являются файлы формата .jpg или .png - изображения, расположенные на той или иной веб-странице.
Принцип работы с разработанным веб-приложением доступен и интуитивно понятен пользователю.
На главной странице находится заголовок сайта, меню, фотография поэта, цитата из его поэмы, а также краткое описание актуальности темы и информация о проекте (см.Приложение, Изображение 14).
При нажатии на клавишу «Слова» в меню, загружается новая страница, где пользователь может осуществлять поиск по ключевым словам. Помимо этого, на данной странице есть краткая инструкция и примечание (см.Приложение, Изображение 15). После ввода лексемы и нажатия клавиши «Поиск» на странице появляется таблица, в которой содержится информация о выбранном слове - кластер, подкластер (если имеется) и частотность в зависимости от жанра и периода творчества (см.Приложение, Изображение 16).
При выборе пункта «Темы» в меню также происходит загрузка новой страницы, на которой пользователь может производить поиск ключевых слов по темам (смысловым кластерам) творчества поэта. В указанной вкладке содержится краткая инструкция, а ознакомиться со списком тем можно, нажав на стрелку в форме поиска (см.Приложение, Изображения 17, 18). Результаты поиска по теме также представляются в виде таблицы.
Таким образом, разработка веб-приложения «Электронный словарь ключевых слов творчества С.А. Есенина» была завершена успешно, цели, поставленные в ходе проектирования и в ходе работы, были достигнуты.
Заключение
Резюмируя, в настоящей работе был произведен обсчет ключевых слов лирики, поэм и прозы С.А.Есенина с помощью компьютерной программы, с последующей ручной обработкой полученных результатов и анализом выявленных частотных лексем, который, в свою очередь, позволил подтвердить их значимость для художественного мира поэта.
Итогом проделанной работы стало успешно функционирующее и доступное для пользователей сети интернет веб-приложение «Электронный словарь ключевых слов творчества С.А. Есенина», позволяющее осуществлять поиск по лексемам, а также по темам творчества.
Результаты работы свидетельствуют о продуктивности избранного в ней подхода с использованием новых технологий, поскольку современный подход позволил не только обнаружить ряд особенностей творчества Есенина, которым прежде в работах, ему посвященных, не было уделено должного внимания, но и сформировать на данной основе практически ценный материал.
Библиографический список
Печатные издания:
1. Базанов М., Прокушев Ю. «Есенин и современность». - М.: «Современник», 1975. - 405с.
2. Гольцман В.И. «MySQL 5.0. Библиотека программиста». - ИД «Питер», 2009. - 258 с.
3. Есенин С.А. «Стихотворения, поэмы, проза / Сергей Есенин»; [вступ. ст., сост., коммент. А.Тереховой]. - М.: Эксмо, 2007. - 464 с.: ил. - (Библиотека великих писателей).
4. Коржан В.В. «Есенин и народная поэзия». - Издательство «Наука». Ленинградское отделение. Ленинград, 1969. - 198 с.
5. Куняев Станислав, Куняев Сергей. «Сергей Есенин» - 6-е изд. - М.: Молодая гвардия, 2010. - 595 с.: ил. - (Жизнь замечательных людей).
6. Макарова Н.В., Волков В.В. «Информатика: учебник для вузов». - СПб.: Питер, 2011. - 576 с.
7. Марченко А. «Поэтический мир Есенина». - М: «Советский писатель», 1989. - 304 с.
8. Наумов Е. «Сергей Есенин. Жизнь и творчество». - Издательство «Просвещение», Москва - Ленинград, 1965. - 280 с.
9. Прокушев Ю.Л. «Даль памяти народной». Второе издание. - М: «Советская Россия», 1983. - 271 с.
10. Прокушев Ю.Л. «Сергей Есенин. Образ. Стихи. Эпоха». - М: «Советская Россия», 1986. - 299 с.
11. Прокушев Ю. Л. «Сергей Есенин. Поэт. Человек». - М: «Просвещение», 1973. - 236 с.
12. Прохоренок Н.А. «Python 3 и PyQt. Разработка приложений». - СПб.: БХВ-Петербург, 2012. - 704 с.
13. Сергей Есенин в стихах и жизни: Поэмы, 1912-1925; Проза, 1915-1925 / Сост. Н. И. Шубниковой-Гусевой. - М.: ТЕРРА; Республика, 1997. - 384 с.
14. Эвентов И.С. «Сергей Есенин: Книга для учащихся». - М.: «Просвещение», 1987. - 159 с.
15. Юшин П.Ф. «Сергей Есенин». - Издательство Московского университета, 1969. - 277 с.
Интернет-источники:
16. Вежбицкая А. «Язык. Культура. Познание». - М., 1997. http://philologos.narod.ru/ling/wierz_rl.htm
17. Толковый словарь В. Даля. Электронная версия. https://slovari.yandex.ru/~%D0%BA%D0%BD%D0%B8%D0%B3%D0%B8/%D0%A2%D0%BE%D0%BB%D0%BA%D0%BE%D0%B2%D1%8B%D0%B9%20%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C%20%D0%94%D0%B0%D0%BB%D1%8F/
18. Бретт МакЛафлин. Статья «От web-сайтов к web-приложениям: Часть 1. Web-сайт или web-приложение?»
http://www.ibm.com/developerworks/ru/library/wa-websiteapp/
19. Язык программирования Python. Официальный сайт.
https://www.python.org/downloads/
Курсовые работы:
20. Зотеева Н.Д. «Ключевые слова художественного мира лирики С.А.Есенина», 2013.
21. Зотеева Н.Д. «Ключевые слова художественного мира поэм С.А.Есенина», 2014.
22. Зотеева Н.Д. «Ключевые слова художественного мира прозы С.А.Есенина», 2015.
Размещено на Allbest.ru
...Подобные документы
"Метод ключевых слов" как один из распространенных методов перехода к математической модели документа. Закономерности распределения частоты слов, отраженные в законе Ципфа. Экспериментальная оценка статистического анализа текста по модели TF*IDF.
реферат [591,7 K], добавлен 24.06.2009Мотивы и особенности лексики произведений "О дивный новый мир" О. Хаксли и "1984" Дж. Оруэлла. Анализ, сравнение и обобщение ключевых слов и воссоздание художественного мира романов. Создание веб-приложения "Словарь ключевых слов британских антиутопий".
дипломная работа [2,6 M], добавлен 21.06.2016Теоретические основы разработки приложения, реализующего подсвечивание ключевых слов. Описание используемых процедур и функций, структуры программы, интерфейса пользователя. Системные требования для работы приложения, анализ результаты его тестирования.
курсовая работа [1,2 M], добавлен 07.07.2012Отличие исконных слов от заимствованных и установление времени, причины заимствований и их роль для развития языка. Алгоритм подсчета обработанных слов приложением "Подсчет частоты введенных слов в текстовом файле". Отладка и тестирование программы.
курсовая работа [1,1 M], добавлен 13.06.2012Разработка архитектуры, отдельных модулей и сайта Интернет–системы электронной торговли отопительными приборами. Проектирование интерфейса; программная реализация, создание базы данных. Раскрутка сайта: подбор ключевых слов, анализ конкурентных запросов.
курсовая работа [3,4 M], добавлен 20.04.2012Разработка программной базы для исследований в области распознавания речи и поиска ключевых слов в ней. Расчет mel-фильтров. Скрытые марковские модели. Применение в алгоритме сверточного декодирования Витерби. Методы визуализации и обработки аудиоданных.
курсовая работа [1,1 M], добавлен 01.06.2015Описание инфологической и концептуальной модели. Определение типов сущностей и их атрибутов. Поля базы данных, связи между таблицами. Программное обеспечение БД учебных дисциплин и его реализации на основе понятий и ключевых слов предметной области.
дипломная работа [2,1 M], добавлен 26.05.2016Создание электронного филологического словаря. Использование не реляционной базы данных. Средства JavaScript для создания интерактивности на странице. Серверный язык программирования PHP. Специфика словарной статьи. Взаимодействие с базой данных.
курсовая работа [689,9 K], добавлен 26.02.2015Разработка словаря, содержащего термины по патентоведению, в виде базы данных. Систематизация данных путем разделения текста на отдельные файлы по буквам алфавита. Создание файла "Содержание" с гиперссылками для обеспечения быстрого доступа к информации.
презентация [278,1 K], добавлен 16.10.2013Характеристика основных патентных баз данных, используемых при проведении патентно-информационного поиска в Интернете. Стратегия патентного поиска и системы патентной классификации. Использование логических операторов и ключевых слов при поиске.
презентация [1,9 M], добавлен 15.09.2011Программное обеспечение - важный компонент функционирования компьютерной деятельности. Изучение принципа работы резидентных программ. Разработка программы по удалению слов из текстового файла без учета регистра. Требования к программе, разработка проекта.
курсовая работа [404,5 K], добавлен 03.02.2011Формат файла конфигурации, содержащего данные для подсветки синтаксиса. Его проверка при помощи XML Schema. Реализация функций для чтения данных подсветки и по загрузке таблицы стилей, ключевых слов и типов. Разбор текста и применение к нему стилей.
курсовая работа [122,3 K], добавлен 30.05.2015Изучение классификации поисковых средств по В.В. Дудихину. Поиск информации с помощью поисковых ресурсов. Формирование запросов. Использование ключевых слов. Индексация документов, размещенных на различных серверах. Зарубежные лидеры поисковых систем.
презентация [775,3 K], добавлен 10.03.2015Именованная совокупность переменных. Традиционный пример и сведения о структурах. Пример программы создающий список и выводящий его содержимое на консоль. Программа подсчета ключевых слов. Доступ к элементам объединения. Записи в линейном списке.
методичка [35,9 K], добавлен 06.07.2009Общее представление о поисковых службах. Характеристика видов информационно-поисковых систем, анализ их преимуществ и недостатков. Приемы простого поиска с помощью ключевых слов. Сохранение информации на компьютере для ее последующего использования.
учебное пособие [313,9 K], добавлен 10.10.2011Всемирная Паутина - это совокупность информационных ресурсов, связанных средствами телекоммуникаций и основанных на гипертекстовом представлении данных. Поиск информации в Internet. Конкретизация области поиска при помощи выделения ключевых слов.
реферат [111,4 K], добавлен 27.06.2010Примеры запросов к одной из поисковых систем Интернет (подбор ключевых слов) и расчетов в табличном процессоре MS Excel (инструменты). Описание машины Тьюринга: составляющие и их функционирование. Основные форматы представления графических данных.
контрольная работа [24,5 K], добавлен 09.06.2009Необходимость создания словаря по технологии для школьников. Основные этапы, требования и особенности создания электронного словаря. Использование морфологического анализа для оформления и дизайна. Принципы создания веб-страниц в Microsoft Publisher.
творческая работа [2,0 M], добавлен 17.11.2009Проектирование системы голосового управления в автоматизированных жилых комплексах. Распознавание и порождение (синтез) речи компьютером. Синтез устной речи. Технология поиска ключевых слов. Нейросетевое сравнение на основе простых персептронов.
дипломная работа [4,3 M], добавлен 19.06.2011Создание базы данных для автоматизации электронного магазина по продаже шин в терминале ER моделирования. Построение логической и концептуальной модели базы данных. Её реализация в интерактивной среде Интернет. Расчет экономической эффективности магазина.
курсовая работа [4,5 M], добавлен 10.10.2012