Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Алгоритмы кодировки текста

Алгоритмы кодировки текста

Код - совокупность определённых знаков, символов, команд, при помощи которых возможно реализовать передачу конкретной информации. Байт - наименьшая доля компьютерной памяти, которая содержит адрес. Порядок составления восьмиразрядного двоичного кода.

Рубрика	Программирование, компьютеры и кибернетика
Вид	курсовая работа
Язык	русский
Дата добавления	01.12.2018
Размер файла	173,4 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В¤Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В°Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В Р вЂ№Р В Р вЂ Р В РІР‚С™Р РЋРІР‚СњР В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р РЋРІвЂћСћР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В» Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В¦Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’Вµ Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РІР‚вЂњР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†РІР‚С›РЎС›Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р Р‹Р Р†Р вЂљРЎвЂќР В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р В РІР‚С™Р РЋРЎв„ўР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В±Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РІР‚вЂњР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р В Р вЂ№Р В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р В РІР‚В Р В Р’В Р Р†Р вЂљРЎв„ўР В Р вЂ Р Р†Р вЂљРЎвЂєР РЋРЎвЂєР В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В°Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р Р†РІР‚С›РЎС›Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В РІР‚в„ўР вЂ™Р’В Р В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В Р В Р’В Р вЂ™Р’В Р В Р’В Р Р†Р вЂљР’В Р В Р’В Р вЂ™Р’В Р В Р вЂ Р В РІР‚С™Р РЋРІвЂћСћР В Р’В Р Р†Р вЂљРІвЂћСћР В РІР‚в„ўР вЂ™Р’В¦

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru

Введение

Одинаковая информация обычно излагается в нескольких формах. Другими словами она кодируется по-разному, но несёт один смысл. Вся необходимость кодирования всех видов информации возникла из-за стремительного появления компьютеров. Однако справляться с вопросом кодирования общество начало до того как они появились. Великие успехи человечества - письменность и арифметика - это не что иное, как кодирования речи и числовой информации. Информация всегда как-то представлена (закодирована), она не излагается в чистой форме.

Компьютер способен воспринимать информацию только в числовой форме. Следует сказать, что в нём мы можем закодировать любой вид информации, а именно: числовую, графическую, текстовую и звуковую. Код - это подбор (собрание) определённых знаков, символов и команд, с помощью которых мы можем передавать конкретную информацию. Например, нам следует преобразовать какой-то музыкальный звук в числовую форму, мы можем через определённые периоды времени замерять интенсивность звука на конкретных частотах, формируя результаты каждого измерения в числовом виде.

Переходя к конкретной теме нашего исследования (кодирование текстовой информации), необходимо сказать, что такой вид кодирования выполняется по тому же подобию. При нажатии на клавишу клавиатуры в процессор компьютера передаётся определённая последовательность электрических импульсов, затем процессор обрабатывает эту последовательность и передаёт её в программу, с которой мы обычно работаем и уже эта программа делает обратное преобразование, то есть в соответствии с какими-то правилами она расшифровывает данную букву, которую мы вводим с помощью клавиатуры и мы видим её у себя на экране (например, в текстовом процессоре Microsoft Word). Однако здесь перед нами появляется сложность - должно быть какое-то правило, которое при использовании разных программ и разных компьютеров будет выдавать нам правильное значение. Какие именно программы (алгоритмы) бывают и чем они отличаются и где они используются, мы рассмотрим в работе далее.

Актуальность нашего исследования заключается в надобности рассматривания вопросов, связанных с кодированием информации, из-за их действительной значимости в век информационных технологий.

Цель исследования: теоретически обосновать и удостоверить значимость вопросов кодирования информации в ЭВМ.

Гипотеза нашего исследования основывается на соображении, что роль кодировании текстовой информации в жизни человека в действительности важна.

Во время исследования решались следующие задачи:

1. Изложить какие алгоритмы кодирования текстовой информации существуют.

2. Изучить вопрос о кодировании текстовой информации и надобности этого явления.

Методы: теоретические (анализ информации из учебных пособий по информационным технологиям; анализ и синтез, и обобщение полученных данных), эмпирический (сравнение, прогнозирование)

1. Основные сведения, используемые при кодировании текстовой информации

1.1 Преимущества и недостатки хранения текстовой информации в компьютере

Как и было сказано выше во введении компьютер работает с четырьмя видами информации: графической, текстовой, звуковой и числовой; и один из самых используемых - работа с текстом. Имея компьютер, можно воспроизводить тексты, не затрачивая много усилий и времени на поиски предметов, позволяющих записать нужную информацию. Дело в том, что носителем текста на ПК становится его память (текст сохраняется на внешних носителях в виде файла).

Изучая всё это, возникает вполне ясный вопрос: почему работа с текстовой информацией в компьютере приобрела огромное развитие?

Чтобы ответить на него рассмотрим некоторые преимущества и недостатки хранения и кодирования текстовой информации.

Преимущества:

1. Простота в копировании файлов на другие носители с помощью компьютера.

2. Плотность хранения.

3. Простота в стирании ненужной информации.

4. Возможность редактирования (также, существует вариант редакции текста на иностранном языке с помощью систем машинного перевода, скачанных и функционирующих вместе с текстовым редактором. Пример: Pragma 6x(5x)).

5. Операционная связь - распространение информации (текстовой) через компьютерные сети.

Самое удивительное различие компьютерного текста от бумажной версии, в случае если информация в нем организована по принципу гипертекста. Гипертекст - это метод организации текстовой информации, внутри которой отмечены смысловые связи (гиперсвязи) меж её разными кусками.

Но есть и дефекты. Ключевое неудобство хранения слов в файлах заключается в том, собственно, что прочесть их возможно лишь только с поддержкой ПК.

Следует также сказать, что бывают случаи, когда текстовая информация при передаче с одного ПК на другой невозможна к прочтению. То есть, вместо текста мы обычно можем видеть неразборчивые символы. Это является своеобразным минусом хранения текстовой информации в числовом виде. Однако общество научилось решать такие проблемы с помощью специальных договорённостей. Иными словами, учёные в сфере информационных технологий создали специальные правила кодирования, которых все должны придерживаться. Эти самые правила в жизни выступают в роли кодировочных таблиц. Именно о функционале работы компьютера с этими таблицами и пойдёт речь в нашей работе далее.

1.2 Процесс кодировки текстовой информации в компьютере

Команды программ и данные для обработки поступают в микропроцессор из памяти. Память считается электрическим устройством, состоящая из микросхем, которые в свою очередь состоят из огромного количества маленьких электрических компонентов. Похожие электрические составляющие имеют все шансы пребывать лишь только в 2-ух состояниях: «включено» или же «выключено», собственно, что соответствует 2-ум цифрам двоичной системы счисления 1 или же 0, или же 1 биту.

Таким образом, вся информация в памяти ПК существует в виде очерёдности битов, где все они располагаются в одном из допустимых состояний.

Для измерения текстовой информации обычно используется алфавитный подход, который именуют техническим. Под информацией станем воспринимать всякую очерёдность знаков или же символов. Следует сказать, что символами можно считать не только буквы (заглавные или строчные, латинские или же русские), но и цифры, знаки препинания, особые знаки на подобии «=», «(», «&», а также пробелы между словами, так как пустое место в тексте тоже должно иметь своё обозначение. Для определения количества информации используем длину очерёдности, данной в начальном алфавите, без учёта её содержания, и количество знаков закодированного сообщения. В таком случае используется вероятностный подход, например как комплект знаков алфавита исходного сообщения, возможно, рассматривать как отличные друг от друга вероятные события.

Множество символов, с помощью которых записывается текст, называется алфавитом. Число символов в алфавите - это его мощность.

N=2b - это формула при помощи которой мы можем определить количество информации (N-количество символов (мощность), b- информационный вес символа (количество бит)). Существует понятие достаточного алфавита, так называют алфавит мощностью в 256 символов, в который помещаются практически все необходимые знаки.

Т.к. 256 = 28, то вес 1 символа - 8 бит.

Единице измерения 8 бит присвоили название 1 байт:

1 байт = 8 бит.

Двоичный код каждого символа в компьютерном тексте занимает 1 байт памяти.

Приведём простой пример на тему как же понять, сколько в общем виде занимает определённое слово в компьютерной памяти.

Возьмём слово математика. Это слово состоит из 10 букв. Так как каждая буква является определённым символом компьютерного алфавита, поэтому занимает 1 байт памяти ПК. 1 байт = 8 бит потому как достаточный алфавит имеет мощность 256.

256=28, следовательно, вес 1 символа - 8 бит слово займёт 80 бит память (10*8).

Как было сказано выше в работе слова вводятся в память ПК с помощью клавиатуры. На клавишах записаны обычные для нас символы, цифры, знаки препинания. А в оперативную память они попадают как двоичный код. Вследствие этого любой знак представляется 8-разрядным двоичным кодом.

Конфигурация знака, нанесённого на клавиатуре, никоим образом не связана с номером нажатой кнопки. За распознавание знака и присваивание ему внутреннего кода ЭВМ отвечает особая программа по специальным таблицам: ДКОИ, КОИ-7 и т д.

При кодировке всем отдельным знакам ставится оригинальный десятичный код от 0-255 или же сообразный ему двоичный код от 00000000-11111111. Получается, что человек различает знаки по их письменному виду, а компьютер - по их коду.

Побайтная кодировка знаков удобна, потому как байт - наименьшая доля памяти, которая содержит адрес и отсюда следует, что выполняя обработку текста, процессор способен обратится ко всем символам порознь (отдельно). С другой стороны, 256 символов - это вполне достаточное количество для представления самой разнообразной символьной информации.

Постановка восьмиразрядного двоичного кода ко каждому символу- условна, так как имеется возможность создать (использовать) всевозможные методы кодирования текстовой информации.

Следует напомнить, что набор большинства кодировок составляет 256 символов. Из-за этого факт создания общей таблицы кодировки представляется труднореализуемым. В связи с этим было принято решение расширить спектр значения кодов. Вместо 8-ми разрядного двоичного кода была введена 16-ти разрядная кодировка знаков, которая получила название - UNICODE. С помощью неё можно задать оригинальные коды для 65 536 знаков, собственно, что считается необходимым для размещения большинства языков в одной таблице.

В этой главе мы вкратце рассмотрели основные преимущества и недостатки файлового хранения текста. При этом следует резюмировать, что, несмотря на выделенные нами недостатки кодировки и хранения текстовой информации в компьютере такой метод, безусловно, удобнее, чем хранение на бумаге, которая в свою очередь имеет большее количество дефектов.

Также, мы упомянули, как происходит процесс кодирования текстовой информации в памяти ПК, рассказали, что информация кодируется с помощью двоичной системы счисления.

Рассмотрели формулу определения количества информации (N=2b), раскрыли понятие достаточного алфавита, с помощью простого примера показали, сколько занимает определённое слово в компьютерной памяти.

Коснулись темы специальных таблиц для кодирования и декодирования символов (ДКОИ, КОИ-7).

Указали на то, что при кодировке всем отдельным знакам ставится оригинальный десятичный код от 0-255или же сообразный ему двоичный код от 00000000-11111111. Получается, что человек различает знаки по их письменному виду, а компьютер - по их коду.

Закончили тем, что 8-ми разрядный двоичный код оказался не пригодным для распознавания большинства языков планеты и в дальнейшем, была введена 16-ти разрядная кодировка данных, которая получила название UNICODE. С помощью неё стало возможным задать коды для более 65 536 знаков, что посчиталось необходимым для размещения большинства языков в одной таблице.

2. Кодировочные таблицы

код байт восьмиразрядный двоичный

Таблица кодировки - это такая таблица, в которой знакам компьютерного алфавита отвечают порядковые номера.

Как уже было сказано, они используются для декодирования двоичной последовательности в текстовые символы во время использования различных приложений на ПК.

Для всех типов ЭВМ применяются всевозможные таблицы кодировки. Используются обычно стандартные таблицы, которые задействуют для кодирования одного символа один, два и более байта. Обширно применяется известная таблица кодов, именуемая ASCII (American Standart Code for Information Interchange - Американский стандартный код для обмена информацией), в ней применены технологии использования одного байта для кодирования одного знака(символа). ASCII является кодировкой в которой представлены символы латинского алфавита, десятичные цифры, знаки национального алфавита, знаки препинания, символы арифметической операций и управляющие символы. Управляющие символы называют непечатаемыми символами, к ним относятся такие как «перевод строки» (код символа 10), «возврат каретки» (код 13) и др.

Кодировочная таблица ASCII подразделяется на две части: Коды расширения (01111111) и международный стандарт.

Символы, имеющие коды от 0 (00000000) - 127 (11111111) - первая половина кодовой таблицы, содержащая стандартные символы. Они одинаковы во всех странах и приняты Американским национальным институтом стандартов (American National Standarts Institute - ANSI) ANSI X3.4. Символы также подразделяются на управляющие (первые 32) и печатные (остальные). Следует отметить, что управляющие символы были выведены из таблицы, вследствие того, что они не относятся к текстовым элементам. Соответственно в таблицы обозначены символы с 32-127. Коды, как принято, представлены в шестнадцатеричной системе счисления. Код символа «А», например, 4116 = 6510.

В таблице используется принцип последовательного кодирования алфавита - строчные и прописные буквы представлены и расположены в алфавитном порядке, а численные значения упорядочены по возрастанию. Для букв русского алфавита также соблюдается принцип последовательного кодирования.

Ввиду обширности таблицы кодов её не следует запоминать, нужно запомнить только последовательность символов:

1) Арифметические операции и знаки препинания;

2) Цифры 0-9;

3) Латинский алфавит (прописные и строчные символы).

Существует и вторая часть кодировочной таблицы ASCII (символы с кодами 128-255). Её называют расширенной, так как она включает в себя символы национальных алфавитов (кириллица). Однако даже с учётом этих добавочных символов алфавиты большинства языков не удаётся вместить в 256 знаков. Вследствие этого существуют кодировочные таблицы ASCII, включающие в себя всевозможные языки.

Для большей наглядности приведём краткий обзор на структуру таблицы кодировки ASCII:

1) 0-31 (код: 00000000- 00011111) = Функции: разметка текста, руководство процесса вывода текста на экран или печать, звуковые сигналы и т.п.

2) 32-127 (код: 00100000-01111111)= часть таблицы, называемая стандартом (английский язык). Знаки пунктуации, математические знаки ( !, +,%, большие и малые латинские буквы, десятичные цифры. Следует отметить символ 32- «пробел», то есть пустое место в таблице. У всех остальных символов есть своё обозначение

3) 128-255 (код: 10000000-11111111)= нестандартная часть таблицы (русская). Может иметь различный вид, каждый вариант имеет свой номер. Эта часть таблицы называется кодовая страница. Используется для размещения большинства национальных алфавитов отличных от латинского.

Недостаток согласованности стандартов и привёл в свою очередь к созданию кодовых страниц.

- ISO 8859 (National standard).

- Microsoft CP-1251 (Windows-1251) CP- cod page - кодовая страница. Она используется приложениями, работающими под операционной системой Windows.

- ОС Unix KOI8-R (эта кодовая таблица применяется в интернете).

Использование символов различных наборов кодов в одном и том же документе нереально. Так как все текстовые документы используют свои собственные наборы кодов, в противном случае распознавание текста становится невозможным.

С развитием времени, также кодировочных таблиц появляются и новые символы (Евро), из-за чего ISO вынужден разрабатывать новый стандарт ISO-8859-15, который похож на стандарт ISO-8859-1.

Они различаются по таким принципам: из старого стандарта (ISO-8859-1) были изъяты, не используемые в настоящее время символы старых валют, для освобождения мест под нововведённые символы (например: Евро). Таким образом, у пользователей могут быть носители с одними и теми же документами, но с разными кодами.

Разумеется, такое явление создало проблему в сфере кодирования информации. Однако решением всех проблем является согласование единого международного набора кодировок UNICODE, который вкратце был упомянут в первой главе нашего исследования.

Юникод совпадает первыми 128-ми символами кодировки ASCII. Остальная часть кодовой таблицы включает символы, используемые в основных языках мира, математическую и другую научную символику.

В формате Unicode существует 4 основные системы кодирования байтами: UTF-8; UCS-2; UTF-16; USC-4.

UTF-8: в ней содержится 128 символом, которые кодируются одним байтом (Формат ASCII); 1920 символов - имеют вес в 2 байта; 63488 знаков - 3 байта (Китайский, японский…); Оставшиеся 2 147 418 112 символов могут быть закодированы - 4,5,6 -ью байтами.

UCS-2: Кодировка, включающая первые 65 535 символов из UNICODE (символы представлены 2-мя байтами)

UTF-16: Это расширенная версия UCS-2, включающая 1 114 112 знаков из кодировки UNICODE. 2-мя байтами представлены первые 65 535 символов, а остальные знаки представлены 4-мя символами.

Как было сказано раннее универсальной кодировкой всех символов является стандарт UNICODE. Все знаки в этом стандарте кодируются 16 байтами, поэтому он даёт описать несравненно большее количество знаков, чем другие 7 и 8-битовые кодировки.

Основным отличием универсальной кодировки UNICODE от других систем является то, что вместе с кодом он определяет различные характеристики символа, например:

1) Как отображаются атрибутика символов (пробел, разрыв строки, слева направо и т.п.).

2) Типология (цифры, знаки препинания, строчные буквы …).

3) Числовые значения.

Весь масштаб кодов (0-FFFF) разбит на определённое количество стандартных подмножеств. Все из них соответствуют алфавиту какого-то языка или группе специальных символов.

Рис. 1. UNICODE 3.0

В нынешнее время широкое распространение получила кодировка UTF-8, реализующая представление Юникода, но она пользуется однобайтовой кодировкой символов первой части таблицы ASCII, а для кодировки остальных знаков использует от 2 до 6 байт.

Нижняя доля таблицы кодировок заменяется внедрением надлежащих драйверов - управляющих вспомогательных программ. Этот приём даёт возможность применять сразу несколько шрифтов и их гарнитур.

Каждому коду символа на экране должно соответствовать изображение, а не простой шифровой код. Всё из-за того, что каждый символ имеет свою собственную форму.

Графические формы всех символов хранятся в специальной памяти дисплея, которая называется знакогенератор. С помощью точек, образующих знаковую матрицу происходит воспроизведение символа на экране дисплея. Пиксели в такой матрице именуются элементами изображения и могут быть либо яркими, либо тёмными (тёмная - цифра 0, светлая- цифра 1).

Практическая часть по второй главе

Для более точного понимания смысла всей описанной теории, следует показать каким образом, выглядит текст (или предложение) в памяти компьютера. Однако нужно помнить, что кодировочные таблицы разные. В связи с этим мы решили показать, как будет представляться определённое случайно выбранное нами предложение только в одной из многих таблиц кодировок. Думаем, что именно из этого примера станет ясным вопрос: почему принимая текст со стороннего носителя, на дисплее экрана может появиться текст невозможный к прочтению.

В качестве примера возьмём кодовую страницу Microsoft Windows, обозначаемая сокращением CP1251. Следует сказать, что мы берём только вторую часть( кодовую страницу) таблицы ASCII, так как предложение для кодировки будет на русском языке, а в первой части (которая стандартна всегда) использованы цифры, знаки препинания, которые нам в данный момент не нужны.

Рис. 2. Microsoft Windows CP1251

Предложение для кодировки: Я сегодня пойду в лес за грибами.

Сравнение будет проходить следующим образом: мы запишем каждый символ данного предложения, таким образом, как бы он представлялся в памяти компьютера (в двоичном коде).

Так как, мы не имеем специальных таблиц с уже имеющимися двоичными кодами, нам придётся переводить десятичный номер в двоичную систему счисления. Например: символ «Я» записан в кодировке CP1251 под номером 223. Число 223 мы делим на число 2 и затем получившийся ответ мы оставляем и делим его же на два и так пока число не закончится. Полученные остатки мы записываем в обратном порядке.

22310=110111112

Таким образом, символ «Я» будет обозначаться в память компьютера в таком виде: 11011111. Такие же операции будут производиться над всеми числами, которые обозначают подходящие нам символы.

Рис. 3. Представление слов в компьютере

Я сегодня пойду в лес за грибами (сейчас ниже мы напишем, каким образом выглядело бы это предложение в компьютере, но следует помнить, что пустое место тоже имеет свой двоичный код и даже если у нас нет этого в таблице, то в первой её половине, которую мы не включили в описание, пустое место обозначается: 00100000).

Представление предложения в памяти компьютера кодировки CP1251: 1101111100100000111100011110010111100011111011101110010011101101111111110010000011101111111011101110100111100100111100110010000011100010001000001110101111100101111100010010000011100111111000000010000011100011111100001110100011100001111000001110110011101000

Таким образом, целью данной практической работы являлась демонстрация того как выглядит простое предложение в памяти компьютера.

В этой главе мы рассмотрели одно из основных понятий нашего исследования - таблица кодировки. Её основная функция - кодирование и декодирование символов в компьютере.

Также упомянули снова, что для всех типов ЭВМ применяются всевозможные таблицы кодировки. В качестве примера рассмотрели самую широко используемую таблицу ASCII (American Standart Code for Information Interchange) - Американский стандартный код для обмена информацией). Рассказали, что данная таблица делится на две части: коды расширения(01111111) и международный стандарт.

Подвели к тому, что ввиду обширности таблицы кодов её не следует запоминать, нужно запомнить только последовательность символов:

1) Арифметические операции и знаки препинания;

2) Цифры 0-9;

3) Латинский алфавит (прописные и строчные символы).

Ввели понятие кодовая страница и на примере одной из них (Microsoft CP1251) в практической части показали, как представляется текстовая информация в памяти компьютере.

Резюмировали всё тем, что различные кодовые страницы создают определённые неудобства в сфере информационного кодирования и решением этой проблемы стало согласование единого международного набора кодировок UNICODE, которая упоминалась раннее в нашем исследовании. Однако во второй главе, мы более подробно рассмотрели эту кодировку.

3. Различие в кодировочных таблицах

В этой главе мы рассмотрим некоторые кодировочные таблицы, которые обширно используются в наше время, а также покажем различие в их символьном обозначении. Названия таблиц: КОИ8, CP1251,CP866, Mac и ISO 8859-5. КОИ8 является одним из первых стандартов для кодирования русских букв в компьютерах. Эта кодировка использовалась в 70-ые годы на ПК серии ЕС ЭВМ и в середине 80-ых начала использоваться в первых русифицированных версиях ОС UNIX (см. приложение 1).

Наиболее распространённой в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251 («CP» означает «Code Page», «кодовая страница»). (см. в приложение 2).

Далее в начале 90-ых годов, когда рынок был перенасыщен ОС MS DOS, остаётся кодировка CP866(см. в приложение 3).

В компьютерах фирмы Apple, которые работают под управлением операционной системы Mac OS, используется своя собственная кодировка Mac (см. в приложение 4).

Существует также кодировка, которая была утверждена Международной организацией по стандартизации (International Standards Organization, ISO) в качестве стандарта для русского языка.ISO 8859-5 (см. в приложение 5).

Для наглядного представления различий в таблицах составим таблицу:

Табл. 1

Символ	КОИ-8	Windows	CP866	Mac	ISO 8859-5
Ч	254	215	151	151	199
и	201	232	168	232	216
с	211	241	225	241	225
л	204	235	171	235	219
о	207	238	174	238	222

Таким образом, мы можем видеть, что каждая кодировочная таблица имеет свой собственный код, то есть одному и тому же десятичному (можно перевести и в двоичный) коду в различных кодировках поставлены в соответствие различные символы. Например, в кодировке КОИ-8 слово «число» имеет последовательность цифр: 254 201 211 204 207, однако в других кодировках это будет бессмысленным набором символов

К счастью, пользователь не нагружается декодированием текстовых документов, потому как этим занимаются специальные программы, установленные в приложения.

Заключение

В наш век информационных технологий компьютеры повсеместно стали использоваться для хранения и обработки текстовой информации. Старые методы уже давно забыты и с каждым годом изучение принципа кодировки информации становится всё актуальнее и актуальнее. Таким образом, считаем, что актуальность и цель, данные нами в начале работы были доказаны, а также подтвердилась гипотеза (роль кодировании текстовой информации в жизни человека в действительности важна). Цели и поставленные задачи были достигнуты.

Резюмируя, следует в общем порядке заключить, что же мы получили из этого исследования.

При кодировании каждому символу ставится в соответствие уникальный двоичный код от 00000000 до 11111111 (или десятичный код от 0 до 255). Присвоение символу конкретного кода фиксируется кодовой таблицей.

Таблица кодировки - это таблица, где всем знакам определённого алфавита соответствуют коды (номера). Различные таблицы используются на разных типах ЭВМ. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standard Code for Information Interchange) - Американский стандартный код для информационного обмена.

Первая половина таблицы самая общая, её также называют стандарт, и в ней содержится 127 символов (знаки препинания, управляющие символы, скобки и некоторые другие символы). Существует также большое количество кодовых страниц (CP-code page) которые используются для кодирования символов под тот или иной язык или которые используют те или иные производители ПК. В России таких кодировок 5:

а) KOI-8.

б) DOS.

в) MAC.

г) Windows CP1251.

д) ISO 8859-5.

Широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать 65536 (216 ) различных символов.

Формат UTF-8: стандарт Unicode, который является основой для хранения и текста во многих современных компьютерных системах.

Литература

1. Акулов О.А., Информатика. Базовый курс: учебное пособие для вузов // О.А. Акулов, Н.В. Медведев. - М., 2006.

2. Блинов А.М. Информационная безопасность. - СПб., 2010.

3. Балдин К.В. Информатика: учебник для вузов // К.В. Балдин, В.Б. Уткин. - М., 2007.

4. Горнец Н.Н., Рощин А.Г., Соломенцев В.В. Организация ЭВМ и систем. Учебное пособие. - М., Академия, 2008.

5. Леонтьев В.П. Новейшая энциклопедия персонального компьютера 2003. - 5-е изд. -М., 2003.

6. Симонович С.В. Информатика. Базовый курс: учебник для вузов. - Спб., 2011.

7. В.Л. Бройдо, О.П. Ильина Вычислительные системы, сети и телекоммуникации: учебное пособие. - СПб., 2011.

8. Соболь Б.В., Галин А.Б., Панов Ю.В. и др. Информатика: учебник. - М., 2007.

9. Хлебников, А.А. Информационные технологии: Учебник / А.А. Хлебников. -- М.: КноРус, 2014. -- 472 c.

10. Информационные технологии. Гохберг Г.С. и др. - 9-е изд., перераб. и доп. - М.: 2014. -- 240 с.

11. Информатика Учебник для вузов Макарова Н.В., Волков В.Б. Издательство: Питер, 2011 г., 575 с.

Приложение 1

(OS UNIX)

Рис. 3

Приложение 2

(CP1251)

Рис. 4

Приложение 3

(CP866)

Рис. 5

Приложение 4

(Mac)

Рис. 6

Приложение 5

(ISO 8859-5)

Рис. 7

Размещено на Allbest.ru

...

курсовая работа "Алгоритмы кодировки текста" скачать

Подобные документы

Двоичная и шестнадцатеричная формы представления чисел
Расчет необходимого объема памяти для записи книги, количества символов в тексте. Создание шестнадцатеричного кода фамилии с помощью таблицы кодировки. Описание алгоритма получения электронного письма. Расположение чисел в порядке их возрастания.

контрольная работа [16,1 K], добавлен 05.07.2014
Исследование особенностей хранения данных на внешних запоминающих устройствах
Приобретение практических навыков по определению объема памяти, отводимого на внешнем запоминающем устройстве под файл данных. Расчет производительности поиска информации, хранящейся в файле на ВЗУ. Вычисление использованных кластеров и байт памяти.

лабораторная работа [31,2 K], добавлен 26.11.2011
Представление текста, изображений и звука
Понятие и сущность процесса кодирования информации, его закономерности и направления использования на современном этапе. Порядок составления и содержание таблицы кодировки. Методика и инструменты компьютерного представления изображений, а также звука.

презентация [896,4 K], добавлен 22.10.2013
Организация памяти. Организация систем адресации и команд
Типы системной памяти. ОЗУ (оперативное запоминающее устройство), ПЗУ (постоянное запоминающее устройство), "энергонезависимая память" (CMOS). Процессор. Основные шины. Адресные данные. Совокупность всех возможных команд - система команд процессора.

контрольная работа [24,3 K], добавлен 30.03.2009
Изучение структурной организации и системы команд микроконтроллеров семейства МК51
Нахождение наибольшего элемента массива, расположенного во внутренней памяти, сохранение его значения в стеке. Описание используемых команд: запись из внутренней памяти в аккумулятор данных, безусловный переход по метке. Составление кода программы.

лабораторная работа [41,4 K], добавлен 18.11.2014
Память компьютера
Организация и основные характеристики основной памяти персонального компьютера. Запоминающие устройства ЭВМ как совокупность устройств, обеспечивающих хранение и передачу данных. Хранение и обработка информации. Основные виды памяти компьютера.

контрольная работа [52,0 K], добавлен 06.09.2009
Алгоритмы распределения памяти
Распределение оперативной памяти фиксированными, динамическими и перемещаемыми разделами. Распределение с использованием внешней памяти. Принципы рaботы матричного принтера. Проектирование символов и разработка программы, реализующей их вывод на печать.

курсовая работа [241,3 K], добавлен 01.07.2011
Организация памяти в ЭВМ
Стратегии размещения информации в памяти. Алгоритмы распределения адресного пространства оперативной памяти. Описание характеристик модели и ее поведения, классов и элементов. Выгрузка и загрузка блоков из вторичной памяти. Страничная организация памяти.

курсовая работа [708,6 K], добавлен 31.05.2013
Общие сведения по InterNet
Понятие Интернета и сущность общемировой компьютерной сети. Характеристика интернет-протоколов, определение гипертекста и гипертекстовой ссылки. Структура электронного адреса и особенности его создания. Порядок преобразования доменного имени в IP-адрес.

реферат [27,7 K], добавлен 17.06.2012
Программная модель вычислительной системы. Эмулятор
Структура микропроцессорной системы. Длина объектного кода команды. Входные и выходные данные. Представление чисел в эмуляторе. Команды, работающие со стеком и памятью. Запись данных в адрес памяти. Состояние ячеек памяти. Алгоритм загрузки программы.

курсовая работа [319,1 K], добавлен 07.08.2013
Понятие программы
Программа как совокупность данных и команд, предназначенных для функционирования ЭВМ и других компьютерных устройств. Этапы создания программ: каскад, инкремент, эволюция. Порядок написания исходного кода и его компиляция. Сборка статической библиотеки.

презентация [119,4 K], добавлен 05.01.2014
Цифровые и микропроцессорные устройства
Понятие и принципы построения компьютерной памяти, ее двоичная структура. Архитектура фон Неймана как широко известный принцип совместного хранения команд и данных в памяти компьютера. Аналого-цифровой преобразователь на основе двойного интегрирования.

контрольная работа [166,0 K], добавлен 10.02.2015
Измерение объема информации
Информация и информационные процессы. Содержательный и алфавитный подходы к измерению количества информации. Определение мощности алфавита информационного сообщения. Описания компьютерной кодировки русских и латинских букв. Использование двоичной системы.

лабораторная работа [35,3 K], добавлен 04.09.2014
Форматирование текста
Форматирование текста с помощью HTML. Задание цвета на веб-странице. Задание размера шрифта. Физическое и логическое форматирование символов. Вставка специальных символов. Удобочитаемость, содержание и форма шрифта. Подбор шрифта и верстка текста.

курсовая работа [1,3 M], добавлен 01.10.2014
Ассемблер для платформы Java
Архитектура уровня команд платформы Java, формат файла класса Java. Компилятор ассемблероподобного языка, позволяющий создавать файлы классов, корректно обрабатываемые реальной JVM, поддерживающий все команды байт-кода Java и важнейшие возможности JVM.

курсовая работа [292,6 K], добавлен 17.09.2008
Устройство компьютера
Блок-схема, отражающая основные функциональные компоненты компьютерной системы в их взаимосвязи. Устройства ввода-вывода информации. Определение объема оперативной памяти. Применение карт памяти и flash-дисков для долговременного хранения информации.

презентация [5,3 M], добавлен 28.01.2015
Микропроцессоры Intel 8086, Intel 80286
Функциональная схема микропроцессора Intel 8086 (i8086). Формирование физического адреса памяти, выборка команд из памяти и запись их в очередь команд. Система команд процессора. Суть защищенного режима, переход из защищенного режима в реальный режим.

практическая работа [93,3 K], добавлен 24.03.2013
Машинно-зависимая и машинно-независимая оптимизация кода ассемблера
Общее описание и особенности использования программы, предназначенной для определения нечетных чисел, находящихся в массиве чисел. Листинг и методы оптимизации данной компьютерной программы. Источники оптимизации кода, описание выполненных команд.

лабораторная работа [17,4 K], добавлен 25.03.2011
Оптическое распознавание символов
Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.

дипломная работа [3,3 M], добавлен 11.02.2017
Система сбора и обработки информации
Аналоговое и цифровое представление информации. Понятие, классификация и характеристика методов сжатия данных: алгоритмы одно- и двухпараметрической адаптации, линейной экстра- и интерполяции. Кодирование информации и вычисление циклического кода.

курсовая работа [157,4 K], добавлен 07.12.2012

Другие документы, подобные "Алгоритмы кодировки текста"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.