Системно-когнитивный подход к синтезу эффективного алфавита

Назначение алфавита и основные критерии его эффективности. Технология и методика применения системно-когнитивного анализа и его инструментария – системы "Эйдос" для количественной оценки стандартных графических шрифтов по одному из заданных критериев.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 26.04.2017
Размер файла 462,4 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Системно-когнитивный подход к синтезу эффективного алфавита

Фонетические алфавиты испокон веков используются людьми для визуализации звуковой речи с использованием символов (букв), соответствующих фонемам, т.е. для записи речи, в том числе с целью ее сохранения на различных носителях, а также для озвучивания текстовой речи, т.е. для чтения. Изобретение алфавита и письменности создало возможность передачи больших объемов информации в пространстве и времени (между поколениями) и сыграло огромную роль в развитии человеческой цивилизации. Со времени крушения Вавилонской башни люди пользуются тысячами различных языков, однако большинство из них не имеют своих алфавитов и используют «импортные» алфавиты, чаще всего основанные на латинице, греческом алфавите или кириллице. Между тем эти алфавиты разрабатывались для вполне конкретных языков с вполне определенными наборами фонем и этот набор далеко не совпадает с тем, который реально используется в данном языке. Поэтому звуки, для которых в алфавите просто отсутствуют символы, приходится записывать сочетаниями символов, т.е. использовать транслитерацию, или отображать звуки символами, которые для этого не очень для этого подходят. С другой стороны в «импортном» алфавите могут быть символы для отображения звуков, которых нет в языке. Таким образом возникает проблема неадекватности (несоответствия) алфавита тому языку, для символической записи которого он реально на практике используется.

Практически каждый сталкивался с этой проблемой, когда пытался записывать русские слова (чаще всего фамилии) латинскими буквами или просто изучал английский язык.

Более того, даже с течением времени звучание любого языка меняется и возникает необходимость корректировки алфавита. В некоторых странах, например в России, периодически проводятся реформы алфавита. В других же, например в Англии, этого длительное время не делается, в результате чего приходится вводить транскрипции и использовать различные орфографические ухищрения для компенсации этой неадекватности. Изучение и постоянное использование правил озвучивания текста, записанного с помощью неадекватного алфавита, является дополнительной работой, на выполнение которой безусловно затрачиваются определенные ресурсы, которые могли бы с большей пользой использоваться для других целей. Особенно хорошо это «прочувствовали» разработчики системы распознавания и воспроизведения речи, которые преобразуют фонетическую речь в символьную форму и наоборот, «читают в слух» напечатанные тексты. Уж они то хорошо знают всю сложность этой проблемы, т.к. сами занимались автоматизацией этой дополнительной работы.

Для автоматизированного выделения самих фонем непосредственно из фонограмм языка, выявления минимального полного набора фонем, т.е. для синтеза фонемного конфигуратора языка, и на его основе определения набора символов, соответствующих фонемам, автор предлагает применить математические методы, прежде всего корреляционный и кластерный анализ, а также технологии искусственного интеллекта.

Скорее всего этот набор фонем окажется весьма близким к тому, который уже так всем известен. Однако, для пения, например, такой системой возможно будет сформирован другой алфавит, чем для обычной речи. Собственно подобный алфавит давно используется - это ноты. Однако ценность программных систем, поддерживающих функции синтеза фонемного конфигуратора, состоит не только в том, что они позволят уточнить набор фонем даже для уже хорошо изученных языков, но в том, что они обеспечат выявление этого набора для мало изученных языков у которых до сих пор вообще не было письменности.

Таким образом, по мнению автора, в действительности эта проблема гораздо шире. Мы видели, что чаще всего проблема неадекватности алфавита возникает тогда, когда «родного» для некоторого языка алфавита просто не создано и таких случаев очень много. Дело в том, что у многих вообще нет алфавита, а язык вроде бы как и есть, по крайней мере безусловно есть развитая система звуковой коммуникации, которую, возможно с некоторой натяжкой но все же можно назвать языком, иначе говоря может быть поставлена задача разработать алфавит для систем звуковой коммуникации, используемых не людьми, например животными, а также для текстового документирования звуков самой природы (типа шума ветра, дождя, прибоя или шелеста листвы). Поэтому в принципе может быть создан алфавит для китов дельфинов, кошек и собак, соловьев и воробьев и других существ, широко использующих звуковую коммуникацию. Возможно с использованием подобного алфавита можно будет научить дельфинов читать и писать (печатать) то, что обычно они «говорят» друг другу, а в перспективе, возможно, даже переписываться с использованием e-mail и вообще пользоваться Internet.

Представим себе несколько фантастическую на сегодняшний день ситуацию: что исследователи, работающие по программе SETI, наконец-то обнаружили некий сигнал, по-видимому искусственного происхождения. Но неожиданно оказалось, что этот сигнал шел к Земле не десятки тысяч лет через космическое пространство, а исходил от сверхслабого источника, находящегося в непосредственной близости от радиотелескопа. В точке, откуда исходил сигнал, никакими современными методами ничего особенного обнаружено не было. Сразу же было создано две группы ученых, одна из которых искала ответа на интригующий вопрос о природе источника сигнала, в то время как другая занялась его расшифровкой. Освещение результатов работы первой группы не входит в задачи данной статьи. Ученые второй группы попытались выявить в этом сигнале повторяющиеся (практически) фрагменты различной длины и оказалось, что из относительно коротких фрагментов таких повторяющихся было всего около 30, а более длинные повторяющиеся фрагменты состоят из этих более коротких, их гораздо больше и повторяются они относительно редко. Сразу же возникла гипотеза о том, что сигнал представляет собой запись речи на некотором, возможно незнакомом языке, и при этом короткие повторяющиеся фрагменты 1-го уровня иерархии соответствуют фонемам, а редко повторяющиеся фрагменты 2-го уровня иерархии аналогичны словам. Поэтому эти повторяющиеся фрагменты 1-го уровня иерархии были поставлены во взаимно-однозначное соответствие простым условным изображениям, которые были разработаны таким образом, чтобы между ними была минимальная корреляция. Таким образом по сути был предложен алфавит, как система символов, соответствующих фонемам, наиболее близкая к полной ортонормированной системе, т.е. к фонемному конфигуратору или базисному уровню иерархической лингвистической системы. Соответствующие программы, созданные разработчиками из 2-й группы, обеспечили преобразование в реальном времени и отображение на мониторе текстового эквивалента принимаемого сигнала. В результате сигнал неизвестного происхождения был записан в виде текста с помощью специально для этого разработанного алфавита. После этого его расшифровкой вплотную занялись лингвисты и специалисты по шифрам. Когда ученые 1-й группы узнали об успехах своих коллег из 2-й группы, то высказали предположение, что если приблизить ноутбук с приемной системой и этим программным обеспечением к точке, откуда исходил сигнал, то возможно это приведет к каким-то новым эффектам, которые могут пролить свет на решение их проблемы. И действительно, когда это было сделано, статистические характеристики принимаемого текста сразу существенным образом изменились. Когда стали сравнивать эти новые статистические закономерности (в частности вероятности) появления символов и их сочетаний по 2, 3 и более в этом тексте, то оказалась, что эти закономерности весьма близки к тем, которые наблюдаются в разговорном английском языке. Более того, это позволило сопоставить условные символы с определенными статистическими свойствами со общеизвестным символами английского алфавита с аналогичными свойствами. Как только это было сделано исследователи обоих групп, столпившиеся вокруг ноутбука, сразу же увидели на мониторе фразу: «Ну слава Богу, наконец-то догадались, А то я уже стал сомневаться, что дождусь этого…»

Создание алфавитов и письменности для языков, которые ранее ими не обладали, открывает новые возможности изучения их орфографии и грамматики лингвистами.

Однако в задачи данной статьи не входит более подробное рассмотрение вопросов синтеза фонемного конфигуратора. Вместе с тем выявлением минимального полного набора фонем проблема неадекватности алфавита не исчерпываемся. Дело в том, что до сих пор мы понимали адекватность алфавита некоторому языку в смысле соответствия набора символов набору фонем в этом языке, но пока ничего не сказали о визуальной форме самих этих символов (букв) и о том, на сколько эта визуальная форма подходит (т.е. адекватна) для:

1. Визуального восприятия символов, т.е. их распознавания, идентификации или различения друг от друга.

2. Воспроизведения символов на носителе вручную или с помощью технических средств, типа пишущих машинок и компьютеров с мониторами и принтерами.

Первый из этих аспектов адекватности алфавита и рассмотрим более подробно в данной статье.

Наверное все были в кабинете окулиста и пытались читать то левым, то правым глазом нижние строчки таблицы для проверки качества зрения. По-видимому, если бы сами символы не были так похожи друг на друга, то при всех прочих равных условиях мы смогли бы читать более мелкие строчки.

В статье [3] на примере цифр было показано, что различные элементы символов играют различную роль для их идентификации и одни элементы с этой точки зрения являются более ценными, чем другие. Вопрос о природе этих элементов заслуживает отдельного обстоятельного изучения. Здесь же отметим лишь, что в простейшем случае это, по-видимому, пиксели, возможно с их цветом, а более сложных случаях это могут быть более или менее сложные наиболее часто повторяющиеся в различных изображениях, так сказать «типовые системы пикселей», из различных сочетаний которых наиболее эффективно могут быть составлены изучаемые изображения.

В той же работе [3] была сформулирована и задача разработки такого набора символов алфавита, который был бы наиболее подходящим для восприятия, т.е. требовал бы для идентификации минимальной работы и, соответственно, минимального времени. По-видимому, этот набор символов лучше воспринимался бы и в усложненных, экстремальных ситуациях, например в условиях помех, шума, на большом расстоянии, при плохом освещении, при высокой ответственности и напряженности, при жестких ограничениях на длительность процесса восприятия и идентификации и т.п.

Но допустим, что алфавит уже разработан и возникает вопрос об оценке его эффективности. Вот тут бы и пригодились бы предлагаемые выше технологии. По-видимому, может быть проведена и инженерно-психологическая оценка различаемости символов, причем она наверное давала бы различные результаты в различных социальных и этнических группах. Но возможно и чисто математическое решение этой задачи, в частности с применением системно-когнитивного анализа, системной теории информации и реализующей их системы «Эйдос». Рассмотрим упрощенно этот подход.

В системе «Эйдос» есть режим _158 «Системно-когнитивный анализ стандартных графических шрифтов» (рисунок 1):

алфавит когнитивный шрифт

Рисунок 1. Экранная форма системы «Эйлос» с меню вызова режима: _158 «Системно-когнитивный анализ стандартных графических шрифтов»

Ниже приведена структура меню режима _158.

1. Режим анализа символов и формализации предметной области.

1. Посмотрите и выберите графический шрифт, задав его номер.

2. Задайте набор анализируемых символов:

1. Заданный диапазон символов

2. Только цифры

3. Только заглавные латинские буквы

4. Только заглавные русские буквы

3. Записать символы в виде отдельных PCX-файлов

4. Подготовить БД формализации ПО для базовой системы "Эйдос"

2. В системе "ЭЙДОС"

1. Выполнить переиндексацию всех БД (_72)

2. Выполнить синтез и верификацию модели (_25)

3. Сравнить изображения символов и построить матрицу сходства (_5124)

3. Построить и записать изображения символов с отображением информативности пикселей с помощью цветового зонирования, подготовить матрицы Excel.

4. Построить семантическую сеть сходства символов (предварительно выполнив режим _5124).

Система «Эйдос» содержит 35 встроенных растровых графических шрифтов, любой из которых можно исследовать (загрузка в режим внешних изображений со сканера, цифровых фотокамер и полученных другим путем в настоящее время не реализован, хотя для этого нет никаких принципиальных ограничений). Для этого в подрежиме 1.1 режима _158 предварительно нужно просмотреть все эти шрифты и выбрать один из них для исследования. Затем в подрежиме 1.2 необходимо задать один из 4-х вариантов набора анализируемых символов.

В 1-м примере, который мы рассмотрим в данной статье, зададим исследование различимости цифр от 0 до 9, т.к. это можно рассматривать как продолжение исследования, начатого в работе [3]. При этом графические изображения цифр выбранного шрифта записываются в форме графических файлов, а затем эти файлы «обрезаются» (выполняется операция: trimming) анализируются и в результате формируются все базы данных формализации предметной области для базовой системы "Эйдос": классификационные и описательные шкалы и градации, а также обучающая выборка.

После этого в системе "ЭЙДОС" выполняется переиндексацию всех БД (_72), синтез и верификация модели (_25), сравнение изображений символов и построение матрицы сходства (_5124). В таблицах 1, 2 и 3 приведены фрагменты матрицы абсолютных частот, матрицы знаний и матрицы сходства классов (т.е. изображения цифр), полученные в результате работы этих режимов.

Таблица 1. Матрица абсолютных частот

KOD

NAME

0

1

2

3

4

5

6

7

8

9

68

Pixel(1,26)

1

0

0

0

0

0

0

0

0

0

69

Pixel(1,27)

1

0

0

0

1

0

1

0

1

0

70

Pixel(1,28)

0

0

0

0

1

0

1

0

1

0

71

Pixel(1,29)

0

0

0

0

1

0

0

0

1

0

72

Pixel(1,30)

0

0

0

1

1

1

0

0

1

0

73

Pixel(1,31)

0

0

0

1

0

1

0

0

1

1

74

Pixel(1,32)

0

0

0

1

0

1

0

0

1

1

75

Pixel(1,33)

0

0

1

1

0

0

0

0

1

0

76

Pixel(1,34)

0

0

1

1

0

0

0

0

0

0

77

Pixel(1,35)

0

0

1

0

0

0

0

0

0

0

78

Pixel(1,36)

0

0

1

0

0

0

0

0

0

0

79

Pixel(1,37)

0

0

1

0

0

0

0

0

0

0

80

Pixel(1,38)

0

0

1

0

0

0

0

0

0

0

81

Pixel(1,39)

0

0

1

0

0

0

0

0

0

0

82

Pixel(1,40)

0

0

0

0

0

0

0

0

0

0

83

Pixel(2,0)

0

0

0

0

0

0

0

0

0

0

84

Pixel(2,1)

0

0

0

0

0

1

0

1

0

0

85

Pixel(2,2)

0

0

0

0

0

1

0

1

0

0

86

Pixel(2,3)

0

0

0

0

0

1

0

1

0

0

87

Pixel(2,4)

0

0

0

0

0

1

0

1

0

0

88

Pixel(2,5)

0

0

0

0

0

1

0

1

0

0

89

Pixel(2,6)

0

0

0

0

0

1

0

0

0

0

90

Pixel(2,7)

0

0

1

1

0

1

0

0

1

0

91

Pixel(2,8)

0

1

1

1

0

1

0

0

1

1

92

Pixel(2,9)

0

1

1

1

0

0

0

0

1

1

93

Pixel(2,10)

1

1

0

0

0

1

0

0

1

1

94

Pixel(2,11)

1

1

0

0

0

1

1

0

1

1

95

Pixel(2,12)

1

1

0

0

0

1

1

0

1

1

96

Pixel(2,13)

1

0

0

0

0

1

1

0

1

0

97

Pixel(2,14)

1

0

0

0

0

1

1

0

0

1

98

Pixel(2,15)

1

0

0

0

0

1

1

0

0

1

Таблица 2. Матрица знаний

KOD

NAME

0

1

2

3

4

5

6

7

8

9

68

Pixel(1,26)

86

 

 

 

 

 

 

 

 

 

69

Pixel(1,27)

31

 

 

 

39

 

34

 

26

 

70

Pixel(1,28)

 

 

 

 

50

 

45

 

38

 

71

Pixel(1,29)

 

 

 

 

66

 

 

 

54

 

72

Pixel(1,30)

 

 

 

39

39

35

 

 

26

 

73

Pixel(1,31)

 

 

 

39

 

35

 

 

26

31

74

Pixel(1,32)

 

 

 

39

 

35

 

 

26

31

75

Pixel(1,33)

 

 

48

50

 

 

 

 

38

 

76

Pixel(1,34)

 

 

65

66

 

 

 

 

 

 

77

Pixel(1,35)

 

 

92

 

 

 

 

 

 

 

78

Pixel(1,36)

 

 

92

 

 

 

 

 

 

 

79

Pixel(1,37)

 

 

92

 

 

 

 

 

 

 

80

Pixel(1,38)

 

 

92

 

 

 

 

 

 

 

81

Pixel(1,39)

 

 

92

 

 

 

 

 

 

 

82

Pixel(1,40)

 

 

 

 

 

 

 

 

 

 

83

Pixel(2,0)

 

 

 

 

 

 

 

 

 

 

84

Pixel(2,1)

 

 

 

 

 

63

 

75

 

 

85

Pixel(2,2)

 

 

 

 

 

63

 

75

 

 

86

Pixel(2,3)

 

 

 

 

 

63

 

75

 

 

87

Pixel(2,4)

 

 

 

 

 

63

 

75

 

 

88

Pixel(2,5)

 

 

 

 

 

63

 

75

 

 

89

Pixel(2,6)

 

 

 

 

 

91

 

 

 

 

90

Pixel(2,7)

 

 

37

39

 

35

 

 

26

 

91

Pixel(2,8)

 

38

21

23

 

19

 

 

10

14

92

Pixel(2,9)

 

45

28

30

 

 

 

 

17

22

93

Pixel(2,10)

22

45

 

 

 

26

 

 

17

22

94

Pixel(2,11)

15

38

 

 

 

19

17

 

10

14

95

Pixel(2,12)

15

38

 

 

 

19

17

 

10

14

96

Pixel(2,13)

31

 

 

 

 

35

34

 

26

 

97

Pixel(2,14)

31

 

 

 

 

35

34

 

 

31

98

Pixel(2,15)

31

 

 

 

 

35

34

 

 

31

Таблица 3. Матрица сходства классов

Цифра

0

1

2

3

4

5

6

7

8

9

0

100,000

-13,403

-11,043

-7,634

-5,025

-0,464

36,772

-18,487

-0,320

29,731

1

-13,403

100,000

-9,950

-13,652

0,277

-12,642

-12,482

10,407

-17,775

-16,714

2

-11,043

-9,950

100,000

5,645

-3,390

-16,548

-17,358

-2,232

-5,356

-5,778

3

-7,634

-13,652

5,645

100,000

-14,565

7,084

-3,161

-6,121

12,057

4,406

4

-5,025

0,277

-3,390

-14,565

100,000

-9,710

-4,747

-5,099

-8,749

-19,352

5

-0,464

-12,642

-16,548

7,084

-9,710

100,000

29,480

-1,250

2,035

4,694

6

36,772

-12,482

-17,358

-3,161

-4,747

29,480

100,000

-22,332

5,326

8,806

7

-18,487

10,407

-2,232

-6,121

-5,099

-1,250

-22,332

100,000

-12,362

-17,989

8

-0,320

-17,775

-5,356

12,057

-8,749

2,035

5,326

-12,362

100,000

11,295

9

29,731

-16,714

-5,778

4,406

-19,352

4,694

8,806

-17,989

11,295

100,000

Для расчета матрицы знаний используется математическая модель (системная теория информации), описанная в монографии [1] и ряде других работ.

Верификация созданных моделей показала их 100% адекватность.

Далее опять в режиме _158 строятся и записываются изображения символов с отображением информативности пикселей с помощью цветового зонирования и подготавливаются матрицы Excel для из отображения, а также строится семантическая сеть сходства символов (рисунки 2 и 3):

Рисунок 2. Цифры от 0 до 9 с цветовым зонированием пикселей в соответствии с количеством информации, содержащемся в факте обнаружения пикселя о том, что предъявлена данная цифра

Из рисунка 2 наглядно видно, что только цифры 1, 2, 4 и 7 содержат высокоинформативные пиксели, отображаемые теплыми цветами и черным, а остальные цифры содержат только малоинформативные пиксели.

Рисунок 3. Результаты кластерно-конструктивного анализа изображений цифр

Из рисунка 3 видно, что изображения цифр 9, 0, 6 и 5 похожи друг на друга, что вполне соответствует интуитивным представлениям. Сходство изображений символов обусловливается очевидно тем, что они имеют много общих пикселей. Особенно наглядно это видно при сравнении небольшого количества символов, например двух (рисунок 4):

Рисунок 4. Сравнения изображений символов “X”, “Y”

Видно, что совпадающие пиксели имеют минимальную информативность, а уникальные - максимальную. На рисунках 5 и 8 приведены результаты аналогичных исследований заглавных букв русского и латинского алфавитов.

Рисунок 5. Заглавные символы латинского алфавита с цветовым зонированием пикселей в соответствии с количеством информации, содержащемся в факте обнаружения пикселя о том, что предъявлена данный символ

Рисунок 6. Результаты кластерно-конструктивного анализа изображений заглавных символов латинского алфавита

Рисунок 7. Заглавные символы русского алфавита с цветовым зонированием пикселей в соответствии с количеством информации, содержащемся в факте обнаружения пикселя о том, что предъявлена данный символ

Рисунок 8. Результаты кластерно-конструктивного анализа изображений заглавных символов русского алфавита

Рассмотрим количественные меры качества системы изображений символов различных алфавитов на приведенных выше примерах. Будем считать, что система изображений символов разработана тем качественнее, чем выше доля высокоинформативных пикселей в этих изображениях и чем лучше они идентифицируются, т.е. чем больше отличаются друг от друга.

Упрощенно можно сказать, что чем более уникальными являются пиксели для некоторых символов, тем больше они несут информации об этих символах, и наоборот, чем в большем количестве символов встречаются некоторые пиксели, тем менее они информативны для идентификации этих символов.

Поэтому в качестве 1-го варианта количественной меры качества i-го символа можно предложить выражение (1):

, (1)

где индекс i соответствует символу, а j - диапазону информативностей, кодированному цветом пикселей. В нашем случае количество диапазонов W=10, а высокоинформативными считаются пиксели начиная с диапазона v=7 и выше.

Будем считать, что качество системы символов (алфавита) рассчитывается аналогично, но по всей системе из M символов (2):

, (2)

Однако пиксели имеют разный вес, т.к. содержат различное количество информации о символах, поэтому более логичнее было бы не просто подсчитывать долю высокоинформативных пикселей от общего их количесва, как в выражениях (1) и (2), а учитывать содержащееся в них количество информации. Это значит, что выражения (1) (2) можно усовершенствовать подсчитав долю информации, содержащейся в высокоинформативных пикселях для каждого из символов и в целом для всей системы символов. Поэтому реальный подход, используемый в системно-когнитивном анализе изображений символов и реализующей его математическую модель и методику численных расчетов системе «Эйдос» [1-3] принципиально отличается от упрощенного тем, что для каждого пикселя (или составного элемента изображения) и для каждого символа рассчитывается количество информации, которое мы получаем о том, что предъявлен данный символ из того факта, что обнаружен этот пиксель (или составной элемент изображения), отличающийся от фона: (3), (4):

, (3)

, (4)

В реальном подходе количество информации в пикселе о символе может быть различным для различных символов даже в том случае, если этот пиксель встречается у всех символов, т.к. они состоят из различного количества пикселей. Теоретически самой удачной системой изображений символов является такая, в которой у изображений символов вообще нет общих пикселей, а самой неудачной - в которой изображения всех символов тождественны друг другу.

Проведем теперь количественные (численные) оценки в соответствии с предложенными критериями качества для различных символов и различных алфавитов на основе примеров, рассмотренных выше. Для этого обратимся к таблице 4. В верхней части данной таблицы приведена информация о количестве пикселей в каждом символе и во всей системе символов в целом, причем пиксели распределены по определенным диапазонам информативностей, обозначенных цветами. В нижней части этой таблицы приведено, какое суммарное количество информации содержится в пикселях и изображении каждого символа и всего во всей системе изображений символов, а также какая доля от этого количества информации содержится в высокоинформативных пикселях, отображаемых теплыми цветами и черным.

В изображениях цифр содержится лишь 3.84% высокоинформативных пикселей, но из итога по нижней части таблицы следует, что в этих пикселях содержится 42,58% информации, от всего количества информации в системе изображений символов. Возникают вопросы о том, много это или мало, хорошо или не очень и т.п. Чтобы ответить на подобные вопросы рассмотрим таблицы 5 и 6, содержащих аналогичную информацию по русскому и латинскому алфавитам. Отметим, что эти таблицы формируются автоматически режимом _158 системы «Эйдос».

Сравнивая значения обобщенного критерия качества алфавита Ш для русского и латинского алфавитов мы можем сделать обоснованный вывод о том, что латинский алфавит является более читабельным, т.е. латинские буквы легче отличать друг от друга, чем русские.

Светло-желтой заливкой выделены наиболее читабельные символы. Символы, у которых критерий качества равен нулю, распознаются читателями за счет только малоинформативных пикселей. Конечно, чем больше символов в алфавите, тем сложнее разработать их качественно и проще всего придумать 2 максимально отличающихся друг от друга символа. Используя предложенный подход можно также сравнивать качество различных шрифтов на одном и том же наборе символов. Кроме требования читабельности, по мнению автора при разработке изображений символов должно быть соблюдено еще одно важное требование: изображения символов не должны переходить сами в себя или в другие символы при повороте на различные углы, смещении и зеркальном отражении, т.е. не должны удовлетворять соответствующим симметриям, т.к. симметрия тоже усложняет или даже делает невозможной их однозначную идентификацию. Отметим, что верификация всех созданных и описанных в данной статье моделей показала их 100% адекватность.

Выводы. На основе вышеизложенного на наш взгляд можно обоснованно предположить, что системно-когнитивный анализ является адекватным средством как для исследования эффективности существующих алфавитов по трем обоснованным критериям, так и для синтеза новых эффективных алфавитов для языков, в т.ч. малоизученных, у которых их еще нет. Материалы данной статьи могут стать основой для нескольких лабораторных работ по дисциплинам: «Интеллектуальные информационные системы», «Представление знаний», «Интеллектуальные информационные технологии», «Системы управления знаниями», «Человеко-машинное взаимодействие» и может применяться в вузах, готовящих специалистов по специальностям «Прикладная информатика» и «Информационные системы и технологии».

Литература

1. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар:  КубГАУ. 2002. - 605 с.

2. Луценко Е.В. Универсальная когнитивная аналитическая система "ЭЙДОС". Пат. № 2003610986 РФ. Заяв. № 2003610510 РФ. Опубл. от 22.04.2003.

3. Луценко Е.В. Cистемно-когнитивный анализ изображений (обобщение, абстрагирование, классификация и идентификация) / Е.В. Луценко // Научный журнал КубГАУ [Электронный ресурс]. - Краснодар: КубГАУ, 2009. - №02(46). - Шифр Информрегистра: 0420900012\0017. - Режим доступа: http://ej.kubagro.ru/2009/02/pdf/10.pdf

Размещено на Allbest.ru

...

Подобные документы

  • Предмет и этапы когнитивного анализа задач, его основные методы и их реализация на псевдокодовом языке. Виды факторов, использующихся при когнитивном моделировании систем. Предъявляемые к библиотеке требования, оценка ее экономической эффективности.

    дипломная работа [1,3 M], добавлен 29.01.2013

  • Составление программы для зашифровки текста (не более 255 символов), с использованием одного перемешанного алфавита, полученного случайной перестановкой всех букв исходного алфавита. Создание меню-интерфейса для навигации пользователя по программе.

    курсовая работа [496,2 K], добавлен 17.05.2015

  • Проект программы, позволяющей переводить текст из русских букв в текст, который состоит из латинского алфавита с возможностью изменять исходный словарь для перевода. Определение структуры, содержащей в себе массивы для алфавита. Инструкция пользователя.

    курсовая работа [46,7 K], добавлен 20.12.2012

  • Методика разработки программы, предназначенной для разбора предложения с помощью многоленточной машины Тьюринга. Цели и назначение данной системы, основные требования, предъявляемые к ней. Организационно-исполнительные работы по содержанию системы.

    курсовая работа [386,8 K], добавлен 16.12.2010

  • С точки зрения "готовности" к сохранению в память компьютера, информация делится на две категории - дискретная и непрерывная. Правила замены символов алфавита B символами алфавита A. Целые числа. Вещественные числа. Символы. Графика. Звук.

    реферат [12,8 K], добавлен 26.10.2006

  • Современный взгляд на предмет информатики и ее образовательной области. Формирование системно-информационного подход к анализу окружающего мира. Информационные процессы и средства получения, преобразования, передачи, хранения и использования информации.

    реферат [10,1 K], добавлен 03.09.2009

  • Информация и информационные процессы. Содержательный и алфавитный подходы к измерению количества информации. Определение мощности алфавита информационного сообщения. Описания компьютерной кодировки русских и латинских букв. Использование двоичной системы.

    лабораторная работа [35,3 K], добавлен 04.09.2014

  • Основные характеристики шрифтов. Наиболее часто используемые гарнитуры. Начертание шрифтов. Варианты подчеркивания текста в MS Word. Буквица как оформление текста выделением первой буквы главы. Воспроизведения графики шрифта в разных видах печати.

    презентация [869,1 K], добавлен 06.01.2014

  • История развития графических адаптеров и их характеристики. Конкуренция изготовителей ATI и NVIDIA как "двигатель прогресса" графических адаптеров. Обзор основных моделей: ATI Radeon, Nvidia GeForce FX. Критерии выбора графических адаптеров при покупке.

    реферат [134,7 K], добавлен 14.11.2013

  • Анализ ряда подходов к определению требований к обучающим системам, формулирование системы критериев их оценки. База данных для хранения и обработки параметров и подпараметров электронных учебников и результатов оценки тестируемых электронных учебников.

    курсовая работа [1,5 M], добавлен 23.03.2012

  • Основные элементы системы MathCAD, обзор ее возможностей. Интерфейс системы, концепция построения документа. Типы данных, входной язык системы. Классификация стандартных функций. Графические возможности системы MathCAD. Решение уравнений системы.

    курс лекций [2,1 M], добавлен 01.03.2015

  • Проектирование автоматизированного рабочего места секретаря кафедры с использованием технологии прототипного проектирования. Формализация процесса проектирования. Методика оценки технико-экономической эффективности применения выбранной технологии.

    курсовая работа [940,8 K], добавлен 06.05.2014

  • Этапы решения задачи классификации цифр арабского алфавита на основе нейронных сетей: выбор класса, структуры и пакета нейронной сети, ее обучение, требования к информационной и программной совместимости, составу и параметрам технических средств.

    реферат [111,6 K], добавлен 19.10.2010

  • Принципы работы стандартных диалоговых окон открытия, закрытия, сохранения файла. Особенности использования общего диалога для функций шрифтов, цветов, печати, справочной системы. Обобщение методов настройки цвета, фона формы. Анализ метода ShowColor.

    задача [75,3 K], добавлен 25.09.2010

  • Разработка критериев оценки экрана веб-приложений. Основные подходы к защите веб-приложений. Анализ российских нормативных документов. Зарубежная практика выбора экрана веб-приложений. Разработка и обоснование общих требований к механизмам защиты.

    дипломная работа [68,7 K], добавлен 04.08.2016

  • Нормировка количества пикселей экрана, единичных показателей фокусного расстояния, количества точек матрицы и светосилы объектива. Расчёт комплексного показателя качества. Расшифровка текста шифром Вижинера. Цифровые эквиваленты букв русского алфавита.

    контрольная работа [93,0 K], добавлен 24.11.2013

  • Сущность метода зонного сжатия буквенной информации. Описание классов, определяющих место хранения символов и алфавита. Реализация асимметричного алгоритма RSA. Логика построения шифра и структура ключевой информации в криптографическом алгоритме ГОСТ.

    контрольная работа [3,2 M], добавлен 30.11.2013

  • Язык программирования как формальная знаковая система, предназначенная для записи программ, его отличие от естественных языков. Прописные и строчные буквы латинского алфавита. Ключевые слова языка программирования. Классическая схема создания программы.

    презентация [1,2 M], добавлен 19.02.2014

  • Сущность, значение и особенности информационного обеспечения, технология и принципы его разработки, критерии оценки эффективности и функциональности. Проблемы формирования информационной системы органов исполнительной власти, их совершенствование.

    курсовая работа [486,7 K], добавлен 25.04.2015

  • Разработка и реализация программы расчета заданных функций на языке программирования VBA. Математическая модель, параметры и характеристики задачи, критерии оценки эффективности созданного модуля. Разработка алгоритма и тестирование программного модуля.

    курсовая работа [488,7 K], добавлен 08.09.2010

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.