Главная Коллекция "Revolution" Программирование, компьютеры и кибернетика Анализ проблем навигации в мобильном представлении научной информации

Анализ проблем навигации в мобильном представлении научной информации

Подходы к разрешению проблемы оценки качества способов ранжирования и классификации научной информации средствами наукометрии. Разработка и действие алгоритма с точки зрения организации сетевого взаимодействия. Функционирование навигационного сервера.

Рубрика	Программирование, компьютеры и кибернетика
Вид	статья
Язык	русский
Дата добавления	30.05.2017
Размер файла	56,9 K

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Анализ проблем навигации в мобильном представлении научной информации

Конец XX ? началоXXI вв. стали в истории человечества точкой отсчета экспоненциально быстрого роста объемов доступной информации. Сегодня данный факт является общепризнанным и осознается, в том числе и неспециалистами в области информационных технологий. Увеличение объёмов доступной информации сопровождается одновременным увеличением «дисперсии» информации ? необходимые пользователю данные размываются в океане сопутствующих, связанных с требуемой информацией сведений. При этом скорость роста «дисперсии» равняется скорости роста объемов информации.

В этой связи даже научная информация, сохраняемая и систематизируемая сотрудниками той или иной научной школы, с течением времени обнаруживает существенное увеличение длительности выполнения поисковых запросов ? «диффузионная девальвация». Необходимо отметить, что истоки проблемы экспоненциально быстрого роста информации имманентно присущи современным технологиям работы с информацией. Действительно, в модель основной информационной магистрали (Интернет) изначально заложена идея информационного роста; протокол HTTP - основной транспортный протокол в своём названии содержал идею связности, гипертекста; основной способ адресации данных-URI, содержит идею глобальности данных, а в своей структуре упоминание связности и глобальности (префикс «www.», напоминающий об этом, де-факто является стандартом).

Проблемы оценки качества способов ранжирования и классификации научной информации разрабатываются наукометрией-дисциплиной, изучающей эволюцию науки через измерения научной информации. При этом необходимо отметить, что областью исследований наукометрии является наука, рассматриваемая в качестве некоторой централизованной научной среды. Данный подход, определявший, в свою очередь, выбор методов исследования, используемых в наукометрии, сегодня, в условиях распределённости научных исследований, в известной мере, становится сдерживающим фактором. Здесь, под термином «распределённость» мы понимаем не только и не столько распределение информации по географическому принципу, сколько методологическим, мотивационным, структурным принципам. В качестве примеров подобной распределённости можно привести информационные системыGoogleXLabs[1], KonturLabs[2].

В этой ситуации, с нашей точки зрения, требуется не всеобщий метод ранжирования и классификациинаучной информации, позволяющего провести глобальное сравнение важности каких-либо публикаций, но методика персональной навигации в ней ? способ автоматизации выбора направления в графе научных документов, представляющего интерес для конкретного потребителя научной информации.

Предположим, что имеется некоторая сеть N, состоящая из адресов документов . Пусть для каждого адреса документа определено некоторое представление данных документа V(d_x) такое, что оно включает некоторое множество A адресов других документов . Тогда для множества обучающих адресов документов F можно определить функционал навигации n:

либо в менее точном виде

Где C - некоторый контекст навигации, R¹-линейно упорядоченное множество.

Задачей исследования является разработка алгоритма расчёта nиз возможных составляющих контекста С алгоритма ранжирования ссылок между документами и выделение ключевых параметров данного алгоритма.

Структура алгоритма

Предваряя обсуждение структуры разрабатываемого алгоритма, отметим, что в условиях широкого распространения и повсеместного использования портативных мобильных устройств, имеющих ограниченные вычислительные ресурсы, очевидно, эффективные реализации алгоритма могут быть выполнены только на платформе облачных вычислений [3]. Выбранный подход накладывает ограничения по прозрачности и безопасности сетевого API алгоритма навигации, позволяя реализовать централизованное кэширование результатов и обеспечить обработку достаточно больших объёмов данных.

Работа алгоритма с точки зрения организации сетевого взаимодействия выглядит следующим образом:

1. Перед началом работы браузер клиента устанавливает https[4] соединение с навигационным сервером и аутентифицирует клиента. В дальнейшем взаимодействие браузера с навигационным сервером проходит средствами httpтранспорта.

2. Браузер по команде пользователя отправляет http [5] запрос на контент-сервер за требуемым документом.

3. Браузер информирует навигационный сервер о намерении просмотреть документ по определённому адресу.

4. Браузер по завершении загрузки ответа от контент-сервера генерирует хэш-коды параграфов документа и отсылает их на навигационный сервер, асинхронно ожидая ответа.

5. Начиная с шага 3 навигационный сервер выполняет httpзапрос на контент-сервер по полученному адресу. Для параграфов, у которых хэш-код на клиенте и сервере совпадает, навигационный сервер генерирует рекомендации по подсветке ссылок в соответствии с уровнем их потенциальной важности для пользователя. Сгенерированная информация отправляется ответом браузеру клиента. Кэширование ответов осуществляется согласно комбинацииETag и Expired заголовка http ответа контент-сервера и идентификатора пользователя.

6. Браузер клиента, получив ответ, осуществляет предписанную навигационным сервером визуализацию.

Функционирование навигационного сервера

Использование программной реализация описанного выше алгоритма на навигационном сервере, предполагает применение алгоритмов машинного обучения [6] ? тренировку классификатора по обучающей выборке. Здесь основным параметром алгоритма является F-набор обучающих документов - статей, заданных пользователем алгоритма, поэтому именно они рассматриваются далее в контексте задачи персональной навигации.

Представление данных документа V технически состоит из двух основных компонентов: выделения текста и выделения ссылок. Выделение текста, по сути, представляет собой очистку электронного документа от html-разметки, что является тривиальной задачей, за исключением случая очистки от html-разметки статей об html-разметке. Выделение ссылок из научной литературы - более сложная техническая задача, так как ссылку, фактически, нужно преобразовать к адресу документа, что не всегда возможно, поэтому данную задачу приходится решать отдельно для каждого крупного online-публикатора (ACM, IEEE). Здесь наиболее тривиальным случаем является http-ссылка.

Для обработки каждой статьи используется выделение терминов и терминоподобных конструкций. Обзор технологий выделения терминов можно найти в [7]. Рассмотрим кратко метод C-value[8], являющийся одним из наиболее простых в реализации. Здесь значение терминологичности для словосочетания рассчитывается по формуле

где

a - кандидат в термины;

|a| - длина словосочетания, измеряемая в количестве слов;

freq(a) - частотность a;

T_a - множество словосочетаний, которые содержат a;

P(T_a) - количество словосочетаний, содержащих a.

Из (1) видно, что метод поощряет словосочетания, не входящие в состав других, более длинных словосочетаний.

Существующие проблемы и направления дальнейших исследований

Опыт практической реализация описанного выше алгоритма навигации, однако, позволяет выявить ряд проблем и недостатков описанного выше алгоритма.

1) Алгоритм, как минимум, удваивает нагрузку на контент-сервер, но, фактически, фактор повышения нагрузки составляет несколько порядков. (Это является следствием основной идеи навигации - возложение на компьютер обязанностей анализа содержания и отклонения документов, не представляющих для пользователя. Отметим, что в этой ситуации важным становится использование разделяемых межпользовательских кэшей.)

2) Навигация становится серьёзной проблемой при генерации документов контент-сервером по сложному алгоритму, так как в случае работы одного навигационного сервера в интересах многих пользователей крупные контент-серверы могут по ошибке или намерено внести его в чёрный список, прекратив тем самым возможность навигации.

3) На практике далеко не все контент-сервера следуют рекомендациям по организации URI документов, поэтому достаточно часто в адресе могут оказаться идентификаторы сессии работы пользователя. Как следствие, либо контент-сервер не сможет получить доступ к документам, либо работа с сервером будет потенциально небезопасной с точки зрения перехвата сессии. Таким образом, в любом случае будет нарушена работа межпользовательского fetch-кэша загруженных документов. Кроме того контент-сервер может генерировать сессионно-зависимые фрагменты документа, тогда, навигация по отдельным параграфам не будет осуществляется. Наконец, в самом наихудшем случае, GET-методы могут оказаться не нулипотентными, т.е. будут изменять состояние сервера. (В комбинации с непреднамеренным перехватом сессии, это может привести к тому, что пользователь случайно выберет ссылку «удалить файл», а навигационный сервер захочет узнать интересный ли документ будет в том случае, если ответить «да, я уверен, что хочу удалить файл».)

4) Наличие эффекта, известного в информационной навигации как «пузырь фильтров» [10], проявляющийся в том, что фокусировка получаемой информации на определённом круге вопросов создаёт исчерпывающее глубинное понимание узкой области, закрывая от исследователя новые идеи, а также «впечатление того, что наши узкие собственные интересы и есть всё, что существует и окружает нас» [11]. (Здесь, с одной стороны, можно возразить, что навигация, в отличие от ранжирования поисковой машины, не скрывает ни одной ссылки на документ. С другой стороны, при достаточно большой обучающей выборке F и высокой кардинальности графа N, навигационный алгоритм проведёт нас тем путём, на котором окажутся только авторы документов, мыслящие сходно с пользователем.)

5) На данный момент нет объективного способа оценки качества работы алгоритма, поскольку не существует объективного критерия оптимизации. (Теоретически можно рассчитать корреляцию между количеством кликов и рейтингом ссылки, присвоенным алгоритмом навигации. Однако этот показатель отражает только доверие пользователя к используемому алгоритму, так как на момент клика мнение пользователя может основываться, исключительно, на названии и реквизитах цитируемого документа.)

Приведённый выше перечень проблем персональной навигации может быть условно разделен на технические, которые представляются вполне разрешимыми, и философские (список проблем, которых, по-видимому, не является окончательным).

Исследование методов оценки качества навигации является предметом дальнейших исследований.

Проведенный анализ проблем навигации в мобильном представлении научной информации на основе статистической классификации позволил получить следующие результаты.

1. Обоснована целесообразность применения клиент-серверных облачных технологий при использовании мобильных устройств для навигации и представления научной информации.

2. Предложена структурная модель, описывающая взаимодействие браузера пользователя, контент-сервера и навигационного сервера.

3. Разработан алгоритм классификации документов по обучающей выборке с наложением контекста навигации и описан возможный состав контекста навигации.

5. Выявлены проблемы алгоритма навигации, основной из которых является проблема отсутствия объективных метрик качества навигации.

Литература

алгоритм сервер наукометрия сетевой

1. Google X Labs: With Steve Jobs Gone, Could Google Take the Torch in Inventing the Future? [Электронныйресурс] // Режим доступа: http://www.deathandtaxesmag.com/160133/google-x-labs-with-steve-jobs-gone-could-google-take-the-torch-in-inventing-the-future/(дата доступа 2 октября 2012)

2. KonturLabs [Электронный ресурс] // Режим доступа: http://www.skbkontur.ru/press/news/company/2012/2/1412 // (дата доступа 2 октября 2012

3. Mell P. The NIST Definition of Cloud Computing / Mell, Peter and Grance, Timothy // Рекомендациинациональногоинститутастандартизациитехнологий, NIST Special Publication 800-145, Gaithersburg, октябрь 2011, -3 c.

4.RFCHTTPOverTLS [Электронный ресурс] // Режим доступа: http://tools.ietf.org/html/rfc2818 // (дата доступа 2 октября 2012)

5. RFCHypertextTransferProtocol-HTTP/1.1 [Электронный ресурс] // Режим доступа: http://tools.ietf.org/html/rfc2616 // (дата доступа 2 октября 2012)

6. Anderson J.R. Machine Learning: An Artificial Intelligence Approach / John Robert Anderson // Tioga Publishing Company, 1994. -572 c.

7. Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). Вып. 7 (14). - М.: РГГУ, 2008. - С. 67-74.

8. Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method // Int. J. Digit Libr. (2000) 3. - C. 115-130.

9. СолтонДж. Динамические библиотечно-поисковыесистемы / Солтон, Джон // М.: - Мир, 1979. -557c.

10. Pariser E. The Filter Bubble: What the Internet Is Hiding from You / Pariser, Eli // Penguin Press, New York, 2011, - С. 304

11. First Monday: What's on tap this month on TV and in movies and books: The Filter Bubble by Eli Paraiser / Газетная публикация // USA Today, 29 апреля 2011.

Размещено на Allbest.ru

...

статья "Анализ проблем навигации в мобильном представлении научной информации" скачать

Подобные документы

Защита информации
Проблемы защиты информации человеком и обществом. Использование информации. Организация информации. Угроза информации. Вирусы, характеристика и классификация. Проблемы защиты информации в Интернете. Анализ и характеристики способов защиты информации.

реферат [36,5 K], добавлен 17.06.2008
Печать в сети Windows
Принцип организации, типы, топология сетей. Службы управления сетью, их цели и задачи. Обеспечение безопасности информации. Глобальные сети: их компоненты, сетевые службы, методы коммутации информации, электронная почта. Архитектура сетевого сервера.

шпаргалка [98,4 K], добавлен 09.03.2009
Средства передачи информации в компьютерных сетях
Изучение понятия локальной вычислительной сети, назначения и классификации компьютерных сетей. Исследование процесса передачи данных, способов передачи цифровой информации. Анализ основных форм взаимодействия абонентских ЭВМ, управления звеньями данных.

контрольная работа [37,0 K], добавлен 23.09.2011
Понятие информации, свойства. Информационные процессы
Основные свойства информации. Минимальная единица измерения количества информации, ее аналогия со знаниями с точки зрения процесса познания. Характеристика основных информационных процессов: поиск, сбор, обработка, передача и хранение информации.

контрольная работа [28,8 K], добавлен 01.10.2011
Средства защиты информации
Основные источники угроз безопасности информационных систем. Особенности криптографической защиты информации. Понятие электронной цифровой подписи. Признаки заражения компьютера вирусом. Уровни доступа к информации с точки зрения законодательства.

реферат [795,8 K], добавлен 03.10.2014
Методы защиты информации в телекоммуникационных сетях
Проблемы защиты информации в информационных и телекоммуникационных сетях. Изучение угроз информации и способов их воздействия на объекты защиты информации. Концепции информационной безопасности предприятия. Криптографические методы защиты информации.

дипломная работа [255,5 K], добавлен 08.03.2013
Моделирование алгоритма оценки вероятного ущерба от несанкционированного доступа злоумышленника к конфиденциальной информации
Классификация угроз конфиденциальной информации. Концепция математической модели оценки ущерба конфиденциальной информации от внешних угроз. Реализация и исследование модели. Безопасность и экологичность работы. Расчет технико-экономической эффективности.

дипломная работа [1,5 M], добавлен 30.06.2011
Принципы оценки информации
Характеристика информации. Перевод числа из двоичной системы в десятичную, шестнадцатеричную и восьмеричную. Способы оценки количества информации. Технические средства обработки информации. Принцип работы, история изобретения струйного принтера.

контрольная работа [1016,6 K], добавлен 22.10.2012
Архитектура системы X-Com
Основные компоненты системы X-Com. Иерархия узлов и серверов. Методы разбиения исходной задачи на блоки. Структуры данных сервера для хранения информации об узлах. Точки взаимодействия прикладной программы с системой X-Com. Фоновые процессы на сервере.

лекция [217,2 K], добавлен 28.06.2009
Методика разработки проекта систем инженерно-технической защиты информации объектов информатизации органов внутренних дел
Характеристики объекта информатизации ОВД, с точки защищаемой информации. Способы утечки информации. Разработка предложений по защите информации на объекте информатизации ОВД. Алгоритм выбора оптимальных средств инженерно-технической защиты информации.

курсовая работа [693,1 K], добавлен 28.08.2014
Учет учебно-методической и научной деятельности сотрудников кафедры информационных технологий в бизнесе НИУ ВШЭ-Пермь
Организация системы учета научной и учебно-методической деятельности в НИУ ВШЭ-Пермь. Анализ конфигурируемых информационно-справочных систем. Выбор и разработка алгоритмов для реализации системы учета учебно-методической и научной деятельности ВУЗа.

дипломная работа [1,5 M], добавлен 30.11.2016
Разработка и анализ информационной системы безопасности для систем управления производством
Пути несанкционированного доступа, классификация способов и средств защиты информации. Каналы утечки информации. Основные направления защиты информации в СУП. Меры непосредственной защиты ПЭВМ. Анализ защищенности узлов локальной сети "Стройпроект".

дипломная работа [1,4 M], добавлен 05.06.2011
Защита информации от несанкционированного доступа
Исследование понятия и классификации видов и методов несанкционированного доступа. Определение и модель злоумышленника. Организация защиты информации. Классификация способов защиты информации в компьютерных системах от случайных и преднамеренных угроз.

реферат [115,1 K], добавлен 16.03.2014
Способы хранения информации
Анализ различных способов хранения информации: одномерный массив, типизированный файл и динамический список. Сортировка только положительных чисел. Словесное описание алгоритма. Блок-схема процедуры обработки данных с помощью одномерного массива.

контрольная работа [319,7 K], добавлен 29.05.2014
Маркетинговая информационная система с разработкой совокупности показателей оценки рисков микросреды организации
Понятие и содержание маркетинговой информационной системы. Основные факторы микросреды организации. Подходы к определению роли информации в оценке рисков. Решение проблем функционирования аппаратно-программной среды организации, ожидаемый эффект.

дипломная работа [295,5 K], добавлен 18.07.2014
Разработка алгоритма обработки сигнала на основе теории восприятия информации человеком
Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.

курсовая работа [2,3 M], добавлен 19.11.2014
Разработка устройства кодирования-декодирования 32-х разрядных слов методом Хемминга
Анализ способов кодирования информации. Разработка устройства кодирования (кодера) информации методом Хемминга. Реализация кодера–декодера на базе ИМС К555ВЖ1. Разработка стенда контроля передаваемой информации, принципиальная схема устройства.

дипломная работа [602,9 K], добавлен 30.08.2010
Сравнительный анализ туристических сайтов
Анализ дизайна сайта с точки зрения его привлекательности для пользователей и на предмет удобства. Факторы, влияющие на восприятие пользователем информации. Основные критерии оценки туристических web-ресурсов. Сравнение сайтов Trаvel.ru и "100 дорог".

реферат [18,6 K], добавлен 19.06.2011
Линия представления информации
Содержательный и кибернетический подходы к определению и измерению информации. Кодирование символьной информации в компьютере. Линия информации и информационных процессов. Обзор процесса передачи информации по техническим каналам связи. Языки информатики.

презентация [173,0 K], добавлен 19.10.2014
Разработка программы "Расписание учебных занятий"
Назначение программного модуля (базы данных). Разработка информационной базы данных для колледжа. Поиск пользователями информации о преподавателях и дисциплинах. Анализ входной и выходной информации. Разработка алгоритма работы программы-приложения.

реферат [513,1 K], добавлен 22.10.2012

Другие документы, подобные "Анализ проблем навигации в мобильном представлении научной информации"

весь список подобных работ

скачать работу можно здесь

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.