Анализ проблем навигации в мобильном представлении научной информации

Подходы к разрешению проблемы оценки качества способов ранжирования и классификации научной информации средствами наукометрии. Разработка и действие алгоритма с точки зрения организации сетевого взаимодействия. Функционирование навигационного сервера.

Рубрика Программирование, компьютеры и кибернетика
Вид статья
Язык русский
Дата добавления 30.05.2017
Размер файла 56,9 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

Анализ проблем навигации в мобильном представлении научной информации

Конец XX ? началоXXI вв. стали в истории человечества точкой отсчета экспоненциально быстрого роста объемов доступной информации. Сегодня данный факт является общепризнанным и осознается, в том числе и неспециалистами в области информационных технологий. Увеличение объёмов доступной информации сопровождается одновременным увеличением «дисперсии» информации ? необходимые пользователю данные размываются в океане сопутствующих, связанных с требуемой информацией сведений. При этом скорость роста «дисперсии» равняется скорости роста объемов информации.

В этой связи даже научная информация, сохраняемая и систематизируемая сотрудниками той или иной научной школы, с течением времени обнаруживает существенное увеличение длительности выполнения поисковых запросов ? «диффузионная девальвация». Необходимо отметить, что истоки проблемы экспоненциально быстрого роста информации имманентно присущи современным технологиям работы с информацией. Действительно, в модель основной информационной магистрали (Интернет) изначально заложена идея информационного роста; протокол HTTP - основной транспортный протокол в своём названии содержал идею связности, гипертекста; основной способ адресации данных-URI, содержит идею глобальности данных, а в своей структуре упоминание связности и глобальности (префикс «www.», напоминающий об этом, де-факто является стандартом).

Проблемы оценки качества способов ранжирования и классификации научной информации разрабатываются наукометрией-дисциплиной, изучающей эволюцию науки через измерения научной информации. При этом необходимо отметить, что областью исследований наукометрии является наука, рассматриваемая в качестве некоторой централизованной научной среды. Данный подход, определявший, в свою очередь, выбор методов исследования, используемых в наукометрии, сегодня, в условиях распределённости научных исследований, в известной мере, становится сдерживающим фактором. Здесь, под термином «распределённость» мы понимаем не только и не столько распределение информации по географическому принципу, сколько методологическим, мотивационным, структурным принципам. В качестве примеров подобной распределённости можно привести информационные системыGoogleXLabs[1], KonturLabs[2].

В этой ситуации, с нашей точки зрения, требуется не всеобщий метод ранжирования и классификациинаучной информации, позволяющего провести глобальное сравнение важности каких-либо публикаций, но методика персональной навигации в ней ? способ автоматизации выбора направления в графе научных документов, представляющего интерес для конкретного потребителя научной информации.

Предположим, что имеется некоторая сеть N, состоящая из адресов документов . Пусть для каждого адреса документа определено некоторое представление данных документа V(dx) такое, что оно включает некоторое множество A адресов других документов . Тогда для множества обучающих адресов документов F можно определить функционал навигации n:

,

либо в менее точном виде

,

Где C - некоторый контекст навигации, R1-линейно упорядоченное множество.

Задачей исследования является разработка алгоритма расчёта nиз возможных составляющих контекста С алгоритма ранжирования ссылок между документами и выделение ключевых параметров данного алгоритма.

Структура алгоритма

Предваряя обсуждение структуры разрабатываемого алгоритма, отметим, что в условиях широкого распространения и повсеместного использования портативных мобильных устройств, имеющих ограниченные вычислительные ресурсы, очевидно, эффективные реализации алгоритма могут быть выполнены только на платформе облачных вычислений [3]. Выбранный подход накладывает ограничения по прозрачности и безопасности сетевого API алгоритма навигации, позволяя реализовать централизованное кэширование результатов и обеспечить обработку достаточно больших объёмов данных.

Работа алгоритма с точки зрения организации сетевого взаимодействия выглядит следующим образом:

1. Перед началом работы браузер клиента устанавливает https[4] соединение с навигационным сервером и аутентифицирует клиента. В дальнейшем взаимодействие браузера с навигационным сервером проходит средствами httpтранспорта.

2. Браузер по команде пользователя отправляет http [5] запрос на контент-сервер за требуемым документом.

3. Браузер информирует навигационный сервер о намерении просмотреть документ по определённому адресу.

4. Браузер по завершении загрузки ответа от контент-сервера генерирует хэш-коды параграфов документа и отсылает их на навигационный сервер, асинхронно ожидая ответа.

5. Начиная с шага 3 навигационный сервер выполняет httpзапрос на контент-сервер по полученному адресу. Для параграфов, у которых хэш-код на клиенте и сервере совпадает, навигационный сервер генерирует рекомендации по подсветке ссылок в соответствии с уровнем их потенциальной важности для пользователя. Сгенерированная информация отправляется ответом браузеру клиента. Кэширование ответов осуществляется согласно комбинацииETag и Expired заголовка http ответа контент-сервера и идентификатора пользователя.

6. Браузер клиента, получив ответ, осуществляет предписанную навигационным сервером визуализацию.

Функционирование навигационного сервера

Использование программной реализация описанного выше алгоритма на навигационном сервере, предполагает применение алгоритмов машинного обучения [6] ? тренировку классификатора по обучающей выборке. Здесь основным параметром алгоритма является F-набор обучающих документов - статей, заданных пользователем алгоритма, поэтому именно они рассматриваются далее в контексте задачи персональной навигации.

Представление данных документа V технически состоит из двух основных компонентов: выделения текста и выделения ссылок. Выделение текста, по сути, представляет собой очистку электронного документа от html-разметки, что является тривиальной задачей, за исключением случая очистки от html-разметки статей об html-разметке. Выделение ссылок из научной литературы - более сложная техническая задача, так как ссылку, фактически, нужно преобразовать к адресу документа, что не всегда возможно, поэтому данную задачу приходится решать отдельно для каждого крупного online-публикатора (ACM, IEEE). Здесь наиболее тривиальным случаем является http-ссылка.

Для обработки каждой статьи используется выделение терминов и терминоподобных конструкций. Обзор технологий выделения терминов можно найти в [7]. Рассмотрим кратко метод C-value[8], являющийся одним из наиболее простых в реализации. Здесь значение терминологичности для словосочетания рассчитывается по формуле

где

a - кандидат в термины;

|a| - длина словосочетания, измеряемая в количестве слов;

freq(a) - частотность a;

Ta - множество словосочетаний, которые содержат a;

P(Ta) - количество словосочетаний, содержащих a.

Из (1) видно, что метод поощряет словосочетания, не входящие в состав других, более длинных словосочетаний.

Существующие проблемы и направления дальнейших исследований

Опыт практической реализация описанного выше алгоритма навигации, однако, позволяет выявить ряд проблем и недостатков описанного выше алгоритма.

1) Алгоритм, как минимум, удваивает нагрузку на контент-сервер, но, фактически, фактор повышения нагрузки составляет несколько порядков. (Это является следствием основной идеи навигации - возложение на компьютер обязанностей анализа содержания и отклонения документов, не представляющих для пользователя. Отметим, что в этой ситуации важным становится использование разделяемых межпользовательских кэшей.)

2) Навигация становится серьёзной проблемой при генерации документов контент-сервером по сложному алгоритму, так как в случае работы одного навигационного сервера в интересах многих пользователей крупные контент-серверы могут по ошибке или намерено внести его в чёрный список, прекратив тем самым возможность навигации.

3) На практике далеко не все контент-сервера следуют рекомендациям по организации URI документов, поэтому достаточно часто в адресе могут оказаться идентификаторы сессии работы пользователя. Как следствие, либо контент-сервер не сможет получить доступ к документам, либо работа с сервером будет потенциально небезопасной с точки зрения перехвата сессии. Таким образом, в любом случае будет нарушена работа межпользовательского fetch-кэша загруженных документов. Кроме того контент-сервер может генерировать сессионно-зависимые фрагменты документа, тогда, навигация по отдельным параграфам не будет осуществляется. Наконец, в самом наихудшем случае, GET-методы могут оказаться не нулипотентными, т.е. будут изменять состояние сервера. (В комбинации с непреднамеренным перехватом сессии, это может привести к тому, что пользователь случайно выберет ссылку «удалить файл», а навигационный сервер захочет узнать интересный ли документ будет в том случае, если ответить «да, я уверен, что хочу удалить файл».)

4) Наличие эффекта, известного в информационной навигации как «пузырь фильтров» [10], проявляющийся в том, что фокусировка получаемой информации на определённом круге вопросов создаёт исчерпывающее глубинное понимание узкой области, закрывая от исследователя новые идеи, а также «впечатление того, что наши узкие собственные интересы и есть всё, что существует и окружает нас» [11]. (Здесь, с одной стороны, можно возразить, что навигация, в отличие от ранжирования поисковой машины, не скрывает ни одной ссылки на документ. С другой стороны, при достаточно большой обучающей выборке F и высокой кардинальности графа N, навигационный алгоритм проведёт нас тем путём, на котором окажутся только авторы документов, мыслящие сходно с пользователем.)

5) На данный момент нет объективного способа оценки качества работы алгоритма, поскольку не существует объективного критерия оптимизации. (Теоретически можно рассчитать корреляцию между количеством кликов и рейтингом ссылки, присвоенным алгоритмом навигации. Однако этот показатель отражает только доверие пользователя к используемому алгоритму, так как на момент клика мнение пользователя может основываться, исключительно, на названии и реквизитах цитируемого документа.)

Приведённый выше перечень проблем персональной навигации может быть условно разделен на технические, которые представляются вполне разрешимыми, и философские (список проблем, которых, по-видимому, не является окончательным).

Исследование методов оценки качества навигации является предметом дальнейших исследований.

Проведенный анализ проблем навигации в мобильном представлении научной информации на основе статистической классификации позволил получить следующие результаты.

1. Обоснована целесообразность применения клиент-серверных облачных технологий при использовании мобильных устройств для навигации и представления научной информации.

2. Предложена структурная модель, описывающая взаимодействие браузера пользователя, контент-сервера и навигационного сервера.

3. Разработан алгоритм классификации документов по обучающей выборке с наложением контекста навигации и описан возможный состав контекста навигации.

5. Выявлены проблемы алгоритма навигации, основной из которых является проблема отсутствия объективных метрик качества навигации.

Литература

алгоритм сервер наукометрия сетевой

1. Google X Labs: With Steve Jobs Gone, Could Google Take the Torch in Inventing the Future? [Электронныйресурс] // Режим доступа: http://www.deathandtaxesmag.com/160133/google-x-labs-with-steve-jobs-gone-could-google-take-the-torch-in-inventing-the-future/(дата доступа 2 октября 2012)

2. KonturLabs [Электронный ресурс] // Режим доступа: http://www.skbkontur.ru/press/news/company/2012/2/1412 // (дата доступа 2 октября 2012

3. Mell P. The NIST Definition of Cloud Computing / Mell, Peter and Grance, Timothy // Рекомендациинациональногоинститутастандартизациитехнологий, NIST Special Publication 800-145, Gaithersburg, октябрь 2011, -3 c.

4.RFCHTTPOverTLS [Электронный ресурс] // Режим доступа: http://tools.ietf.org/html/rfc2818 // (дата доступа 2 октября 2012)

5. RFCHypertextTransferProtocol-HTTP/1.1 [Электронный ресурс] // Режим доступа: http://tools.ietf.org/html/rfc2616 // (дата доступа 2 октября 2012)

6. Anderson J.R. Machine Learning: An Artificial Intelligence Approach / John Robert Anderson // Tioga Publishing Company, 1994. -572 c.

7. Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). Вып. 7 (14). - М.: РГГУ, 2008. - С. 67-74.

8. Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method // Int. J. Digit Libr. (2000) 3. - C. 115-130.

9. СолтонДж. Динамические библиотечно-поисковыесистемы / Солтон, Джон // М.: - Мир, 1979. -557c.

10. Pariser E. The Filter Bubble: What the Internet Is Hiding from You / Pariser, Eli // Penguin Press, New York, 2011, - С. 304

11. First Monday: What's on tap this month on TV and in movies and books: The Filter Bubble by Eli Paraiser / Газетная публикация // USA Today, 29 апреля 2011.

Размещено на Allbest.ru

...

Подобные документы

  • Проблемы защиты информации человеком и обществом. Использование информации. Организация информации. Угроза информации. Вирусы, характеристика и классификация. Проблемы защиты информации в Интернете. Анализ и характеристики способов защиты информации.

    реферат [36,5 K], добавлен 17.06.2008

  • Принцип организации, типы, топология сетей. Службы управления сетью, их цели и задачи. Обеспечение безопасности информации. Глобальные сети: их компоненты, сетевые службы, методы коммутации информации, электронная почта. Архитектура сетевого сервера.

    шпаргалка [98,4 K], добавлен 09.03.2009

  • Изучение понятия локальной вычислительной сети, назначения и классификации компьютерных сетей. Исследование процесса передачи данных, способов передачи цифровой информации. Анализ основных форм взаимодействия абонентских ЭВМ, управления звеньями данных.

    контрольная работа [37,0 K], добавлен 23.09.2011

  • Основные свойства информации. Минимальная единица измерения количества информации, ее аналогия со знаниями с точки зрения процесса познания. Характеристика основных информационных процессов: поиск, сбор, обработка, передача и хранение информации.

    контрольная работа [28,8 K], добавлен 01.10.2011

  • Основные источники угроз безопасности информационных систем. Особенности криптографической защиты информации. Понятие электронной цифровой подписи. Признаки заражения компьютера вирусом. Уровни доступа к информации с точки зрения законодательства.

    реферат [795,8 K], добавлен 03.10.2014

  • Проблемы защиты информации в информационных и телекоммуникационных сетях. Изучение угроз информации и способов их воздействия на объекты защиты информации. Концепции информационной безопасности предприятия. Криптографические методы защиты информации.

    дипломная работа [255,5 K], добавлен 08.03.2013

  • Классификация угроз конфиденциальной информации. Концепция математической модели оценки ущерба конфиденциальной информации от внешних угроз. Реализация и исследование модели. Безопасность и экологичность работы. Расчет технико-экономической эффективности.

    дипломная работа [1,5 M], добавлен 30.06.2011

  • Характеристика информации. Перевод числа из двоичной системы в десятичную, шестнадцатеричную и восьмеричную. Способы оценки количества информации. Технические средства обработки информации. Принцип работы, история изобретения струйного принтера.

    контрольная работа [1016,6 K], добавлен 22.10.2012

  • Основные компоненты системы X-Com. Иерархия узлов и серверов. Методы разбиения исходной задачи на блоки. Структуры данных сервера для хранения информации об узлах. Точки взаимодействия прикладной программы с системой X-Com. Фоновые процессы на сервере.

    лекция [217,2 K], добавлен 28.06.2009

  • Характеристики объекта информатизации ОВД, с точки защищаемой информации. Способы утечки информации. Разработка предложений по защите информации на объекте информатизации ОВД. Алгоритм выбора оптимальных средств инженерно-технической защиты информации.

    курсовая работа [693,1 K], добавлен 28.08.2014

  • Организация системы учета научной и учебно-методической деятельности в НИУ ВШЭ-Пермь. Анализ конфигурируемых информационно-справочных систем. Выбор и разработка алгоритмов для реализации системы учета учебно-методической и научной деятельности ВУЗа.

    дипломная работа [1,5 M], добавлен 30.11.2016

  • Пути несанкционированного доступа, классификация способов и средств защиты информации. Каналы утечки информации. Основные направления защиты информации в СУП. Меры непосредственной защиты ПЭВМ. Анализ защищенности узлов локальной сети "Стройпроект".

    дипломная работа [1,4 M], добавлен 05.06.2011

  • Исследование понятия и классификации видов и методов несанкционированного доступа. Определение и модель злоумышленника. Организация защиты информации. Классификация способов защиты информации в компьютерных системах от случайных и преднамеренных угроз.

    реферат [115,1 K], добавлен 16.03.2014

  • Анализ различных способов хранения информации: одномерный массив, типизированный файл и динамический список. Сортировка только положительных чисел. Словесное описание алгоритма. Блок-схема процедуры обработки данных с помощью одномерного массива.

    контрольная работа [319,7 K], добавлен 29.05.2014

  • Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.

    курсовая работа [2,3 M], добавлен 19.11.2014

  • Понятие и содержание маркетинговой информационной системы. Основные факторы микросреды организации. Подходы к определению роли информации в оценке рисков. Решение проблем функционирования аппаратно-программной среды организации, ожидаемый эффект.

    дипломная работа [295,5 K], добавлен 18.07.2014

  • Анализ способов кодирования информации. Разработка устройства кодирования (кодера) информации методом Хемминга. Реализация кодера–декодера на базе ИМС К555ВЖ1. Разработка стенда контроля передаваемой информации, принципиальная схема устройства.

    дипломная работа [602,9 K], добавлен 30.08.2010

  • Анализ дизайна сайта с точки зрения его привлекательности для пользователей и на предмет удобства. Факторы, влияющие на восприятие пользователем информации. Основные критерии оценки туристических web-ресурсов. Сравнение сайтов Trаvel.ru и "100 дорог".

    реферат [18,6 K], добавлен 19.06.2011

  • Содержательный и кибернетический подходы к определению и измерению информации. Кодирование символьной информации в компьютере. Линия информации и информационных процессов. Обзор процесса передачи информации по техническим каналам связи. Языки информатики.

    презентация [173,0 K], добавлен 19.10.2014

  • Назначение программного модуля (базы данных). Разработка информационной базы данных для колледжа. Поиск пользователями информации о преподавателях и дисциплинах. Анализ входной и выходной информации. Разработка алгоритма работы программы-приложения.

    реферат [513,1 K], добавлен 22.10.2012

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.