Анализ проблем навигации в мобильном представлении научной информации
Подходы к разрешению проблемы оценки качества способов ранжирования и классификации научной информации средствами наукометрии. Разработка и действие алгоритма с точки зрения организации сетевого взаимодействия. Функционирование навигационного сервера.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 30.05.2017 |
Размер файла | 56,9 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Анализ проблем навигации в мобильном представлении научной информации
Конец XX ? началоXXI вв. стали в истории человечества точкой отсчета экспоненциально быстрого роста объемов доступной информации. Сегодня данный факт является общепризнанным и осознается, в том числе и неспециалистами в области информационных технологий. Увеличение объёмов доступной информации сопровождается одновременным увеличением «дисперсии» информации ? необходимые пользователю данные размываются в океане сопутствующих, связанных с требуемой информацией сведений. При этом скорость роста «дисперсии» равняется скорости роста объемов информации.
В этой связи даже научная информация, сохраняемая и систематизируемая сотрудниками той или иной научной школы, с течением времени обнаруживает существенное увеличение длительности выполнения поисковых запросов ? «диффузионная девальвация». Необходимо отметить, что истоки проблемы экспоненциально быстрого роста информации имманентно присущи современным технологиям работы с информацией. Действительно, в модель основной информационной магистрали (Интернет) изначально заложена идея информационного роста; протокол HTTP - основной транспортный протокол в своём названии содержал идею связности, гипертекста; основной способ адресации данных-URI, содержит идею глобальности данных, а в своей структуре упоминание связности и глобальности (префикс «www.», напоминающий об этом, де-факто является стандартом).
Проблемы оценки качества способов ранжирования и классификации научной информации разрабатываются наукометрией-дисциплиной, изучающей эволюцию науки через измерения научной информации. При этом необходимо отметить, что областью исследований наукометрии является наука, рассматриваемая в качестве некоторой централизованной научной среды. Данный подход, определявший, в свою очередь, выбор методов исследования, используемых в наукометрии, сегодня, в условиях распределённости научных исследований, в известной мере, становится сдерживающим фактором. Здесь, под термином «распределённость» мы понимаем не только и не столько распределение информации по географическому принципу, сколько методологическим, мотивационным, структурным принципам. В качестве примеров подобной распределённости можно привести информационные системыGoogleXLabs[1], KonturLabs[2].
В этой ситуации, с нашей точки зрения, требуется не всеобщий метод ранжирования и классификациинаучной информации, позволяющего провести глобальное сравнение важности каких-либо публикаций, но методика персональной навигации в ней ? способ автоматизации выбора направления в графе научных документов, представляющего интерес для конкретного потребителя научной информации.
Предположим, что имеется некоторая сеть N, состоящая из адресов документов . Пусть для каждого адреса документа определено некоторое представление данных документа V(dx) такое, что оно включает некоторое множество A адресов других документов . Тогда для множества обучающих адресов документов F можно определить функционал навигации n:
,
либо в менее точном виде
,
Где C - некоторый контекст навигации, R1-линейно упорядоченное множество.
Задачей исследования является разработка алгоритма расчёта nиз возможных составляющих контекста С алгоритма ранжирования ссылок между документами и выделение ключевых параметров данного алгоритма.
Структура алгоритма
Предваряя обсуждение структуры разрабатываемого алгоритма, отметим, что в условиях широкого распространения и повсеместного использования портативных мобильных устройств, имеющих ограниченные вычислительные ресурсы, очевидно, эффективные реализации алгоритма могут быть выполнены только на платформе облачных вычислений [3]. Выбранный подход накладывает ограничения по прозрачности и безопасности сетевого API алгоритма навигации, позволяя реализовать централизованное кэширование результатов и обеспечить обработку достаточно больших объёмов данных.
Работа алгоритма с точки зрения организации сетевого взаимодействия выглядит следующим образом:
1. Перед началом работы браузер клиента устанавливает https[4] соединение с навигационным сервером и аутентифицирует клиента. В дальнейшем взаимодействие браузера с навигационным сервером проходит средствами httpтранспорта.
2. Браузер по команде пользователя отправляет http [5] запрос на контент-сервер за требуемым документом.
3. Браузер информирует навигационный сервер о намерении просмотреть документ по определённому адресу.
4. Браузер по завершении загрузки ответа от контент-сервера генерирует хэш-коды параграфов документа и отсылает их на навигационный сервер, асинхронно ожидая ответа.
5. Начиная с шага 3 навигационный сервер выполняет httpзапрос на контент-сервер по полученному адресу. Для параграфов, у которых хэш-код на клиенте и сервере совпадает, навигационный сервер генерирует рекомендации по подсветке ссылок в соответствии с уровнем их потенциальной важности для пользователя. Сгенерированная информация отправляется ответом браузеру клиента. Кэширование ответов осуществляется согласно комбинацииETag и Expired заголовка http ответа контент-сервера и идентификатора пользователя.
6. Браузер клиента, получив ответ, осуществляет предписанную навигационным сервером визуализацию.
Функционирование навигационного сервера
Использование программной реализация описанного выше алгоритма на навигационном сервере, предполагает применение алгоритмов машинного обучения [6] ? тренировку классификатора по обучающей выборке. Здесь основным параметром алгоритма является F-набор обучающих документов - статей, заданных пользователем алгоритма, поэтому именно они рассматриваются далее в контексте задачи персональной навигации.
Представление данных документа V технически состоит из двух основных компонентов: выделения текста и выделения ссылок. Выделение текста, по сути, представляет собой очистку электронного документа от html-разметки, что является тривиальной задачей, за исключением случая очистки от html-разметки статей об html-разметке. Выделение ссылок из научной литературы - более сложная техническая задача, так как ссылку, фактически, нужно преобразовать к адресу документа, что не всегда возможно, поэтому данную задачу приходится решать отдельно для каждого крупного online-публикатора (ACM, IEEE). Здесь наиболее тривиальным случаем является http-ссылка.
Для обработки каждой статьи используется выделение терминов и терминоподобных конструкций. Обзор технологий выделения терминов можно найти в [7]. Рассмотрим кратко метод C-value[8], являющийся одним из наиболее простых в реализации. Здесь значение терминологичности для словосочетания рассчитывается по формуле
где
a - кандидат в термины;
|a| - длина словосочетания, измеряемая в количестве слов;
freq(a) - частотность a;
Ta - множество словосочетаний, которые содержат a;
P(Ta) - количество словосочетаний, содержащих a.
Из (1) видно, что метод поощряет словосочетания, не входящие в состав других, более длинных словосочетаний.
Существующие проблемы и направления дальнейших исследований
Опыт практической реализация описанного выше алгоритма навигации, однако, позволяет выявить ряд проблем и недостатков описанного выше алгоритма.
1) Алгоритм, как минимум, удваивает нагрузку на контент-сервер, но, фактически, фактор повышения нагрузки составляет несколько порядков. (Это является следствием основной идеи навигации - возложение на компьютер обязанностей анализа содержания и отклонения документов, не представляющих для пользователя. Отметим, что в этой ситуации важным становится использование разделяемых межпользовательских кэшей.)
2) Навигация становится серьёзной проблемой при генерации документов контент-сервером по сложному алгоритму, так как в случае работы одного навигационного сервера в интересах многих пользователей крупные контент-серверы могут по ошибке или намерено внести его в чёрный список, прекратив тем самым возможность навигации.
3) На практике далеко не все контент-сервера следуют рекомендациям по организации URI документов, поэтому достаточно часто в адресе могут оказаться идентификаторы сессии работы пользователя. Как следствие, либо контент-сервер не сможет получить доступ к документам, либо работа с сервером будет потенциально небезопасной с точки зрения перехвата сессии. Таким образом, в любом случае будет нарушена работа межпользовательского fetch-кэша загруженных документов. Кроме того контент-сервер может генерировать сессионно-зависимые фрагменты документа, тогда, навигация по отдельным параграфам не будет осуществляется. Наконец, в самом наихудшем случае, GET-методы могут оказаться не нулипотентными, т.е. будут изменять состояние сервера. (В комбинации с непреднамеренным перехватом сессии, это может привести к тому, что пользователь случайно выберет ссылку «удалить файл», а навигационный сервер захочет узнать интересный ли документ будет в том случае, если ответить «да, я уверен, что хочу удалить файл».)
4) Наличие эффекта, известного в информационной навигации как «пузырь фильтров» [10], проявляющийся в том, что фокусировка получаемой информации на определённом круге вопросов создаёт исчерпывающее глубинное понимание узкой области, закрывая от исследователя новые идеи, а также «впечатление того, что наши узкие собственные интересы и есть всё, что существует и окружает нас» [11]. (Здесь, с одной стороны, можно возразить, что навигация, в отличие от ранжирования поисковой машины, не скрывает ни одной ссылки на документ. С другой стороны, при достаточно большой обучающей выборке F и высокой кардинальности графа N, навигационный алгоритм проведёт нас тем путём, на котором окажутся только авторы документов, мыслящие сходно с пользователем.)
5) На данный момент нет объективного способа оценки качества работы алгоритма, поскольку не существует объективного критерия оптимизации. (Теоретически можно рассчитать корреляцию между количеством кликов и рейтингом ссылки, присвоенным алгоритмом навигации. Однако этот показатель отражает только доверие пользователя к используемому алгоритму, так как на момент клика мнение пользователя может основываться, исключительно, на названии и реквизитах цитируемого документа.)
Приведённый выше перечень проблем персональной навигации может быть условно разделен на технические, которые представляются вполне разрешимыми, и философские (список проблем, которых, по-видимому, не является окончательным).
Исследование методов оценки качества навигации является предметом дальнейших исследований.
Проведенный анализ проблем навигации в мобильном представлении научной информации на основе статистической классификации позволил получить следующие результаты.
1. Обоснована целесообразность применения клиент-серверных облачных технологий при использовании мобильных устройств для навигации и представления научной информации.
2. Предложена структурная модель, описывающая взаимодействие браузера пользователя, контент-сервера и навигационного сервера.
3. Разработан алгоритм классификации документов по обучающей выборке с наложением контекста навигации и описан возможный состав контекста навигации.
5. Выявлены проблемы алгоритма навигации, основной из которых является проблема отсутствия объективных метрик качества навигации.
Литература
алгоритм сервер наукометрия сетевой
1. Google X Labs: With Steve Jobs Gone, Could Google Take the Torch in Inventing the Future? [Электронныйресурс] // Режим доступа: http://www.deathandtaxesmag.com/160133/google-x-labs-with-steve-jobs-gone-could-google-take-the-torch-in-inventing-the-future/(дата доступа 2 октября 2012)
2. KonturLabs [Электронный ресурс] // Режим доступа: http://www.skbkontur.ru/press/news/company/2012/2/1412 // (дата доступа 2 октября 2012
3. Mell P. The NIST Definition of Cloud Computing / Mell, Peter and Grance, Timothy // Рекомендациинациональногоинститутастандартизациитехнологий, NIST Special Publication 800-145, Gaithersburg, октябрь 2011, -3 c.
4.RFCHTTPOverTLS [Электронный ресурс] // Режим доступа: http://tools.ietf.org/html/rfc2818 // (дата доступа 2 октября 2012)
5. RFCHypertextTransferProtocol-HTTP/1.1 [Электронный ресурс] // Режим доступа: http://tools.ietf.org/html/rfc2616 // (дата доступа 2 октября 2012)
6. Anderson J.R. Machine Learning: An Artificial Intelligence Approach / John Robert Anderson // Tioga Publishing Company, 1994. -572 c.
7. Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). Вып. 7 (14). - М.: РГГУ, 2008. - С. 67-74.
8. Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms: the C-value/NC-value method // Int. J. Digit Libr. (2000) 3. - C. 115-130.
9. СолтонДж. Динамические библиотечно-поисковыесистемы / Солтон, Джон // М.: - Мир, 1979. -557c.
10. Pariser E. The Filter Bubble: What the Internet Is Hiding from You / Pariser, Eli // Penguin Press, New York, 2011, - С. 304
11. First Monday: What's on tap this month on TV and in movies and books: The Filter Bubble by Eli Paraiser / Газетная публикация // USA Today, 29 апреля 2011.
Размещено на Allbest.ru
...Подобные документы
Проблемы защиты информации человеком и обществом. Использование информации. Организация информации. Угроза информации. Вирусы, характеристика и классификация. Проблемы защиты информации в Интернете. Анализ и характеристики способов защиты информации.
реферат [36,5 K], добавлен 17.06.2008Принцип организации, типы, топология сетей. Службы управления сетью, их цели и задачи. Обеспечение безопасности информации. Глобальные сети: их компоненты, сетевые службы, методы коммутации информации, электронная почта. Архитектура сетевого сервера.
шпаргалка [98,4 K], добавлен 09.03.2009Изучение понятия локальной вычислительной сети, назначения и классификации компьютерных сетей. Исследование процесса передачи данных, способов передачи цифровой информации. Анализ основных форм взаимодействия абонентских ЭВМ, управления звеньями данных.
контрольная работа [37,0 K], добавлен 23.09.2011Основные свойства информации. Минимальная единица измерения количества информации, ее аналогия со знаниями с точки зрения процесса познания. Характеристика основных информационных процессов: поиск, сбор, обработка, передача и хранение информации.
контрольная работа [28,8 K], добавлен 01.10.2011Основные источники угроз безопасности информационных систем. Особенности криптографической защиты информации. Понятие электронной цифровой подписи. Признаки заражения компьютера вирусом. Уровни доступа к информации с точки зрения законодательства.
реферат [795,8 K], добавлен 03.10.2014Проблемы защиты информации в информационных и телекоммуникационных сетях. Изучение угроз информации и способов их воздействия на объекты защиты информации. Концепции информационной безопасности предприятия. Криптографические методы защиты информации.
дипломная работа [255,5 K], добавлен 08.03.2013Классификация угроз конфиденциальной информации. Концепция математической модели оценки ущерба конфиденциальной информации от внешних угроз. Реализация и исследование модели. Безопасность и экологичность работы. Расчет технико-экономической эффективности.
дипломная работа [1,5 M], добавлен 30.06.2011Характеристика информации. Перевод числа из двоичной системы в десятичную, шестнадцатеричную и восьмеричную. Способы оценки количества информации. Технические средства обработки информации. Принцип работы, история изобретения струйного принтера.
контрольная работа [1016,6 K], добавлен 22.10.2012Основные компоненты системы X-Com. Иерархия узлов и серверов. Методы разбиения исходной задачи на блоки. Структуры данных сервера для хранения информации об узлах. Точки взаимодействия прикладной программы с системой X-Com. Фоновые процессы на сервере.
лекция [217,2 K], добавлен 28.06.2009Характеристики объекта информатизации ОВД, с точки защищаемой информации. Способы утечки информации. Разработка предложений по защите информации на объекте информатизации ОВД. Алгоритм выбора оптимальных средств инженерно-технической защиты информации.
курсовая работа [693,1 K], добавлен 28.08.2014Организация системы учета научной и учебно-методической деятельности в НИУ ВШЭ-Пермь. Анализ конфигурируемых информационно-справочных систем. Выбор и разработка алгоритмов для реализации системы учета учебно-методической и научной деятельности ВУЗа.
дипломная работа [1,5 M], добавлен 30.11.2016Пути несанкционированного доступа, классификация способов и средств защиты информации. Каналы утечки информации. Основные направления защиты информации в СУП. Меры непосредственной защиты ПЭВМ. Анализ защищенности узлов локальной сети "Стройпроект".
дипломная работа [1,4 M], добавлен 05.06.2011Исследование понятия и классификации видов и методов несанкционированного доступа. Определение и модель злоумышленника. Организация защиты информации. Классификация способов защиты информации в компьютерных системах от случайных и преднамеренных угроз.
реферат [115,1 K], добавлен 16.03.2014Анализ различных способов хранения информации: одномерный массив, типизированный файл и динамический список. Сортировка только положительных чисел. Словесное описание алгоритма. Блок-схема процедуры обработки данных с помощью одномерного массива.
контрольная работа [319,7 K], добавлен 29.05.2014Анализ существующих алгоритмов обработки информации человеком и современных моделей памяти. Разработка алгоритмов и математической модели ассоциативного мышления. Имитационная модель обработки информации. Компьютерный эксперимент по тестированию модели.
курсовая работа [2,3 M], добавлен 19.11.2014Понятие и содержание маркетинговой информационной системы. Основные факторы микросреды организации. Подходы к определению роли информации в оценке рисков. Решение проблем функционирования аппаратно-программной среды организации, ожидаемый эффект.
дипломная работа [295,5 K], добавлен 18.07.2014Анализ способов кодирования информации. Разработка устройства кодирования (кодера) информации методом Хемминга. Реализация кодера–декодера на базе ИМС К555ВЖ1. Разработка стенда контроля передаваемой информации, принципиальная схема устройства.
дипломная работа [602,9 K], добавлен 30.08.2010Анализ дизайна сайта с точки зрения его привлекательности для пользователей и на предмет удобства. Факторы, влияющие на восприятие пользователем информации. Основные критерии оценки туристических web-ресурсов. Сравнение сайтов Trаvel.ru и "100 дорог".
реферат [18,6 K], добавлен 19.06.2011Содержательный и кибернетический подходы к определению и измерению информации. Кодирование символьной информации в компьютере. Линия информации и информационных процессов. Обзор процесса передачи информации по техническим каналам связи. Языки информатики.
презентация [173,0 K], добавлен 19.10.2014Назначение программного модуля (базы данных). Разработка информационной базы данных для колледжа. Поиск пользователями информации о преподавателях и дисциплинах. Анализ входной и выходной информации. Разработка алгоритма работы программы-приложения.
реферат [513,1 K], добавлен 22.10.2012