Тематическая модель рейтингования интернет-сайтов по критерию социальной значимости
Разработка модели рейтингования информационного содержимого интернет-сайтов на базе тематического анализа текстов. Использование частных качественных критериев, соответствующих принятым "ценностям общества" с использованием статистических методов.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | статья |
Язык | русский |
Дата добавления | 29.07.2017 |
Размер файла | 88,6 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Тематическая модель рейтингования интернет-сайтов по критерию социальной значимости
Существует проблема неконтролируемого влияния информации, размещённой в Интернете (сайтов) на сознание неподготовленного пользователя. Это представляет определённую опасность, последствия которой отражаются в правовой, социальной, психологической, педагогической и других сферах деятельности и существования человека [1]. Предпринимаемые государством меры по ограничению доступа к таким ресурсам не исчерпывают всех возможных способов предупреждения этой опасности, в силу чего заинтересованными разработчиками создаются различные программные средства информирования пользователя или ограждения его от негативного воздействия опасных ресурсов. Одним из таких средств может выступать система информирования пользователя о соответствии содержимого сайта принятым ценностями общества или критериям желательности информационного контента на основе проставления рейтинга, в цифровом виде отражающего это соответствие.
Данную задачу можно разбить на две подзадачи, каждая из которых имеет право на самостоятельное решение.
Первая из них - это ранжирование текста опубликованного в Интернете документа по тематической направленности с учётом сформулированного множества тематических критериев.
Вторая - построение обобщённого показателя, свёртывающего частные тематические показатели с целью получения численной оценки соответствия некоему абстрактному критерию, сформированному на множестве частных тематических критериев с учётом множества сформулированных критериев качества. В данной работе основное внимание уделяется решению первой задачи путём формализации её основных исходных условий и используемых методов решения.
Информационные объекты, размещённые в Интернете, можно различать, прежде всего, по тематике содержания, используемой лексике, а также в прагматическом смысле: по желательности для пользовательской аудитории и соответствии принятым ценностям общества. Существует множество подходов к ранжированию информационных Интернет-ресурсов, основанных, например, на оценках пользователей (WOT, http://www.mywot.com), или, например, с точки зрения поисковой системы [2-3]. Многообразие способов оценки на этом перечне не исчерпывается, оставляя возможности для разработки иных методик, в числе которых может быть использована численная оценка соответствия материала сайта принятым качественных критериям, основанным на содержании размещённого документа.
Исследования, проведённые в области лингвистического анализа содержимого Интернет-ресурсов, в том числе и с участием авторов [4-6], позволили сформулировать множества критериев положительного (позитивного) и отрицательного (негативного) характера, отражающих соответствие сайтов составу ценностей общества, а также на основе социологических опросов определить критерии тематической желательности текстов и установить весовые параметры для каждого из них. Данные множества были определены как множество «ценностей общества» и множество критериев «желательности контента». Эти множества могут быть использованы в качестве критериальной базы для построения автоматизированной системы рейтингования информационных Интернет-ресурсов как по критериям желательного контента, так и в соответствии с составом «ценностей общества».
Поскольку и в том и в другом случае речь идёт о содержании текстов информационных объектов, то в рамках поставленной задачи рейтингования следует, прежде всего, исследовать применимость методов тематического анализа для многокритериальной оценки документов. В настоящее время достаточно большое внимание уделяется вероятностным методам, основанным на статистике встречаемости синтаксических структур в тексте документа, особенно при использовании средств автоматизации для его обработки. Для решения поставленной задачи представляется возможным построение автоматизированной системы рейтингования сайтов путём свёртки частных показателей, полученных на основе упрощённой модели тематического анализа содержимого Интернет-ресурсов.
Известны и широко используются, например, для тематической классификации документов, различные методы, в том числе векторная модель (Vector Space Model, VSM) [7], предназначенная для назначения весов методом TF-IDF, которая в общем виде применительно к одному документу, формулируется как:
информационный рейтингование интернет сайт
,(1)
где TF (term frequency) -- нормализованная частота слова в тексте, в знаменателе общее количество слов в тексте.
Известны модификации TF-IDF, например модель, учитывающая длину документа [8]:
,(2)
где lend - длина документа, lenavg - средняя длина документа.
Представленная модель, основанная на статистическом тематическом анализе текста документа, представляется наиболее применимой для решения задачи рейтингования информационных Интернет-ресурсов. В обоснование этого утверждения можно привести следующие доводы, основанные на работах исследователей, например [9].
1. Предметность восприятия текста формируется на основе созданных тематических образов.
2. Признаки, идентифицирующие тематический образ, определяются на основе лингвистической экспертизы.
3. Распознавание текста осуществляется путём анализа лингвистических единиц, имеющего избирательный эвристический характер.
Образное тематическое восприятие текста документа Интернет-источника можно представить в виде графа, представляющего модифицированную репликацию графа [9], который приведён на рис. 1.
В приведённом графе экземпляры лексических единиц представлены словами, словосочетаниями и пр., составляющими текст Интернет-документа. Образы значимых тематических языковых единиц составляют множество тематических информационных объектов, составляющий общий информационный объект (документ), определённых для тематического анализа документа, и проецирующихся на множество «ценностей общества» или множество критериев «желательности контента». В нашей задаче каждый тематический образ, определяемый набором лексем, соответствует одному или нескольким частным показателям, входящим в множества «ценностей общества» или «желательности контента».
Рис. 1. - Образная интерпретация тематического восприятия содержимого Интернет-страницы
На этапе реализации необходимо было сформулировать взаимосвязи между множествами показателей и анализируемыми информационными объектами. Анализ производился на основе лингвистических ключей, отражающих семантическое содержание объекта (информационного контента). Анализ проводился по нескольким направлениям:
1. тематическое содержание текста;
2. авторское отношение к описываемой теме;
3. использование ненормативной лексики.
Введём описание параметров и компонентов модели тематического анализа.
Пусть множество сайтов U, подлежащих оценке, которое содержит в себе URL-адреса отдельных i-x объектов .
Каждый сайт представляет собой i-й объект контента, состоящий из лингвистических объектов, подлежащих анализу. Из каждого объекта ui может быть выделено соответствующее множество Oi, включающее в себя лингвистические объекты . Лингвистические объекты выделяются из текста контента, прошедшего очистку от HTML-тегов, включений фрагментов программных кодов Java-script или др., стилей CSS и пр.
Для лингвистического анализа используется множество словарей Q, каждый элемент которого - представляет собой словарь , семантически соответствующий определённому критерию. Все критерии составляют множество C, каждый элемент которого - cl принимается как частный показатель оценки содержания по словарю.
Каждый ql словарь содержит множество Kl лингвистических ключей . Каждый ключ является экземпляром словаря, содержащим атрибуты ключа, такие как содержание - sm.l и вес - wm.l в рамках действия критерия cl. Можно сказать, что каждый ключ представляет собой кортеж .
Отношение между множествами Q и K можно описать как .
Отношения между элементом ui и множеством Oi можно описать как соответствие, т.е. .
Задачей исследования является поиск множества Ai вхождений лингвистических ключей в объект , образуемого как пересечение с последующим расчётом рейтинга , где F - некий функционал, применяемый к множеству вхождений. Можно сформировать кортеж Ri значений частных показателей , соответствующих множеству критериев C как , каждый из которых определяется как
,(3)
где - количество вхождений km.l-го ключа в oi-й объект. С учётом модели TF-IDF (1), учитывающий плотность l-х лингвистических ключей в тексте, выражение (3) будет выглядеть как
,(4)
где Wi - общее количество слов в i-м объекте. Выражение (4) более адекватно отражает тематическую направленность документа, поскольку не зависит от длины текста, которая может «размывать» тематический образ.
Обобщённый рейтинг i-го сайта, исходя из наличия рассчитанного кортежа значений частных показателей
,(5)
рассчитывается как
,(6)
где f - функция свёртки (обобщающая функция), применяемая к набору показателей в условиях многокритериальной оценки.
Показатели (5) отражают качественные характеристики сайта в разной степени устанавливающие его соответствие ценностям общества. Это проявляется в множестве весовых коэффициентов
. (7)
Исходя из (7) к формированию функции свёртки (6) можно применить различные методы из задач многокритериального анализа, включая лексимакс [10] или метод последовательных уступок, или др.
В общем, выражения (4-7) можно рассматривать как модель, описывающую поиск решения в задаче рейтингования сайтов по установленным тематических критериям. Вид обобщающей функции (6) в настоящее время не определён и является объектом исследования на дальнейших этапах работы. Полученная формальная модель может быть использована для решения задач тематического анализа и ранжирования текстов по различным критериям с использованием конечного множества лингвистических ключей.
Литература
1. Сироткин А.В., Брачун Т.А. Безопасность человека в Интернете. Магадан: Ноосфера, 2014. 186 с.
2. Барели Д.Г., Исмаилов Н.Р., Корниенко М.В., Протопопов А.С., Сироткин А.В. Анализ информационных предпочтений молодёжи в сети Интернет. // Северо-Восточный научный журнал. 2013, № 1. С. 13-17.
3. Шарыпов С. А. Автоматизация контентного рейтингования интернет-сайтов на основе лингвистического анализа // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. XXXI междунар. студ. науч.-практ. конф. № 4(30). URL: sibac.info/archive/technic/4(30).pdf (дата обращения: 01.11.2016).
4. Протопопов А.С., Сироткин А.В. Техническое решение защиты детей от интернет-угроз в Магадане. Концептуальное обоснование // Информационные технологии в обществе, образовании и науке. Материалы Международной научно-практической интернет-конференции 26-27 ноября 2013 г. / ответ. ред. Т.А. Брачун. Магадан: СВГУ. 2014. С. 167-175.
5. James Allan: James Allan, Jaime Carbonell, George Doddington, Jonathan Yamron, and Yiming Yang. Topic Detection and Tracking Pilot Study. Final Report. Proceedings of the Broadcast News Transcription and Understanding Workshop (Sponsored by DARPA), Feb. 1998. 25 p.
6. Allan, J. and Lavrenko: Allan, J. and Lavrenko, V. and Malin, D. and Swan, R. Detections, bounds, and timelines: UMass and TDT-3. In Proceedings of Topic Detection and Tracking Workshop, pp. 167-174, Vienna, VA, 2000.
7. Мячина Е.В. Автоматизированный анализ текста на основе вероятностно-статистической модели и его применение в региональном законотворчестве: дис. ... канд. тех. наук: 05.25.05. М., 2002. 188 с.
Размещено на Allbest.ru
...Подобные документы
Основные технологии разработки ресурсов Интернет. Процесс разработки веб-сайта. Понятие Web-сайта и классификация Web-сайтов. Основные этапы разработки Web-сайта. Использование HTML, CSS, JavaScript, FLASH, PHP и реляционной базы данных MySQL.
презентация [1,3 M], добавлен 28.11.2015Анализ средств формирования рейтинга Интернет-сайтов. Критерии оценки веб-сайтов при проведении Интернет-конкурса. Выбор браузера и разработка архитектуры плагина. Описание плагина средствами языка UML. Разработка и реализация программных модулей.
дипломная работа [3,2 M], добавлен 12.08.2017Использование различных маркетинговых инструментов для продвижения веб-сайтов г. Архангельска. Проблема неразвитости рынка и отсутствия налаженной системы работы через Интернет в регионе. Поддержка сайтов предприятий для привлечения новых клиентов.
контрольная работа [16,6 K], добавлен 28.02.2012Критерии оценки сайтов при проведении Интернет-конкурса. Примеры популярных ресурсов с возможностью оценивания. Программная реализация плагина с использованием языков программирования HTML, CSS, PHP, JavaScript. Оценка качества разработанного продукта.
дипломная работа [2,6 M], добавлен 27.10.2017Технические и юридические аспекты использования интернет-технологий в государственном и муниципальном управлении. Особенности анализа эффективности работы интернет-ресурсов, разработка методики анализа сайтов, проведение мониторинга доступности.
дипломная работа [964,8 K], добавлен 18.08.2013Интерфейс среды Dreamweaver. Обзор популярных интернет-технологий создания динамических сайтов. Методика выбора средства разработки. Критерии сравнения популярных интернет-технологий. Записная книжка на базе РНP. Электронный прайс-лист на базе XML.
дипломная работа [2,3 M], добавлен 30.08.2010Анализ средств информации консалтингового бизнеса: обзор языков программирования и программных средств для создания сайтов, информационных систем и сайтов консалтинговых фирм. Моделирование бизнес-процессов. Разработка интернет-представительства.
дипломная работа [2,9 M], добавлен 11.04.2012Страницы сайтов как набор текстовых файлов, размеченных на языке HTML. Виды сайтов, их классификация. Характеристика сайта: статический или динамический. Проблема безопасности web-сайта. Исследование программного обеспечения и языков программирования.
дипломная работа [850,3 K], добавлен 11.01.2015Исследование проблемы формирования досуга в интернете у молодежи на примере наиболее популярных сайтов. Формы виртуального досуга в интернет пространстве. Изучение популярных и образовательных сайтов. Создание современных информационных технологий.
контрольная работа [33,4 K], добавлен 27.10.2016Психолого-педагогические основы формирования системно-деятельностного подхода обучения. Обзор существующих конструкторов сайтов, обоснование выбора сервиса Wix. Ознакомление обучающихся с правилами безопасности в сети Интернет. Технологии создания сайтов.
дипломная работа [428,9 K], добавлен 07.09.2017Интернет-портал: определение понятия, сущность, виды. Технология построения информационного образа объекта сайтостроения. Функциональные характеристики образовательных Интернет-порталов. Анализ структуры и контента веб-сайтов вузов. Оценка их качества.
курсовая работа [113,9 K], добавлен 25.12.2014Особенности программных средств (браузеров) для просмотра web-страниц и для работы с электронной почтой (почтовые клиенты). Этапы и методы разработки Интернет-сайта. Средства поиска информации в Интернет. Сравнительная характеристика поисковых сайтов.
курсовая работа [617,9 K], добавлен 19.06.2010Анализ функционирования интернет-сайтов по предоставлению услуг. Обзор методологий проектирования интернет-представительства. Инструментальные средства разработки и реализации системы управления сайтом. Разработка интерфейса пользователя и web-сайта.
дипломная работа [1,2 M], добавлен 03.08.2014Особенности структуры сайта, система управления контентом. Создание и размещение в Интернете web-сайта. Сущность возможных методов продвижения сайтов. Основы Web-аналитики, характеристика мониторинга посещаемости, улучшения защищенности Интернет-сайта.
дипломная работа [4,1 M], добавлен 15.06.2012Использование функциональных возможностей GSM uCoz для разработки сайта. Сущность, значимость, типы и виды сайтов, способы их создания. Правила размещения сайта в сети Интернет. Основные возможности, понятия, преимущества и недостатки сервиса uCoz.
дипломная работа [1,7 M], добавлен 20.07.2014Особенности рекламирования туристических услуг в сети Интернет. Понятие, сущность и сферы использования сети Интернет в социально-культурном сервисе и туризме. Развитие туристического бизнеса в Рунете и характеристика аудитории туристических Web-сайтов.
курсовая работа [65,9 K], добавлен 01.11.2009Сущность понятия "электронный образовательный ресурс". Анализ образовательных российских и белорусских математических Интернет-порталов. Образовательные математические порталы и сайты. Обзор сайтов дистанционных центров дополнительного образования детей.
курсовая работа [37,3 K], добавлен 22.05.2013Концепция Web 2.0. Язык разметки HTML5. Инструментальные средства для создания веб-приложений. Язык объектного анализа и проектирования UML. Осуществление наполнения и тестирования разработанного интернет-магазина. Форматирование содержимого Web-страниц.
дипломная работа [3,9 M], добавлен 05.06.2016Текущий уровень развития Интернет-ресурсов органов по делам молодежи в субъектах РФ. Классификация Интернет-сайтов органов по делам молодёжи. Особенности восприятия студенческой молодёжью Интернет-ресурса органа по делам молодежи Новосибирской области.
контрольная работа [5,5 M], добавлен 07.06.2009Критерии и аспекты создания web-сайтов. Правовые акты, регулирующие применение интернет-технологий в государственном и муниципальном управлении. Оценивание сайта ОГБУ Центр социальной поддержки населения Советского района Томска, оптимизация его работы.
дипломная работа [1,0 M], добавлен 24.06.2013