Сбор данных через запрос посетителей веб-страницы
Цели и задачи сбора данных. Исследование и анализ посещаемости Web-страницы. Порядок сбора данных через запрос посетителей Web-страницы, методика их обработки. Счетчики: понятие и функции, их возможности, определение основных достоинств и недостатков.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | курсовая работа |
Язык | русский |
Дата добавления | 21.12.2012 |
Размер файла | 87,3 K |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Размещено на http://www.allbest.ru/
Размещено на http://www.allbest.ru/
Введение
Для каждого владельца сайта очень важны вопросы посещаемости ресурса и насколько данная тематика популярна среди потенциальной аудитории. Получить ответы на эти вопросы можно благодаря поисковым запросам или статистике ключевых слов.
Статистика запросов являет собой подробную информацию о том, какие ключевые слова и как часто использовались при обращении к поисковым системам, применительно к конкретно взятому сайту.
Исследования, проводимые в рамках исследования, состоят в сборе и последующем анализе данных, получаемых из файлов журналов (log files) web-сервера или из файлов cookie. Эти данные могут относиться к поведению посетителей, очередности их переходов по страницам или статистике посещений web-сервера. В случае размещения на сайте поисковой системы дополнительно могут собираться и анализироваться вводимые пользователями запросы.
Главным отличительным свойством и преимуществом этого вида исследования над традиционными методами наблюдения и интернет-опросами, требующими активного участия респондентов, является возможность сбора ценной информации без привлечения посетителей к активным действиям.
Цель данной работы изучить сбор данных через запрос посетителей Web-страницы. Для достижения данной цели были поставлены следующие задачи:
- определить цели и задачи сбора данных;
- изучить анализ посещаемости Web-страницы;
- охарактеризовать порядок сбора данных через запрос посетителей Web-страницы;
- рассмотреть порядок обработки данных о посещаемости;
- изучить счетчики: их возможности, достоинства и проблемы.
Цели и задачи сбора данных
Сайт и реклама в Сети являются, как правило, не единственным средством продвижения и продаж продукта, одновременно используются и другие средства маркетинга - реклама в газетах и телевидении, промоушен-акции и т.п. Точно оценить вклад каждого из способов продвижения трудно, особенно в случае, когда проводится «смешанная кампания» и вклад может быть совместным.
Однако Интернет-технологии позволяют детально изучить поведение привлеченных клиентов: на вашем сайте «все ходы записываются» и могут быть потом проанализированы. Результаты продвижения сайта или рекламной кампании могут оцениваться сразу после ее начала, что дает возможность быстро изменить параметры кампании или скорректировать усилия по поисковой оптимизации.
Для этого и служат средства Интернет-статистики.
Статистика нужна для оценки эффективности сайта и рекламной кампании как инструментов решения конкретных коммерческих задач (обеспечение продаж, технической поддержки продукта и т.п.).
Вот какие задачи можно решать с помощью анализа статистики сайта:
1. Оценка общей аудитории сайта:
- общая статистика: количество посетителей и просмотренных ими страниц, количество новых посетителей, региональное распределение посетителей, социо-демографические характеристики, сравнение с конкурентами;
- источники посетителей для сайта: откуда они пришли (с поисковых систем, благодаря рекламной кампании), какие поисковые фразы использовались;
- детальная оценка посещаемости сайта: какие разделы сайта популярны, какова средняя глубина просмотра сайта, по каким путям происходит просмотр документов на сайте.
2. Оценка качества аудитории:
- Целевая аудитория: сколько посетителей оказались целевыми, т.е. совершили действия, желательные для владельца сайта (посетили целевые страницы, положили товар в корзину и т.п.);
- Откуда приходят целевые посетители, т.е. какая реклама наиболее эффективна для конечной цели сайта.
3. Технические параметры:
- Объем, сроки и качество индексации сайта поисковыми роботами;
- Наличие технических проблем: ссылки на несуществующие страницы, перегрузка сайта.
В настоящее время не существует единого средства статистики, которое могло бы решить все перечисленные задачи. В зависимости от ваших потребностей нужно использовать одно или несколько из описанных ниже решений.
В интернете существует огромное количество различных служб, предоставляющих статистику посещений, начиная от таких гигантов как SpyLOG, Rambler, Mail.ru, HotLog и заканчивая многочисленными средствами, предоставляемые хостинг-провайдерами. С одной стороны они представляют из себя весьма мощные инструменты по анализу и сбору статистики, но с другой стороны обладают весьма весомым недостатком - ввиду того, что они являются внешними службами по отношению к вашему сайту они не могут гарантировать сохранность собранной статистики. Кроме того, они часто располагаются на удаленных и сильно загруженных серверах, поэтому при посещении вашего сайта вызов счетчика этой системы не всегда может быть успешно выполнен, таким образом, высока вероятность «пропуска» посещений. Эта вероятность тем выше, чем более популярна рейтинговая система, ваш сайт, и чем больше расстояние между ними. Также если вам захочется сделать заточенный специально под вас отчет на основе собранных данных, то или это будет вообще невозможно или же это будет стоить весьма ощутимых денег. Как показывает опыт на примере SpyLOG, удачные проекты со временем превращаются в чисто коммерческие проекты. К этому же идет и весьма популярный HotLog, представляющий часть отчетов на платной основе. Другие же службы, кроме, пожалуй, kmindex, не могут предоставить достаточное количество видов статистики, чтобы можно было расценивать их возможности за исключением красивой кнопки на сайте. Таким образом создание собственного счетчика является достаточно интересным приобретением для активно развивающегося web-проекта, и, вполне возможно, не только интересным, но и выгодным.
Анализ посещаемости web-страницы
страница web посещаемость счетчик
Системы анализа посещаемости сайта предлагают пользователю множество отчетов о посещаемости, которые можно разбить на несколько групп, рассмотренных ниже.
I. Суммарные данные о посещаемости.
В эту группу входят параметры, описанные ниже.
1. Показы. Количество страниц, просмотренных всеми пользователями. Этот параметр показывает, сколько информационных страниц (текстовых, HTML, ASP, PHP) просмотрели пользователи. В разных системах данный параметр называется по-разному: показ, просмотр, хит, загрузка. В ряде случаев разделяют «загрузки» (просмотры) и «перезагрузки» страницы (повторные просмотры посредством щелчка на кнопке Refresh/Reload в браузере).
2. Количество сессий. Под сессией понимается серия просмотров страниц сайта одним посетителем. Сессия считается оконченной, если в течение какого-то времени посетитель не обращался к сайту.
3. Количество пользователей, или аудитория сайта. Этот параметр показывает количество посетителей, просмотревших сайт за определенное время.
Параметр определяется всеми по-разному, почему это так и какие бывают сложности определения размера аудитории, подробнее описано ниже.
4. Количество новых пользователей. Подсчитывается аудитория, посетившая сайт впервые. Этот параметр еще менее точен, чем общая аудитория, в силу сильно разнящихся определений того, что такое новый пользователь.
5. Количество уникальных IP-адресов (или хостов). Показывает, с какого количества уникальных IP-адресов просматривались страницы сайта. Данный параметр ранее заменял подсчет аудитории сайта, так как его технически проще посчитать (у каждого пользователя есть какой-то IP-адрес, в отличие от файлов cookie и прочих средств идентификации).
Сейчас в большинстве систем статистики этот параметр поддерживается скорее по историческим причинам.
Заметим, что количество просмотренных страниц и количество сессий можно складывать по часам, дням, неделям и т.п., чтобы получить суммарные показатели за какой-то период времени. А вот все остальные параметры напрямую не суммируются - например, у аудитории сайта есть повторяемость, повторные заходы, поэтому эти данные нельзя суммировать напрямую.
II. Характеристики аудитории сайта.
Для аудитории сайта можно определить несколько параметров.
1. Географическое распределение аудитории. Для оценки этого параметра используется тот факт, что IP-адреса, как правило, имеют географическую привязку и для каждого пользователя можно определить географическое положение. Точность этих данных достаточно хорошая - практически для 100% пользователей можно определить страну, для 95-98% посетителей из России - регион с точностью до субъекта федерации, а в ряде случаев и точнее. Необходимо понимать, что для пользователей, использующих серверы-посредники (proxy-сервисы), - корпоративные или публичные - часто определяется местоположение сервера-посредника, а не пользователя.
2. Активность аудитории. Под активностью понимается число страниц, просмотренных одним посетителем в течение сессии либо в течение всех сессий за одни сутки. В зависимости от способа подсчета данный параметр может быть как совершенно бессмысленным (когда среднее число просмотренных страниц получается в результате деления числа просмотренных страниц на число посетителей), так и предоставляющим полезную информацию (например, гистограмма распределения длин сессий, количество посетителей просмотревших больше чем N страниц).
3. Длительность сессии. Многие статистические системы подсчитывают показатель «время просмотра сайта пользователем» (длина сессии в минутах). Однако этот показатель сложно назвать осмысленным, поскольку неизвестно, когда пользователь покинул сайт. Действительно, невозможно выяснить время просмотра последней страницы сессии, а она с большой вероятностью была самой важной. Например, можно предположить, что пользователь в несколько быстрых навигационных кликов добрался до страницы с содержанием и изучал его затем полчаса - так вот эти последние полчаса невозможно «засечь» (потому что потом пользователь мог просто набрать другой адрес в браузере, уже не обращаясь к вашему сайту, или вообще выключить компьютер).
III. Ссылающиеся сайты: источники посетителей.
При переходах по ссылкам системам статистики обычно бывает доступна информация о странице, с которой пользователь перешел на ваш сайт. Используя эти данные, статистические сервисы предоставляют следующую информацию о переходах пользователей:
- сайты, с которых был выполнен переход;
- точные URL (сайт + страница на сайте), с которых был переход.
Эти параметры могут быть выражены в «пользователях» (т.е. несколько переходов одного пользователя по ссылке считается за одного «пользователя») и в «переходах».
Детальный анализ переходов позволяет также получить данные, приведенные ниже:
- распределение сайтов-источников трафика по группам (поисковые системы, каталоги и рейтинги, форумы, остальные сайты);
- для поисковых систем как источников трафика - по каким поисковым запросам осуществлялись переходы. Для получения данного отчета система статистики должна знать поисковую систему и уметь декодировать параметры ее адресной строки (URL) для получения исходного запроса.
IV. Популярность страниц и разделов сайта.
Информацию о посещаемости можно сгруппировать по страницам и каталогам посещаемого сайта. В результате будут получены такие отчеты:
- популярные страницы (документы). Для каждой отдельной страницы можно посчитать количество просмотров и количество просмотревших ее пользователей;
- популярные группы страниц (подкаталоги). Аналогичные метрики для группы документов в одном подкаталоге;
- пути посетителей по сайту. На основании анализа пользовательских сессий можно получить отчет «пути по сайту», т.е. списки страниц, просмотренных в течение одной сессии. Этот отчет обычно считается достаточно важным, однако на практике обычно получается, что число используемых пользователями путей очень велико, а сколько-нибудь популярными являются только переходы с головной страницы сайта в один из подразделов.
V. Целевая аудитория и фильтрация данных.
Целевой аудиторией считаются те посетители, которые пришли на сайт с целью, приятной для владельца сайта (что-либо купить на продающем сайте, узнать о продукте на сайте поддержки продаж, ознакомиться с документацией на сайте техподдержки и т.п.). Так как прочитать мысли посетителя обычно затруднительно, целевую аудиторию отличают по действиям, совершенным на сайте. Такими действиями могут быть:
- онлайн-покупка;
- помещение товара в «корзину» или список пожеланий;
- переход на страницу «контакты» или «как проехать»;
- чтение описания товара или загрузка каталога;
- заполнение формы запроса дополнительной информации или подписки на рассылку;
- повторный заход на сайт;
- просмотр определенного количества страниц сайта.
Какое именно действие является целевым, может определить только владелец сайта. Обычно для выявления целевого действия требуются изменения на сайте - например, расстановка меток, создание специальных «приземляющих страниц» для каждой рекламной кампании, размещение купонов со скидками с возможностью печати на принтере и т.п.
Если можно отличить целевого посетителя от случайного, то появляются дополнительные возможности по оценке как каналов привлечения посетителей вообще, так рекламных кампаний в частности. Тут можно действовать двумя способами:
- разделить всю аудиторию сайта по источникам (реклама, поисковые системы и т.п.) и для каждого источника оценить, сколько пользователей совершили целевое действие;
- выделить из аудитории всех тех, кто выполнил целевое действие, после чего посмотреть, с каких сайтов (рекламных кампаний, поисковых фраз) пришли данные посетители.
Обе методики будут давать близкие результаты с точностью до повторных посетителей (если посетитель приходил на сайт дважды и только один раз совершил целевое действие, то во втором случае он будет учтен, а в первом - нет).
VI. Сравнимость результатов для разных статистических систем.
Разные статистические системы по-разному подсчитывают пользователей.
Результаты подсчета должны быть примерно одного порядка, однако даже расхождение посещаемости на десятки процентов в разных системах статистики может быть связано просто с различиями в методах подсчета и определения повторности захода, способа вычисления длительности сессии и т.п.
Вследствие этого все характеристики, которые напрямую или косвенно учитывают аудиторию сайта, оказываются несравнимыми для разных систем статистики.
Загрузки страниц всеми системами подсчитываются практически одинаково (в случае разделения «загрузок» и «перезагрузок» возможно сложить эти два параметра), поэтому все показатели, связанные с количеством просмотренных страниц, включая число переходов из поисковых машин и т.п., должны быть достаточно близкими.
Географические данные рассчитываются по самым разным базам данных, поэтому могут отличаться в разных системах статистики. При этом определение географии с точностью до страны происходит практически со 100%-ной точностью, а для географических баз данных по городам / регионам возможны большие расхождения.
VII. Устойчивость и разброс данных.
Как и большинство других естественных процессов, посещение сайта пользователями носит случайный или околослучайный характер. В первом приближении к цифрам посещаемости применимы обычные статистические критерии: можно считать, что естественный разброс посещаемости (сайта в целом, отдельной страницы, переходов с поисковика) пропорционален квадратному корню из основной величины.
Например, если в среднем за сутки на сайт заходит 400 человек, то посещаемость в диапазоне от 380 до 420 посетителей в очередные сутки укладывается в 95%-ные рамки «стандартности». Другими словами, если вчера у вас было 419 посетителей, а сегодня 385, бить тревогу не нужно, если только этот эффект падения не становится устойчивым.
С ростом величины посещаемости эта относительная величина естественных колебаний падает.
Сбор данных через запрос посетителей Web-страницы
Все системы статистики берут свои данные из событий, происходящих при обращении браузера пользователя к Web-серверу, который обслуживает сайт.
События эти записываются в журнал сайта, так называемый лог.
Логи сайта
При обращении пользователя к сайту происходит сразу несколько событий.
1. Запрос страницы. Клиент (браузер) передает на WWW-сервер запрос на выдачу страницы, при этом на сервере становятся известны:
а) обязательные параметры: IP-адрес клиента, запрашиваемый URL, дата и время запроса (по IP-адресу можно определить географическое положение клиента);
б) дополнительные параметры (необязательные, но обычно передаваемые): используемый пользователем браузер, адрес (URL) предыдущей страницы, с которой произошел переход, имя пользователя и пароль для защищенных страниц и т.д.
2. Выдача страницы. Сервер возвращает клиенту запрошенный документ (HTML или картинку).
3. Запись в лог. Web-сервер записывает данные о произошедшей транзакции в журнальный файл (лог-файл).
Как правило, Web-страницы являются составными, т.е. они состоят из HTML-текста страницы и некоторого количества вставленных в текст изображений. Все они передаются в браузер пользователя по отдельности - на самом деле при запросе страницы происходит несколько транзакций, записываемых в лог по отдельности. Необходимо упомянуть также особенности составных документов.
Для каждого вложенного документа (изображения, текста во фрейме, стилевого файла и т.п.) пользовательский браузер делает отдельный запрос.
Элементы составного документа могут извлекаться не с одного сайта, а с нескольких разных сайтов (Web-серверов). В этом случае адреса (URL) вложенных элементов описываются в основном, внешнем документе. В данном случае запись о запросе страницы появится не только в логах вашего сайта, но и в журнальных файлах этих третьих серверов.
Вот пример нескольких записей журнального файла:
62.205.178.34 [17/Jun/2005:00:06:52 +0400]
«/apache-talk/msg05126.html HTTP/1.1» 12854
«http://www.yandex.ru/yandsearch? rpt=rad&text=RFC1945»
«Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon;.NET CLR 1.1.4322)»
«ruid=0000000142B1DAE9000092EA03030F02»
62.205.178.34 [17/Jun/2005:00:06:52 +0400]
«image/color_logo.gif HTTP/1.1» 2649
«http://www.lexa.ru/apache-talk/msg05126.html»
«Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon;.NET CLR 1.1.4322)»
«ruid=0000000142B1DAE9000092EA03030F02»
Здесь первая запись фиксирует получение HTML-страницы, а вторая - вложенной в нее картинки. Следует уточнить, что в этом примере оставлены только существенные для изложения поля данных (в порядке следования: IP-адрес, дата, URL, размер документа, URL ссылающейся страницы, название пользовательского ПО и идентификатор пользователя).
Журнальные файлы представляют собой сырые данные, которые необходимо обработать. Качество обработки этих сырых данных (глубина анализа) и определяет качество той системы статистики, которую вы будете использовать.
Заметим, что в логах сайта содержится вся необходимая информация, и никаких других данных о посещаемости сайта в большинстве случаев не существует.
Подсчет посетителей
По IP-адресам невозможно точно подсчитать количество посетителей сайта.
Это связано с тем, что многие пользователи пользуются корпоративным доступом в Интернет и при выходе в сеть получают один и тот же IP-адрес (адрес корпоративного «прокси», т.е. сервера-посредника). То же самое верно для пользователей некоторых публичных систем доступа в Интернет (домашних сетей, систем телефонного дозвона) - пользователям каждый раз назначаются разные IP-адреса или один на всех.
Для более точного подсчета посетителей и для распознавания того же посетителя в его следующих заходах на ваш сайт в Интернете используется технология cookie (в переводе с англ. печенье; читается как куки), которая заключается в следующем.
При первом посещении сайта браузеру пользователя присваивается уникальный cookie-идентификатор - по сути, простая текстовая строчка с данными Web-сервера.
При последующих просмотрах страниц сайта браузер, наоборот, сообщает этот идентификатор выдавшему его сайту (и только ему). Таким образом, можно отследить как нескольких пользователей, приходящих с одного IP-адреса, так и одного пользователя, приходящего с разных IP-адресов.
На сегодняшний день для большинства сайтов этот метод является единственным способом отследить поведение посетителей сайта (без их регистрации и последующего ввода имени и пароля).
В то же время, согласно современным оценкам, от 10 до 30% пользователей в течение месяца очищают (или теряют) записи cookies. Это и приводит к тому, что оценка количества новых пользователей оказывается завышенной, как уже упоминалось выше.
Точность подсчетов
Реальная жизнь несколько сложнее описанной выше простой схемы.
Аккуратный подсчет статистики сайта затрудняется по нескольким причинам:
1) Часть пользователей выходит в Интернет с разделением одного IP-адреса между многими пользователями. Это происходит при разделении одного ADSL-соединения между несколькими клиентами, при использовании корпоративных «серверов-посредников» (прокси-серверов) и т.п.
2) Часть пользователей меняет свой IP-адрес в процессе работы (например, после обрыва dialup-соединения восстановление может происходить с заменой IP-адреса).
3) Используются персональные и корпоративные брандмауэры или «файрволлы» (firewall) и анонимизаторы, которые вообще не позволяют передавать браузеру пользователя записи cookies и другие необязательные данные запроса.
4) Часть обращений пользователей к Web-страницам не фиксируется в логах, так как страница на самом деле берется браузером не с самого сайта, а с локального диска пользователя (если она была скачана ранее) или из Web-акселератора провайдера (для ускорения доступа к сайтам многие провайдеры хранят часто запрашиваемые страницы в специальном буфере - кэше).
Вследствие этих причин полученные статистическими сервисами данные отличаются от реальных. Не существует каких-то корректных способов оценить величину отклонения «реальности» от измеренных характеристик, однако принято считать, что эти отклонения в среднем не превышают 5-10%.
В то же время, если аудитория сайта достаточно велика и нет оснований полагать, что она резко изменится (например, после активной рекламы на ресурсах с большой посещаемостью), то можно считать ошибку измерения постоянной и успешно сравнивать между собой данные по соседним дням, неделям, месяцам.
Обработка данных о посещаемости
Существуют два основных способа обработки исходных данных о посещаемости:
1) Накопление журнальных файлов у себя и их самостоятельный анализ с помощью программы анализа логов. Для такого анализа потребуется купить и установить соответствующую программу и прилагать регулярные усилия для получения и обработки данных.
2) Использование сервиса обработки данных (счетчика). В этом случае третья сторона - счетчик - ведет журнал загрузок страницы. Делается это с помощью размещения на сайте элемента сайта счетчика (обычно картинки). Затем эти данные анализируются и предоставляются потребителю в обработанном виде.
Каждый из этих способов имеет свои особенности, достоинства и недостатки, сравнительный анализ которых приведен в табл. 1. Основные возможности обоих упомянутых выше способов обработки данных приведены в табл. 2.
Таблица 1. Сравнение характеристик анализаторов логов и счетчиков
Параметр |
Счетчики |
Анализаторы логов |
|
Стоимость установки и эксплуатации |
Бесплатно или месячная оплата (5-50 долл. в месяц и выше) |
Разовая оплата или бесплатно.Встречается также схема аренды ПО (ежегодная оплата) |
|
Трудоемкость установки и эксплуатации |
Небольшая: требуется установка кода (фрагмента HTML-текста) на всех страницах сайта (или в общем шаблоне страницы) |
Большая: требуется установка программы на сервере, где расположенсайт, либо регулярное копирование лог-файлов на обрабатывающую машину. Для подсчета посетителей может потребоваться дополнительная настройка Web-сервера |
|
Доступность результатов анализа |
Реальное время для данных за сегодня, различная по величине задержка для длинных периодов. Подробные данные хранятся не слишком долго |
Обсчет требует времени, но для сайтов с посещаемостью в тысячи посетителей в день и менее это время невелико |
|
Доступностьисходных данных (лог-файлов) |
Низкая: данные накапливаются у владельца сервиса, переход на другой сервис невозможен. Как правило, исходные данные долго не хранятся |
Высокая: данные остаются у владельца сайта |
|
Потери данных |
Часто: это рядовое явление - при перегрузке сервиса счетчика часть посещений не засчитывается или теряется |
Редко: журнальные файлы могут быть утеряны из-за аварии или некомпетентности системного администратора |
Таблица 2. Доступные виды статистических показателей
Параметр |
Счетчики |
Анализаторы логов |
|
Общая посещаемость сайта |
+ |
+ |
|
Посещаемость отдельныхстраниц и групп страниц |
+ |
+ |
|
Переходы по ссылкам сдругих сайтов |
+ |
+ |
|
Трафик с поисковых систем |
+/-(детальный анализ поисковых фраз - не для всех счетчиков) |
+ |
|
Заходы поисковых роботов |
-Классические счетчики не отслеживают. Решения этой проблемы для счетчиков имеют свои недостатки |
+ |
|
Сравнение аудитории с конкурентами |
+(технологически возможно, политически - не всегда) |
-(нет данных конкурента для анализа) |
|
Социо-демографическиехарактеристики аудитории |
-/+(возможно для крупных счетчиков, однако такой услуги нет) |
- |
|
География посетителей |
+ |
+/-(требуется источник данных о географии) |
|
Фильтрация данных по критериям (источник трафика, точка продаж) |
-/+(возможности ограничены) |
+/-(не все анализаторы, хотя возможна фильтрация исходных данных внешней программой) |
Таблица посетителей visitors, содержит информацию о характеристиках уникальных посетителей сайта. Для каждого посетителя таблица хранит следующую информацию:
- тип посетителя (обычный, поисковый робот, др.);
- характеристики операционной системы (вид операционной системы, разрешение экрана, количество цветов);
- тип браузера;
- характеристики JavaScript (поддержка JavaScript'a, версия);
- поддержка cookie;
- др. информация.
В таблицу заносятся уникальные посетители после их первого захода на сайт. Повторные заходы ранее фиксировавшихся посетителей в таблицу не заносятся. Через продолжительные промежутки времени (например, 1 год) информация о конкретном посетителе может быть обновлена при его очередном заходе на сайт.
Таблица посетителей hits, содержит записи посещений страниц посетителями. Добавление в таблицу осуществляется при каждом запросе любой страницы с сервера. Содержимое таблицы позволяет определять:
- путь следования посетителя до конкретной страницы;
- время просмотра каждой страницы;
- количество просмотренных страниц;
- с какого адреса пришел посетитель на сайт;
- поисковые фразы, приводящие на сайт.
Таблица страниц сайта pages, содержит консолидированную информацию о посещениях сайта и каждой страницы в отдельности. Запись с нулевым идентификатором page_id содержит статистику для всего сайта.
Рисунок 1. - Схема обработки данных
Обобщая вышеизложенное, основные различия между собственной обработкой данных и сервисом можно свести к следующему:
- сервис (счетчик) дешевле по стартовым затратам, начать его использовать можно через несколько минут. Получаемые результаты (набор отчетов и их точность) ограничены тем набором возможностей, которые предоставляет сервис счетчика. Обычно у счетчиков есть бесплатные тарифные планы с ограниченными возможностями и платные - с более мощной статистикой;
- собственная обработка журнальных файлов требует относительно больших денежных и временных затрат на стадии внедрения, однако обеспечивает большую гибкость в ходе дальнейшей эксплуатации;
- часть отчетов доступна только для одной из технологий:
- сравнение аудиторий своего сайта и сайта конкурентов можно сделать только в публичном счетчике. Такой анализ невозможно сделать средствами анализа только собственных журнальных файлов, потому что на собственном сайте нет доступа к данным конкурентов, а у счетчика он есть;
- напротив, счетчики обычно или вовсе не анализируют заходы индексных роботов поисковых систем, или предлагаемые ими решения имеют серьезные недостатки;
- установка счетчика (особенно многих счетчиков) от третьих сторон может замедлять доступ пользователя к сайту, что в ряде случаев вызывает раздражение у пользователей и владельца сайта.
Таким образом, выбор средств анализа статистики должен производиться, исходя из поставленных задач.
Счетчики: возможности, достоинства и недостатки
Первым российским счетчиком был сервис Rambler's Top100, появившийся в 1997 году. Однако на сегодняшний день предоставляемая этим сервисом статистика не удовлетворяет даже минимальным требованиям. Top100 позиционируется как рейтинг-классификатор и может рассматриваться только как источник целевого трафика, причем только в том случае, если сайт занимает одну из 25-50 верхних позиций в каком-либо разделе рейтинга.
Возможно также использование Top100 как инструмента для сравнения с конкурентами по суточной посещаемости. Делать это следует в случае, когда у конкурента не установлены другие счетчики.
Начиная с 1999 года в Рунете стали появляться счетчики для получения детальной статистики. Рыночная ниша этих сервисов - предоставление аналитики, поскольку они не могут конкурировать с Rambler's Top100 как генераторы трафика.
На сегодняшний день предоставляемый всеми счетчиками набор основных сервисов очень похож, но почти каждый статистический сервис имеет свои уникальные особенности, которые во многих случаях и определяют выбор между ними.
Зарубежные статистические сервисы тоже существуют, однако их применимость в российских условиях ограничена в силу некоторых причин.
1. Анализ поискового трафика требует как минимум поддержки кодировок русского языка и «знаний» о российских поисковых системах. Ничего этого на западном рынке нет. Аналогично, требуется учет хотя бы основных российских каталогов и рейтингов.
2. Для определения географии посетителей желательно иметь географическую базу данных по России хотя бы с точностью до субъекта федерации.
Таких данных у зарубежных сервисов нет.
Таким образом, при выборе статистического сервиса приходится выбирать среди российских (и украинских - BigMir) сервисов.
Среди бесплатных сервисов очевидным лидером является счетчик Liveinternet (в прошлом RAX): набор сервисов и устойчивость у него сравнимы с платными счетчиками-конкурентами.
Очень интересный набор сервисов предоставляет Smartlog, однако «молодость» этой системы заставляет относиться к ней с осторожностью - при росте популярности могут начаться проблемы с нагрузками, потерями данных и т.п. (все то, что остальные системы уже прошли несколько лет назад).
За последние годы нам многократно приходилось слышать, что счетчики считают все неправильно. Очень часто проведенное разбирательство показывало, что проблемы связаны с одной или несколькими типовыми ошибками пользователей, наиболее частые из которых обсуждаются ниже.
Установка нескольких счетчиков: правило 95%. Очень часто встречаются сайты, обвешанные счетчиками, как новогодние елки, - их может быть 3, 5 и более. Когда пользователь обращается к странице такого сайта, происходит следующее:
- браузер начинает загружать графические элементы, делая это последовательно (сверху вниз страницы);
- для каждого счетчика необходимо получить его адрес из системы адресов DNS, установить соединение, получить графическое изображение с внешнего сайта;
- за то время, пока это происходит, пользователь уже может уйти со страницы по ссылке. В этом случае загрузка части счетчиков может не успеть произойти, и данное обращение не будет засчитано.
Экспериментально установлено, что каждый дополнительный счетчик учитывает примерно на 5% меньше посещений, чем счетчик, установленный в HTML-коде выше него.
Устанавливать стоит только те счетчики, наличие которых необходимо сайту, это вежливо по отношению к пользователю (ускоряет загрузку страницы), позволяет получать более корректную статистику посещаемости, да и не повышает индекс цитирования статистическим системам в поисковых машинах.
Установка кода счетчика внизу страницы. Чем ниже на странице установлен счетчик, тем позднее (в сравнении с другими графическими элементами) будет производиться обращение к нему и тем больше шансов, что клиент до загрузки счетчика успеет уйти с данной страницы на другие страницы сайта.
Для борьбы с этим продвинутые статистические системы предлагают «раздельный» код - «считающий пиксель» для установки на самом верху страницы и «логотип» для установки на видном месте.
Установка кода счетчика не на все страницы сайта. Это очень распространенная проблема - например, если разные разделы сайта собираются из разных шаблонов. Естественно, обращения к тем страницам, где код счетчика не установлен, засчитываться системой статистики не будут, поэтому может возникнуть впечатление, что посещаемость сайта ниже ожидаемой.
Разные показатели называются одинаково или похоже. Эта проблема является проблемой интерпретации данных, однако возникает она достаточно часто. Допустим, в системе статистики А «хитом» называется любое обращение к странице, в системе статистики Б - тоже любое, но повторные обращения через 30 и менее секунд не засчитываются, тогда как в системе статистики В не засчитываются перезагрузки (щелчки на кнопке Reload браузера) и повторные обращения менее чем через 30 секунд. Очевидно, что даже по «числу показанных страниц» в идеальных условиях система А покажет наибольшие данные, а В-наименьшие.
Системы статистики, как и любой другой сервис, не идеальны. При этом возникающие у них проблемы с нагрузкой и видимостью в сети моментально становятся проблемами их пользователей, так как при обращении к сайту с установленными счетчиками происходит одновременное обращение пользователя и к системе статистики.
Наиболее распространенные проблемы описаны ниже.
1. Отсутствие связности сети между пользователем и сервером счетчика. Это может быть временная недоступность или постоянная (например, администратор сети, в которой находится пользователь, запретил доступ к счетчику из соображений приватности либо экономии трафика), либо же сервис счетчика остановлен для регламентных работ. В этом случае клиентский браузер тратит впустую изрядное количество времени на обращение к системе статистики, обращения не происходит, заход пользователя на сайт не засчитан, а пользователь раздражен, поскольку страница загружалась медленно.
2. Перегрузка системы статистики возникает в ситуации, когда пользователей больше, чем может обслужить система статистики. Все описанные выше симптомы (например, «торможение» при загрузке страниц сайта с установленным счетчиком) повторяются, но происходит это только в часы наибольшей загрузки (с 11-12 до 17-18 по московскому времени).
С проблемами перегрузки в разной степени сталкиваются все системы статистики Рунета, за исключением Smartlog (система существует недавно, и пользователей пока мало).
На практике 10-20% клиентских обращений счетчиками не учитывается; этот процент выше в дни высокой загрузки (будние дни, какие-то события, представляющие массовый интерес) и ниже в дни низкой загрузки.
С учетом вышесказанного следует с огромной осторожностью относиться к предлагаемым рядом статистических систем средствам учета заходов поисковых роботов. Так как роботы не забирают картинки, а вложенные фреймы забирают с опозданием, то единственный способ учета доступа роботов - это вставить на страницы сайта выполняемый код, который будет выполняться при любом обращении к странице и передавать в систему статистики необходимые данные. Если статистическая система «лежит» или перегружена, может получиться так, что и сайт будет недоступен или плохо доступен для индексации поисковой машиной, так как на стороне сервера при каждом обращении к нему исполняется программа (скрипт), ожидающая ответа статистической системы. А это может привести к выпадению сайта из результатов поиска.
Таким образом, рекомендуется использовать для учета заходов индексных роботов только системы обработки журнальных файлов, которые работают независимо от сайта, следовательно, лишены ряда проблем счетчиков.
Заключение
На данный момент не существует способа сбора абсолютно точной статистики о посетителях сайта. Для практического использования данных статистики в бизнесе необходим комплексный подход, использующий все возможные способы сбора данных. Грамотно сделанный сайт позволяет получать данные с использованием как пассивного, так и активного подхода.
Из всех систем сбора статистики только некоторые собирают все доступные пассивному подходу данные и предоставляет доступ к необходимым отчетам - это системы SpyLog и HotLog. Статистика остальных систем используется в основном для обеспечения работы рейтингов (Rambler Top100) и базируется на хостах, что позволяет говорить о несостоятельности указанных рейтингов.
Из вышесказанного очевидно, что возможности по анализу статистических данных возрастают одновременно со стоимостью решения. Как всегда, оптимальный выбор зависит от круга решаемых задач и бюджета.
В то же время оценка реальной эффективности сайта без детального анализа посещаемости с учетом целевых посетителей практически невозможна, что делает установку того или иного продвинутого решения практически неизбежной. На сегодняшний день это означает либо ежедневный ручной сбор данных из бесплатного счетчика Liveinternet, либо покупку того или иного решения по анализу лог-файлов за несколько сотен долларов.
Список литературы
1. Информатика. Учебник. Под общ. ред. А.Н. Данчула. - М.: Изд-во РАГС, 2010. - 528 с.
2. Информационные технологии управления: Учеб. пособие для вузов / Под ред. проф. Г.А. Титоренко, - М.: ЮНИТИ-ДАНА, 2006.
3. Могилев А.В., Пак Н.И., Хённер Е.К. Информатика. - М.: Академия, 2009. - 848 с.
4. Олифер В.Г., Олифер Н.А. Компьютерные сети. - СПб.: Питер, 2008.
5. Соболь Б.В. Информатика. Учебник. 3-е изд., доп. и перераб. - Ростов н/Д: Феникс, 2011. - 446 с.
6. Фридланд А.Я. Информатика и компьютерные технологии. Основные термины. Толковый словарь. 3-е изд., испр. и доп. - М.: АСТ, Астрель, 2008. - 272 с.
Размещено на Allbest.ru
...Подобные документы
Преимущества языка PHP и структура базы данных. Схема алгоритма и внешний вид главной страницы и страниц сайта, страницы с независимым рейтингом. Анализ типичных ошибок в программах. Расчёт себестоимости и трудоёмкости решаемой задачи, листинг программы.
дипломная работа [4,1 M], добавлен 22.07.2015Формирование базы данных MS Access, операции с таблицами. Модификации базы данных. Использование связных таблиц для создания форм и отчетов. Работа с информацией при помощи запросов. Составление страницы удаленного доступа и результаты работы макросов.
лабораторная работа [1,3 M], добавлен 25.02.2014Особенности разработки Web-страницы, с использованием Microsoft Word. Алгоритм работы: сохранение документа Word, как веб-страницы; просмотр веб-страницы, создание гиперссылок. Настройка и проверка Web-страницы с помощью программы Internet Explorer.
контрольная работа [2,4 M], добавлен 03.04.2010ASP – внутренняя технология, позволяющая подключать программы к web-страницам и обеспечивать чтение и запись в базе данных. Код разработанной ASP-страницы и его описание. Внешний вид полученного ответа на запуск ASP-страницы. HTML-код файла отчета.
лабораторная работа [219,1 K], добавлен 05.04.2015Создание автоматизированной системы по сбору и анализу статистических данных сайта. Принципы сбора статистических данных. Исследование информационных потоков. Обзор современных СУБД и языков программирования. Логическая и физическая модель базы данных.
дипломная работа [3,0 M], добавлен 08.07.2012Описание проектирования базы данных обувного магазина "Престиж". Преобразование концептуальной модели базы данных в реляционную модель; описание процесса создания таблиц, форм, отчетов, запросов. Разработка рекламы для магазина в виде HTML-страницы.
курсовая работа [3,9 M], добавлен 04.02.2013Разработка структурной схемы системы. Выбор и обоснование не указанных в задании элементов. Анализ временных параметров системы. Разработка файла конфигурации для системы сбора-обработки данных на языке AHDL. Моделирование цифровой части системы.
курсовая работа [1,1 M], добавлен 26.10.2014Правила создания Web-сайта по вопросам медицинского страхования: разработка главной страницы (фреймовая структура), разделов, посвященных вопросам обязательного и добровольного страхования, активной asp-страницы, содержащей опрос для посетителей.
курсовая работа [2,3 M], добавлен 20.06.2010СУБД Microsoft Access и ее основные возможности. Набор визуальных средств разработки. Удобный графический интерфейс, ориентированный на комфортную работу пользователя. Таблицы, отчеты, формы и запросы базы данных Access, ее модули, страницы и макросы.
реферат [24,2 K], добавлен 16.12.2014Устройства внешней памяти. Система управления базами данных. Создание, ведение и совместное использование баз данных многими пользователями. Понятие системы программирования. Страницы доступа к данным. Макросы и модули. Монопольный режим работы.
реферат [27,5 K], добавлен 10.01.2011Порядок сбора данных с помощью программного обеспечения "ПРОЛОГ". Языки программирования VBA и HTML, их характерные особенности. Web-сервера Apache, принцип работы серверной системы. Реализация сбора данных и разработка сайта с показаниями приборов.
дипломная работа [4,4 M], добавлен 24.09.2014Технология сбора информации традиционными методами. Правила сбора оффлайновой информации. Технические средства сбора информации. Операции для быстрого восстановления данных в системах хранения. Технологический процесс и процедуры обработки информации.
курсовая работа [304,5 K], добавлен 02.04.2013Понятие web-страницы, классификация. Принципы создания и основные элементы. Пример контента сайта "Академия детства". Стандарты разработки дизайна для сайтов дошкольных учреждений. Шаблон главной страницы. Программный инструментарий по разработке.
курсовая работа [409,2 K], добавлен 13.01.2014Формирование основных таблиц базы данных деканата и устанавливание к ним ключей. Заполнение баз необходимыми сведениями. Формулировка схем данных форм и запросов. Настройка некоторых запросов по своим свойствам. Создание форм через "мастера форм".
контрольная работа [1,0 M], добавлен 07.01.2011Исследование характеристик и функциональных возможностей системы управления базами данных Microsoft Office Access. Определение основных классов объектов. Разработка базы данных "Делопроизводство". Создание таблиц, форм, запросов, отчетов и схем данных.
реферат [1,3 M], добавлен 05.12.2014Система компьютерной обработки данных для сбора, систематизации, статистической обработки, анализа результатов учебного процесса за четверть, полугодие, год. Модуль обработки данных о качестве обучения, итогов успеваемости и данных о движении учащихся.
реферат [22,5 K], добавлен 05.02.2011Логическое моделирование данных. Структура реляционных данных. Ограничения, которые должны выполняться в любой реляционной базе данных. Запрос на выборку с параметром, перекрестные запросы. Создание запроса в режиме SQL. Создание формы при помощи мастера.
курсовая работа [1,2 M], добавлен 09.09.2012Характеристика Microsoft Access. Создание структуры базы данных. Определение основных тем таблиц базы данных и информации, которую будут содержать поля таблиц. Создание таблиц, запросов, форм и отчетов. Страницы доступа к данным. Макросы и модули.
курсовая работа [1,1 M], добавлен 09.12.2012Возможности системы управления базами данных Access. Структура простейшей базы данных: свойства ее полей, типы данных, безопасность и режим работы. Определение связей между таблицами в базе данных. Использование запроса на выборку, макроса и отчетов.
курсовая работа [1,7 M], добавлен 05.12.2010Разработка проекта базы данных для сбора данных в компании, владеющей сетью ресторанов, с целью ведения контроля над заведениями, накопления и хранения информации о деятельности каждого ресторана в сети. Реализация запросов для получения информации.
курсовая работа [501,7 K], добавлен 02.12.2014