XML-карты: что такое sitemap.xml и как ей пользоваться

20 мая 2017

|In Все публикации, Статьи, Статьи и кейсы

XML-карта (она же sitemap.xml) — это способ сообщить поисковикам информацию о страницах веб-сайта. Если неправильно настроить XML-карты, вы потеряете позиции в выдаче. XML-карту часто путают с HTML-картой. Разница в том, что HTML-карта нацелена на людей, а XML-карта — на роботов.

Попробуем разобраться, как пользоваться XML-картами.

Индексация

Когда вы загружаете XML-карту, вы подсказываете поисковикам информацию о страницах вашего сайта. XML-карта добавляется в Google Search Console или Яндекс.Вебмастер.

XML-карта делает индексацию сайта разумнее, но поисковики относятся к ней как к подсказке, а не руководству к действию.

Помимо XML-карты есть еще два способа работы с индексацией, которые дополняют XML-карту:

Файл robots.txt. Это обычный текстовый файл. Создайте и положите его в корневую папку вашего сайта. Robots.txt запрещает или разрешает поисковикам индексировать разделы сайта или отдельные страницы. Принцип работы хорошо объяснили в Яндексе:

Мета-тег robots. Тег помогает понять поисковикам, можно ли индексировать именно эту страницу и переходить по ссылкам, которые она содержит.

Мета-тег прописывается в шапку страницы и имеет четыре значения:

Index – можно индексировать
Noindex – нельзя индексировать
Follow – можно переходить по ссылкам на странице
Nofollow – нельзя переходить по ссылкам

Значение можно использовать в паре:

Значения не чувствительны к регистру и их можно комбинировать.

Нельзя одновременно добавлять страницу в XML-карту и robots.txt: так вы отправите поисковик индексировать запрещенную к индексации страницу. Если не хотите индексировать отдельную страницу, пропишите “noindex,follow”. Если вы прописали “noindex,follow”, не добавляйте такую страницу в XML-карту.

Как улучшить качество сайта

Принцип оценки сайта неизвестен: алгоритмы ранжирования постоянно меняются. Яндекс и Гугл дают общие советы:

Думать о пользователях, а не поисковиках. Дизайн и контент должны быть удобны человеку.
Привлекать людей только по тем запросам, на которые сайт дает ответы.
Не накручивать рейтинг искусственно.

С точки зрения пользы для посетителя, есть два типа страниц:

Обслуживающие страницы (utility pages).
Целевые страницы (landing pages).

Обслуживающие страницы упрощают работу с сайтом, но сами по себе посетителю не нужны. Чаще это элементы интерфейса и страницы без уникального контента. Запретите поисковикам индексировать вспомогательные страницы: запретите индексацию в robots.txt или пропишите мета-тег “noindex,follow”. Не указывайте их в XML-карте.

Целевые страницы. Это страницы, которые посетитель ищет целенаправленно: каталог товаров, тематические статьи и т. д. Не блокируйте их в robots.txt или мета-тегом “noindex”. Обязательно укажите их в XML-карте.

Допустим, есть сайт на 1000 страниц, 10 из которых — целевые. Если поисковик отправит посетителя на одну из 10 страниц, то скорее всего посетитель уйдет на одну из 990 страниц, где нет полезной информации. Посетитель уйдет с сайта и не решит проблему. Зачем поисковику отправлять посетителя на такой сайт?

Теперь представим, что целевых и обслуживающих страниц на сайте поровну:

500 целевых страниц
500 вспомогательных страниц

Страницы, которые вы укажете в XML-карте, поисковики расценят как целевые. Могут сложиться две ситуации:

Ситуация 1: В XML-карте указаны только целевые страницы.

Поисковик с радостью продвинет сайт в выдаче, ведь для него сайт состоит из 500 полезных страниц. 500 вспомогательных страниц не участвуют в индексации и не сказываются на качестве сайта.

Ситуация 2: в XML-карте указаны и целевые, и обслуживающие страницы.

Поисковик не захочет продвигать такой сайт. Он по-прежнему хорошо оценит целевые страницы, но качество сайта пострадает: обслуживающие страницы поисковик расценит как целевые. Поскольку обслуживающие страницы не несут пользу, поисковик оценит их на «тройки» и «двойки». Качество сайта пострадает, его позиция в выдаче будет ниже.

Страницы, которые не указаны в XML-карте, все равно могут индексироваться, поэтому может повториться вторая ситуация.

Чтобы увидеть индексируемые страницы, вбейте в Яндексе или Гугле «site:search». Вы быстро найдете вспомогательные страницы: как правило они идут в конце выдачи. Если таких страниц немного, заблокируйте их мета-тегом «noindex,follow» или в robots.txt.

Пример использования site:search

А вот выявленная страница, которая не несет пользы для посетителя:

Как пользоваться Robots.txt и мета-тегом robots

Используйте Robots.txt, чтобы запретить индексацию целых разделов. Поисковики ничего не будут там индексировать или переходить по ссылкам. Страницы заблокированного раздела не передают свой вес другим страницам и не показываются в поисковой выдаче.

Здесь блокируются страницы, которые являются скриптами: мы не хотим, чтобы такие страницы передавали ссылочный вес другим сайтам и индексировались как целевые страницы.

Можно прописать «disallow: /scripts/», тогда все скрипты в папке «scripts» не будут индексироваться.

Чтобы отдельные страницы не индексировались, но передавали вес, пропишите мета-роботов “noindex,follow”.

Страница «Свяжитесь с нами» — обслуживающая страница, но у нее большой ссылочный вес: на нее часто кликают. Поскольку это обслуживающая страница, мы не хотим ее индексировать, но хотим, чтобы она передавала свой вес другим разделам сайта. Чтобы запретить индексацию и не потерять ссылочный вес, мы прописываем для этой страницы “noindex,follow”.

Есть тонкость: не используйте robots.txt для того, чтобы спрятать личную информацию пользователей. На эту информацию могут вести посторонние ссылки, и информация будет высвечена в поисковой выдаче. Пропишите мета-тег “noindex,follow” в шапке страницы.

Если сайт большой, поисковики могут постоянно его индексировать. Это может повлиять на скорость работы сайта.

Если вы хотите в первую очередь проиндексировать часто обновляющиеся разделы, блог или продуктовые категории, укажите их в XML-карте. Так вы подскажете поисковику, что считаете эти страницы более приоритетными. Поисковик проиндексирует их в первую очередь, а оставшиеся целевые страницы проиндексирует позже.

Как решить проблемы с индексацией

В этом примере в XML-карте перечислено 2698 страниц, но Гугл проиндексировал только 1155.

Google Search Console покажет число проиндексированных страниц, но не сами страницы.

Допустим, у вас электронный магазин на 125 000 страниц. Все страницы целевые и делятся на 3 категории:

100 000 продуктовых страниц
20 000 подкатегорий товара
5 000 страниц категорий товара

Вы отправляете XML-карту на 125 000 страниц, но поисковик индексирует только 87 000 страниц. Как найти непроиндексированные страницы?

Создайте отдельные XML-карты для каждой категории страниц. Можно даже создать XML-карты для подкатегорий (XML-карта для 5 000 товаров — XML-карта для 4000 пылесосов и XML-карта для 1000 компьютеров). Добавьте одни и те же продуктовые страницы в разные XML-карты — ничего страшного не будет.

Так вы получите индексацию, близкую к 100%. Если индексация далека от 100%, нужно проработать сами страницы: добавить описание, увеличить вес ссылок. Вы можете обнаружить, что есть товарные категории без товара. Для таких категорий лучше прописать “noindex,follow” (не индексировать страницу, но переходить по ссылкам в ней) и убрать из XML-карты.

Чтобы выявить проблему, создайте XML-карту по каждой товарной категории, но с небольшой выборкой — 100 страниц в каждой категории достаточно.

Проблемы могут быть такими:

Страницы без картинок не индексируются поисковиком
Страницы со слишком коротким описанием (менее 200 слов уникального описания) не индексируются
Страницы без комментариев не индексируются

Ваша цель — обнаружить проблемные элементы, которые мешают индексации. Используйте общий процент индексации каждой XML-карты для обнаружения проблемных элементов.

Допустим, страницы не индексируются из-за описания: всего 100 000 страниц, и одна пятая часть, 20 000 страниц, содержит слишком короткое описание. Расширьте описание или запретите индексацию через “noindex,follow”. Если страницы не привлекают много трафика, а описание вы берете с сайта производителя, то не тратьте время на описание для всех 20 000 страниц. Уберите их из индексации: поисковик все равно их не проиндексирует, а они только ухудшат качество сайта. Не забудьте исключить эти страницы из XML-карты.

Как автоматически обновлять XML-карты

Если у вас сайт на 100 000 страниц, как постоянно отслеживать: надо ли добавить или исключить страницу из XML-карты?

XML-карты не обязаны быть статичными файлами или иметь расширения .xml. Используйте автоматический генератор XML-карт.

В генераторе вы можете задать правила, по которым страница попадет в XML-карту или ей присвоится “noindex,follow”. Возвращаясь к нашему примеру: как только вы увеличите описание с 50 слов до 200, страница автоматически попадет в XML-карту и ей присвоится уже “index,follow”.

Как создать XML-карту для видео

У Яндекса есть инструкция, как это сделать. Если у вас много видеоматериалов и вы используете собственный плеер, вам следует проиндексироваться.

Что в итоге:

Пользуйтесь XML-картами. Они помогают поисковикам лучше понять структуру вашего сайта.
Делайте сайт для людей, а не поисковиков. Продумайте дизайн, создавайте актуальный контент.
Аккуратно работайте с robots.txt и мета-тегами robots. Не отправляйте поисковик на заблокированные страницы.
Поймите, какие страницы целевые, а какие — вспомогательные. Целевые индексируйте, вспомогательные закрывайте в robots.txt или посредством “noindex,follow”.
Используйте в поисковике «site:search», чтобы увидеть все индексируемые страницы. Выявите вспомогательные страницы, добавьте их в robots.txt или пропишите “noindex,follow”.
Создавайте несколько XML-карт, чтобы выявить проблемы с индексацией.
Используйте XML-генераторы для создания динамичных XML-карт.
Используйте XML-карты для видео.

Желаем успехов!

По материалам moz.com

БЛОГ ADVENTUM