XML-карты: что такое sitemap.xml и как ей пользоваться
XML-карта (она же sitemap.xml) — это способ сообщить поисковикам информацию о страницах веб-сайта. Если неправильно настроить XML-карты, вы потеряете позиции в выдаче. XML-карту часто путают с HTML-картой. Разница в том, что HTML-карта нацелена на людей, а XML-карта — на роботов.
Попробуем разобраться, как пользоваться XML-картами.
Индексация
Когда вы загружаете XML-карту, вы подсказываете поисковикам информацию о страницах вашего сайта. XML-карта добавляется в Google Search Console или Яндекс.Вебмастер.
XML-карта делает индексацию сайта разумнее, но поисковики относятся к ней как к подсказке, а не руководству к действию.
Помимо XML-карты есть еще два способа работы с индексацией, которые дополняют XML-карту:
Файл robots.txt. Это обычный текстовый файл. Создайте и положите его в корневую папку вашего сайта. Robots.txt запрещает или разрешает поисковикам индексировать разделы сайта или отдельные страницы. Принцип работы хорошо объяснили в Яндексе:
Мета-тег robots. Тег помогает понять поисковикам, можно ли индексировать именно эту страницу и переходить по ссылкам, которые она содержит.
Мета-тег прописывается в шапку страницы и имеет четыре значения:
- Index – можно индексировать
- Noindex – нельзя индексировать
- Follow – можно переходить по ссылкам на странице
- Nofollow – нельзя переходить по ссылкам
Значение можно использовать в паре:
Значения не чувствительны к регистру и их можно комбинировать.
Нельзя одновременно добавлять страницу в XML-карту и robots.txt: так вы отправите поисковик индексировать запрещенную к индексации страницу. Если не хотите индексировать отдельную страницу, пропишите “noindex,follow”. Если вы прописали “noindex,follow”, не добавляйте такую страницу в XML-карту.
Как улучшить качество сайта
Принцип оценки сайта неизвестен: алгоритмы ранжирования постоянно меняются. Яндекс и Гугл дают общие советы:
- Думать о пользователях, а не поисковиках. Дизайн и контент должны быть удобны человеку.
- Привлекать людей только по тем запросам, на которые сайт дает ответы.
- Не накручивать рейтинг искусственно.
С точки зрения пользы для посетителя, есть два типа страниц:
- Обслуживающие страницы (utility pages).
- Целевые страницы (landing pages).
Обслуживающие страницы упрощают работу с сайтом, но сами по себе посетителю не нужны. Чаще это элементы интерфейса и страницы без уникального контента. Запретите поисковикам индексировать вспомогательные страницы: запретите индексацию в robots.txt или пропишите мета-тег “noindex,follow”. Не указывайте их в XML-карте.
Целевые страницы. Это страницы, которые посетитель ищет целенаправленно: каталог товаров, тематические статьи и т. д. Не блокируйте их в robots.txt или мета-тегом “noindex”. Обязательно укажите их в XML-карте.
Допустим, есть сайт на 1000 страниц, 10 из которых — целевые. Если поисковик отправит посетителя на одну из 10 страниц, то скорее всего посетитель уйдет на одну из 990 страниц, где нет полезной информации. Посетитель уйдет с сайта и не решит проблему. Зачем поисковику отправлять посетителя на такой сайт?
Теперь представим, что целевых и обслуживающих страниц на сайте поровну:
- 500 целевых страниц
- 500 вспомогательных страниц
Страницы, которые вы укажете в XML-карте, поисковики расценят как целевые. Могут сложиться две ситуации:
Ситуация 1: В XML-карте указаны только целевые страницы.
Поисковик с радостью продвинет сайт в выдаче, ведь для него сайт состоит из 500 полезных страниц. 500 вспомогательных страниц не участвуют в индексации и не сказываются на качестве сайта.
Ситуация 2: в XML-карте указаны и целевые, и обслуживающие страницы.
Поисковик не захочет продвигать такой сайт. Он по-прежнему хорошо оценит целевые страницы, но качество сайта пострадает: обслуживающие страницы поисковик расценит как целевые. Поскольку обслуживающие страницы не несут пользу, поисковик оценит их на «тройки» и «двойки». Качество сайта пострадает, его позиция в выдаче будет ниже.
Страницы, которые не указаны в XML-карте, все равно могут индексироваться, поэтому может повториться вторая ситуация.
Чтобы увидеть индексируемые страницы, вбейте в Яндексе или Гугле «site:search». Вы быстро найдете вспомогательные страницы: как правило они идут в конце выдачи. Если таких страниц немного, заблокируйте их мета-тегом «noindex,follow» или в robots.txt.
Пример использования site:search
А вот выявленная страница, которая не несет пользы для посетителя:
Как пользоваться Robots.txt и мета-тегом robots
Используйте Robots.txt, чтобы запретить индексацию целых разделов. Поисковики ничего не будут там индексировать или переходить по ссылкам. Страницы заблокированного раздела не передают свой вес другим страницам и не показываются в поисковой выдаче.
Здесь блокируются страницы, которые являются скриптами: мы не хотим, чтобы такие страницы передавали ссылочный вес другим сайтам и индексировались как целевые страницы.
Можно прописать «disallow: /scripts/», тогда все скрипты в папке «scripts» не будут индексироваться.
Чтобы отдельные страницы не индексировались, но передавали вес, пропишите мета-роботов “noindex,follow”.
Страница «Свяжитесь с нами» — обслуживающая страница, но у нее большой ссылочный вес: на нее часто кликают. Поскольку это обслуживающая страница, мы не хотим ее индексировать, но хотим, чтобы она передавала свой вес другим разделам сайта. Чтобы запретить индексацию и не потерять ссылочный вес, мы прописываем для этой страницы “noindex,follow”.
Есть тонкость: не используйте robots.txt для того, чтобы спрятать личную информацию пользователей. На эту информацию могут вести посторонние ссылки, и информация будет высвечена в поисковой выдаче. Пропишите мета-тег “noindex,follow” в шапке страницы.
Если сайт большой, поисковики могут постоянно его индексировать. Это может повлиять на скорость работы сайта.
Если вы хотите в первую очередь проиндексировать часто обновляющиеся разделы, блог или продуктовые категории, укажите их в XML-карте. Так вы подскажете поисковику, что считаете эти страницы более приоритетными. Поисковик проиндексирует их в первую очередь, а оставшиеся целевые страницы проиндексирует позже.
Как решить проблемы с индексацией
В этом примере в XML-карте перечислено 2698 страниц, но Гугл проиндексировал только 1155.
Google Search Console покажет число проиндексированных страниц, но не сами страницы.
Допустим, у вас электронный магазин на 125 000 страниц. Все страницы целевые и делятся на 3 категории:
- 100 000 продуктовых страниц
- 20 000 подкатегорий товара
- 5 000 страниц категорий товара
Вы отправляете XML-карту на 125 000 страниц, но поисковик индексирует только 87 000 страниц. Как найти непроиндексированные страницы?
Создайте отдельные XML-карты для каждой категории страниц. Можно даже создать XML-карты для подкатегорий (XML-карта для 5 000 товаров — XML-карта для 4000 пылесосов и XML-карта для 1000 компьютеров). Добавьте одни и те же продуктовые страницы в разные XML-карты — ничего страшного не будет.
Так вы получите индексацию, близкую к 100%. Если индексация далека от 100%, нужно проработать сами страницы: добавить описание, увеличить вес ссылок. Вы можете обнаружить, что есть товарные категории без товара. Для таких категорий лучше прописать “noindex,follow” (не индексировать страницу, но переходить по ссылкам в ней) и убрать из XML-карты.
Чтобы выявить проблему, создайте XML-карту по каждой товарной категории, но с небольшой выборкой — 100 страниц в каждой категории достаточно.
Проблемы могут быть такими:
- Страницы без картинок не индексируются поисковиком
- Страницы со слишком коротким описанием (менее 200 слов уникального описания) не индексируются
- Страницы без комментариев не индексируются
Ваша цель — обнаружить проблемные элементы, которые мешают индексации. Используйте общий процент индексации каждой XML-карты для обнаружения проблемных элементов.
Допустим, страницы не индексируются из-за описания: всего 100 000 страниц, и одна пятая часть, 20 000 страниц, содержит слишком короткое описание. Расширьте описание или запретите индексацию через “noindex,follow”. Если страницы не привлекают много трафика, а описание вы берете с сайта производителя, то не тратьте время на описание для всех 20 000 страниц. Уберите их из индексации: поисковик все равно их не проиндексирует, а они только ухудшат качество сайта. Не забудьте исключить эти страницы из XML-карты.
Как автоматически обновлять XML-карты
Если у вас сайт на 100 000 страниц, как постоянно отслеживать: надо ли добавить или исключить страницу из XML-карты?
XML-карты не обязаны быть статичными файлами или иметь расширения .xml. Используйте автоматический генератор XML-карт.
В генераторе вы можете задать правила, по которым страница попадет в XML-карту или ей присвоится “noindex,follow”. Возвращаясь к нашему примеру: как только вы увеличите описание с 50 слов до 200, страница автоматически попадет в XML-карту и ей присвоится уже “index,follow”.
Как создать XML-карту для видео
У Яндекса есть инструкция, как это сделать. Если у вас много видеоматериалов и вы используете собственный плеер, вам следует проиндексироваться.
Что в итоге:
- Пользуйтесь XML-картами. Они помогают поисковикам лучше понять структуру вашего сайта.
- Делайте сайт для людей, а не поисковиков. Продумайте дизайн, создавайте актуальный контент.
- Аккуратно работайте с robots.txt и мета-тегами robots. Не отправляйте поисковик на заблокированные страницы.
- Поймите, какие страницы целевые, а какие — вспомогательные. Целевые индексируйте, вспомогательные закрывайте в robots.txt или посредством “noindex,follow”.
- Используйте в поисковике «site:search», чтобы увидеть все индексируемые страницы. Выявите вспомогательные страницы, добавьте их в robots.txt или пропишите “noindex,follow”.
- Создавайте несколько XML-карт, чтобы выявить проблемы с индексацией.
- Используйте XML-генераторы для создания динамичных XML-карт.
- Используйте XML-карты для видео.
Желаем успехов!
По материалам moz.com