Рекомендации по robots.txt для интернет-магазина
Настройка файла robots.txt является одной из базовых работ, которые необходимо провести перед запуском сайта. В том числе и онлайн-магазина. Этот текстовый файл находится в корневой папке сайта, и содержит в себе рекомендации относительно индексирования сайта поисковыми роботами, а именно – позволяет обозначить директории/страницы, которые открыты для индексации, и указать те, которые стоит закрыть от попадания в индекс.
Подробную информацию относительно использования файла robotx.txt можно найти на множестве сайтов, например, справке для вебмастеров от Яндекса. Мы рекомендуем вам использовать ее в случае, если вы составляете этот файл впервые. А в этой статье давайте рассмотрим вопрос, что именно нужно закрывать от индексации, по отношению к интернет-магазину.
Прежде всего, стоит понимать, что закрывать нужно так называемые «мусорные» и дублированные страницы. В индексе нужно оставлять только страницы с самими товарами, отзывы, страницы с важной информацией и т. п. Закрывать от индексации нужно следующие страницы:
- страницы с результатами поиска;
- страницы с тегами/метками;
- страницы фильтров и сортировки;
- страницы оформления заказа и корзины;
- страницы регистрации и авторизации;
- профиль/личный кабинет покупателя;
- и т. п.
То есть, закрывать от регистрации необходимо те страницы, которые не имеют информационной ценности и содержат дублированный контент.
Тем не менее, проблему появления в индексе дублей можно решить и другими методами, на уровне движка и путем применения тега rel="canonical"
. На примере пагинации в категориях, при наличии ссылок вида:
http://yoursite.ru/tovar?page=1
http://yoursite.ru/tovar?page=4
http://yoursite/tovar?page=8
Можно прописать в коде шапки дублированных страниц: и, таким образом, указать поисковым роботам, что канонической страницей у нас является yoursite.ru/tovar?page=1
Например, в случае со стандартным файлом robots для интернет-магазина, работающего на ImageCMS Shop, количество записей будет минимально, так как проблема дублей решена большей частью на уровне самого движка.
- О чем можно написать в блог, если у вас творческий кризис? «
- Facebook vs Google For Startups → Who Will Win? »
Для закрытия дублей лучше использовать rel="canonical". Сам файл роботс.тхт имеет один большой минус, роботы каждый раз пробуют индексировать эти страницы. Пагинацию лучше не закрывать от индекса, нужно сделать уникальными.