9 причин запустить поискового робота на ваш сайт
Поисковой робот, “веб-паук” или кроулер (англ. crawl – “ползать”) – настоящий маст-хэв каждого уважающего себя специалиста по поисковому маркетингу. Первое и самое главное правило органического поиска заключается в том, что поисковая система должна иметь возможность “доползти” до страницы, чтобы ее проранжировать и таким образом привлечь трафик и продажи. Если же поисковик не может добраться до определенных страниц вашего сайта, тогда в глазах поисковой системы их просто не существует. И, соответственно, только те страницы, о существовании которых поисковому роботу известно, будут проранжированы для поисковой выдачи.
Да, вы можете создать Sitemap (карту сайта) с помощью XML, показывая поисковым системам существующие страницы. Но в одиночку этот файл сможет помочь только в индексировании страниц. Проранжировать страницы Sitemap XML не поможет, разве что у вас просто не с кем конкурировать.
Ваша SEO-производительность зависит от глубины сканирования вашего сайта. Оптимизируя сайт, вам для начала необходимо подобрать хороший кроулер. Несколько рекомендаций по кроулеру мы оставили на конец этого материала, а пока сфокусируемся на том, почему, собственно, нужно сканировать свой сайт.
Узнать, какие страницы недоступны поисковому роботу
Используя поисковой робот, который ведет себя подобно традиционным веб-кроулерам Google, найдите страницы вашего сайта, которые для него существуют и не существуют. Действительно ли есть на сайте те товары, которые, как вы думаете, там есть? В той ли они категории, что вы думаете? Может быть, ваша платформа создала страницы, о которых вы не знали? Есть ли на вашем сайте страницы-дубликаты?
Найти блоки на пути у робота
Если станица не появляется в отчете по сканированию, значит у кроулера нет к ней доступа. Поэтому сканируя output-файл, уделите особое внимание недостающим страницам. Возможно, кроулер не смог к ним добраться. Зная, что где-то есть блок для сканирования, вы можете определить его, в зависимости от того, каких именно страниц недостает.
Слетели страницы-фильтры цвета, стиля и размера? Тогда, скорее всего, у вас очень распространенная и достаточно неприятная проблема: AJAX-фильтры обновляются и изменяют вид страницы на экране, не меняя при этом URL этой страницы. Если робот не нашел страницы с определенными комбинациями букв в URL, один из ваших файлов robots.txt, скорее всего, запрещает к индексации больше, чем ему предназначено.
Найти запрещенные URL
Некоторые кроулеры могут вам подсказать, какие страницы могут быть проранжированы, если бы они не были заблокированы запретом robots.txt. Эта полезная функция сильно облегчает поиск и разблокирование страниц, которые были запрещены случайно.
Найти ошибки 404
Почти у каждого коммерческого сайта есть ошибки 404 (“не найдено”). На многих сайтах так выглядит страница продукта, который был снят с производства. Как правило, такая страница становится “несканируемой”, что, в принципе, удобно для поиска юзером. Поисковики понимают, что страница существовала, потому что они ее проиндексировали. Увидев ошибку 404, они в итоге деиндексируют эту страницу.
Но поисковые системы также рассматривают страницы с ошибкой 404, которые ведут к внутренней навигации сайта, признаком некачественного покупательского опыта. В случае слишком большого количества этих ошибок или в комбинации с другими подобными проблемами, ошибка 404 может начать сильно тормозить поисковое ранжирование.
Некоторые способы получить отчет по 404 показывают только URL, возвращающий ошибку 404. Кроулер же покажет конкретные 404-страницы с линками так, чтобы поисковые системы смогли к ним добраться. Он также определит сколько и какие страницы ведут к каждой станице с ошибкой, чтобы помочь понять основные причины ошибки и устранить ее.
Найти редиректы
Кроме ошибок 404, кроулеры распознают также редиректы. Коротко говоря, редирект – это способ отправить поисковик (или пользователя) на другой URL-адрес, отличающийся от запрашиваемого. Любой 302 редирект (временный) должен быть проверен на возможность конвертироваться в 301 редирект (постоянный). Вам необходимо определить, сколько редиректов случилось до того, как кроулер оказался на реальной странице, которая выдает 200 OK (успешный ответ от HTTP-сервера), и узнать правильна ли, собственно, страница конечного назначения.
Как сообщили у Google, каждый 301 редирект “сливает” около 15% “важности” (PageRank) страницы в поисковой системе. Поэтому, если это возможно, постарайтесь сократить их количество.
Найти некорректные метаданные
Простой алфавитный фильтр в Excel определит, какие title-теги являются дубликатами друг друга или некорректно написаны (если вы можете получить эти данные в Excel). Но кроулер отлично справится с этой задачей. Он также соберет информацию по метатегам description и keywords.
Без “веб-паука” обзор метаданных – это “пан или пропал”. Проверить достаточное количество страниц на предмет правильных метаданных – слишком утомительно. И всегда есть вероятность, что страницы, которые вы не проверили, как раз имеют некорректные теги. В случае с метатегами robots и noindex, которые “инструктируют” поисковые системы не индексировать страницу, этот остаток непроверенных страниц может дорого вам обойтись.
Проанализировать теги сanonical
Теги сanonical, которые помогают избавиться от продублированного контента на сайте, до сих пор относительно новы для многих компаний, и поэтому в них легко допустить ошибку. Проанализируйте теги сanonical на страницах с дублированным контентом и убедитесь, что каждый дубликат соответствует единой канонической странице.
Собрать специальные данные
Для тех, кто хотел бы выйти за рамки стандартных данных, которые добывает кроулер, произвольные поля (custom fields) дают возможность узнать, существуют ли те или иные поля, наполняются ли они и что содержат. Для начала нужно немного разобраться с регулярными выражениями (“RegEx” – идентифицируют группу элементов) и XPath (идентифицируют часть XML-документа). Так вы научитесь “просить” кроулера добывать данные о ценах продуктов, структурированные данные (Structured Data), теги Open Graph и многое другое.
Воспользоваться аналитикой
Некоторые кроулеры добывают аналитические данные из таких инструментов, как Google Analytics и Google Search Console. Это здорово экономит время в определении потенциального объема оптимизации той или иной страницы. Возможно, страница должна привлекать намного больше трафика? Вы можете узнать эти и многие другие данные для определения степени оптимизации сразу в одном месте, запустив сканирование поисковым роботом.
Выбираем кроулер
Подберите подходящий для вас кроулер. Например, SEO Spider от Screaming Frog делает все, что описано выше. Это хороший поисковой робот с отличным набором функций. Свой отчет SEO Spider экспортирует в Excel. Стоит эта программа 99 фунтов. Но она того стоит. К тому же, Screaming Frog часто обновляет робота, добавляя к нему новые возможности.
Если вы ищете бесплатный вариант, то для небольшого сайта Screaming Frog предлагает демоверсию с ограниченным набором опций и возможностью сканирования до 500 страниц. Среди бесплатных инструментов с возможностью неограниченного использования присмотритесь к Xenu Link Sleuth или GSite Crawler.
Link Sleuth позволяет перегонять данные в CSV, но эти данные будут полезны только для анализа того, какие страницы есть на сайте, анализа на наличие блоков, редиректов и ошибок 404.
GSite Crawler, созданный, кстати, бывшим сотрудником Google, больше направлен на создание карт сайта XML. С его помощью можно также и проверить, какие страницы есть на сайте и есть ли блоки, но у этой программы нет множества других функций, описанных выше.
Итак, чтобы максимально качественно оптимизировать сайт, обязательно запустите в него своего поискового робота. Это поможет вам быстро найти проблемы, которые мешают вашему сайту “подружиться” с поисковыми системами.
- SEO: какие страницы сайта стоит оптимизировать в первую очередь? «
- Как ваш поставщик может помочь в развитии вашего бизнеса? »