SEO: как работают поисковые системы
Поисковые системы неутомимо бороздят просторы интернета, пробираясь сквозь бесконечное количество информации, чтобы в долю секунды выдать пытливому юзеру то, что он ищет. За мгновенным доступом к информации, который мы уже привыкли воспринимать как данность, на самом деле стоит огромнейшая сложная система поиска данных и программного обеспечения. Как же все это работает?
Рассмотрим на примере Google.
На самом простейшем уровне поисковая система делает всего две вещи:
- Индексирует информацию: находит и хранит информацию о 30 триллионах отдельных страниц всемирной паутины.
- Выдает результат: благодаря сложной комбинации алгоритмов и машинного обучения, идентифицирует и отображает пользователю страницы, наиболее релевантные к его запросу.
Кроулинг и индексация
Как же Google нашел такое огромнейшее количество страниц? Последние 18 лет он гонялся интернетом, открывая для себя страницу за страницей. Программа под названием кроулер – также известна как робот, бот или паук – начинает с определенного стартового набора страниц. Когда робот дальше на своем пути сталкивается с новой страницей, он мгновенно схватывает информацию с этой страницы, включая ее текстовый контент, HTML-код и то, с какими страницами и как связана данная страница. У каждой поисковой системы паук называется по-своему. У Google – это Googlebot.
На рисунке внизу показано пример очень упрощенной схемы пути кроулера.
Пример простого пути кроулера.
Лого слева обозначает начало пути из домашней страницы сайта, где Googlebot находит 184 ссылки. Googlebot переходит по первой ссылке из списка, которая в свою очередь ведет его еще к 135 ссылкам. И так далее. Конечно, этот путь не ограничивается тремя страницами, как на картинке. Кроулер продолжает открывать новые ссылки до тех пор, пока не найдет все релевантные страницы.
На видео ниже инженер отдела качества поиска Google Мэтт Катс очень доходчиво объясняет, как работает Googlebot.
В процессе сканирования сайта боты будут неоднократно натыкаться на одни и те же ссылки. Ведь, например, ссылки в хедере и футере должны быть на каждой странице. Но вместо повторного сканирования, Googlebot просто поймет взаимосвязь между двумя страницами на основе этой ссылки и будет двигаться дальше к новой уникальной странице.
Вся информация, собранная во время такой вылазки робота, – о всех 30 триллионах страниц – сохраняется в огромной базе данных в необъятных дата-центрах. Чтобы получить представление о масштабах всего одного из 15 таких дата-центров, посмотрите официальный виде-тур Google “Внутри центра данных Google”.
Найденная роботом информация сохраняется в индексах внутри дата-центров. Индексы организовывают информацию и дают поисковым системам алгоритм, по которому можно найти релевантную информацию по тому или иному поисковому запросу.
Но индекс – это не темный чулан, куда беспорядочно запихивается вся просканированная информация. Наоборот, индексация – это упорядочивание. В них вместе со свеженайденной информацией о веб-страницах структурировано хранится информация о том, является ли новым тот или иной контент или это его обновленная версия, о контексте этого контента, о ссылочной структуре отдельных сайтов и сети в целом, о синонимах к словам в текстах, о том, когда страница была опубликована, и содержит ли она картинку или видео.
Выдача результата поиска
Каждая страница в поисковой выдаче – это результат поиска, а последовательность, в которой результаты поиска отображаются, – это ранжирование.
Но когда информация уже сканирована и ранжирована, как же Google определяет, что именно нужно показать в результатах? То, как поисковая система принимает решение, что нужно отображать в результатах, связано с ее алгоритмом. Каждая поисковая система использует свои запатентованные алгоритмы, разработанные для как можно более быстрого извлечения из своих индексов самой релевантной и полезной информации для человека, отправившего поисковой запрос.
Три основных фактора ранжирования Google – это контент, ссылки и RankBrain, система искусственного интеллекта машинного обучения. Независимо от того, что каждый поисковик называет своим алгоритмом, базовые функции современных поисковых алгоритмов похожи.
Контент определяет контекстную релевантность. Слова на странице в комбинации с контекстом, в котором они использованы, и страницами, к которым они ведут, определяют то, как контент хранится в индексе и какие поисковые запросы он может удовлетворить.
Ссылки определяют авторитет и релевантность. Они указывают путь для движения робота и выступают сигналами авторитета.
Алгоритмы поисковых систем с помощью комбинаций сотен сигналов и искусственного интеллекта определяют совпадения между контекстом и авторитетом каждой страницы и запросом пользователя. Чтобы отображаться на первой странице поискового результата, страница должна быть среди первых семи-десяти наиболее подходящих страниц по контекстной релевантности и авторитетности.
Без понимания того, как работает поисковая система, трудно добиться успеха в SEO. Для того, чтобы ваш сайт не отставал безнадежно где-нибудь в конце результатов поиска, важно сделать все, чтобы Google мог беспрепятственно и корректно его сканировать и индексировать.
- 17 шагов для настройки подробной аналитики вашего интернет-магазина «
- 5 способов улучшить мобильную конверсию в 2016 году »