Go

пʼятниця, 16 листопада 2018 р.

SMM/ExpX3 :: Как добиться полной и быстрой индексации сайта. Дрессируем поисковых роботов | How to achieve full and fast indexing site. We train search robots

SMM/ExpX3

Как добиться полной и быстрой индексации сайта. Дрессируем поисковых роботов

Работа по максимизации индекса – абсолютно необходимый элемент продвижения больших проектов. Впрочем, и сайты на 20-30 тысяч страниц, существующие не один год, зачастую проиндексированы поисковиками только на 60-70% (сужу по ряду своих клиентов). Это серьезная проблема.
  Довольно очевидно, что каждая страница с минимально полезным контентом вне индекса поисковой системы – это потерянный трафик по низкочастотным запросам. При этом добиться полного присутствия более-менее приличного сайта в выдаче не так уж сложно.

  Единственное затруднение – в том, что здесь нет одного волшебного метода, нужно воздействовать на множество  факторов, не забывая даже о мелочах. Чем больше проект, тем большая аккуратность требуется. Разберемся, на что именно нужно обращать внимание.

Основы (спойлер)

Для начала – несколько общих замечаний.
  • Полнота и скорость индексации сильно зависит от структуры сайта и логики организации контента на нем. Так что думать о дружбе с пауками поисковиков нужно на этапе разработки, а не после десятого апдейта. Когда нет технических ограничений и страха “не тронь что хоть как-то работает”.
  • Методы управления индексом достаточно универсальны, однако как и везде в SEO, самый лучший совет вы можете получить из анализа внутренней статистики. Нередко бывает, что развитию ресурса мешает мелкая техническая ошибка и если ее не устранить, то вся кропотливая работа будет насмарку. Анализ логов сервера, выделение общих свойств у проиндексированных и “выплюнутых” поисковиком страниц сайта и т.д. помогают найти подобные узкие места.
  • Отслеживание индексации лучше вести несколькими способами. Панели вебмастеров могут давать ценную информацию, но ей не стоит доверять полностью (особенно для больших сайтов). В случае использования сторонних сервисов стоит узнать, каким способом они делают проверку.

А теперь конкретика.

Доклад Олега Шестакова

Для начала приведу презентацию с ноябрьской Optimization-2015. Этот доклад – отличное руководство к действию, перечислено едва ли не все, что нужно знать и внедрять.

Дополнения и уточнения

Конечно, ограниченный по времени доклад не может охватить все нюансы. Добавлю несколько важных комментариев.

Почему нужно заботиться и о Google?

В докладе основное внимание уделено “заталкиванию” страниц в Яндекс. Неудивительно: скорость индексации у Google значительно выше, проблемы возникают гораздо реже. Но это не значит, что нет смысла постараться ускорить индексацию еще больше! Ведь проиндексированные Гуглом страницы начинают получать низкочастотный трафик. Это фиксируется Метрикой (вы ведь не забыли ее поставить?) и браузерными расширениями, что помогает “расшевелить” Яндекс.

Как сэкономить бюджет сканирования: используем Last-Modified и If-Modified-Since

С настройкой этих заголовков путаются даже опытные SEO-шники. По Рунету гуляет несколько инструкций c PHP-кодами, которые отдают в заголовке текущее время, что, разумеется, никакой пользы принести не может. В то же время, логика использования этих заголовков достаточно проста. Вкратце:
  1. Страница сайта должна отдаваться с заголовком Last-Modified, в котором указана РЕАЛЬНАЯ дата изменения этой страницы.
  2. Если робот/браузер запрашивает страницу, указывая If-Modified-Since, то ваш сервер должен сравнить дату, которая в нем указана, с датой изменения страницы и в ответ выдать либо саму страницу с кодом 200 (если изменения произошли позже даты, которую сообщил робот) либо, если изменений не было – заголовок 304 Not Modified (контент при этом не отдается!).
Вся магия именно во втором пункте: получив в ответ заголовок 304 Not Modified робот уйдет на другие страницы, не затратив почти никаких ресурсов на уже имеющийся в индексе документ (затраты на обмен заголовками несравнимы с затратами на скачивание всего документа). Это одна из основ экономии краулингового бюджета.
Таким образом, настройка корректной работы с If-Modified-Since – хороший способ ускорения индексации. Правда, здесь есть два “но”:
  • Если страницы на вашем сайте генерируются из десятков независимых блоков, отследить и передать в заголовок время изменения может быть непросто. Могут возникнуть и другие технические сложности.
  • По моим наблюдениям, последние пару лет Яндекс или игнорирует If-Modified-Since или использует его эпизодически.
Взял для пробы лог-файл, содержащий в общей сложности 12 000 запросов Яндекса. Среди них нет ни одного с кодом 304! При этом в Google и Bing все работает корректно (где-то треть запросов Google – с кодом 304). Выглядит это примерно так:
При этом инструмент проверки ответа сервера в Яндекс.Вебмастере рапортует, что все хорошо.
Тем не менее, использовать настройку этих заголовков полезно, хотя бы для ускорения попадания в Google (см. выше).
UPD 12 мая 2017. Бот Яндекса тоже может корректно обрабатывать заголовок. Нечасто, но ответ 304 все-таки встречается в логах. При этом в Вебмастере, где недавно появился функционал отслеживания активности робота, это не отображается.

Настраиваем sitemap.xml

Теоретически, стандарт  для sitemap.xml поддерживает указание даты изменения:
а также частоты изменения контента:
Важно: параметры часто генерируются плагинами для CMS “от балды” (а программисты в них особо не вникают), что конечно же неправильно.
С другой стороны, как показал предыдущий пункт, практика часто расходится с тем, что написано в хелпе поисковика. Проверка эффективности указания дат с соблюдением чистоты эксперимента – довольно трудоемкое дело, так что тут сложно что-то говорить с уверенностью. В любом случае, настроить правильную генерацию sitemap.xml несложно. В крайнем случае можно сделать документ в формате txt – просто перечень url, без параметров. Главную задачу – обеспечить дополнительную точку захода робота на сайт и такой файл выполнит, а ошибиться там негде.

Оптимальная структура url для индексации

В докладе отлично рассказано о роли структуры url (слайд 6).
У меня только несколько замечаний:
  • Есть подозрение, что наличие на сайте кластеров документов, сгруппированных по url может помогать всему кластеру лучше ранжироваться по связанным запросам. Логика такая же как и в отношении параметра “полнота ответа в нише”. Поэтому априори отказываться от паттернов url с вложенностью не стоит. Если кластер предвидится небольшой – то краулингового бюджета должно хватить в любом случае.
  • В качестве удачного примера url приведен “site.ru/12345/skorovarka-f-555-s”, я бы сделал скорее так: “site.ru/12345skorovarka-f-555-s”. Слеш все-таки ассоциируется с категорией, кажется, что “хвост” до слеша можно отбросить и получить имеющую какой-то значимый контент страницу. Впрочем, это уже совсем мелочь.
  • По моим наблюдениям, неплохой вариант в плане максимизации индекса –  разнести контент по поддоменам; кластер moskva.site.ru будет иметь больший краулинговый бюджет, чем site.ru/moskva/. Конечно, это не всегда разумно, но если загон в индекс – самая приоритетная задача, вариант нужно рассматривать в первую очередь.

Twitter и индексация

Олег Шестаков упомянул, в докладе, что “Посты из Twitter за 2-5 рублей не работают, уже давно”. Тут не соглашусь. Сам покупаю как раз по 5 рублей, см. кейс на эту тему. Впрочем, по сути все верно, просто дело не в цене, а в правильном отборе доноров: посты имеет смысл покупать лишь в человекообразных аккаунтах, их критерии есть в докладе.

Внутренняя перелинковка для улучшения индексации

В дополнение к хабовым страницам, нужно ставить ссылки и с рядовых документов.
Общий принцип очень прост: постараться как можно лучше связать все страницы сайта между собой (так, чтобы с любой можно  было попасть на любую другую по цепочке ссылок, минуя главную), при этом не в ущерб удобству использования и другим задачам перелинковки.
Простой и эффективный вариант – кратная кольцевая перелинковка между документами одной рубрики. Страница 1 ссылается на 2,3,4, страница 2 – на 3,4,5, последняя – на 1, 2,3. Для достижения идеала кольцо нужно усложнять и адаптировать к особенностям проекта, но это уже гораздо лучше, чем очень часто используемые блоки “последние новости” или “популярные товары”, когда все ссылки получает 5-10 документов.

Bonus: рецепт быстрой индексации для нового сайта

Неоднократно применял для новых больших сайтов следующий прием (в качестве дополнительного “пинка” для поисковых пауков):
  1. Создаем интересную для широкой аудитории страницу с онлайн-калькулятором, простой игрой или шуточным тестом. Формат – любой, главное чтобы эта страница была хоть как-то связана с темой сайта и предполагала активные действия пользователя на странице (ну вы поняли…).
  2. Устанавливаем на странице Метрику и обязательно – ссылки на основные хабовые страницы. Если по ним еще и кликать будут – совсем хорошо.
  3. Делаем небольшую рекламную кампанию в соцсетях, привлекаем обильный социальный трафик на эту страницу. Бюджет обычно 2-3 тысячи рублей при условии умелого выбора площадок для рекламы.
В итоге получаем посещаемую страницу с кучей социальных откликов, которой интенсивно пользуются реальные живые люди. Это жирный плюс в “карму” молодого сайта. А благодаря ссылкам на хабовые страницы – еще и широкие “ворота” для поисковых роботов в дополнение к главной. В общем, одной страницей убиваем целый выводок зайцев. Пользуйтесь!

Немає коментарів:

Дописати коментар