Индексация сайта: что это и как её ускорить

Запрет индексации страниц

Запрет индексации с помощью Meta Noindex/X-Robots-Tag


Для гарантированного исключения попадания страниц в индекс можно использовать атрибут Noindex Мета Тега Robots или HTTP-заголовка X-Robots-Tag. Подробнее про этот атрибут можно прочитать тут.

Важно: Использование запрета индексации в через Meta/X-Robots-Tag Noindex вместе с запретом в Robots.txt

При добавлении директивы Noindex в мета-тег Robots и http-заголовок X-Robots-Tag, чтобы ее прочитать, робот должен просканировать страницу, поэтому она должна быть разрешена в файле Robots.txt. Следовательно для точечного запрета индексации страниц иногда требуется снять запрет в robots.txt или добавить директиву Allow, чтобы робот смог переобойти эти страницы.

Несмотря на вышеописанное, запрет в robots.txt в большинстве случаев все таки приведет к тому, что страницы не будут индексироваться, но его нельзя использовать для закрытия персональных данных или страниц с конфиденциальной информацией.

Как запретить индексацию страницы в robots.txt

Стоит сразу упомянуть что запрет в robots.txt не является надежным методом закрытия страниц от индексации.

В файле robots.txt  указываются основные директивы для запрета или разрешения обхода/индексации отдельных страниц или разделов сайта.

Важно: Многие ошибочно считают что директива Disallow в Robots.txt служит для запрета индексации страниц, это не совсем так. Основная цель файла Robots.txt — управление трафиком поисковых роботов на сайте, а не индексацией / переиндексацией и разные поисковые системы по разному интерпретируют запрет

Многие вебмастера не понимают почему после запрета страницы в robots.txt она продолжает находиться в индексе и приносить трафик. Запрет посещения и обновления страницы роботом не означает, что он обязан удалить уже присутствующую в индексе страницу. К тому же для индексации не всегда обязательно физически сканировать страницу, информацию о ней можно собирать из различных источников, например, из анкоров входящих ссылок.

Почему заблокированные в robots.txt страницы отображаются в выдаче?

В Яндексе и Google различается механизм обработки директив файла Robots.txt.  Для Google директива Disallow в robots.txt запрещает лишь обход страниц, но не их индексацию из-за чего часто появляются страницы со статусом:

Для запрета индексации в Google через файл Robots.txt ранее использовалась незадокументированная директива Noindex в Robots.txt, но с сентября 2019 года Google перестал поддерживать ее.

На данный момент для надежного запрета индексации страниц в Google рекомендуется использовать атрибут Noindex Мета Тега Robots и HTTP-заголовка X-Robots-Tag.Яндекс же, наоборот, воспринимает запрет в Robots.txt Disallow: как сигнал к запрету и сканирования и индексирования сайта и после добавления директивы Disallow: страницы будут удалены из индекса.

Использование атрибута canonical для запрета индексации дубликатов

Для консолидации дубликатов или похожих страниц страниц используется атрибут canonical, который указывает поисковикам по какому адресу рекомендуется индексировать страницу. Носит рекомендательный нестрогий  характер.

Два типа использования:

  1. Тег <link> с атрибутом rel=»canonical»
  2. HTTP-заголовок rel=canonical

Использование директивы clean-param для удаления из индекса

Директива clean-param файла Robot.txt используется только Яндексом. Указывает незначащие параметры, которые будут по возможности вырезаться из URL-адресов при обходе сайта. Страницы, запрещенные в Clean-Param будут исключены из индекса.

Инструмент Параметры URL в Google Search Console

Похож на Clean-Param Яндекса в Robots.txt, но управляет только сканированием, а не индексацией.

Запрет индексации через файл .htaccess

Можно заблокировать сайт для посещения роботами с помощью директив в файле .htaccess:

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

SetEnvIfNoCase User-Agent «^Yandex» search_bot

Запрет сканирования, индексации с помощью кодов ответа сервера 3хх/4хх

Чтобы гарантированно запретить роботам скачивать страницы, можно отдавать ботам при сканировании страниц коды:

  1. 301 редирект: особенно подходит для запрета дубликатов и склейки их с основными страницами;
  2. 403 Forbidden: доступ запрещен;
  3. 404 Not Found: не найдено;
  4. 410 Gone: удалено;

Быстрая индексация в Google

1. Google Webmaster

После появления нового материала на сайте, необходимо добавить ссылку на него в файл sitemap.xml. И отправить карту сайта Google через аккаунт в GWT. Еще одной полезной фишкой данного сервиса является возможность отправки URL новой страницы непосредственно на индексацию. Вы сообщаете Google, что у вас появилась новая страница (даете ссылку) и робот в ближайшее время ее проиндексирует.

Как это сделать?

Заходите в аккаунт Google Webmaster и выбираете в меню «посмотреть как Googlebot». Далее указываете ссылку на новую страницу и нажимаете «Получить и отобразить». Google просканирует страницу и отобразит результат в графе «статус».


Если все прошло успешно, у Вас появится действующая кнопка «Добавить в индекс», туда и жмем. Откроется вот такое окно:

Здесь можно выбрать 2 варианта:

  • Сканировать только этот URL. Будет проиндексирована только данная страница. Лимит 500 страниц в неделю
  • Сканировать этот URL и прямые ссылки. В этом случае будут добавлены в индекс и те страницы, на которые идут ссылки с указанного URL. Лимит 10 в месяц.

Гарантий индексации это не дает. Но если информация на странице полезная, все требования поисковой системы к качеству соблюдаются – считайте она в индексе.

2. Социальные сети

Еще один очень популярный и действенный способ ускорения индексации в Google – это добавление ссылок в соц.сети. Лучше всего в этом вопросе помогает Twitter

Важно, чтобы указанная ссылка не просто появилась в Twitter, а распространялась. Поэтому у Вашего аккаунта должно быть как можно больше подписчиков, иначе получить желаемый результат не получится

Полезная фишка данного способа – хэштеги. Если Вы найдете популярный хэштег дня, подходящий к теме Вашей статьи (хотя бы отдаленно), Ваш пост будет более популярным

Значит, и поисковый робот быстрее обратит свое внимание на ссылку

3. RSS

Установите на наиболее обновляемые разделы сайта RSS канал. Так робот сможет отслеживать все новые публикации. Есть специальные сервисы для работы с RSS, например, FeedBurner. Этот сервис принадлежит Google, поэтому его добавление на сайт не останется незамеченным. Но помимо ускорения индексации, FeedBurner может исправить ошибки в RSS ленте, чтобы она корректно отображалась у всех пользователей.

Фишка в том, чтобы совместить Twitter и RSS. То есть, настраиваем кросспостинг из RSS в Twitter и ускоряем процесс индексации. Да и подписчики Ваши будут быстрее узнавать об обновлениях.

4. Перелинковка

О пользе правильной перелинковки уже говорилось много раз. Мы решили добавить ее в список лишь как напоминание. Если у Вас крупный многостраничный сайт – без нее индексация будет очень затрудняться. Позаботьтесь о правильной перелинковке сайта в первую очередь. Иначе все остальные труды по ускорению индексации будут напрасны.

Как проверить индексацию?

Узнать, индексируется ли ресурс, позволяют:

  • Браузерные расширения, например, RDS для Мазилы, Хрома и Оперы. После того, как проверка индексации сайта в ПС будет завершена, рекомендуем отключить этот плагин. Даже если вы знаете, как настроить его, насколько бы правильная ни была настройка, он будет мешать вам, вклиниваясь в коды страниц;
  • Сторонние сервисы, такие как SEOGadget и XSEO.in;
  • Сервисы Яндекс.Вебмастер и Гугл GSC;
  • Специальные операторы (подача запроса в ПС). Для обоих крупнейших поисковиков действует оператор site. Введите в поисковой строке запрос вида – site:https://название вашего сайта. В правой верхней части экрана вы увидите результаты.

Посмотреть результаты проверки ПС и провести анализ индексации сайта следует обязательно. Проблемы индексации – не редкость, в особенности, если для разработки проекта был использован бесплатный конструктор сайтов.

Дублирование

Подразумевает наличие нескольких идентичных страниц одного сайта, в которых содержится одинаковый контент.

Виды дублей:

  • страницы, адрес которых различается знаком «/». Например, «www.primer_saita.ru/Tovar/cart/GM928» и абсолютно аналогичный «…/GM928/». Часто встречается такая ситуация с карточкой одного и того же товара, которая относится к разным категориям (коньки, подходящие, как для девочек, так и для мальчиков);

  • дубли-страницы с незначащими параметрами, которые не воспринимает робот-поисковик. Примеры некоторых незначащих элементов для робота-поисковика, можно увидеть ниже:

Неприятности, которые могут возникнуть из-за дублей:

  • бот поисковой системы, вместо индексации необходимого и корректного адреса может посещать и анализировать множество ненужных страниц;

  • в базу данных поиска робот-анализатор может включить только одну страницу из всех возможных дублей, опираясь на свое усмотрение.

Как бороться с дублированными страницами:

Прописать атрибут rel= «canonical» тега со своим значением, то есть «выделить» страницу, расставив «приоритеты» цепочкой. Например, есть две страницы:

Допустим, что предпочитаемый адрес, который нам нужен – это вторая ссылка. Тогда, в первой странице необходимо прописать в ее html-коде следующую строчку:

Важно! Алгоритм анализа поисковым роботом устроен таким образом, что не считает данную директиву строгой, поэтому бот рассматривает ее, как предполагаемый вариант, который может быть проигнорирован!

  • «редирект 301», о котором мы уже говорили ранее. Особенно актуален в случаях дублей страниц с «/» и без него;

  • В файле robots.txt прописать параметры «disallow» (запрет доступа) и «clean-param» (учитывание динамических параметров (id сессий и др.), не влияющие на содержимое страницы). Пример таких дублей мы рассмотрели чуть ранее.

Где можно выявить дубли? Все в том же Вебмастере. В сервисе от «Яндекса» заходим в раздел «Индексирование», затем «Проверить статус URL», вводим ссылку, анализируем результат.

Как проверить индексацию

Проверить успешное прохождение индексации можно несколькими методами:

  • Сервисами Google для вебмастеров или Яндекс Вебмастер.
  • С помощью формулы host: (для Яндекса), site: (для Гугла) название сайта + первый домен.
  • С использованием автоматических инструментов.

От того, насколько быстро роботы выполнят свою работу, зависит и то, как скоро страница появится в выдаче и начнет принимать целевую аудиторию.

Есть несколько полезных советов, которые помогут ускорить индексацию:

  • Добавление ресурса в систему поиска.
  • Наполнение уникальной и полезной информацией на регулярной основе.
  • Удобная навигация: домены должны располагаться не глубже третьего уровня.
  • Использование надежного и быстрого хостинга.
  • Настройка файла robots.txt: снять лишние запреты, закрыть административные страницы от индексирования.
  • Проверка всего контента на ошибки, слежение за размещением и количеством ключей.
  • Наличие внутренней перелинковки.
  • Размещение ссылок в соц.сетях.
  • Создание карты ресурса: для аудитории и ботов.

Как добавить сайт на индексацию в ПС?

Чтобы сайт индексировался, вы должны известить о его создании роботов в Яндекс и в Гугл. Напоминаем, что именно Google и Yandex – лидеры в поисковой выдаче Рунета. Если вы не будете знать, как добавить сайт в их базы данных, смысла в разработке проекта просто не будет. Ваш ресурс останется без посетителей этих крупнейших поисковиков.

Отправить сайт на «изучение»поисковыми системами можно следующими методами:

  • Используя особые онлайн сервисы.
  • Поместив ссылку на проект на сторонних веб-ресурсах.

Важно! Как ускорить индексацию сайта в Яндексе или в поиске Гугл? С помощью метода номер два. Время индексации Яндекс и Гугл будет сокращено

Индексация сайтов через ссылки не продолжается долго потому, что ПС считают такие проекты наиболее интересными и полезными для посетителей. Запрос обработается практически моментально: для индексации страниц ресурс будет передан роботам незамедлительно.

Работа с онлайн инструментами

Индексация сайта в Google и прочих ПС также возможна «вручную». Специальные инструменты позволят вам контролировать такие данные, как:

  • Проиндексированные и «оставленные без внимания» страницы сайта в Яндексе и Гугле;
  • Число кликов и показов документов по запросам;
  • Статистические сведения и т.д.

Ваша задача простая: добавить сайт в сервисы. При отсутствии запретов через metatags и Robots.txt, индексация нового сайта будет проведена, после чего его документы станут отражаться в поисковой выдаче.

Добавление сайта в Гугл – пошаговое руководство

Поставить ресурс и начать индексацию страниц сайта в Гугле можно, например, через сервис Вебмастер:

Кликните по «Войти в инструменты для ВМ» в Личном кабинете на странице http://www.google.ru/webmasters.

В центральной части экрана вы увидите строчку «Добавить сайт»

Именно благодаря ей вы сможете запустить и включить нужныйseo процесс. В строке прописывайте доменное имя своего ресурса (уделите внимание также ключевым словам – вписывать их нужно здесь же). Согласитесь с тем, что новый сайт принадлежит именно вам. Подтверждение авторских прав осуществляется путем загрузки особого файла, который в дальнейшем через FTP приложение (рекомендуем использовать сервис FileZilla) будет добавлен в ваш проект. После инсталляции файла, откроется страница с настройками

Теперь вам необходимо, чтобы была выполнена индексация карты сайта. Как сделать ее? На той же странице кликайте по «Конфигурация», потом по «Файлы Сайтмап». Вам останется просто указать в соответствующей строчке путь к карте в корневой директории и «sitemap.xml».

Важно! Никакая гугловская настройка не дает возможности привязки проекта к конкретному региону. Однако в справочнике вы можете сделать так, чтобы ресурс был отнесен к определенной компании

Что делать с полученной информацией?


В идеале, количество страничек сайта должно совпадать с числом проиндексированных страниц. К сожалению, так бывает далеко не всегда. Гораздо чаще встречаются два варианта развития событий:

  • Проиндексированное число элементов – меньше. Соответственно, вы сильно теряете в трафике, ведь по многим запросам пользователей ваш сайт остается недоступным для них.
  • Количество проиндексированных страниц превышает реальное число таковых. Если у вас подобный вариант, радоваться не стоит. Вероятнее всего имеет место дублирование страничек, что размывает их вес, увеличивает число повторяющегося материала и мешает продвижению ресурса.

Обе проблемы необходимо максимально быстро решить.  Иначе вы рискуете получить неэффективную веб-площадку, заработать на которой можно только в мечтах. А для этого придется проверить индексацию всех страниц по отдельности, чтобы узнать, какие из них «стратили».

Как проверить индексацию сайта в Google и Yandex?

С помощью мега популярных поисковиков можно не только найти нужную информацию в сети, но и промониторить свой ресурс.

Способ №1. Проверка с помощью Google и Yandex Вебмастер

Думаю, веб-мастера и seo-специалисты не понаслышке знакомы с таким полезным инструментом, как Webmaster. Поэтому начнем наши исследования именно с него.

Проверка индексации страниц сайта в Google:

  1. Заходим в Search Console.
  2. Выбираем в панели инструментов «Индекс Google».
  3. Кликаем на пункт «Статус индексирования».

В качестве примера возьмем сайт Textum и посмотрим, что же покажет Google Webmaster у нас.

Как видим, синяя полосочка уверенно ползет вверх, странички на нашем ресурсе успешно индексируются. Если же график будет идти на убывание – тревожный звоночек, значит на портале не все в порядке с индексацией.

Как проверить индексацию страниц сайта в Яндекс:

  1. Заходим в Yandex.Webmaster.
  2. Переходим во вкладку «Индексирование».
  3. Выбираем пункт «Страницы в поиске».

Сервис предлагает сформировать график за определенный период. Можно посмотреть количество добавленных или удаленных страничек.

Способ №2. Прибегаем к помощи оператора поисковых систем

Чтобы спросить не у ясеня, а Google или Яндекс об индексации сайта нам понадобится оператор «site». Он выдаст данные о количестве проиндексированных страничек.

Нюанс: информация приблизительная, у разных поисковиков может существенно отличаться друг от друга.

Для проверки потребуется ввести в строке поиска Yandex или Google: site: адрес ресурса. В качестве подопытного портала используем Textum.

Вот что показал Гугл:

И что выдал Яндекс:

По версии Yandex у нас 91 страница участвует в поиске, Google более скромно сообщил о 69 страничках. Разница не очень существенная. Она говорит о том, что Yandex проиндексировал и малоинформативные страницы,  которые мы закрывали от индексации поисковыми системами в файле robots.txt.

Еще один вариант – поисковый оператор «info». В отличие от site, он показывает проиндексирована ли одна конкретная страница.

Как видим, страница отразилась в результатах поиска (также здесь указана скорость ее загрузки), значит, она успешно проиндексирована поисковиками.

Способ №3. Используем специальные сайты

Для упрощения работы есть одна фишка. Чтобы не заходить сначала в один поисковик, затем в другой, можно это сделать в пару кликов: заходим на сайт seogadget.ru→ вставляем адрес страницы→ нажимаем «Проверить». Все, смотрим результат.

Еще один простой и быстрый способ проверки индексации сайта – зайти на xseo.in. Алгоритм действия аналогичен предыдущему.

Вставляем в специальное поле адрес сайта, отдельной страницы, кликаем на «Проверить».


После этих нехитрых манипуляций сервис в считанные секунды выдает результат.

Разница между этими двумя способами: на seogadget.ru можно осуществить массовую проверку индексации сайтов, xseo.in – по одному.

Способ №4. Устанавливаем плагины

От ручного способа переходим к автоматизированному методу.

Быстро проверить индексацию сайта (страниц, картинок) нам поможет плагин RDS bar:

  • устанавливаем расширение в своем браузере;
  • открываем нужный сайт и выбираем страницу;
  • кликаем на расширение вверху экрана;
  • знакомимся с результатами.

Вот как примерно это будет выглядеть.

Плагин RDS bar предоставит информацию о количестве проиндексированных страничек; дате последнего обновления портала «глазами» робота; получении значения ИКС; определении Google Pagerank, количестве весомых входящих ссылок на сайт и еще множество другой полезной инфы.

Как управлять поисковым роботом

Поисковая система скачивает информацию с сайта, учитывая robots.txt и sitemap. И именно там вы можете порекомендовать поисковику, что и как скачивать или не скачивать на вашем сайте.

Файл robots.txt

Это обычный текстовый файл, в котором указаны основные сведения — например, к каким поисковым роботам мы обращаемся (User-agent) и что запрещаем сканировать (Disallow).

Указания в robots.txt помогают поисковым роботам сориентироваться и не тратить свои ресурсы на сканирование маловажных страниц (например, системных файлов, страниц авторизации, содержимого корзины и т. д.). Например, строка Disallow:/admin запретит поисковым роботам просматривать страницы, URL которых начинается со слова admin, а Disallow:/*.pdf$ закроет им доступ к PDF-файлам на сайте.

Также в robots.txt стоит обязательно указать адрес карты сайта, чтобы указать поисковым роботам ее местоположение.

Чтобы проверить корректность robots.txt, загрузите его в специальную форму на странице Яндекс.Вебмастер или воспользуйтесь отдельным инструментом в .

Файл Sitemap

Еще один файл, который поможет вам оптимизировать процесс сканирования сайта поисковыми роботами ― это карта сайта (Sitemap). В ней указывают, как организован контент на сайте, какие страницы подлежат индексации и как часто информация на них обновляется. 

Если на вашем сайте несколько страниц, поисковик наверняка обнаружит их сам. Но когда у сайта миллионы страниц, ему приходится выбирать, какие из них сканировать и как часто. И тогда карта сайта помогает в их приоритезации среди прочих других факторов. 

Также сайты, для которых очень важен мультимедийный или новостной контент, могут улучшить процесс индексации благодаря созданию отдельных карт сайта для каждого типа контента. Отдельные карты для видео также могут сообщить поисковикам о продолжительности видеоряда, типе файла и условиях лицензирования. Карты для  изображений ― что изображено, какой тип файла и т. д. Для новостей ― дату публикации. название статьи и издания. 

Чтобы ни одна важная страница вашего сайта не осталась без внимания поискового робота, в игру вступают навигация в меню, «хлебные крошки», внутренняя перелинковка. Но если у вас есть страница, на которую не ведут ни внешние, ни внутренние ссылки, то обнаружить ее поможет именно карта сайта. 

А еще в Sitemap можно указать:

  • частоту обновления конкретной страницы — тегом <changefreq>;
  • каноническую версию страницы ― атрибутом rel=canonical;
  • версии страниц на других языках ― атрибутом hreflang.

Карта сайта также здорово помогает разобраться, почему возникают сложности при индексации вашего сайта. Например, если сайт очень большой, то там создается много карт сайта с разбивкой по категориям или типам страниц. И тогда в консоли легче понять, какие именно страницы не индексируются и дальше разбираться уже с ними. 

Проверить правильность файла Sitemap можно на странице Яндекс.Вебмастер, а также в Google Search Console вашего сайта в разделе «Файлы Sitemap». 

Итак, ваш сайт отправлен на индексацию, robots.txt и sitemap проверены, пора узнать, как прошло индексирование сайта и что поисковая система нашла на ресурсе. 

Почему при индексации стоит, прежде всего, ориентироваться на Гугл и Яндекс

Поисковые системы Яндекс и Google зарекомендовали себя как лучшие и, соответственно, популярные поисковые системы.

  • Точность — насколько найденные системой документы соответствуют запросу. Например, при введении пользователем в строку поиска «купить шубу» «поисковик» выводит 90-100% процентов с приведенным невидоизмененным сочетанием этих слов. Чем выше процент схожести, тем лучше.
  • Полнота — количество документов, относительно всех имеющихся в сети по этой теме, которые выдает пользователю система. Если всего в сети условно находится 100 документов по вопросу «Еда для ребенка 1 года», а «поисковик» предоставил к рассмотрению всего 70, полнота будет равна 0,7. «Выигрывает» система поиска с большим значением.
  • Скорость поиска связана с техническими характеристиками и возможностями каждого «поисковика». Чем она выше, тем больше пользователи будут удовлетворены работой системы.
  • Наглядность поиска — это качество представления информации по запросу, подсказки системы относительно тех документов, которые нашлись по запросу. Это наличие упрощающих работу элементов на странице выдачи результатов.
  • Актуальность — характеристика, обозначающая временной промежуток между получением информации и занесением в базу индекса. У крупных поисковиков существует так называемая «быстрая база», позволяющая в сжатые сроки индексировать новую информацию.

Что в итоге

Поисковые системы готовы проиндексировать столько страниц вашего сайта, сколько нужно. Только подумайте, объем индекса Google значительно превышает 100 млн гигабайт ― это сотни миллиардов проиндексированных страниц, количество которых растет с каждым днем. 

Но зачастую именно от вас зависит успех этого мероприятия. Понимая принципы индексации поисковых систем, вы не навредите своему сайту неправильными настройками. Если вы все правильно указали в robots.txt и карте сайта, учли технические требования поисковиков и позаботились о наличии качественного и полезного контента, поисковики не оставят ваш сайт без внимания. 

Помните, что индексирование ― это не о том, попадет ваш сайт в выдачу или нет. Намного важнее ― сколько и каких страниц окажутся в индексе, какой контент на них будет просканирован и как он будет ранжироваться в поиске. И здесь ход за вами! 

Просмотры: 11 601


С этим читают