Поисковые алгоритмы яндекса

Возможности и особенности поиска

Обе поисковые системы имеют шикарный функционал в запросах, выдаче результатов и поисковых фильтрах.


Вот некоторые особенности поиска:

Направление Google.com. Yandex.com.
Главная страница Отличается минимализмом. На главной странице только эмблема и строка поиска. На главной странице добавлены информативные блоки: новостная лента, телепрограмма, погода.
Интерактивность Справа от поиска по запросу высвечиваются карты, краткое описание определений. При поиске известных людей и фильмов вверху выдаются картинки родственных запросов. Достаточно мощная интерактивность, но хуже, чем у Гугла. При выдаче известных мест, например, стадионов, не отображаются отзывы и карта места.
Конкуренция при продвижении Общая конкуренция при продвижении здесь выше, поскольку в день Google индексирует на порядок больше страниц, чем Яндекс. Конкуренция среди сайтов Рунета почти такая же, как и у Google.
Преимущества
  • Отличная релевантность;
  • Информационное направление;
  • Меньше рекламы.
  • Хорошая выдача русскоязычных сайтов;
  • Интересное ранжирование сайтов Рунета.
 

Общие принципы работы поисковых систем

Конечно же, каждый поисковик как отдельная марка авто имеет свои нюансы, например, в машинах это касается мощности двигателя или разности в ходовых качествах. Но есть и общие элементы, начиная от банального – 4 колеса, заканчивая общими принципами управления транспортом.

Поисковые системы интернета также имеют похожие принципы работы:

  1. Сбор данных. Как только появляется новый ресурс (о чем становится известно ботам с помощью внешних ссылок, добавления сайта в аддурилку и прочего) робот сразу же пожалует в гости на страницу. Он собирает информацию о текстовом и визуальном контенте.
  2. Индексация. Сайт не появится в поисковой выдаче, пока для страницы не будет составлен обратный (инвертированный) файл индекса. Он предназначен для того, чтобы по нему быстро производить поиск и состоит из списка слов из текста. После этого сайт можно будет найти по ключевым словам на его страницах.
  3. Поиск информации. После того как поступил запрос от пользователя, например, купить книгу, роботы находят все страницы, которые подходят под этот запрос. Документы, в которых ключи наиболее подходят под запросы, попадают в выдачу Google, Yandex и т.д.
  4. Ранжирование. Здесь уже начинается самое интересное. Борьба за место под солнцем, т.е. цель любой SEO-оптимизации сайта попасть на первую страницу выдачи. Здесь имеет значение множество факторов, основные из которых: вес страницы, авторитетность домена, соответствие текста запросам и экспертность материала.

Поисковые алгоритмы анализируют частоту использования и расположение в тексте ключевых запросов на отдельной странице сайта

Обращают внимание на тег title

Влияние на SEO

Наибольшее влияние поисковый алгоритм «Королёв» оказывает на информационные запросы со сложной, многословной, часто уникальной формулировкой. Однако замечено, что сайтам с вхождениями каких-то слов из запроса все-таки часто отводятся более высокие позиции.

На выдачу по типовым коммерческим запросам алгоритм «Королёв» пока практически не оказывает влияния. Однако все большее обращение Яндекса в сторону понимания смысла закономерно наводит на мысль, что это вопрос времени. Поэтому:

нужно уделять больше внимания информативности контента, его ценности и полезности для пользователя, не лить воду; эра «тошноты» текста, точных вхождений ключевых фраз уходит в прошлое; использование принципов LSI-копирайтинга с тематикозадающими словами, синонимами и т

д перспективнее традиционного вписывания ключевых слов и где-то может привлечь дополнительный трафик; нужно уделять пристальное внимание семантической разметке, чтобы помочь Яндексу правильно понять контент страниц; важно поддерживать высокие показатели поведенческих факторов (время посещения, глубину просмотра и т. д.).

«Космическая» премьера Яндекса – не только смена структуры индекса, но и своего рода очередное напоминание, что нужно делать контент для людей, а не только для попыток манипулировать выдачей.

ترتيب الصفحات المفيدة

يتوفَّر لطلب البحث النموذجي الآلاف بل الملايين من صفحات الويب التي يُحتمل أن تتضمّن معلومات ذات صلة بموضوع البحث. لذا ننشئ أيضًا خوارزميات لتقييم مدى فائدة هذه الصفحات للمساعدة في وضع أفضلها في بداية الترتيب.

تحلِّل هذه الخوارزميات مئات العوامل المختلفة لمحاولة تقديم أفضل المعلومات التي يمكن أن توفِّرها شبكة الإنترنت، ومن هذه العوامل: حداثة المحتوى وعدد مرات ظهور عبارات البحث وما إذا كانت صفحة الويب تترك انطباعًا جيدًا لدى المستخدم أم لا. ولتقييم مدى موثوقية المواقع الإلكترونية ومصداقيتها من حيث موضوعها، نبحث عن المواقع الإلكترونية التي يبدو أنها تحظى بتقدير العديد من المستخدمين الذين يبحثون عن مواضيع مماثلة. ففي حال كانت هناك مواقع إلكترونية أخرى بارزة حول موضوع البحث وتتضمن رابطًا مؤديًا إلى الصفحة، تكون هذه إشارة جيدة على أن المعلومات التي تقدمها الصفحة عالية الجودة.

تحليل الكلمات التي تدخلها

يمثل فهم موضوع بحثك عاملاً مهمًا لعرض إجابات جيدة. لذلك خطوتنا الأولى هي تحليل معنى كلمات طلب بحثك للعثور على صفحات تتضمن المعلومات ذات الصلة. وننشئ نماذج لغوية في محاولةٍ لفك تشفير سلاسل الكلمات التي يجب أن نبحث عنها في الفهرس.

يتضمن هذا اتخاذ خطوات بسيطة مثل تفسير الأخطاء الإملائية ثم يتطور الأمر إلى محاولة فهم نوع طلب البحث الذي أدخلته من خلال تطبيق بعض الأبحاث الحديثة عن فهم اللغات الطبيعية. على سبيل المثال، يساعد نظام المرادفات لدينا خدمة «بحث Google» على معرفة ما تقصده حتى إنْ كانت للكلمة تعريفات متعددة. لقد استغرق هذا النظام أكثر من خمس سنوات لتطوير النتائج وتحسينها بشكل ملحوظ في أكثر من 30% من عمليات البحث في جميع اللغات.

Индексация сайтов

Поисковый робот Google имеет User Agent — Googlebot (Поисковый робот), который является основным роботом, сканирующим содержание страницы для поискового индекса. Помимо него существуют ещё несколько специализированных роботов:

  • Googlebot-Mobile — робот, индексирующий сайты для мобильных устройств, ноутбуков
  • Google Search Appliance (Google) gsa-crawler — поисковый робот нового аппаратно-программного комплекса Search Appliance,
  • Googlebot-Image — робот, сканирующий страницы для индекса картинок,
  • Mediapartners-Google — робот, сканирующий контент страницы для определения содержания AdSense,
  • Adsbot-Google — робот, сканирующий контент для оценки качества целевых страниц Ads.

Также эти роботы помогают определить страницы низкого качества. Критерии определения низкокачественных страниц:

  • Уникальность контента
  • Поведение пользователя
  • Орфографические ошибки
  • Ссылки на страницу
  • Интуитивно понятный и удобный дизайн

Проблемы с авторскими правами

KaZaA и Церковь саентологии использовали Закон об авторском праве в цифровую эпоху (DMCA), чтобы потребовать от Google удалить ссылки на материалы на их сайтах, якобы защищённые авторским правом. Google по закону обязан удалить эти ссылки, но вместо того, чтобы убрать результаты поиска, предпочитает связать результаты с жалобами, которые подали эти организации.

The New York Times жаловалась на то, что кэширование их содержания поисковым роботом — особенность, используемая поисковиками, в том числе Google Web Search, нарушает авторские права. Google соблюдает стандартные Интернет-приёмы для запросов об отключении кэширования посредством файла robots.txt — стандартного механизма, позволяющего администраторам веб-сайта потребовать исключения своего сайта или его части из результатов поиска — или через мета-теги, позволяющие редактору контента указать, можно ли индексировать или архивировать документ и можно ли проходить по ссылкам в документе. Окружной суд США штата Невада постановил, что кэши компании Google не нарушают авторских прав согласно американскому законодательству в делах Field v. Google и Parker v. Google.

Проблемы с неприкосновенностью личной жизни

Впервые у Google начались проблемы в связи с нарушением прав человека ещё в 2005 году. При создании карт Google Earth были использованы изображения крыши американского Белого дома, что представляет угрозу для национальной безопасности Соединенных Штатов. Американская общественность была глубоко возмущена тем, что потенциальные террористы впервые получили шанс детально рассмотреть системы защиты Белого дома, расположенные на крыше.

В 2008 году американская семья Боринг из штата Пенсильвания обвинила компанию Google в нарушении неприкосновенности их частной жизни. При создании общемировых городских виртуальных карт Google Street View были использованы изображения дома и бассейна супружеской четы. Боринги незамедлительно подали в суд и потребовали от Google 25 000 долларов в качестве компенсации за причинённый моральный ущерб. Однако по решению суда в 2010 году они получили от компании компенсацию в размере всего лишь 1 доллара.

Против Google также выступил Американский Национальный Юридический и Политический Центр (NLPC). В качестве доказательства нарушения сервисом частных прав члены центра предоставили информацию об одном из руководителей Google, собранную при помощи сервисов компании менее чем за полчаса — изображения его дома, номера машин, припаркованных возле него, название фирмы, занимающейся благоустройством его территории и даже название охранной фирмы, клиентами которой являются его соседи.

Кроме того, в 2010 году стало известно, что во время работы над сервисом Street View компания Google сканировала IP адреса и пароли граждан. Во время съёмок улиц и площадей разных городов со специальных автомобилей, оборудованных видеокамерами, специалисты Google также занимались сканированием сигнала беспроводных сетей Wi-Fi. В результате компания получила пароли и другую информацию конфиденциального характера, необходимую для входа в электронную почту частных и юридических лиц.

В настоящее время компанию Google серьёзно критикуют за нарушения прав человека, связанные с реализацией проекта Google Glass. Ношение очков Google уже запрещено в американских кинотеатрах, казино и стрип-клубах. Их владельцы опасаются, что посетители в таких очках будут записывать происходящее на видео. Кроме того, решение о запрете очков в скором времени могут принять американские банки и дирекции парков.

Структура страниц Яндекс и Google и их визуальные отличия

Как выглядит страница выдачи информации у Яндекса и Google? Визуально они повторяют друг друга, но у Google она более строгая, у Яндекса предусматривает больший интерактив и выглядит чуть привлекательнее.


У Яндекса страница состоит из четырех разделов:

  • поисковая строка;
  • блок контекстной рекламы;
  • органическая выдача;
  • колдунщики (последнее звучит дико, знаем).

Теперь чуть подробнее по пунктам: поисковая строка — это та страница, где вы вбили запрос и получили ответ в виде ссылок на сайты. Блок контекстной рекламы — это объявления, которые могут находиться вверху, внизу или по бокам страницы (обычно они помечены словом «реклама»). На эти позиции может попасть любой сайт, который заплатил деньги Яндексу или Google за размещение информации о себе или своих услугах. Блок органической выдачи (следующая ступень) — это те результаты, которые строятся на основании релевантности документа. То есть на первое место в органику попадает тот сайт, который наиболее полно отвечает ключевому запросу. Поэтому в ваших же интересах, чтобы информация была качественной, так как пользователи чаще ищут ответы в органике, чем в блоке рекламы. Последний элемент выдачи — это колдунщики, или внутренние сервисы поисковиков. Колдунщики делают выдачу более живой, интерактивной и, как правило, точечно отвечают на запросы. Пример колдунщиков у Яндекса: Яндекс-авто, Яндекс-фото, Яндекс-недвижимость.

Как выглядит страница выдачи у Google? Фактически она повторяет внешний вид Яндекса (за исключением того, что выглядит более строго) и состоит из тех же четырех элементов. Что касается колдунщиков, то их меньше, чем в Яндексе (с точки зрения коммерческих запросов) и в основной массе они работают для информационных запросов из разряда «что такое», «почему», «как работает».

Страницы могут быть связанны не только ссылками, но и семантикой

Все знают, что для того, чтобы передать ссылочный вес с одной страницы на другую, нужно установить ссылку. Однако, Google разработал алгоритм, который позволяет связывать страницы не только ссылками, но и семантикой, то есть их смыслом.

Давайте приведём пример. Допустим, в одной статье у вас написано о том, как класть паркет в доме, а в другой – как класть паркет в квартире. Вы не ставили ссылки с одной страницы на другую, но Google определит и без ссылки, что это семантически схожие страницы. И даже может показать их обе в поисковой выдаче по ключевой фразе, допустим, “как класть паркет”.

Семантически связанные страницы имеют бонус в ранжировании, так же, будто они были связанны ссылками и передали ссылочный вес.

Скорее всего этот алгоритм пока не применяется Google. Если он и используется как-либо в ранжировании, то эффект его пока невелик. Но выглядит он достаточно перспективно.

Алгоритмы работы Yandex: обзор последних апдейтов

Yandex также не стоит на месте и с момента своего основания ввел в работу, изменил и обновил

Внимание! 21 алгоритм. Были задействованы и антиспам-фильтры, и системы, определяющие релевантность изложенного на сайте материала

В отличие от Google, который присваивает своим алгоритмам названия из фауны, Yandex предпочитает более строгий name – названия городов.

Давайте подробнее остановимся на последних алгоритмах ранжирования Яндекс.

Палех Yandex


Алгоритм позволяет Yandex лучше понимать то, о чем его спрашивают пользователи. Благодаря Палеху поисковик находит веб-страницы, содержание которых по смыслу отвечает запросам, а не просто по наличию ключевых слов.

Программы поисковых систем

Spider

«Паук» скачивает веб-страницы так же как пользовательский браузер.  Отличие в том, что браузер отображает содержащуюся на странице текстовую, графическую или иную информацию, а паук работает с html-текстом страницы напрямую, у него нет визуальных компонент

Именно, поэтому нужно обращать внимание на ошибки в html кодах страниц сайта

Crawler

Программа Crawler, выделяет все находящиеся на странице ссылки. Задача программы вычислить, куда должен дальше направиться паук, исходя из заданного заранее, адресного списка или идти по ссылках на странице. Краулер «видит» и следует по всем ссылкам, найденным на странице и ищет новые документы, которые поисковая система, пока еще не знает. Именно, поэтому, нужно удалять или исправлять битые ссылки на страниц сайта и следить за качеством ссылок сайта.

Indexer

Программа Indexer (индексатор) делит страницу на составные части, далее анализирует каждую часть в отдельности. Выделению и анализу подвергаются заголовки, абзацы, текст, специальные служебные html-теги,  стилевые и структурные особенности текстов, и другие элементы страницы. Именно, поэтому, нужно выделять заголовки страниц и разделов мета тегами (h1-h4,h5,h6), а абзацы заключать в теги <p>.

Database

База данных поисковых систем хранит все скачанные и анализируемые поисковой системой данные. В базе данных поисковиков хранятся все скачанные страницы и страницы, перенесенные в поисковой индекс. В любом инструменте веб мастеров каждого поисковика, вы можете видеть и найденные страницы и страницы в поиске.

Search Engine Results Engine

Search Engine Results Engine это инструмент (программа) выстраивающая страницы соответствующие поисковому запросу по их значимости (ранжирование страниц). Именно эта программа выбирает страницы, удовлетворяющие запросу пользователя, и определяет порядок их сортировки. Инструментом выстраивания страниц называется алгоритм ранжирования системы поиска.

Важно! Оптимизатор сайта, желая улучшить позиции ресурса в выдаче, взаимодействует как раз с этим компонентом поисковой системы. В дальнейшем все факторы, которые влияют на ранжирование результатов, мы обязательно рассмотрим подробно

Web server

Web server поисковика это html страница с формой поиска и визуальной выдачей результатов поиска.

Повторимся. Работа поисковых систем основана на работе специальных программ. Программы могут объединяться, компоноваться, но общий принцип работы всех поисковых систем остается одинаковым: сбор страниц сайтов, их индексирование, выдача страниц по результатам запроса и ранжирование выданных страниц по их значимости. Алгоритм значимости у каждого поисковика свой.

wordpress-abc.ru

История развития поисковиков: не путайте Wandex и Yandex!

Начнем с истории: первый в мире поисковик в WWW появился в 1993 году, и это был Wandex. Не путайте с Яндексом. После него появились Aliweb, Webcrawler, Lycos, Altavista, Рамблер, Google и только потом Яндекс.

Первым именно российским поисковиком был Рамблер. Сейчас Рамблер все еще существует, но для поиска использует движок Яндекса. На его долю приходится около 1% от всех поисковых запросов.


Самой популярной поисковой системой в России на момент подготовки статьи является Яндекс, который используют для поиска информации около 61% россиян по данным РБК. На втором месте по количеству пользователей в России идет Google – около 26%, но в последнее время процент пользователей Google растет. Обе поисковые системы были запущены в 1997 году, но в Россию Google пришел гораздо позже (официально – в 2006 году).

Алгоритмы Яндекса

Летом в июле 2007г. Яндекс официально заявил о том, что механизмы ранжирования подвержены изменениям. Первым алгоритмом, о котором в 2008г. Яндекс упомянул в одном из своих интервью, был 8SP1, до этого алгоритмам не присваивали никаких имен, а внесенные в алгоритмы изменения оптимизаторы могли определить только методом проб и ошибок.

16 мая 2008г. появился новый алгоритм «Магадан», который располагал таким возможностями, как переработка транслитераций и аббревиатур.

В этом же году был разработан алгоритм «Находка», с его релизом в выдаче стали появляться информационные сайты, как например, Википедия. 

Алгоритм «Арзамас», или «Анадырь»(10 апреля 2009г.), положительно повлиял только на региональное продвижение, также были разработаны фильтры для сайтов со всплывающими баннерами (попандеры и кликандеры).

В этом же году в ноябре Яндекс представил алгоритм «Снежинск», в котором ввел в обращение метод машинного обучения, «Матрикснет». Поскольку были введены новые параметры ранжирования, технология продвижения усложнилась: пришлось оптимизировать сайты комплексно. 

Официальный релиз «Конаково» состоялся в декабре 2009г., по сути, это была обновленная версия «Снежинска». Благодаря «Конаково» сайты стали ранжироваться по 19 регионам и по 1250 городам России.

 В сентябре 2010г. вышел «Обнинск», который комплексно оценивал текстовое содержание сайтов и лучше определял авторство текстовых материалов. Большое количество ключевых слов расценивалось как спам и наказывалось фильтрами. Искусственные ссылки перестали оказывать сильное воздействие на ранжирование сайтов. Продукты копирайтинга стали пользоваться большим спросом.

Декабрь 2010 г. был ознаменован появлением алгоритма «Краснодар», для которого была внедрена специальная технология «Спектр». Яндекс повысил качество поисковой выдачи, научившись разделять запросы на объекты (например, имена, модели) и систематизировать их (техника, лекарства и т.д.). Оптимизаторы стали принимать к сведению поведенческие факторы.

Релиз алгоритма «Рейкьявик» состоятся 17 августа 2011г., он был направлен на улучшение поиска при работе с англоязычными запросами.


С этим читают