Для ведения бизнеса в интернете необходимо понимание того, каким образом поисковые системы осуществляют отбор той или иной веб-страницы для выдачи её в результатах поиска по конкретному запросу пользователя Сети. В настоящее время поисковик Яндекса производит такой отбор посредством использования алгоритма «Королёв», являющегося самым совершенным на данный момент поисковым алгоритмом.
Поисковые системы уже много лет осуществляют непрерывное совершенствование своих алгоритмов, стараясь довести их до такого уровня, когда они станут максимально точно «понимать» запросы пользователей и предоставлять им наиболее релевантные этим запросам страницы. Недавно Яндекс сделал в этом направлении большой шаг, создав новый алгоритм, получивший название «Королёв» в честь великого отечественного ученого. В данном алгоритме используется нейронную сеть, позволяющая осуществить сопоставление с семантики поисковых запросов с содержанием страниц сайтов.
Создатели алгоритма утверждают, что он имеет способности к самообучению, для чего используются данные поисковой статистики, а также оценки пользователей Яндекса. «Королёв» стал результатом долгого пути, на котором поисковику пришлось решить множество сложнейших задач.
Напомню, что первые поисковые системы появились в середине 1990-х годов, когда объем Интернета по сравнению с сегодняшним был просто ничтожен. И необходимость проводить сложное ранжирование сайтов, состоящее в упорядочении веб-страниц по степени их релевантности поисковому запросу, просто отсутствовала. Задача поисковиков заключалась в составлении перечня страниц, где присутствовали запрашиваемые слова, и чем большее их количество присутствовало на конкретной странице, тем более релевантной она считалась.
Но невероятно быстрое развитие Сети привело к тому, что прежние критерии, по которым проводился поиск и осуществлялся отбор подходящих страниц, не соответствовали уже требованиям времени, и речь зашла о необходимости учета поведенческих факторов, наличии внешних ссылок на сайт, географии запросов и т.д. И количество таких факторов стало так велико, что сделало невозможным создание для каждого из них специальной инструкции, поэтому поисковики по другому пути совершенствования поиска, состоящему в формировании у поисковой машины способностей к самостоятельному принятию решений на основе оценки определенных признаков, а также их соответствующего комбинирования. Возможность применения подобного подхода появилась благодаря изобретению специалистами Яндекса метода машинного обучения Матрикснет, посредством использования которого осуществляется выстраивание специальной формулы ранжирования.
Но основной единицей поиска пока оставалось слово, а сложная формула ранжирования, применяемая поисковиком, использовалась лишь по отношению к веб-страницам, попавшим в перечень «предварительно подходящих» по причине присутствия на них запрашиваемых слов.
Однако так как одна и та же семантика может выражаться разными словами и словосочетаниями, то отсутствие на веб-странице запрашиваемых слов совсем не означает нерелевантность её смыслу запроса, а научить поисковую машину пониманию смысл этого запроса еще не так давно казалось абсолютно нереальным.
Однако в 2016 году в этом направлении был совершен настоящий прорыв, когда специалисты Яндекса создали алгоритм «Палех», в основу которого было положено использование нейронной сети. Этот алгоритм продемонстрировал высокую эффективность при распознавании звучащей речи и изображений.
Действие «Палеха» основано на трансформации заголовков страниц и поисковых запросов в так называемые семантические векторы, которые представляют собой группы чисел, сопоставимые друг с другом, а уже на основании этого сопоставления можно было выявить степень их сходства, и чем она была больше, тем более релевантным поисковому запросу считался заголовок.
Итогом развития алгоритма «Палех» стал «Королёв», который в отличие от своего предшественника проводит сопоставление поисковых запросов не с заголовками страниц, а с содержанием этих страниц, что позволило почти вплотную приблизиться к полному пониманию поисковой машиной смысла контента, который отнюдь не всегда очевиден из его названия.
Преобразование контента в семантические векторы производится в «Королёве», как и в «Палехе», посредством нейросети, однако здесь требуются значительно большие вычислительные мощности, чем для потреблял его предшественник, так как объем анализируемого контента в большинстве случаев превышает объем заголовка на несколько порядков, поэтому и выявить даже основной смысл такого большого текстового массива нелегко даже человеку, а уж для машины, которой, к тому же, сделать это требуется за доли секунды, данная задача становится неразрешимой. Выход заключается в том, что высчитывание векторов страниц посредством алгоритма «Королёв» происходит еще при их индексировании, после чего алгоритму остаётся лишь сопоставить поступивший запрос с уже известными ему векторами.
Представляется, что понимание смысла позволит поисковой машине максимально точно определять необходимую пользователю информацию, и что особенно важно – максимально эффективно обрабатывать запросы описательного характера. Поэтому пользователи, задающие поисковику такие описательные характеристики, теперь смогут надеяться на «понимание» их поисковой машиной в деле нахождения того, что им нужно.
Важным преимуществом «Королёва» по сравнению с «Палехом» является то, что в если в последнем семантический анализ осуществлялся на одном из завершающих этапов, то новый алгоритм начинает подбирать страницы, соответствующие смыслу, уже на начальных стадиях ранжирования. Подобный подход позволяет осуществлять анализ сразу 200 000 документов, что на три с лишним порядка превышает объем информации, которую был способен проанализировать «Палех» (150 документов).
Кроме того, «Королёв» не только производит сопоставление по смыслу запроса с содержанием страницы с запросом, но и учитывает при этом другие запросы, по которым люди приходят на данную страницу, что способствует установлению косвенных смысловых связей.
Важнейшее качество нейронной сети, являющейся основой «Королёва», заключается в её способности обучаться. Для осуществления «учебного процесса» применяется обезличенная поисковая статистика, основанная на данных о том, по каким именно запросам пользователи приходят на конкретную страницу, и сколько времени они там находятся, а также каков процент отказов (быстрых уходов) среди посетителей данной страницы.
Таким образом, в основу работы современного поиска в интернет, осуществляемого Яндексом, положено использование весьма сложных алгоритмов, способных не только максимально точно определять соответствие той или иной веб-страницы поисковому запросу, но еще и обучаться, причем в качестве «учителей» здесь выступают все люди, использующие поисковик Яндекс.
Автор: Дмитрий Варапаев
Читайте также статьи "О правильном понимании сути маркетинга", "Уровень ниже плинтуса... Размышления о современной рекламе" и другие в разделе "Бизнес-аналитика".