promitei96
Местный
- Регистрация
- 4 Ноя 2016
- Сообщения
- 300
- Реакции
- 672

Доклад Александра Садовского на открывшейся сегодня
У Вас недостаточно прав для просмотра для просмотра ссылки. Войдите или зарегистрируйтесь.
был посвящен Палеху — новому алгоритму ранжирования Яндекса. В своем выступлении руководитель поисковых сервисов Яндекса подробно описал механизм работы нового алгоритма.
Нейросети для эффективного обучения нужны примеры, как положительные, так и отрицательные.
Наивный подход – это когда в качестве положительных примеров используются кликнутые документы, а в качестве отрицательных – документы без клика. Дело в том, что отсутствие клика далеко не всегда свидетельствует о том, что документ нерелевантен. Справедливо и обратное утверждение — наличие клика не гарантирует релевантности документа.
Простой пример:

А пользователь искал расшифровку РНО – «работа над ошибками».
Яндекс научился находить верные примеры. По версии Яндекса положительными примерами являются те, где модель предсказывает, что пользователь задержится на сайте долго или «останется там навсегда» (шутка). Метрик, говорящих об удовлетворенности пользователя на самом деле много. Стратегия выбора отрицательных примеров тоже была изменена. Для достижения главной цели – понимания семантической близости, хорошими отрицательными примерами являются такие документы, которые гарантированно нерелевантны запросу, но при этом помогают нейронной сети лучше понимать смыслы слов.
Это:
• Случайные документы
• Случайные документы с включением слов запроса
• Hard negative mining
В основе Палеха лежит нейронная сеть. Если сравнить эффективность нейронной сети и простого текстового фактора, основанного на соответствии слов запроса и текста, bm25 для нечетких запросов, то можно увидеть следующие результаты (для информационных запросов):

Для коммерческих:


Оказалось, что для BM25 переформулировка запроса превращается в настоящую катастрофу — фактор становится нулевым на релевантных заголовках. А Палех демонстрирует отличную устойчивость к переформулировке: релевантные заголовки по-прежнему имеют высокое значение фактора, а нерелевантный заголовок — низкое.
Но надо помнить, что цель разработчиков поиска Яндекса состоит не в том, чтобы обогнать BM25, а в том, чтобы добиться улучшения на фоне всего множества ранее внедренных факторов и моделей ранжирования.
Александр также сообщил, что алгоритм Палех применяется абсолютно ко всем типам запросов, ко всем регионам и языкам.
Эффективность Палеха – pFound1+1,6% (на запросах длинного хвоста)
Он также сказал, что изменения трафика, которые в последнее время могли наблюдать вебмастера, в том числе могут быть результатом работы Палеха.
Алгорим Палех эффективно работает абсолютно во всех областях и тематиках, исключение составляет только поиск цитат.
