1 квітня 2015

В поиске правды: как Google изменит свой алгоритм во имя истины

«Скажи мне всю правду, и я покажу тебя первым!» – именно так можно будет в ближайшее время коротко описать новый алгоритм работы поисковой системы Google. И если он действительно будет работать так, как хочет компания Google, то это во многом изменит современный интернет. Как именно – в материале Platfor.ma.

 

Фотографія: brooklynmutt.com

Несколько дней назад компания Google объявила о запуске новых принципов работы поискового алгоритма. На сегодняшний день в своей механике компания учитывает огромное количество критериев. При этом самым важным является количество внешних ссылок. В Google этот параметр называется Google Page Rank или ранг веб-страницы. Ранг определяет важность веб-страницы с точки зрения ее соответствия поисковому запросу.

 

Например, если пользователя интересует Белый дом, то самой важной в этом случае для него будет домашняя страница Белого дома – администрации президента США. Также важными будут страницы из «Википедии» и об администрации, и о самом здании. Аналогичным образом Google покажет нам страницы в ответ на запрос «Верховная рада»: главная страница украинского парламента, страница из «Википедии» и подборка актуальных новостей, связанных с деятельностью украинского парламента. Однако эти запросы практически однозначны и найти для них релевантную страницу – задача не особенно сложная.

 

Гораздо более сложным будет поиск релевантных, то есть соответствующих запросу страниц, например, при поиске компаний, которые устанавливают пластиковые окна или предоставляют услуги такси. Список страниц в ответ на этот вопрос может быть огромен и все они будут практически равнозначно релевантны с точки зрения полезности для пользователя. Как же тогда Google понять, что именно эта страница должна быть на первом месте, а эта – на пятом? Чтобы решить эту задачу Google использует Page Rank, для определения которого одним из важных параметров является количество внешних ссылок. Имеется в виду, что, если большое количество пользователей сослалось на тот или иной сайт, его можно считать надежным и рекомендовать другим пользователям.

 

Еще 10-15 лет назад этот критерий отбора был весьма надежным – пользователи действительно помогли таким образом компании Google построить свой алгоритм Page Rank и корректно работать, предоставляя релевантную информацию. Однако сейчас этот принцип отбора сайтов несколько устарел. Специалисты по оптимизации сайтов успешно используют знание принципов работы Page Rank и «накручивают» его всяческим образом, чтобы «заставить» Google видеть релевантными те или иные сайты.

 

Эта особенность работы поискового алгоритма Google привела к появлению так называемых Google-бомб или эффекта Google Bombing. Эффект приводит к тому, что в ответ на определенный запрос Google уже традиционно показывает сайт, на который чаще всего ссылаются по этому запросу, но выдача при этом является весьма абсурдной, не соответствующей запросу.

 

Например, запрос «все пропало» покажет, в первую очередь, известные ролики с Юлией Тимошенко. Когда-то – в средине 2000-х годов, запрос «More Evil Than Satan Himself» (большее зло, чем Сатана) приводил пользователя на сайт Microsoft. Теперь этот запрос ведет на страницы с упоминанием этого случая. Запрос «сочувствующий террористам», заданный на английском языке, приводил на сайт политического комментатора Билла О'Рейли после некоторых его высказываний. Запрос «опасный культ» вел на сайт церкви саентологов, а запрос «лжец», заданный пользователями из Великобритании, некоторое время вел на сайт Тони Блэра.

 

Формально во всех этих описанных случаях поисковая система Google поступала в точности со своим алгоритмом – отображала наиболее популярные по конкретному запросу ссылки. Однако их абсурдность показывала, что механика Google является еще весьма несовершенной.

 

Новые изменения, которые Google обещает внедрить в свой алгоритм в ближайшее время, призваны заставить поисковую машину ставить на первое место сайты с достоверной информацией. Пока не ясно, как именно, но Google планирует внедрить в свою поисковую систему нечто вроде аналога детектора лжи, который будет определять, насколько та или иная информация соответствует поисковому запросу и является достоверной и показывать на первых страницах наиболее достоверную информацию. Достоверность компания Google будет определять, исходя из количества достоверных фактов, которые находятся на конкретной веб-странице. Кроме того, для определения достоверных фактов Google будет использовать собственную базу знаний, пополнять которую компания будет в автоматическом режиме. Каждая страница получит индекс Knowledge-Based Trust (KBT), оценивающий ее достоверность.  

 

Когда именно Google внедрит новинки в свой алгоритм – неизвестно. Однако изменения, которые Google планирует встроить в свою поисковую систему, во многом изменят интернет. Сам алгоритм Google будет бороться со случаями, когда в верхних строчках поисковой выдачи оказываются сайты с непроверенными сведениями. Отчасти это связано с тем, что они «поднимаются» в поисковой выдаче благодаря большому количеству внешних ссылок. Система оценивания достоверности веб-страниц исключит такое искусственное влияние на отображение поисковой выдачи. соответственно, сайты с непроверенной или даже недостоверной информацией будут понижаться в поисковой выдаче.

 

Новый алгоритм Google означает, что сама поисковая система будет противостоять различного рода фейкам. Правда, пока не ясно, как Google будет реагировать на разные вбросы, для которых сложно оценить достоверность, например, вбросы относительно тех или иных событий, новостной информации, которую сложно сразу же проверить, случаев недобросовестной конкуренции, элементов черного пиара и так далее. В таких случаях решить проблему определения достоверности будет весьма сложно. Однако тот факт, что Google задумалась над внедрением такого индекса доверия означает, что количество фейковой недостоверной информации в сети огромно и что бороться с ней можно и нужно самыми радикальными методами. Даже такими, как обновление поискового алгоритма Google.


comments powered by Disqus