Охват - "объем индекса"

Сегодня информации в Сети появляется больше, чем ее успевают проиндексировать поисковые системы. Это означает, что информационный хаос увеличивается, и существующие подходы не соответствуют требованиям растущего информационного пространства. Вместе с тем, чем больше ресурсов соответствующего профиля включает база данных системы, тем выше должна быть полнота. Именно это соображение объясняет жесткую конкурентную борьбу за объемы баз данных индексов веб-документов, ведущуюся с самого начала возникновения поисковых систем. Такие базы данных в технологиях ИПС принято называть индексами поисковых систем.

Еще 5 лет назад крупнейшие поисковые системы мира вели ожесточенную борьбу именно за этот показатель. На первых страницах таких поисковых сайтов, как Altavista, Google, Alltheweb, Yahoo! публиковались соответствующие цифры - количество проиндексированных документов или объем индекса. В начале XXI века в лидеры по охвату ресурсов выбилась служба Google. Однако в 2002 году находящаяся сегодня в тени система Alltheweb неожиданно вышла на первую позицию по охвату сетевых ресурсов и, соответственно, была признана лучшей сетевой ИПС в мире по объему индекса, проиндексировав 2,1 млрд. веб-страниц. Затем лидерство вновь вернулось Google - свыше 3,3 млрд. веб-страниц в 2003 году.

Последняя цифра, которая была размещена на титульной странице Google, составляла чуть более 8 млрд. страниц (цифра была приведена в 2005 г.) После этого цифры перестали публиковаться, надо полагать, не по техническим причинам, ведь наивно считать, что владельцы баз данных не знали их объемов. Из официальных пресс-релизов того же 2005 года известно, что объем индекса Google составлял 13 млрд. документов, объем индекса Yahoo! превысил это значение и достиг на то время 20 млрд. документов. Администрация Google была не согласна с этой цифрой, выступая с опровержением. Вместе с тем данные с главной страницы Google были уже сняты, хотя генеральный директор компании Эрик Шмидт одновременно заявил: "Чем больше индекс, тем лучше релевантность и тем полнее обзор". Вместе с тем в заявлении Yahoo! было сказано: "Мы поздравляем Google с изъятием с их главной страницы числа, показывающего размер индекса, и с признанием того, что оно ничего не значит. Как мы уже говорили, важно лишь, чтобы потребители находили то, что они ищут, и мы предлагаем пользователям сравнить результаты поиска наших систем".

Казалось бы, конфликт был исчерпан, и возвращаться к оценке объема индекса никто не будет. Однако прошло время, и мир поисковых систем облетела очередная сенсационная новость. В конце июля 2008 года появилась новая глобальная поисковая система Cuil (рис. 2) с относительно небольшим бюджетом (33 млн. долларов), содержащая в индексе 121 млрд. веб-страниц, что, по мнению экспертов, в несколько раз превышало индекс Google.

 

Корни новой поисковой системы ведут к той же Google. Создатели Cuil - Анна Паттерсон, ее муж Том Костелло и еще несколько бывших сотрудников Google (среди которых Луис Моне, один из создателей AltaVista) - специализировались на поиске в сверхбольших базах данных. В частности, Паттерсон, работая в Google, зарегистрировала соответствующий патент (Multiple Based Index Information Retrieval System).

Google сразу же отреагировала на сенсационное заявление Cuil, тут же заявив о том, что успешно проиндексировала триллионную по счету веб-страницу. Понятное дело, кто это может проверить? В общем-то, данное заявление очень расплывчато и означает лишь то, что с момента возникновения системы ею обработан триллион веб-страниц.

В компании говорят, что поисковик научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. "Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующим на этих страницах. Система постоянно следует по ссылкам, переходя с сайта на сайт и запоминая содержимое изученных страниц. В реальности Google проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. .Многие из них имеют по несколько адресов, другие являются копиями друг друга", - пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы. Сегодня, как рассказывают в компании, пополнение индекса не останавливается ни на секунду, а благодаря распределенной системе обсчета и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.

Несмотря на гигантский размер самой мощной поисковой системы современности, Google, объем ее актуального поискового индекса по каким-то причинам остается тайной за семью печатями. Можно лишь косвенно сравнить показатели Google и Cuil, задавая им простейшие запросы (информации Cuil можно доверять - ее создатели предъявили поисковый индекс внешним экспертам). Как явствует из материалов компаний, обе поисковые системы не используют так называемого стоп-словаря, т.е. запросы по простым, часто употребляемым словам позволят оценить соотношение объемов индексов. И такую оценку может сделать каждый! Например, введем поисковое слово "the" одновременно двум системам. Получаем:

 

Google: about 22,550,000,000 for the;

Cuil: 22,883,636,124 results for the.

 

Результаты вполне сопоставимы - можно сделать вывод о примерно одинаковом объеме поисковых индексов. Введем слово "для" (для проверки русскоязычной части), получаем:

 

Google: about 546,000,000 for для;

Cuil: 368,508,113 results for для.

 

Русскоязычная часть индекса Google оказалась несколько большей. О низком качестве (объеме) русскоязычного индекса Cuil свидетельствуют и запросы по другим словам.

Вроде можно было бы остановиться, результаты получены, однако введем еще одно слово "of" для проверки. Получаем неожиданный ответ:

 

Google: about 22,760,000,000 for of;

Cuil: 121,000,000,000 results for of.

 

Итак, у Cuil результат более чем в 5 раз весомее. Но, учитывая итоги поиска по слову "the" (и по другим словам, в частности, не только на английском языке), можно сделать иной вывод. Каковы бы ни были результаты подобных сравнений, факт остается фактом: Google - самая популярная поисковая система, самый дорогой бренд в мире, а Cuil - мало кому известный проект с бюджетом региональной поисковой системы. Действительно, можно согласиться, что объем поискового индекса решает далеко не все.

Использование материалов сайта допускается только с активной ссылкой на источник.

Здесь нужно написать контактную информацию.

Мы в социальных сетях

© 2010 - 2018 D@nVitLabs