Глубинный веб

11Кроме видимой для поисковых систем части WWW существует огромное количество веб-страниц, которые ими не охватываются. При этом доступ пользователя к таким ресурсам вполне возможен без ввода логинов и паролей. Как правило, эти веб-страницы доступны в Интернете, однако выйти на них трудно, а порой невозможно, если не знать точного адреса (или особого правила доступа). Эти ресурсы уже много лет как имеют собственное название - "глубинный" (deep) веб, которое ввел Джилл Иллсворт (Jill Ellsworth) в 1994 году, обозначив им документы, недоступные для обычных поисковых систем.

Сегодня такие ресурсы называют также "невидимым", или "скрытым" (invisible), вебом. Они чаще всего охватывают динамически формируемые веб-страницы, содержание которых хранится в базах данных и доступно лишь по запросам пользователей. Иногда для доступа к подобным страницам используется так называемый тест Тюринга (или тест на разумность): предлагается решить  арифметическую задачу, загадку или попросту ввести в определенное поле последовательность символов, изображенную графически. В 2000 году американская компания BrightPlanet (www.brightplanet.com) опубликовала сенсационный доклад, в котором утверждается, что в веб-пространстве в сотни раз больше страниц, чем их удалось проиндексировать самыми популярными поисковыми системами. Эта же компания разработала программу LexiBot, которая позволяет сканировать некоторые динамические веб-станицы, формируемые из баз данных, и, запустив ее, получила неожиданные данные.

Основатель BrightPlanet Майкл Бергман (Michael K. Bergman) выделил 12 разновидностей "скрытых" веб-ресурсов (www.leidenuniv.nl/ub/biv/specials.htm), относящихся к классу онлайновых баз данных. В списке оказались как традиционные базы данных (патенты, медицина и финансы), так и публичные ресурсы - объявления о поиске работы, чаты, библиотеки, справочники. Бергман причислил к "скрытым" ресурсам и специализированные поисковые системы, которые обслуживают определенные отрасли или рынки, базы данных которых не включаются в глобальные каталоги традиционных поисковых служб.

К "скрытому" вебу также относятся многочисленные системы интерактивного взаимодействия с пользователями - помощи, консультирования, обучения, требующие участия людей для формирования динамических ответов от серверов. К ним также можно отнести и закрытую (полностью или частично) информацию, доступную пользователям только с определенных адресов или групп адресов, иногда городов или стран.

К "скрытой" части веб-пространства многие причисляют и веб-страницы, зарегистрированные на бесплатных серверах, которые индексируются, в лучшем случае, лишь частично - поисковые системы во избежание рекламного спама не стремятся обходить их в полном объеме. Целая категория так называемых серых документов, размещенных в среде динамических систем управления контентом (Dynamic Content Management Systems), также относится к "глубинному" вебу. В поисковых системах обычно ограничивается глубина индексирования таких сайтов во избежание возможного циклического просмотра одних и тех же страниц. И, конечно же, "скрытыми" оказываются веб-ресурсы, создатели которых не оповещают кого-либо о создании этих ресурсов.

В "глубинном" вебе существует множество альтернатив коммерческим базам данных типа Dialog или Lexis-Nexis. К примеру, базы данных с законодательными документами Украины или России (системы "Рада" или "Кодекс", соответственно) вполне можно отнести к такой категории, ведь размещенные в них сотни тысяч документов, доступные для свободного просмотра, не попадают в индексы глобальных сетевых информационно-поисковых систем.

Использование материалов сайта допускается только с активной ссылкой на источник.

Здесь нужно написать контактную информацию.

Мы в социальных сетях

© 2010 - 2018 D@nVitLabs