Light-industry-up.ru

Экосистема промышленности

Глубокая паутина

26-07-2023

Глубокая паутина (также известна как невидимая паутина) — множество веб-страниц Всемирной паутины, не индексируемых поисковыми системами. Термин произошел от соотв. англ. invisible web[1]. Наиболее значительной частью глубокой паутины является глубинный веб (от англ. deep web, hidden web), состоящий из веб-страниц, динамически генерируемых по запросам к онлайн базам данных[2]. Не следует смешивать понятие глубокая паутина с понятием тёмная паутина (от англ. англ. dark web), под которым имеются в виду сетевые сегменты, вообще не подключённые к сети Интернет.

Содержание

Суть проблемы

В глубокой паутине находятся веб-страницы, не связанные с другими гиперссылками — например, страницы, динамически создаваемые по запросам к базам данных. В глубокой паутине также находятся сайты, доступ к которым открыт только для зарегистрированных пользователей. Поисковые системы используют специальные роботы (англ. web crawler), которые переходят по гиперссылкам и индексируют содержимое веб-страниц, на которых они оказываются. В то же время, информация из баз данных, доступная пользователям через поисковые веб-формы (но не по гиперссылкам), остается недоступной для робота, неспособного в режиме реального времени правильно заполнить форму значениями (другими словами, сформировать запрос к базе данных). Таким образом, значительная часть Всемирной паутины оказывается скрыта от поисковых роботов. Используя аналогию, информация, будучи недоступной для поисковых систем, находится «на глубине» (от англ. deep).

Масштаб

Размер глубокой паутины неизвестен и в целом трудно оценим, в первую очередь, в силу размытости самого понятия. Тем не менее, существуют относительно достоверные оценки общего числа сайтов, ведущих к онлайн базам данных: около 300 тысяч таких сайтов во всем Вебе в 2004 году и около 14 тысяч в Рунете в 2006 году[3].

Ключи к решению

В 2005 году компания «Yahoo!» сделала серьёзный шаг к решению этой проблемы. Компания выпустила поисковый движок «Yahoo! Subscriptions», который производит поиск по сайтам (пока немногочисленным), доступ к которым открыт только зарегистрированным участникам этих сайтов.

Это, однако, полностью не решило имеющейся проблемы. Эксперты поисковых систем по-прежнему пытаются найти технические возможности для индексации содержимого баз данных и доступа к закрытым веб-сайтам.


Специальные поисковые машины

  • Yahoo! Subscriptions
  • QProber: Классификация и поиск по «скрытым» базам данных
  • MetaQuerier: Обследуя и интегрируя глубокую паутину
  • CompletePlanet: Поиск по базам данных и специальным движкам
  • WebInsight: Поиск по государственным базам данных России и СНГ

Литература

  1. Гари Прайс, Крис Шерман. «Невидимая паутина: Открывая источники информации, которые поисковые машины не видят» (англ. «The Invisible Web: Uncovering Information Sources Search Engines Can’t See», издательство CyberAge Books, 2001, ISBN 0-910965-51-X).
  2. Ссылка
  3. Ссылка

Ссылки

  • Примеры открытия ресурсов глубокой паутины  (англ.)
  • Портал невидимой паутины

Глубокая паутина.

© 2014–2023 light-industry-up.ru, Россия, Краснодар, ул. Листопадная 53, +7 (861) 501-67-06