Komerční prezentace
Registrace uživatele

Přihlašte se k odběru informací, novinek, získejte přístup do diskuzního fóra.

Vesmír č. 10
Vesmír č. 10
Toto číslo vychází
2. 10. 2017
Novinky
Zdarma jedno celé číslo Vesmíru v pdf.
• Říjnové číslo Vesmíru
reklama

Jak velký je svět webovských stránek

Publikováno: Vesmír 78, 593, 1999/10
Rubrika: Aktuality

Nikdo nezkatalogizuje přes 800 milionů dokumentů na webovských stránkách, které se nadto ještě často mění. Odhaduje se, že Northern Light, prohledávač s nejvyšším pokrytím, indexuje asi 38 % webu. Málo je toho známo o velkoškálové struktuře webu. Jednou z důležitých veličin charakterizujících hledání je nejkratší vzdálenost mezi dvěma dokumenty. Je definována jako nejmenší počet URL odkazů, které je třeba projít, abychom se dostali z jednoho dokumentu do druhého. Bez dalšího uveďme vztah pro průměrnou vzdálenost všech dvojic dokumentů <d> = 0,35 + 2,06×log(N). Někoho možná překvapí, že podobně jako sociální nebo biologické systémy tvoří z tohoto hlediska web tzv. síť malých světů. Pro zmíněných 800 milionů dokumentů je <dweb> = 18,59. Jinak vyjádřeno: dva náhodně zvolené dokumenty na webu od sebe v průměru nejsou dále než 19 kliknutí. Jestliže se web v nejbližších letech rozroste o 1000 %, vzroste tato průměrná vzdálenost z 19 na pouhých 21 kliknutí.

Znamená to také, že inteligentní agent, který sleduje pouze relevantní odkazy, najde požadovanou informaci rychle. To však neplatí pro robota, který lokalizuje informaci porovnáváním řetězců znaků. Takový robot, který potřebuje určit dokument ve vzdálenosti <d>, musí prohledat zhruba 0,53×N0,92 dokumentů, což v případě 800 milionů webovských stránek znamená prohledat jich asi 82 milionů. Jedinou úspěšnou strategií pro takového robota je tedy prohledat tolik webovských stránek, kolik jen možno.

Nature 401, 130, 1999

Soubory

Článek ve formátu PDF: 1999_V593-594.pdf (724 kB)

Diskuse

Žádné příspěvky