Икономиката на търсачките и Вавилонската кула

PCMagazine, Брой 9
Категория: Интернет , Любопитно , Мнение
Етикети: Интернет , търсачки
Джон Дворак
14.9.2009

Икономиката на търсачките и Вавилонската кула

Откакто се появиха първите роботи за търсене в уеб (Web crawlers), стана ясно, че полезността на интернет ще зависи предимно от това колко бързо можем да намираме нещата в нея. Вече си имаме достатъчно проблеми с намирането на нещата, които съхраняваме на твърдите си дискове, като понякога се налага да пресяваме гигабайти информация, за да намерим една паметна записка. А в интернет пресяваме цели планини от данни, пръснати по целия свят.

За съжаление все още не е толкова лесно да намерим това, от което имаме нужда. Изглежда, че някакъв вид реорганизация би решила проблема, но такава поне засега не се задава на хоризонта.

Нужна ни е методология за категоризация от типа на Dewey Decimal или LOC, но за интернет, и то колкото се може по-скоро. Казвам това само защото ще дойде момент, когато, каквото и да мислят Google и другите компании за търсене, количеството информация ще нарасне толкова, че ще бъде извън техните възможности да търсят в нея. И това нарастване ще бъде значително.

Google успява да кешира цялата купчина информация за персонални компютри и търсения в интернет, за да намира по-лесно това, което искате. Методите, които прилага тя, не са твърде очевидни и повечето са специализирани, но общо взето, системата бе създадена по модела на Alta Vista, с някои модификации. Без съмнение тази компания притежава повечето роботи за търсене в уеб; тя постоянно сканира всичко, което може да намери, и го съхранява на място, където можете по-бързо да го намирате.

Всеки би могъл да прави това с помощта на разнообразните паяци (spiders) и роботи, които са достъпни онлайн. Претърсването само на един по-сложен сайт би отнело часове. Направо изумително е какво е успялада направи по отношение на тази дейност „голямата тройка“ – Google, Yahoo и Microsoft.

Но ние трябва да се запитаме: в кой момент информацията ще претовари всички системи от огромната мрежа, използвана днес от компаниите за уебтърсене?

Факт е, че поне в близко бъдеще в света на търсачките не се очаква нищо, което би решило развиващия се проблем с претоварването със страници. Днес, когато търся нещо друго освен календара на спортните събития, винаги приемам, че не получавам възможно най-точните резултати – конкретно късче информация, което се е загнездило някъде в някой образователен .edu сайт и което би дало точен отговор на моя въпрос. Едно нещо обаче е напълно ясно: всяко търсене днес дава ненадеждни резултати.

Този проблем се усложнява допълнително от Google – по-специално когато тя се опитва да гадае вместо мен чрез вградените в услугата предположения, в случай че съм абониран по някаква причина за даден сайт. Microsoft ви подкупва да се абонирате, като ви прави отстъпка в пари. След това прочиства резултатите от търсенето, като предполага, че единствената причина, поради която хората посещават интернет, е да си купят нещо.

След това търсачките биха могли да се признаят за победени и да се насочат към маркетинга. Защо не? Търсенето е безнадеждна работа поради друг, по-малко дискутиран факт от живота: дублирането на информацията. Винаги, когато съм имал възможност, съм посочвал на изпълнителните директори на вестниците истинската причина, поради която новите организации се провалят: дублирането. Хиляда вестника, в които се публикува една и съща статия – това не е успешен бизнесмодел за тези хиляда компании!

Именно в интернет обаче дублираната информация е в изобилие. Ако искате например да прочетете точната история на Гражданската война в САЩ, как да я намерите? Някой трябва да ви каже предварителнокой е авторът, след което е най-добре да потърсите справка. Но ако вече знаете името на автора, вероятно няма изобщо да имате нужда от търсачката – освен може би само за да стесните търсенето и да го насочите към някой детайл във връзка с книгата. Но дори и това е трудно днес, тъй като коментарите за книгата задръстват резултатите от търсенето.

Позволете ми тук да отбележа, че нямам отговор на този проблем, и възнамерявам да работя върху него в свободното си време. Аз мисля, че специалистите по библиотечни науки (и библиотекарите) са се научили да се справят с него, защото вече са го правили. Но не чувам никакви предложения от тях. Може би имат готово решение, но не искат да го обявят на всеослушание.

Ироничното в цялото това претоварване с информация и в шума, който се вдигна около него, е, че сега трябва да използваме един от най-старомодните и най- ограничени механизми за получаване на информация. В нашия свят това означава нещо като самосъздаваща се „Уикипедия“ – сложен механизъм със самоналожени политики, който може да бъде определен като фантастичен ресурс и хранилище за повечето от знанието на света, както и като източник на информация, на която по принцип не можем да имаме пълно доверие.

Но макар че тази информация е ненадеждна, в повечето случаи тя е точна. Виждате ли какъв информационен тюрлюгювеч си сътворихме сами?!

Ако планините от безполезни подробности, спам и дублирани данни расте и расте, става ясно, че някой ден тази планина от информация ще се самовзриви и вече ще имаме достъп до по-малко, но не по-реална информация.

Накратко, направо пред очите ни расте своеобразна Вавилонска кула от информация. Сигурно си спомняте, че библейската Вавилонска кула не донесе нищо добро на тези, които се опитаха да я построят.

Съдържание: