Webmasterii prefera Google?
Google, MSN, Motoare de cautare, Yahoo November 16th, 2007Fisierul robots.txt, plasat in directorul radacina a unui site web este folosit de webmasteri pentru a specifica ce spideri sau boti pot sau nu pot avea acces la diversele sectiuni a site-ului. Un studiu realizat de cercetatorii Pennsylvania State University (SUA) ca majoritatea webmasterilor (din esantionul de 7500 de pagini web) prefera sa fie vizitat de spider-ul motorului de cautare Google fata de alte motoare de cautare.
Profesorul de Stiinta si Tehnologia Informatiei, C. Lee Giles a spus ca rezultatul a fost o surpriza: motorul de cautare BotSeer dezvoltat pentru studiu a revelat avantajul Google asupra altor motoare de cautare.
Ne asteptam ca fisierele robots.txt sa trateze toate motoarele de cautare ca fiind egale, sau poate sa descalifice unele boturi nesuferite, dar am descoperit o corelatie puternica intre botii favorizati si “penetrarea pe piata” a unor motoare de cautare.
Fisierul robots.txt nu este un standard, ci mai degraba un aranjament informal care reglementeaza programele web crawler - spideri sau boti - care aduna date non stop de pe internet - de la adrese mail la ultimele stiri. Webmasterii folosesc aceste fisiere pentru a interzice accesul acestor fel de programe la anumite directoare a paginii care contin informatii confidentiale sau informatii non-publice. Deasemenea, robots.txt se poate folosi pentru reducerea consumului de resurse a serverului - un server load prea mare poate duce la erori tip “Denial of Service”.
Cercetatorii au aflat insa ca majoritatea webmasterilor folosesc robots.txt pentru a da acces la pagina doar motoarelor de cautare Google, Yahoo si MSN si pe celelalte le blocheaza. De exemplu, paginile web a guvernului SUA prefera Googlebot, urmat de Yahoo si MSN. Grupul condus de profesorul C. Lee Giles nu a gasit o explicatie pentru acest lucru.
Asta inseamna ca Google poate indexa o cantitate mai mare de informatii fata de alte motoare de cautare - ceea ce nu-i afecteaza pe utilizatorii acestui motor de cautare, dar ii defavorizeaza pe cei care prefera alte motoare.
BotSeer este accesibil la adresa http://botseer.ist.psu.edu/

Recent Comments