Robotok
Bagi Zoltan egy bejegyzese ihletett arra hogy leirjak par dolgot a robotokrol. Egy idoben nagyon erdekelt a tema es irtam is egy par botot ezert amit leirok amogott tapasztalat is all.
Azt hogy a mi minden rosszat tud egy kartekony robot az odalunkkal tenni inkabb nem reszleteznem, mert mar megtettek tobben elottem.
Most akkor lassuk a vedekezesi modszereket a botokkal szemben es hogy melyiknek mi az ellenszere:
Requestek idejenek logolasa:
Egy lehetseges modszer hogy logolom a requesteket(persze csak bizonyos feltelek kozott hogy ne terheljem le tulsagosan a rendszert) es a gyors egymasutan ugyanarrol az ip-rol jovo lekerdezeseket bot-a nyilvanitom es ip alapjan kitiltom az oldalrol.
Ez a dolog ott bukik meg ha a robot modellezi az emberi viselkedest es az oldalon talalhato szovg hosszahoz viszonyitva, random idokozonkent kerik le a kovetkezo oldalt. Igy egyszeruen atmennek az azonositason.
Rejtett link az oldalon:
Az oldalunkon elhelyezhetunk egy linket ami a latogatok szamar lathatatlan, de a robot nagy valoszinuseggel megnyitja a linkelt aloldalt. Talan ez a legjobb modszer amivel be tudunk azonositani egy robotot, a gond csak az hogy ha a keresorobotokat user-agent alapjan kivetelkent kezeljuk akkor az O user-agent-ukkel siman atsiklik a bot a linken. Viszont ha a keresobotokat ip alapjan kezeljuk kivetelkent akkor ez egy eleg eros vedelmi megoldas lehet. Ami visszauthet az hogy amikor egy olyan robot jon ami nincs a kivetel kozott az kitiltast kap es ennek aldozataul eshetenek nem kartekony robotok is.
Robots.txt
Letrehozunk egy mappat vagy fajlt es a robots.txt fajlban kititjuk rola a robotokat. Az atlag robotok figyelembe veszik a tiltast es erre alapozva gondolhatjuk hogy ha jon egy bad robot akkor az ugyis kivancsi es megnezi a tiltott fajlt. Igy be tudjuk azonositani es ki tudjuk tiltani. A problema ezzel az hogy ha egy jol megirt robot ilyet talal akkor nem nyitja meg a tiltott fajl hanem logolja es egy masik direct erre a celra tartott ip-vel(vagy proxy mogul) nyitja meg a tilos fajlt. Ez az ip altalaban mas helyekrol mar ki van tiltva ezert nem szamit ha megegy helyrol kitiljak. Persze logolni kell azt is melyik ip-cimunk honnan van bannolva.
A legnehezebben alcazhato tulajdonsaga egy robotnak az hogy roved idon belul az osszes oldalt lekerdezi a site-unkon. Ez alapjan sikerulhet beazonositani, de minden oldallekeres logolasaval nagyon meg lehet terhelni egy servert(kulonosen ha nagy latogatottsagu site-rol beszelunk) igy ezzel a modszerrel is vigyazni kell.
Mindezt osszegezve en ugy latom lehetseges olyan robot-ot irni amit nem fog tudni beazonositani a webmaster. De ha barki tud olyan modszert amivel meg lehet egy robotot fogni akkor varom a velemenyet a commentekhez.
