röviden
robots.txt fájl található a gyökérkönyvtárban egy oldalon, és amely speciális utasításokat kereső robotokat.
Ezek az utasítások nem teszik lehetővé indexelése egyes részeit vagy oldalait a helyszínen, adja meg a helyes tükör domain, hogy javasolja a keresést robot megfigyelni egy bizonyos idő intervallum dokumentumok letöltése a szerverről.
Ahhoz, hogy hozzon létre egy robots.txt fájlt, akkor kell egy egyszerű szöveges fájl. Ha nem hoz létre korlátozások indexelés, akkor lehet, hogy egy üres robots.txt fájlt.
A robots.txt fájl általában írva valami hasonló:
Ebben a példában azt betiltották az indexálás három igazgató.
Vegyük észre, hogy minden könyvtár szerepel külön sorban - nem írhat «Disallow: / cgi-bin / a / tmp /». Az sem osztott egy utasítás tiltása User-szer vagy több sorban, mint újsort használják dokumentum elválasztási egymástól.
A reguláris kifejezések és a helyettesítő karaktereket nem lehet használni is. "Asterisk" (*) a User-agent utasítás azt jelenti: "minden robot". Utasítás típusa «tiltása: * .gif» vagy «User-agent: Ya *» nem támogatott.
Konkrét utasításokat a robots.txt függ a helyszínen, és mit akar zárni az indexelés. Íme néhány példa:
Megtiltják az egész oldalt, hogy indexelt minden robotok:
Lehetővé teszi az összes robotok index a teljes site:
Vagy egyszerűen létrehozhat egy üres fájlt «/robots.txt».
A közelben indexelés csak néhány könyvtárak:
Deny indexeli webhelyét egyetlen robot:
Hagyjuk indexelő helyétől az egy robot, és minden mást:
Tiltják indexelés az összes fájlt, kivéve egyet:
Ez elég nehéz, mert Nincs „Engedélyezés” utasításokat. Ehelyett, akkor mozgatni az összes fájlt, kivéve azt, hogy azt szeretné, hogy az indexelés alkönyvtáraiba és tiltsák meg az indexelést:
Azt is megteheti, tiltsa le az összes tiltott indexelés fájlokat:
Fogjuk megérteni a jelentését a mezők (irányelv) és értékük robots.txt fájlban:
User-Agent
- Ez a mező neve kell legyen egy kereső robot, amely ebben rekord hozzáférési jogokat.
- ha a rekord egynél több név egy robot, a hozzáférési jogok vonatkoznak minden ezeket a neveket.
- nagybetűs vagy kisbetűs karakterek nem fontos
- Ha a mező jelzi a „*” jel van megadva ez a rekord hozzáférési jogok vonatkoznak minden webes robotok kérő /robots.txt fájl
helytelenít
- A mező legyen részleges URL, amely nem indexelt. Ez lehet egy teljes vagy részleges útvonalát; olyan URL-t, nincs kezdete és ezen az úton nem kell indexelni.
Például tiltása: / help és bezárja /help.html és /help/index.html, mivel Disallow: / help / - Csak /help/index.html.
- Tiltása, ha az érték nincs megadva, ez azt jelenti, hogy indexeli az összes szerver könyvtárfába
Speciális karakterek használata „*” és „$”
Amikor megadja út lehetővé teszi-tiltása irányelvek, akkor speciális karakterek * és $. kérve, ezért bizonyos reguláris kifejezéseket. Speciális karakter * jelentése bármely (beleértve az üres is) karaktersor. példák:
tiltja /cgi-bin/example.aspx és /cgi-bin/private/test.aspx
Megtiltja a nem csak a / saját. de a / cgi-bin / magán
Alapértelmezésben a végén minden leírt szabályt robots.txt tulajdonított *. például:
blokkolja a hozzáférést oldalak kezdődő / cgi-bin
speciális karakter $
Ha törölni \ '* \ „végén a szabályokat, akkor a $ speciális karaktert. például:
tiltja / példa.
de nem tiltja /example.html
Megtiltja és / példa. és /example.html
Megtiltja only / pl
tiltja /example.html és / például
Oldaltérkép
Ha ön használ egy leírást a szerkezet a webhely a sitemaps.xml formátumban, és szeretné, hogy a robot tanult róla, keresse meg a sitemaps.xml mint «Oldaltérkép» irányelvet beállítás (ha több fájlt, jelölje ki az összes). például:
A robot emlékezni fog az utat sitemaps.xml, feldolgozza a fájlokat, és az eredmények a későbbi kialakulását az injekció ülés.
Amellett, hogy a robots.txt fájlt, hogy ellenőrizzék a keresők, van is egy meta robotok.