Megfelelő végrehajtását fájl - Saját cikkek - Kiadó - elősegíti a site

Megfelelő tervezés a robots.txt fájl

Ez a fájl egy speciális formátumban áll több rekordot. Minden bejegyzés viszont két területen: az első egy húr a neve a kliens alkalmazás, más néven a felhasználói ügynök. valamint néhány sornyi típusú irányelvek

User-agent karakterlánc - itt a neve a robot. Például:

helyettesítő kezelés azonnal minden robot „*”:

Rönk a webszerver általában megtartja a nevét a robotokat. Ha látni őket, kattintson lekérdezések jön kizárólag a robots.txt fájlt. Azt se felejtsük el, hogy a legtöbb pókok indexers rövid neveket.

mező tiltása

Tiltása sort készítünk a második szólamot. Irányelv egy adott robot itt található. Ezek segítségével a robot képes kideríteni, hogy milyen fájlokat és / vagy könyvtárak index tilos. Például a következő irányelv nem engedi bérindexált pókok email.htm file:

Az irányelv is lehetne a könyvtár nevét

Az irányelv nem teszi lehetővé az ilyen típusú indexálás pókok lefolytatására könyvtár «cgi-bin«.

A tiltása is elő lehet joker, irányelvnek megfelelően / bob szabványok /bob.html közelben pókok és /bob/index.html.

Abban az esetben, üres tiltása irányelv robot csendben index az összes fájlt. Minden mező User-agent tartalmaznia kell legalább egy tiltása irányelvet. Ez úgy történik, hogy a robots.txt fájl helyesen érzékelni. Teljesen üres robots.txt lényegében ugyanaz, mint a hiányzó fájlt.

Vezető szóközök engedélyezettek elvileg, de ez jobb tartózkodjon ettől

Letiltás: bob #comment

Az alábbi irányelv célja, hogy lehetővé tegye az indexelés minden szakasz, ami használja a már ismert „*” helyettesítő.

User-agent: *
Letiltás:

És egy ilyen irányelv megtiltja indexelés:

User-agent: *
Disallow: /

Könyvtárak «cgi-bin» és a «képek» zárva indexelés:

User-agent: *
Disallow: / cgi-bin /
Disallow: / images /

Roverdog robot nem kerülhet kapcsolatba a kiszolgáló könyvtárába:

User-agent: Roverdog
Disallow: /

Google robot Googlebot nem index fájl cheese.htm:

User-agent: Googlebot
Letiltás: cheese.htm

Bonyolultabb példák indexelés ellenőrzés, vagy egy példa a jelenlegi robots.txt fájl látható sok a főbb helyszínek a következők:

Hogyan lehet megtalálni egy adott robots.txt?

A statisztikák szerint mintegy 5% -a az összes robots.txt tett helytelenül vagy tévedésből, és 2% robotok fájlok általában nem értik, mert a hibák száma meghaladja a megengedett.

Itt van egy lista a leggyakoribb hibákat, amikor létre egy robots.txt:

fordított szintaxis
Ez a hiba nagyon gyakori:

User-agent: *
Letiltás: robogó

A helyes információ:

User-agent: robogó
Letiltás: *

Több, mint egy tiltása irányelv összhangban

Disallow: / css / / cgi-bin / / images /

Minden pók tudta megérteni ezt az irányelvet saját. Néhány pókok figyelmen kívül hagyja terek, és nem fogja az indexelési könyvtár / css // cgi-bin // images /. Pókok is eltölthet indexelés csak egy könyvtárat (/ images / vagy / css /), így a többi figyelmen kívül hagyja.

Íme egy példa a helyes szintaxis:

Disallow: / css /
Disallow: / cgi-bin /
Disallow: / images /

Írásban húr DOS formátumban

Néha módosítsa a robots.txt fájlt DOS formátumban. Bár sok pókok megtanulták „megérteni” ez gyakori hiba, érdemes nézni annak hiányát. A legjobb, hogy végezzen módosításokat a robots.txt UNIX. letöltés végezzük ASCII módban. A legtöbb FTP-kliensek feltölteni a fájlokat a szerverre már a megfelelő beállításokat a megfelelő sor karaktereket a DOS-formátumot UNIX -formate. De, sajnos, nem tudják ezt az egészet.

írhat az új szabványok, és így:

Disallow: / cgi-bin / #Ez tilalmat robotok a mi cgi-bin

Hiányosságok a sor elejére

Terek nem figyelhető meg az előírásoknak, de úgy vélik, rossz stílusban. Továbbá, senki sem tudja garantálni, hogy a rendszer elfogadja, jobb

Átirányítás a másik oldalra 404-es hiba

Gyakran, amikor egy 404-es hiba (a fájl nem található), akkor egy speciális oldalt, így 404.html lehet kiadni. Az átmenet nem végzik el a fő oldalon az oldalon. E lehetőség szerint a robot nem érti, mi a robots.txt fájlt csinálni, ahelyett, neki van egy html oldal kapacitású egy bizonyos tartalmat. Elvileg ez nem okozhat problémát, de mégis, minden lehetséges. Nehéz megmondani, hogy egy ilyen robot megérteni html fájl. Előfordulhat, hogy a teljes oldalt fogják ismerni, mint a robots.txt. Ennek elkerülése érdekében, helyezzen egy robots.txt a gyökérkönyvtárban, akkor is, ha a fájl üres.

Mit tennél, mint robotomslurp és szembe ezen irányelvek?

User-agent: *
Disallow: /
#
User-agent: slurp
Letiltás:

Míg az első irányelv megtiltja minden robotot index a webhely, de utána irányelv lehetővé teszi, hogy slurp. Milyen lépéseket kell eredményeképpen slurp. A variáns, hogy a robotok megértsék ezeket az irányelveket helytelen. Ebben a helyzetben kell slurp az index az egész oldal, míg más robotok figyelmen kívül kell hagynia teljesen.

Minden nagybetűk - hibás fájlt töltelékhez:

User-agent: EXCITE
Letiltás:

Bár az ügy betűk a robots.txt nem kritikus, de a nevét könyvtárak, valamint és fájlok, registry fontos. A legjobb, hogy írjon a nagybetűket csak az első betű a szó a felhasználói és tiltása.

A lista az összes fájlokat egy könyvtárban

Letiltás: /AL/Alabama.html
Letiltás: /AL/AR.html
Letiltás: /Az/AZ.html
Letiltás: /Az/bali.html
Letiltás: /Az/bed-breakfast.html

Ehelyett akkor írd nagyon különböző módon:

Disallow: / AL
Disallow: / Az

Ne felejtsük el, a kezdeti perjel egy könyvtárat jelöl. Sőt, ha nem tiltják az átadás két vagy három fájlokat, de beszélünk stílusban. Ilyen például látható a robots.txt fájlt egyenként több mint 400 kilobájt is beszélve több mint 4000 kép! Abból lehet kiindulni, hogy sok a robot pókok úgy döntött, hogy a továbbiakban már nem a helyén, csak hogy lássa a fájlt.

Ott tiltása irányelv és egyedül!

Hagyjuk irányelv mint olyan nem létezik. Ez a példa hibás:

User-agent: Spot
Disallow: / john /
allow: / jane /

Itt egy példa a helyes megtöltését:

User-agent: Spot
Disallow: / john /
Letiltás:

Nyitvatartási perjel elfogadhatatlan

Hogyan lehet egy robot pók felismerni ezt az irányelvet:

User-agent: Spot
Letiltás: john

A szabványok azt mondják, hogy robot.txt tiltja «john» fájlindexelés és könyvtár john ». De ha a perjel robot tudja különböztetni a fájlt a könyvtárban.

Vannak, akik megpróbálják felvenni a robots.txt fájlban kulcsszavak a webhely, ami általában nincs értelme.

Előfordul, hogy a robots.txt fájl készül, mint a html-dokumentumokat. Ne felejtsük el, hogy nem szükséges a FrontPage létre robots.txt.

Helytelenül beállított szerver

Hogyan lehet igényelni robots.txt webszerver hirtelen így egy bináris fájlt? Általában ez történik, amikor a web szerver helytelen beállítás, vagy ha helytelenül feltöltötte a fájlt a szerverre.

A letöltés után a robots.txt fájl a szerveren szeretné ellenőrizni. Elég, hogy a vizsgálat a böngészőben:

Ez elég az ellenőrzés.

Google szerver jellemzője, hogy képes támogatni irányelvek reguláris kifejezéseket. Ez lehetővé teszi, hogy megtiltsák fájlok indexelése összhangban történő kiterjesztését.

User-agent: Googlebot
Letiltás: * .cgi

Field user-agent adja meg a nevét «googlebot». Ugyanakkor, más pókok, a legvalószínűbb, nem fogják megérteni irányelvet.

Ez a címke hasznos lesz azoknak is, akik nem férnek hozzá a gyökérkönyvtárban szerver robots.txt, és ezért nem módosíthatja.

Ilyen keresőprogramok, mint a Inktomi megértsük a meta tag robotok. Inktomi elmúlik minden oldalon a webhely abban az esetben, ha a címke értéke lesz «index, follow».

Format robotok meta tag
Meta robotok tag kell helyezni a tag a HTML dokumentumnak. Ez egy egyszerű formátum (nem érzékenyek):





...

Az értékek a meta tag robotok

Ez a meta-tag lehet akár négy értékét tartalom:

index, noindex, follow, nofollow

Az értékek összegének több mint egy, vesszőkkel elválasztva.

A mai napig az alábbi jelentéssel bírnak súlya:

INDEX irányelv ad parancsot a robot index az oldalt.

FOLLOW irányelv lehetővé teszi, tudod spidering, hogy lehetséges, hogy végezzen indexelése linkek az oldalon. Megtalálható számos forrásból hiányában ezeknek az értékeknek bejárók működnek abban az esetben irányelv INDEX és kövesse. Sajnos Inktomi kereső meg fogja érteni, mint «index, nofollow».

Globális irányelvek a következők:

Indexelni = index, follow

Ne index semmit = NOINDEX, NOFOLLOW

Példák robotok metacímke



Kapcsolódó cikkek