Indexelő oldalak alapelvei - blog getgoodrank

Az indexelő oldalak fontosak. Mivel a keresőrobotok egy webhelyet keresnek, a keresési bázisok webhelyéről származó információk frissülnek. Annak érdekében, hogy a felhasználók megtalálják a webhelyet a keresésben, az erőforrásnak meg kell keresnie a keresőmotor indexét.
Kétféleképpen lehet:
Az első módszer kevésbé hatékony és több időt vesz igénybe, míg a közvetlen regisztrálás gyorsan elküldi a keresőrobotokat egy új erőforrásnak. Az erőforrás megjelenésének várható időpontja a keresésben 1-2 héttel a jogok megerősítése után.
A helyszínek robotok általi beolvasása rendszeresen történik. Ha új webhelyeket töltenek új oldalakkal, vagy frissítik a meglévő oldalak adatait, akkor a robotok "segíthetnek" a frissítések észlelésében és az új oldalak megjelenésének felgyorsításában a keresésben.
Ehhez a webhelynek szüksége van egy webhelytérképre. jelezve a robotokat a fontos, frissített vagy nemrég hozzáadott oldalakon. A térkép mindkét telephely számára egyszerű, és a többszintű fészkeléshez szükséges erőforrások esetében is fontos. Annak érdekében, hogy a robotok feldolgozzák a kártyát, meg kell felelnie bizonyos követelményeknek:
- tömörítetlen formában akár 10 MB-ig is
- legfeljebb 50 000 oldal
- nincs hiba
- A térkép ugyanolyan tartományban van, mint az oldal.
A fő kártyaformátumok a szöveg és az XML. Az XML formátum lehetővé teszi a robotok számára az oldalakra vonatkozó további információkat: a jelentés jelentőségét, az utolsó frissítés idejét és a frissítések gyakoriságát.
A webhelytérkép elkészítésének helyességét szabványos eszközök segítségével ellenőrizni kell: a Yandex validator és a Google. A robots.txt fájlnak tartalmaznia kell egy linket a webhelytérképhez.
Mi befolyásolja a webhely indexelését?
A kiszolgáló felelős az indexeléshez szükséges erőforrás elérhetőségéért. A keresési adatbázis folyamatosan frissül, a hosszú ideig nem elérhető webhelyek törlődnek. A szerver válaszának ellenőrzéséhez használja a szerszámot.
Íme néhány olyan dolog, amely befolyásolhatja az indexelést:
- Minél hosszabb az URL és a fészkelő szintek annál nehezebb a kereső robot számára az oldal megtalálása és indexelése
- A 10 MB fölötti dokumentumok nincsenek indexelve
- A Flash indexelésre kerül, ha a fájlok címkékkel vannak beágyazva a html-kódba
- A PDF dokumentumokban a szöveges tartalom indexelés alatt áll, a grafikus tartalom nem indexelt (szöveg a képeken)
Hogyan befolyásolja az indexelést?
Minden webmester szabályozhatja, hogy a keresőrobotok milyen módon vizsgálják meg a webhely oldalát, milyen anyagokat állnak rendelkezésre, és mit rejtenek el az indexelés.
Ehhez egy robots.txt fájlra van szükség, amelyben a fejlesztő bezárhatja az erőforrás bizonyos részeit az indexelésből. Alapértelmezés szerint az erőforrásra vonatkozó összes információ indexelésre áll rendelkezésre, ezért a webmesternek intézkedéseket kell hoznia és korlátoznia kell a robotok hozzáférését bizonyos tartalmakhoz. Általános szabályként a webhelyhasználók személyes adatai, a levelezés, a pénzügyi információk zárva vannak az indexeléshez. Szintén bezárunk oldalakat belső, szolgáltatási információkkal.
A robots.txt fájlt a CMS automatikusan létrehozza az összes szükséges parancssal. A fájlok ellenőrzéséhez szabványos Yandex és Google eszközök vannak. A Robots.txt bezárja az egész oldal tartalmát az indexelésből, ha meg kell tiltania a tartalom egy bizonyos részének indexelését, akkor jobb, ha a címkét
Hogyan törölhet egy erőforrásoldalt egy keresésből?
Ellenőrizzük az oldalak számát a Yandex és a Google indexében.
Az oldalakat az alábbi módszerek valamelyikével törli:
- oldal törlése a webhelyről
- A robots.txt fájl blokkolása a robotokhoz
- a robotok címkéjének használata a html kód között -címkék
- zárja be a törölni kívánt oldal tartalmát, vagy annak egy részét a meta címkével
- Használja az "Eltávolítás URL" szolgáltatást a Yandexben és a Google-ban (a Google javasolja bizonyos műveletek végrehajtását mielőtt törölné az adatokat a keresésből). Ez a leggyorsabb módja az oldalak törlése a keresési adatbázisokból.
Ezek a módszerek nem zárják ki egymást. Ez azt jelenti, hogy letilthatja az indexelést a robots.txt fájlban, és törölheti az oldalt a keresőszolgáltatáson keresztül.
Három fontos parancs a robots.txt fájlban
Robots.txt - a fő keresőrobotok kezelése a webhelyen.
A tiltás tiltja az erőforrás egyes szakaszainak indexelését (műszaki adatok, a felhasználó számára haszontalan információk - látogatási statisztikák, másolatok és mások).
A feltérképezési késleltetés azt jelzi a kereső robotnak, hogy a szerverhez való hozzáférés minimális időtartama csökkenti a terhelést, és nem befolyásolja a felhasználó oldalán megjelenő oldalak sebességét. Ez fontos a több ezer oldalas nagy webhelyeken. Például a Crawl Delay: 2 azt jelenti, hogy a robot minimális intervalluma a szerverhez való hozzáférés 2 másodperc.
A Clean Param azt jelzi, hogy mely cgi paraméterek szerepelnek az URL-ben, nem szabad figyelembe venni. Például egy URL tartalmazhat egy munkamenet-azonosítót. Valójában a különböző URL-ek ugyanarra az oldalra vezetnek. A robotok "leragadhatnak" az indexelésükben, soha nem érik el a fontos és hasznos oldalakat.
A keresőmotorok egyszerűvé teszik a webhelyeket és az indexelést.
Az oldal térkép és a robots.txt fájl az alapvető eszközök a robotok viselkedését minden látogatás során.
Hozzáteszem, hogy ha nem csak a fő oldalt szeretné indexelni, hanem az oldal többi részét is, akkor gyorsan, akkor "kapjon" linkeket rájuk, és még könnyebb és gyorsabb is legyen - indítsuk el a kontextust, különösen a Yandex számára.
És a google webmesterben a "look like guglebot" szakaszban azonnal hozzáadhat 10 oldalt az általuk hivatkozott oldalakhoz
Paul, köszönöm az értékes kiegészítést! Fontos kihasználni az indexelés felgyorsításának minden lehetséges módját.