Indexelő oldalak alapelvei - blog getgoodrank

Indexelő oldalak alapelvei - blog getgoodrank

Az indexelő oldalak fontosak. Mivel a keresőrobotok egy webhelyet keresnek, a keresési bázisok webhelyéről származó információk frissülnek. Annak érdekében, hogy a felhasználók megtalálják a webhelyet a keresésben, az erőforrásnak meg kell keresnie a keresőmotor indexét.

Kétféleképpen lehet:

Az első módszer kevésbé hatékony és több időt vesz igénybe, míg a közvetlen regisztrálás gyorsan elküldi a keresőrobotokat egy új erőforrásnak. Az erőforrás megjelenésének várható időpontja a keresésben 1-2 héttel a jogok megerősítése után.

A helyszínek robotok általi beolvasása rendszeresen történik. Ha új webhelyeket töltenek új oldalakkal, vagy frissítik a meglévő oldalak adatait, akkor a robotok "segíthetnek" a frissítések észlelésében és az új oldalak megjelenésének felgyorsításában a keresésben.

Ehhez a webhelynek szüksége van egy webhelytérképre. jelezve a robotokat a fontos, frissített vagy nemrég hozzáadott oldalakon. A térkép mindkét telephely számára egyszerű, és a többszintű fészkeléshez szükséges erőforrások esetében is fontos. Annak érdekében, hogy a robotok feldolgozzák a kártyát, meg kell felelnie bizonyos követelményeknek:

  • tömörítetlen formában akár 10 MB-ig is
  • legfeljebb 50 000 oldal
  • nincs hiba
  • A térkép ugyanolyan tartományban van, mint az oldal.

A fő kártyaformátumok a szöveg és az XML. Az XML formátum lehetővé teszi a robotok számára az oldalakra vonatkozó további információkat: a jelentés jelentőségét, az utolsó frissítés idejét és a frissítések gyakoriságát.

A webhelytérkép elkészítésének helyességét szabványos eszközök segítségével ellenőrizni kell: a Yandex validator és a Google. A robots.txt fájlnak tartalmaznia kell egy linket a webhelytérképhez.

Mi befolyásolja a webhely indexelését?

A kiszolgáló felelős az indexeléshez szükséges erőforrás elérhetőségéért. A keresési adatbázis folyamatosan frissül, a hosszú ideig nem elérhető webhelyek törlődnek. A szerver válaszának ellenőrzéséhez használja a szerszámot.

Íme néhány olyan dolog, amely befolyásolhatja az indexelést:

  • Minél hosszabb az URL és a fészkelő szintek annál nehezebb a kereső robot számára az oldal megtalálása és indexelése
  • A 10 MB fölötti dokumentumok nincsenek indexelve
  • A Flash indexelésre kerül, ha a fájlok címkékkel vannak beágyazva a html-kódba vagy
  • A PDF dokumentumokban a szöveges tartalom indexelés alatt áll, a grafikus tartalom nem indexelt (szöveg a képeken)
  • Hogyan befolyásolja az indexelést?

    Minden webmester szabályozhatja, hogy a keresőrobotok milyen módon vizsgálják meg a webhely oldalát, milyen anyagokat állnak rendelkezésre, és mit rejtenek el az indexelés.

    Ehhez egy robots.txt fájlra van szükség, amelyben a fejlesztő bezárhatja az erőforrás bizonyos részeit az indexelésből. Alapértelmezés szerint az erőforrásra vonatkozó összes információ indexelésre áll rendelkezésre, ezért a webmesternek intézkedéseket kell hoznia és korlátoznia kell a robotok hozzáférését bizonyos tartalmakhoz. Általános szabályként a webhelyhasználók személyes adatai, a levelezés, a pénzügyi információk zárva vannak az indexeléshez. Szintén bezárunk oldalakat belső, szolgáltatási információkkal.

    A robots.txt fájlt a CMS automatikusan létrehozza az összes szükséges parancssal. A fájlok ellenőrzéséhez szabványos Yandex és Google eszközök vannak. A Robots.txt bezárja az egész oldal tartalmát az indexelésből, ha meg kell tiltania a tartalom egy bizonyos részének indexelését, akkor jobb, ha a címkét . Megtiltja a benne foglalt szöveg indexelését, de elhagyja az indexeléshez és átmenethez elérhető linkeket.

    Hogyan törölhet egy erőforrásoldalt egy keresésből?

    Ellenőrizzük az oldalak számát a Yandex és a Google indexében.

    Az oldalakat az alábbi módszerek valamelyikével törli:

    • oldal törlése a webhelyről
    • A robots.txt fájl blokkolása a robotokhoz
    • a robotok címkéjének használata a html kód között -címkék
    • zárja be a törölni kívánt oldal tartalmát, vagy annak egy részét a meta címkével
    • Használja az "Eltávolítás URL" szolgáltatást a Yandexben és a Google-ban (a Google javasolja bizonyos műveletek végrehajtását mielőtt törölné az adatokat a keresésből). Ez a leggyorsabb módja az oldalak törlése a keresési adatbázisokból.

    Ezek a módszerek nem zárják ki egymást. Ez azt jelenti, hogy letilthatja az indexelést a robots.txt fájlban, és törölheti az oldalt a keresőszolgáltatáson keresztül.

    Három fontos parancs a robots.txt fájlban

    Robots.txt - a fő keresőrobotok kezelése a webhelyen.

    A tiltás tiltja az erőforrás egyes szakaszainak indexelését (műszaki adatok, a felhasználó számára haszontalan információk - látogatási statisztikák, másolatok és mások).

    A feltérképezési késleltetés azt jelzi a kereső robotnak, hogy a szerverhez való hozzáférés minimális időtartama csökkenti a terhelést, és nem befolyásolja a felhasználó oldalán megjelenő oldalak sebességét. Ez fontos a több ezer oldalas nagy webhelyeken. Például a Crawl Delay: 2 azt jelenti, hogy a robot minimális intervalluma a szerverhez való hozzáférés 2 másodperc.

    A Clean Param azt jelzi, hogy mely cgi paraméterek szerepelnek az URL-ben, nem szabad figyelembe venni. Például egy URL tartalmazhat egy munkamenet-azonosítót. Valójában a különböző URL-ek ugyanarra az oldalra vezetnek. A robotok "leragadhatnak" az indexelésükben, soha nem érik el a fontos és hasznos oldalakat.

    A keresőmotorok egyszerűvé teszik a webhelyeket és az indexelést.

    Az oldal térkép és a robots.txt fájl az alapvető eszközök a robotok viselkedését minden látogatás során.

    Hozzáteszem, hogy ha nem csak a fő oldalt szeretné indexelni, hanem az oldal többi részét is, akkor gyorsan, akkor "kapjon" linkeket rájuk, és még könnyebb és gyorsabb is legyen - indítsuk el a kontextust, különösen a Yandex számára.

    És a google webmesterben a "look like guglebot" szakaszban azonnal hozzáadhat 10 oldalt az általuk hivatkozott oldalakhoz

    Paul, köszönöm az értékes kiegészítést! Fontos kihasználni az indexelés felgyorsításának minden lehetséges módját.

    Kapcsolódó cikkek