Webmester jegyzete
Webhely indexelése keresőrobotokkal
Először is azt kell mondanom, hogy ha a kereső megkapta a felhasználó kérését, akkor nem keresi meg a teljes internetet a szükséges oldalak kereséséhez, hanem előzetesen összeszerelt adatbázisokra hivatkozik. Az indexek:. (leírást kell találni). Az index oldalak létrehozásához és frissítéséhez a kereső rendszeresen indít egy speciális programot (amelyet pók vagy botnak neveznek). Ez a program feltérképezi az internetes oldalakat, és a feltérképezés eredményei alapján elkészíti vagy frissíti az indexet.
Mi történik, ha egy felhasználó lekérdezéssel érkezik a keresőmotorhoz?
A keresőmotor hivatkozik az indexre, hogy összeállítsa a felhasználók lekérdezéséhez leginkább megfelelő oldalak listáját, ezeket "releváns lekérdezésnek" nevezik. Döntse el, hogy az indexben szereplő összes oldalszámnak megfelelő oldal megfelel-e a felhasználó lekérdezésének, a keresőmotor csak a kiadott lekérdezésre alapulhat. A lekérdezés egy vagy több szóból áll. Ezért az oldal relevánsabbnak tekinthető, ha a lekérdezésből annyi találatot tartalmaz, amennyire csak lehetséges. A SERP oldalainak rangsorolásához a keresőmotorok - az oldal szövegén kívül - a címkéken felsorolt szavakat használják
Ezután (vagy még korábban, de ebben a pillanatban ez a pillanat nem fontos), a keresőmotorok - a keresési kulcsszavak előfordulásainak száma mellett - további kritériumokat kezdtek használni az oldal relevanciájának értékelésekor. Az egyik kritérium az oldal súlya vagy jelentősége. A fenti oldal a keresőmotor kimenetén található, annál nagyobb súlyt adott az adott keresőmotor. Az oldalak vagy oldalak jelentőségének kiszámításának gondolatát a tudományos publikációk gyakorlatából kölcsönzik.
Az interneten az idézési indexek kiszámításának ötlete az egyes oldalak vagy webhelyek súlyainak felhasználásával valósul meg. A különböző keresőprogramok különböző módszereket használnak az oldalak súlyának kiszámításához. A Google legkeresettebb keresőmotorja és a Yandex keresőmotorra hivatkozó tárgymutató. Ugyanakkor a Yandex a webhely egészének fontosságára összpontosít, így a hivatkozási index (TCI) kiszámításra kerül a webhelyek számára. És a Google kiszámítja PR-indexét a webhely minden egyes oldalára vonatkozóan.
Beszéljünk részletesebben a két indexről.
Mi a Page Rank?
A PR-index kiszámításához használt algoritmusról bővebben lásd a cikket- Chris Ridings, fordította: A. Sadovsky, "Racionalizált PageRank, vagy mindaz, amit mindig szeretett volna tudni a PageRank-ról"
A Yandex keresőmotor idézettségi indexe (TCI)
Mivel a TCI csak a megadott internetes források súlyát veszi figyelembe, a TCI-t nem lehet "belső" linkekkel (az erőforrás egyik oldaláról másokra) növelni, vagy több hivatkozást helyezhet el ugyanazon vagy több oldalra ugyanaz a "külső" erőforrás. A webhely (könyvtárak) egyik szakaszának TIC-je kiszámításakor a webhely más részeitől a webhely egy szakaszára mutató linkek belsőnek minősülnek, ezért nem növelik a TCI-jét. Ebben az esetben a weboldal egyes szakaszaira mutató hivatkozásokat a teljes webhely TIC számításakor figyelembe veszik (kombinálva).
A tIC mérésekor a hivatkozások csak azokból a forrásokból származnak, amelyeket a Yandex indexelt, és amelyekre néz. A webhely TIC kiszámításánál nem veszi figyelembe a webes fórumok, fórumok, hálózati konferencia, nem moderált könyvtárak és egyéb olyan erőforrások, amelyekhez bárki linkeket adhat hozzá az erőforrás tulajdonosának ellenőrzése nélkül. A TIC kiszámításánál azonban a szabad tárhelyeken található helyekről származó hivatkozásokat nem veszi figyelembe, ha azokat a Yandex.Catalog nem tartalmazza. Más szavakkal, minden ilyen linknek nulla súlya van a Yandex számára.
A tIC értékét minden olyan erőforrásra vonatkozóan kell kiszámítani, amelyet a Yandex által beolvasott összes erőforrás legalább egy alkalommal említett. Az erőforrás TCI megismeréséhez használhatja az interneten elérhető szolgáltatásokat webmestereknek, például a weboldalon. A Yandex.Catalog hivatkozási indexben leírt helyek az erőforrás leírásának mellet találhatók:
A robots.txt fájl használatával kizárja az oldalak indexelését
Nem feltétlenül érdemes megadni a webhely összes oldalát a keresőmotorok indexeléséhez. Például nem kell indexelni a CGI- vagy ISAPI-parancsfájlokat, valamint a statisztikai fájlokat vagy fájllistákat a mappákban. Az oldalak indexelésének megtagadását a titoktartási megfontolások vagy a különböző kódolású dokumentumok indexelésének vágya okozhatja. Minél kisebb a webhelyed, annál gyorsabban megkerülik a robot. Ezért egy webhely létrehozásakor érdemes gondolkodni annak megakadályozásával, hogy a keresőrobotok olyan dokumentumokat indexeljenek, amelyeknek nincs értelme indexelni. Ehhez egy robots.txt fájlt kell használni a webhely gyökérkönyvtárában.
A fájl specifikáció részletes leírását a "Robotok kivételek standardja" dokumentumban találja. A legegyszerűbb formában (a parancsfájl kivételével) a robots.txt fájl így néz ki:
A Felhasználó-ügynök mezővel rendelkező karakterlánc kötelező, és meg kell előznie a sorokat a Disallow mezővel.
A robots.txt fájl üres sorai jelentősek, elkülönítik a különböző robotokhoz tartozó bejegyzéseket. Például a robots.txt fájl következő részében a Disallow: / forum sor figyelmen kívül hagyható, mivel nem volt sor a felhasználó-ügynök mezővel.
A Disallow mezővel rendelkező sor megakadályozhatja a dokumentumok indexelését egyetlen előtagmal. Több előtag letiltásához több sort kell írni. Például, hogy megakadályozza a / cgi-bin és / fórumon induló dokumentumok indexelését, meg kell adnia.
És a következő töredék helytelen lesz
A Disallow mezőben szereplő sorok nem abszolút, hanem relatív előtagokat írnak. Vagyis a fájl:
tiltja a "*" jelzéssel kezdődő dokumentumok indexelését (ami természetesen nem létezik), de a fájl:
megakadályozza az egész webhely indexelését.
Ha nem tudja létrehozni / módosítani a robots.txt fájlt, akkor csak egy további címkét kell hozzáadnia <МЕТА> az oldal HTML kódjában (a címkén belül)
):Ezt a dokumentumot szintén nem fogják indexelni. A címkét is használhatja
A dokumentum egyes töredékeinek indexelésének megakadályozásához jelölje meg őket címkével
Noindex és nofollow használatával
Az oldal egy részének indexelésének megakadályozásához létezik egy noindex címke.
A noindex címkét csak a Yandex és a Rambler keresőmotorai érzékelik, más keresőmotorok, köztük a Google is, figyelmen kívül hagyják. A noindex tag használható a Robots meta tagben.
Mikor kell használni a noindex címkét:- 1) Zárja le a számlálók kódját az indexelésből;
- 2) Kijelenti a kimenő hivatkozásokat az indexelésből, amikor nem szeretné, hogy a keresőmotorok vagy linkcserék figyelembe vegyék őket.
- 3) Zárja be a noindex címkét olyan információkkal, amelyeknek az indexelésnek nincs értelme állandó változás miatt.
- 4) Zárja be a duplikált tartalom indexelését.
Ha nem szeretné bezárni a hivatkozást az indexelésből (és néha szükséged van a bejáró követésére), használhatja a rel = "nofollow" attribútumot.
A nofollow attribútumot fel kell használni minden olyan linkre, amely más oldalakhoz vezet (ha nem az Ön webhelye, és nem szeretné átadni nekik az oldal súlyát). A saját oldalaira mutató linkekhez ezt az attribútumot nem szabad használni.
A nofollow attribútum a robots meta tagben is használható.