Što je datoteka Robots.txt u domeni?
Alati Za Webmastere Web Stranice Seo Junak / / March 19, 2020
Ažurirano dana
Jedna od najvećih pogrešaka za nove vlasnike web stranica nije promatranje datoteke robots.txt. Pa što je to uopće i zašto tako važno? Imamo vaše odgovore.
Ako posjedujete web mjesto i brinete o SEO zdravlju vaše web lokacije, trebali biste se vrlo dobro upoznati s datotekom robots.txt na vašoj domeni. Vjerovali ili ne, to je uznemirujuće velik broj ljudi koji brzo pokrenu domenu, instaliraju brzu web stranicu WordPress i nikada se ne trude raditi bilo šta sa svojom robots.txt datotekom.
Ovo je opasno. Loše konfigurirana datoteka robots.txt može zapravo uništiti SEO zdravlje vašeg web mjesta i oštetiti sve šanse koje imate za rast prometa.
Što je datoteka Robots.txt?
robots.txt datoteka je primjereno imenovana, jer je u osnovi datoteka koja sadrži direktive za web robote (poput robota pretraživača) o tome kako i na koji način mogu indeksirati na vašoj web lokaciji. Ovo je web standard, za kojim slijede web stranice od 1994. godine, a svi glavni alati za indeksiranje pridržavaju se norme.
Datoteka je spremljena u tekstualnom obliku (s .txt ekstenzijom) u korijenskoj mapi vaše web stranice. U stvari, možete pregledati datoteku robot.txt bilo koje web lokacije samo ako upišete domenu, a zatim /robots.txt. Ako to pokušate s groovyPost, vidjet ćete primjer dobro strukturirane datoteke robot.txt.
Datoteka je jednostavna, ali učinkovita. Ovaj primjer datoteke ne razlikuje robote. Naredbe se izdaju svim robotima pomoću Korisnički agent: * direktiva. To znači da se sve naredbe koje ga slijede primjenjuju na sve robote koji posjećuju stranicu kako bi je pretražili.
Određivanje Web pretraživača
Možete odrediti i posebna pravila za određene web indekse. Na primjer, možete dopustiti Googlebotu (Googleovom pretraživaču web stranica) da pretraži sve članke na vašoj web lokaciji, ali možda biste željeli onemogući ruskom web pretraživaču Yandex Bota da pretražuje članke na vašoj web lokaciji o kojima su omalovažavajuće informacije Rusija.
Postoji stotine web pretraživača koji pretražuju internet informacijama o web stranicama, no 10 najčešćih zbog kojih biste trebali biti zabrinuti nalazi se ovdje.
- Googlebot: Google pretraživač
- Bingbot: Microsoftova pretraživačica Bing
- Srkati: Yahoo pretraživač
- DuckDuckBot: Tražilica DuckDuckGo
- Baiduspider: Kineska tražilica Baidu
- YandexBot: Ruska pretraživač Yandex
- Exabot: Francuska tražilica Exalead
- Facebot: Facebook-ov indeksni bot
- ia_archiver: Aksin web pretraživač Alexa
- MJ12bot: Velika baza podataka za indeksiranje veza
Uzmimo gore navedeni primjer, ako želite omogućiti Googlebotu da indeksira sve na vašoj web lokaciji, ali htjeli ste blokirati Yandex da indeksira vaš članak na ruskom jeziku, dodajte sljedeće redove na svoj robots.txt datoteka.
Korisnički agent: googlebot
Disallow: Onemogući: / wp-admin /
Onemogući: /wp-login.php
Korisnički agent: yandexbot
Disallow: Onemogući: / wp-admin /
Onemogući: /wp-login.php
Onemogući: / russia /
Kao što vidite, prvi odjeljak samo blokira Google da indeksira vašu stranicu za prijavu na WordPress i administrativne stranice. Drugi odjeljak blokira Yandex od istog, ali i sa čitavog područja vaše web stranice na kojem ste objavili članke sa antiruskim sadržajem.
Ovo je jednostavan primjer kako možete koristiti Onemogući naredba za kontrolu određenih web indeksa koji pretražuju vašu web stranicu.
Ostale naredbe Robots.txt
Disallow nije jedina naredba kojoj imate pristup u datoteci robots.txt. Možete koristiti i bilo koju drugu naredbu koja će usmjeriti kako robot može indeksirati vašu web lokaciju.
- Onemogući: Kaže korisničkom agentu da izbjegne indeksiranje određenih URL-ova ili cijelih odjeljaka vaše web lokacije.
- dopustiti: Omogućuje precizno prilagođavanje određenih stranica ili podmapa na vašoj web lokaciji, iako ste možda onemogućili roditeljsku mapu. Na primjer, možete onemogućiti: / about /, ali dopustiti: / about / ryan /.
- Indeksiranja kašnjenje: To poručuje alatu da pričeka xx broj sekundi prije nego što počne pretraživati sadržaj web mjesta.
- Mapa: Navedite tražilice (Google, pitajte, Bing i Yahoo) lokaciju vaših XML sitemapova.
Imajte na umu da botovi hoće samo preslušajte naredbe koje ste naveli kad odredite ime robota.
Česta greška koju ljudi čine je onemogućavanje područja poput / wp-admin / iz svih botova, ali zatim odrediti odjeljak googlebot i samo zabraniti druga područja (poput / about /).
Budući da botovi slijede samo naredbe koje ste naveli u njihovom odjeljku, morate ponovno pokrenuti sve one naredbe koje ste naveli za sve botove (koristeći * user-agent).
- Onemogući: Naredba kojom se korisničkom agentu poručuje da ne pretraži indeksiranje određenog URL-a. Za svaki je URL dopušten samo jedan redak "Disallow:".
- Dopusti (primjenjivo samo za Googlebot): Naredba za reći Googlebotu da može pristupiti stranici ili podmapi iako njegova matična stranica ili podmapa možda nisu dopuštene.
- Indeksiranja kašnjenje: Koliko sekundi bi alat za indeksiranje trebao čekati prije utovara i pretraživanja sadržaja stranica. Imajte na umu da Googlebot ne priznaje ovu naredbu, ali stopa pretraživanja i indeksiranja mogu se postaviti u Google Search Console.
- Mapa: Koristi se za pozivanje lokacije XML sitemapa (e) povezanih s ovim URL-om. Napominjemo da ovu naredbu podržavaju samo Google, Pitaj, Bing i Yahoo.
Imajte na umu da je cilj robots.txt pomoći zakonitim botovima (poput botova pretraživača) što učinkovitije pretraživati vašu web lokaciju.
Postoji puno gadnih alata za indeksiranje koji pretražuju vašu web lokaciju da bi radili stvari poput struganja e-adrese ili ukrali vaš sadržaj. Ako želite isprobati datoteku robots.txt da biste onemogućili tim alatima za indeksiranje da ne pretražuju bilo što na vašoj web lokaciji, ne smetajte. Kreatori tih alata za indeksiranje obično ignoriraju sve što ste unijeli u svoju datoteku robots.txt.
Zašto onemogućiti bilo što?
Navođenje Googleove tražilice da indeksira što kvalitetniji sadržaj na vašoj web lokaciji osnovna je briga za većinu vlasnika web stranica.
Međutim, Google troši samo ograničeno pretraživati proračun i stopa puzanja na pojedinačnim mjestima. Stopa indeksiranja iznosi koliko zahtjeva u sekundi Googlebot podnese na vašu web lokaciju tijekom događaja pretraživanja.
Važniji je proračun za indeksiranje, koliko ukupnih zahtjeva Googlebot podnese za indeksiranje vaše web stranice u jednoj sesiji. Google "troši" proračun za indeksiranje usredotočujući se na područja vaše web stranice koja su vrlo popularna ili su se nedavno promijenila.
Nisi slijep za ove informacije. Ako posjetite Google Webmaster Tools, možete vidjeti kako alat za indeksiranje obrađuje vašu web lokaciju.
Kao što vidite, alat za indeksiranje svakodnevno održava aktivnost na vašoj web lokaciji. Ne indeksiraju se sve web lokacije, već samo one koje smatra najvažnijim.
Zašto to ostavljate Googlebotu da odluči što je važno na vašoj web lokaciji, kada pomoću datoteke robots.txt možete reći koje su najvažnije stranice? To će spriječiti Googlebot da troši vrijeme na stranicama male vrijednosti na vašoj web lokaciji.
Optimiziranje proračuna pretraživanja i indeksiranja
Google Alati za webmastere također vam omogućuju provjeru da li Googlebot dobro čita vašu datoteku robots.txt i postoje li pogreške.
Na taj ćete način provjeriti jeste li pravilno strukturirali datoteku robots.txt.
Koje stranice trebate onemogućiti s Googlebota? Dobro je za vaše web mjesto SEO onemogućiti sljedeće kategorije stranica.
- Duplirane stranice (poput stranica prilagođenih pisaču)
- Zahvaljujemo stranicama koje slijede putem naloga
- Obrasci za narudžbu ili informacije
- Stranice za kontakt
- Stranice za prijavu
- Stranice "prodaje" vodećeg magneta
Nemojte zanemariti svoju datoteku Robots.txt
Najveća pogreška koju vlasnici novih web stranica čine je da čak ni ne pogledaju svoju datoteku robots.txt. Najgora situacija mogla bi biti da datoteka robots.txt zapravo blokira uopće ne pretraživanje vaše web lokacije ili područja vaše web lokacije.
Obavezno pregledajte datoteku robots.txt i provjerite je li optimizirana. Na ovaj način, Google i druge važne tražilice „vide“ sve fenomenalne stvari koje nudite svijetu pomoću vaše web stranice.