En rask guide til å skrive en Robots.txt-fil

Hvordan ser du på en stor lærebok? Sikter gjennom indeksen. Vel: det er ett element som er det virkelige sammendraget av nettstedet ditt ...

Robots.txt: Programmeringskoder blir garantert mer og mer sofistikerte
Programmeringskoder er satt til å bli stadig mer sofistikerte

Den eneste måten å komme i kontakt med søkemotoredderkoppen, eller crawler, er gjennom en fil som heter Robots.txt. Eller bedre. Når du sender inn forslag til nettstedet ditt til Google, blir det rett og slett møtt med en kolossal mengde informasjon.

Hvordan ser du på en lærebok som er så stor at du føler at du aldri vil finne alt du trenger? Du konsulterer ledetråden. Vel: robots.txt-filen er indeksen til nettstedet ditt.

Dette er et enkelt å fylle ut dokument som forteller søkemotoren hva den skal se etter. Kort sagt: du vil hjelpe ham med å forstå hva siden din er laget av, slik at algoritmen kan gi deg en rangering som passer til arbeidet du har gjort.

Kan hvem som helst skrive en robots.txt-fil?

Det korte svaret er ja. Det ærlige svaret er nei. Selv om grammatikken til en robots.txt-fil er ekstremt enkel, og dens sammensetning består av noen få linjer, er det bedre å stole på omsorgen til en ekspert webmaster som vet hvor han skal sette hendene. Tross alt er en liten feil nok til å kompromittere plasseringen av nettstedet ditt, og derfor stopper alle SEO-operasjoner før du begynner.

Før du begynner, vet én ting: hvem som helst kan se robots.txt-filen til et hvilket som helst nettsted ved å skrive en /robots.txt etter domenet. Du kan til og med konsultere Googles!

Du kan skrive en slik fil uten å laste ned spesiell programvare. Faktisk er det tilstrekkelig å bruke notisblokken og lagre, gjett hva, i .txt-format.

La oss skrive sammen en robots.txt: overskriften

La oss starte fra begynnelsen, som det alltid er logisk å gjøre. Åpningen av filen, eller rettere sagt overskriften, er helt dedikert til navnet på edderkoppen, etterfulgt av en liten ordlyd som alltid er den samme. La oss anta at du ønsker å bli lagt merke til av Google. Så den første linjen blir:

Brukeragent: Googlebot

Denne svært korte strengen forteller Google at alt som følger absolutt vil være av interesse for den. Hvis du vil at alle robotsøkeprogrammer som leser denne typen fil skal kunne se dokumentet, bytter du ut Googlebot med en enkel *, en stjernen.

Nå som du har angitt hvilken edderkopp, dvs. HVEM, må du angi også HVA han skal lese.

Hver kodelinje tilsvarer per definisjon en handling fra maskinen. Det sier seg selv at hver kommando i robots.txt-filen tilsvarer det maskinen ikke skal gjøre. Og dette er nøkkelen som lar deg skrive en virkelig effektiv. Vi snakker om DISALLOW-kommandoen.

Hva er DISALLOW-kommandoen?

Il ikke tillat kommando lar deg resonnere ved ekskludering. Med andre ord, når det sies at det først er å si hva som ikke bør gjøres – vel, du resonnerer med ekskludering. I tillegg til disallow er det også tillatelse, som er unntaket fra blokken.

Hvis du vil skrive en god robotfil, må du tenke omvendt, så du må fortelle Google hva den ikke skal lese. Hvis du skriver:

forby:

Edderkoppen vil lese hele nettstedet ditt, uten noen bremser.

Hvis du etter "Disallow:" setter inn en skråstrek (derfor Disallow: /), vil nettstedet ikke legges inn i søkemotorer, punktum.

Disallow: /kataloger/

Erstatt ordkatalogen med mappen du ønsker å bli nektet fra edderkoppvisning. Du kan gjøre det samme med en bestemt fil.

Disallow: /minfil.html

Oppmerksomhet til tegnsetting og bokstaver, store eller små bokstaver. Denne typen filer holder denne typen "bagateller" høyt, men de utgjør en stor forskjell.

Hvorfor ville du stoppe Google fra å lese en stor del av nettstedet ditt? Når du skriver en fil av denne typen, er det viktig å forstå hvilke filer som ikke skal vises på søkemotoren, men uten å misbruke dem. Vær imidlertid oppmerksom på at alle som kjenner den nøyaktige adressen til den aktuelle filen vil kunne få tilgang til den uansett.

Hva er ALLOW-kommandoen?

I filen kan du legge til et unntak med kommandoen TILLATE. Grammatikken er identisk, men den vil skape noen unntak fra DISALLOW som vil åpne for interessante utforskningsmarginer for edderkoppen.

En liten eksempelfil:

Brukeragent: Googlebot

Disallow: /images/

Tillat: /images/holidays.jpg

I utgangspunktet ba vi Googlebot om ikke å vurdere bildemappen, bortsett fra et bestemt bilde i den, nemlig det fra høytiden.

Og det, folkens, er det. Vi skrev vår første robots.txt-fil. Jada, hva vi skal gjøre for det faktiske nettstedet kan være litt annerledes, men ikke mye. Hvis du er i tvil, få alltid råd fra en spesialisert webmaster. Vi anbefaler deg å prøve å skrive det selv, først og fremst, og sende det til ham for en sjekk, for å mestre rudimentene og bedre forstå hvordan nettstedet ditt fungerer.

Hva er sammenhengen mellom robots.txt og nettstedskart?

Sitemap er en fil generert av spesielle plugins som inneholder alle lenkene på nettstedet. Når edderkoppen kommer inn på nettstedet, leser den først robotene, og gjennomsøker deretter nettstedet. Hvis roboten finner nettkartadressen under gjennomgangen, vil hele prosessen være mye enklere.

Legg til følgende i koden ovenfor:

Sitemap: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

For å konkludere

Alle robotfiler er de samme. Dette betyr at en Robots-fil skrevet for Google også vil fungere helt fint for Bing, og følger samme grammatikk.

En godt organisert robots.txt-fil lar deg spare crawler-tid. Ikke bli motløs: dette er det første skrittet mot suksess!

Robots.txt: Google er den kraftigste søkemotoren på Internett
Google er den kraftigste søkemotoren på Internett