Fräschas upp Google juice med robots.txt

Jag har nyligen avslutat den första produktionsfasen av en migrering från en mycket gammal content management system till en ny, baserad på WordPress och min egen kod. När du migrerar ett mycket stort system (vi hade cirka hundra tusen artiklar), finns det ofta en hel del lösa trådar som behöver städa upp – och det kan ta ganska lång tid.

Häromdagen, som arbetar på webbplatsen DIY-IT artikel, hur Camtasia räddade webcast … bokstavligen, upptäckte jag en av de lösa trådar.

Det visade sig, jag hade en katalog visas i Google som jag helst inte skulle ha indexeras av sökmotorn. Nu, innan du går tänker nycklarna till riket är där, det är inte problemet. Det är bara att katalogen har många av filerna den gamla CMS används för att intaget, för att generera artiklar.

Låt mig illustrera. I Camtasia artikeln, jag ville referera till en översyn som jag gjorde av SnagIt redan 2007 för Connected fotograf. Jag mindes jag heter SnagIt galen, för alla de funktioner som det hade (det faktiskt har mer nu, tro det eller ej). Så jag gjorde en sökning på “galen SnagIt Gewirtz” – som du kan se i följande skärmbild.

Lägg märke till den första organiska resultatet. Det är det vi vill att Google att indexera och display. Men märker att det finns en annan linje, den som börjar med “.FLYINGHEAD”. Det är a.doc fil (inte en Word-fil i det här fallet, men ett CMS textfil med the.doc förlängning). Nu finns det inget speciellt med den filen, förutom att det är mycket gamla och inte att dyka upp i Googles index.

Här är vad som händer. På våran server, har vi en katalog som håller vår WordPress installera. Låt oss kalla det “main”. Jag har också en annan katalog, en som främst har alla gamla bilder från migration – och alla filer these.doc intag. Låt oss kalla det “gamla”.

Båda är på samma nivå, så “main” är ett syskon av “arv”. Saken är, jag vill webbläsare för att kunna hämta filer från arvet katalogen, eftersom jag har tiotusentals artikelbilder där. Jag vill bara inte Google att indexera det hela.

Som sagt, det är inte om att dölja något, men som ni kan se från sökresultaten Googles resultat bara inte ser ren. Och jag gissar att vi förmodligen att förlora en del SEO juice eftersom det finns en hel del extra filer på nätet, inklusive de med liknande innehåll vad vi tjänar på den faktiska webbplatsen.

? Artificiell intelligens, Googles DeepMind hävdar viktig milstolpe i tillverkningsmaskiner tala som människor, utvecklare, Google köper Apigee för $ 625.000.000, Cloud, Box integreras med Google Docs, Spring, Mobility, Google vederlägger Microsofts Edge batteri påståenden: Chrome på Surface varar längre

För min sida, det finns inte en hel del skada görs. Men om du följer eskapader min webbplats kollega Stephen Chapman, vår egen sökning ninja och värd för den utmärkta SEO Whistleblower blogg, ser du hur en del information inte bör exponeras. Jag frågade Stephen att dela med mig ett par berättelser, så han gav mig följande länkar

I mitt fall, jag behövde bara att plugga läckan. Jag kommer så småningom att skicka ett program om alla dessa äldre kataloger och rensa ut de gamla filerna vi inte längre behöver. Men det är en relativt tidskrävande bara fråga om programmering, så det kan vänta.

Under tiden, har jag beslutat att svinga robots.txt slägga. Robots.txt är en fil på servrar som de flesta (inte alla) sökning spindlar respekt. Den talar spindlar vilka mappar att utforska och vilka mappar som ska undvikas. Jag använde ett kommando som, med tiden, på ett effektivt sätt kommer att ta bort hela katalogen från Google

User-agent: *; Disallow: /

Det bör noteras att placera denna fil, med dessa två linjer, på fel plats på ett effektivt sätt kan nuke dig från Internet. Stephen gav följande störande berättelse som illustration

När jag diskuterade den här artikeln med Stephen (det är kallt har tillgång till de smartaste hjärnor genom att vara en del av webbplatsen), delade han med mig några varningar. Först ville han att du ska veta att bara för att robots.txt berättar sökmotorer att inte indexera en katalog, det betyder inte att katalogen är skyddad från Internet. Det är bara en karta, inte en vakthund.

För det andra, varnade han att robots.txt är själv, kan läsas av vem som helst på Internet. Se den linjen där uppe som säger “Disallow: /”. Det är en ganska grundläggande robots.txt linje. Men vissa människor kan ha en linje som

Tillåt: / site / konfidentiell / finansiell

Medan sökmotorer skulle nu inte index / site / konfidentiell / finansiella, med stöd av den listas i robots.txt, vissa webbplats spelunkers skulle nu lättare kunna hitta (där de inte skulle ha, annars) att det finns en katalog som heter / site / konfidentiell / finansiell – och de kan nu gå gräva in för att se vad de kan hitta.

Jag skulle också inte uttrycka det förbi en Wikileaks eller någon annan form av online-snooping service från att läsa robots.txt-filer från hela Internet och sedan publicera specifikt vad dessa filer anges som otillåtna.

Så, vad är poängen med denna berättelse? Vad är min varnande eller meddelande? Nåväl, det finns några. Först när du migrerar äldre data, kan du ha en sökmotor inverkan. Använda robots.txt är en väg runt det. Min andra budskap är att använda robots.txt kan vara som att skjuta sig själv i foten, så var försiktig med vad du gör.

Lycka till, gå ut, och DIY något stort!

? Googles DeepMind hävdar viktig milstolpe i tillverkningsmaskiner tala som människor

Google köper Apigee för $ 625.000.000

Box integreras med Google Dokument, Spring

? Google vederlägger Microsofts Edge batteri påståenden: Chrome på Surface varar längre