WordPress SEO apmācība Anfänger un Fortgeschrittene

Manā robots.txt fails (http://www.tutorvista.com/robots.txt), Es izmantoju Noindex: /content/... lai aizliegtu indeksēšanu:

Tam vajadzētu to nozīmēt http://www.tutorvista.com/content/ un neko, kas atrodas zem šī URL, nevajadzētu indeksēt. Zemāk esošo manu meklēšanas rezultātu attēlā redzams, ka lapas ar šo URL tiek indeksētas:

Turklāt es izmantoju Disallow: /biology/ kas nozīmē http://www.tutorvista.com/biology/ un neko zemāk nevajadzētu pārmeklēt. Bet manu meklēšanas rezultātu attēlā varat redzēt, ka lapas zem šī URL tiek pārmeklētas un indeksētas.

Tātad, vai kāds var pateikt, kas man ir nepareizi? robots.txt direktīvām?

  • Google [tīmekļa pārziņa rīki] (HTTPS://google.com/webmasters/tools) (atlasiet vietni un dodieties uz Pārmeklēšana | Robotu testeris) ļauj jums pārbaudīt robots.txt pret dažādiem jūsu vietnes ceļiem. To darot ar robots.txt, tas parāda (piemēram) Allow: /biology/ ir pamatojums /biology/abdominal-cavity-organs tiek atļauta nevis sakne, un tāpēc, ka šie noteikumi ir pirms precīza aizlieguma noteikuma.
  • Atsaucoties uz jūsu uzņemto meklēšanas rezultātu, jums ir šāda atļaujas kārtula: Allow: /biology/animations/ virs bloķēšanas bloka, tāpēc tam būs prioritāte.
  • @ Zhaph-BenDuguid Paldies par atbildi. Jā tev ir taisnība! Tagad es saprotu.

Jūsu failā robots.txt nevajadzētu izmantot "noindex" direktīvas, tā vietā visām lapām, kuras nevēlaties indeksēt Google, jāpievieno noindex metatags.

NOINDEX tags izskatās šādi, un tas jāievieto jebkuras lapas sadaļā, kuru nevēlaties indeksēt:

<meta name='robots' content='noindex'> 

Vairāk informācijas var atrast šeit.

Otrajā piemērā, kamēr jūsu robots.txt failā ir "Disallow: / biology /", dažas rindiņas virs tā ir arī "Atļaut: / biology / animations /", tāpēc šī lapa ir indeksēta jūsu piemērā.

Ceru tas palīdzēs!

  • 2 Patiesībā Noindex ir paredzēts strādāt robots.txt: Kā robots.txt darbojas “Noindex:”? bet Google ir teicis, ka viņi var noņemt atbalstu tam, kas šeit varētu notikt. Ja jūs to izmantojat, izmantojiet to kopā ar metindagu noindex.
  • @ matthew Paldies par atbildi. Otrajā attēla piemērā pārbaudiet tā ceturto rezultātu / bioloģiju. bet es esmu faktiski atteicies, izmantojot Disallow: / biology /. kā tas parādījās?
  • 1 Jā, vienmēr ir jābūt rezerves plānam, piemēram, @StephenOstermiller ieteica :). Neoficiāli paplašinājumi var pieturēties vai nepielipt, un uzvedība meklētājprogrammās tik un tā būs atšķirīga.

Pieraksti to Noindex nav sākotnējās robots.txt specifikācijas daļa. Google to atbalstīja kā eksperimentālu funkciju (skatiet: Kā robots.txt darbojas “Noindex:”?), Taču nav skaidrs, vai tas tā joprojām ir (jo viņi to nedokumentēja sākumā). Bet pieņemsim, ka tā ir.

Jūsu robots.txt ir divas problēmas.

Tukšas rindas

Ierakstā nedrīkst būt tukšas rindas. Lai nošķirtu ierakstus, tiek izmantotas tukšas rindas.

Atbilstošs robots (kas netiek identificēts kā Googlebot-Image/Adsbot-Google/Mediapartners-Google) izmanto šo ierakstu:

User-agent: * Allow: / 

Tātad neviens no šiem Disallow/Allow/Noindex piemēro līnijas.

Protams, robots var mēģināt to "salabot" un interpretēt nākamās rindas kā daļu no šī ieraksta (ti, ignorējot tukšās rindas), taču robots.txt specifikācija to nenosaka, tāpēc es ar to neskaitītos to.

... iekšā Noindex vērtības

Ja Noindex darbojas kā Disallow (ko mēs precīzi nezinām, kā Noindex nav norādīts / dokumentēts, bet, domājams, nebūtu jēgas to norādīt citādi), ... jūs pievienojāt vērtībām, tas nozīmē ... ir jāparādās vietrāžos URL, kurus vēlaties noindexēt.

Līnija

Noindex: /content/biology/... 

attiecas uz tādu vietrādi URL kā /content/biology/.../foobar, bet ne uz tādu URL kā /content/biology/foobar ne arī /content/biology/.

Tātad, ja vēlaties katru URL, kura ceļi sākas ar /content/biology/ lai nebūtu indeksēts, jums jānorāda:

Noindex: /content/biology/ 

strādāja par jums: Charles Robertson | Vēlies ar mums sazināties?