Es mēģinu izmantot httrack, lai atspoguļotu savu emuāru, kas pašlaik tiek mitināts emuāru autoros. Problēma: neskatoties uz failu robots.txt, httrack mēģina lejupielādēt visu direktorijā / search. Tas noved pie bezgalīgas meklējumu regresijas.

Lūk, fails robots.txt (sava ​​emuāra nosaukumu esmu aizstājis ar “myblog”):

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / Sitemap: http://myblog.blogspot.com/feeds/posts/default?orderby=updated 

Es varu ierobežot pārmeklēšanu līdz 3. vai 4. dziļumam, bet es joprojām saņemu daudz meklēšanas * .html un search / label / *. Html failu spoguļotajā direktorijā.

httrack apgalvo, ka seko robots.txt. Kāpēc tas šeit nedarbojas? Ko es varu darīt, lai to labotu?

  • 1 Tikai tāpēc, ka jūs to neminējāt: vai pārliecinājāties, ka neesat atspējojis šādus robotu noteikumus projektam un aizmirsāt? Tas atrodas opciju cilnē Zirnekļi.
  • Labs jautājums. Es tikko skrēju httrack, izmantojot noklusējuma iestatījumus, plus -r4, lai ierobežotu rekursijas dziļumu.

Es nezinu droši, bet varbūt httrack lasa jūsu likumu “Atļaut” kā noteikumu “Neatļaut” ignorēšanu.

Jums vajadzētu noņemt likumu "Atļaut" neatkarīgi no tā, jo tas ir bezjēdzīgi. Lietotāju aģenti visu pārmeklēs pēc noklusējuma. Jūs bloķējāt meklēšanas direktoriju, tas ir viss, kas nepieciešams.

  • Labs ieteikums. Šajā gadījumā es nevaru kontrolēt robots.txt saturu, tāpēc nevaru modificēt failu.

strādāja par jums: Charles Robertson | Vēlies ar mums sazināties?

noderīga informācija