Man ir problēmas ar robots.txt. Es ievietoju robots.txt failu vietnes galvenajā direktorijā (un arī /var/www/html - lai tas darbotos visos serveros), bet roboti joprojām turpina pārmeklēt manas vietnes.

tas ir mans robots.txt:

User-agent: YandexBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: SemrushBot/1.2~bl Disallow: / 

Vai jums ir kādi ieteikumi?

  • Kurš no šiem robotiem joprojām pārmeklē jūsu vietni? Ne visi roboti pakļaujas robots.txt, bet es būtu pārsteigts, ja kāds no šiem konkrētajiem būtu problemātisks.
  • Vai esat pārbaudījis, vai jūsu robots.txt fails patiešām tiek piegādāts jūsu vietnei? Vai jūs varat apmeklēt http://example.com/robots.txt un saņemt savu failu? (Protams, aizstājot savu domēna vārdu tur, kur man ir example.com.)
  • Cik ilgi jūs esat gaidījis pēc robots.txt faila ievietošanas vietā? Rāpuļprogrammām ir atkārtoti jāielādē robots.txt, lai saprastu, ka viņiem nevajadzētu rāpot. Neviens rāpuļprogramma neielādē robots.txt katrai pārmeklētajai lapai. Lielākā daļa to ienes vienu reizi dienā.
  • 1 Sveiki, es esmu pārbaudījis, un robots.txt ir publisks visiem, kas vēlas apskatīt failu. IVE izveidoja šo robots.txt failu pirms vienas dienas.

Ņemiet vērā, ka jūsu robots.txt nav derīgs (taču tas nenozīmē, ka tas ir iemesls jūsu problēmai; roboti var ignorēt šādas kļūdas).

Ja robots parsē jūsu robots.txt failu stingri saskaņā ar robots.txt specifikāciju, šis robots redzētu tikai vienu ierakstu un šis ieraksts attiektos tikai uz robotiem ar nosaukumu "YandexBot". Visiem citiem robotiem būtu atļauts visu pārmeklēt.

Iemesls ir tāds, ka ieraksti jāatdala ar tukšām rindām. Tā tam vajadzētu būt:

User-agent: YandexBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: AhrefsBot Disallow: / User-agent: SemrushBot/1.2~bl Disallow: / 

Ja jums vienmēr būs tas pats Disallow visiem šiem robotiem jūs varētu izmantot vienu ierakstu ar vairākiem User-agent līnijas, ja vēlaties

User-agent: YandexBot User-agent: SemrushBot User-agent: AhrefsBot User-agent: SemrushBot/1.2~bl Disallow: / 

(Dažiem robotiem, kurus plānojat bloķēt, iespējams, būs jāizmanto dažādi nosaukumi, kā savā atbildē iesaka @StephenOstermiller.)

Pēc faila robots.txt izveides paies diena vai vairāk, kamēr rāpuļprogrammas, kas to godā, to nāks.

Yandex ir vairāki roboti, un viņiem ir dokumentācija par to, kā tos visus aizliegt, izmantojot robots.txt, šeit: https://yandex.com/support/webmaster/controlling-robot/robots-txt.xml. Varat apsvērt iespēju mainīt savu robots.txt uz šo Yandex:

User-agent: Yandex Disallow: / 

SEM Rush ir divi roboti. Viņu dokumentācija par to ir šeit: https://www.semrush.com/bot/ Jūs esat pareizi noraidījis vienu no tiem, taču jūsu otrais noteikums ar robota versijas numuru nebūs efektīvs. Apsveriet iespēju izmantot šos noteikumus, lai neatļautu visu SEM Rush pārmeklēšanu:

User-agent: SemrushBot Disallow: / User-agent: SemrushBot-SA Disallow: / 

Jūs jau noraidāt AhrefsBot precīzi saskaņā ar viņu dokumentāciju: https://ahrefs.com/robot

User-agent: AhrefsBot Disallow: / 

strādāja par jums: Charles Robertson | Vēlies ar mums sazināties?

noderīga informācija