PIEVIENOJIET atkārtoti: Yoshi sala: Hacked

Mana vietne tika uzlauzta apmēram pirms 4–6 mēnešiem, un rezultātā manā vietnē tika izveidotas daudzas lapas. Šīs lapas vairs nepastāv un tika noņemtas nedēļu pēc uzlaušanas, taču tās joprojām pastāv googles meklēšanas rezultātos, un man Google meklēšanas konsolē ir vairāk nekā 1000 pārmeklēšanas kļūdu. Es domāju, ka google būtu jau noņēmis šīs lapas.

Šķiet, ka visas lapas atsaucas uz šo ceļu:

mydomain.com/glpkvn [skaits šeit] / lity / [numurs šeit]

Kur [skaitlis šeit] ir nejauši ģenerēts skaitlis.

Kā vislabāk noņemt tos no google meklēšanas rezultātiem un arī sakārtot manu google meklēšanas konsoli?

Paldies

  • Tas ir grūts. Lielā lapu skaita dēļ es nedomāju, ka opcija Google Search Console - Noņemt URL noteikti ir laba ideja. Es būtu domājis, ka 404 jau būtu palīdzējis vai vismaz būtu pietiekami sācis noņemt URL, lai sniegtu jums zināmu pārliecību. Es iesaku tam izmantot failu robots.txt. Tomēr cik precīzi nav skaidrs. Es nesaprotu gadījuma skaitļa pieminēšanu, ja piemērā nav skaitļu. Vai jūs varat to precizēt savā jautājumā? Priekā!!
  • Atvainojiet, man ir jāizmanto rezervēti simboli ar lielākām un mazāk nekā zīmēm
  • Es to tagad esmu rediģējis, lai parādītu, ko es domāju
  • Labi. Kādam tagad būtu jāspēj uz to labāk atbildēt. To vajadzētu atrisināt diezgan vienkārši. Man ir draugs, kurš nāk apmēram 2 stundu attālumā, tāpēc es gandrīz visu atlikušo dienu būšu prom. Tomēr vēlā vakarā man vajadzētu būt mazliet laika, ja jums nav atbildes. Priekā!!
  • Atvainojiet, ka man vajadzēja tik ilgi atbildēt. Jums ir pāris iespējas. Priekā!!

Kā vislabāk noņemt tos no Google meklēšanas rezultātiem

Ļaujiet šādām ietekmētajām lapām atgriezt 410 HTTP kodu.

Jūs varat izmantot apache mod_rewrite moduli (vai līdzvērtīgu) un uzrakstīt servera konfigurācijas skriptu, kas pārbauda, ​​vai URL pastāv noteikts paraugs, un, ja tāds ir, tad lietotājs redzēs 410 lapu.

Ja jūsu tīmekļa serveris ir apache, tad dokumenta saknes mapē izveidojiet failu ar nosaukumu .htaccess un atkarībā no jūsu konkrētās situācijas varat pievienot jebkuru no šīm rindām:

RewriteRule ^glpkvn([0-9]+)/lity/([0-9]+)$ [R=410,L] 

Šī rinda (iepriekš) pārbauda, ​​vai URL ir http://example.com/glpkvn####/lity/#### (kur #### ir jebkurš skaitļu ciparu skaits) un vai tur ir atbilstība , tad kārtulu apstrāde apstājas un lietotājs tiek nosūtīts uz lapu ar 410 HTTP statusu.

RewriteRule ^glpkvn(.*)$ [R=410,L] 

Šajā rindā tiek pārbaudīts, vai URL sākas ar http://example.com/glpkvn, un vai tas atgriežas pēc tam 410 HTTP statusa lapā.

Ja vēlaties atļaut nejutīgumu reģistrā (tas nozīmē, ka vēlaties, lai URL sāktu ar http://example.com/glpkvn vai http://example.com/GLPkvn), pievienojiet NC šādās opcijās:

RewriteRule ^glpkvn(.*)$ [R=410,L,NC] 

410 statusa izmantošanas iemesls ir tas, ka 410 nozīmē, ka tas ir pagājis uz visiem laikiem, un tas norāda Google, ka tam nekad nevajadzētu mēģināt vēlreiz piekļūt lapai.

un arī sakārtot manu google meklēšanas konsoli?

Vispirms veiciet iepriekš minētās darbības, pēc tam, piekļūstot meklēšanas konsolei, izdzēsiet nepareizos vietrāžus URL.

  • Paldies par iepriekš minēto. Izrādās, ka neatkarīgi no tā, kas tika uzlauzts, tas nonāca arī citās vietnēs ar tādu pašu mitināšanas plānu. Ja, piemēram, vienā no citām vietnēm, kas man bija, bija pilns ar surogātpasta saitēm, piemēram, www.website.com/// frrpvut vai man būtu taisnība, domājot, ka likums būtu RewriteRule ([0-9] +) / ([0-9] +) / frrpvut [R = 410, L] derētu? Vēlreiz paldies
  • Noteikumi prasītu arī domuzīmi, piem. RewriteRule ^glpkvn([0-9]+)/lity/([0-9]+)$ - [R=410,L]

Lai gan es stingri ticu 410, salīdzinot ar kļūdu 404, tas ir ļoti atkarīgs no tā, vai Google faktiski apmeklē katru lapu pa vienam. Ja jūsu vietne netiek bieži apmeklēta no Googlebot, jo tiek uzskatīta par ļoti svaigu un modernu vietni, tas nozīmētu, ka varētu paiet diezgan ilgs laiks, līdz Google katru lapu atrod, pirms tās noņem.

Kad vietne tiek uzlauzta, bieži vien ir diezgan neiespējami katru URL noņemt, izmantojot opciju Noņemt vietrādi Google Search Console, lai gan tā joprojām ir opcija ar, protams, ierobežojumiem. Vairāk par to vēlāk.

Viena potenciāli ātrāka iespēja ir izmantot robots.txt failu.

Google apmeklēs robots.txt katru reizi, kad apmeklēs jūsu vietni, ar nosacījumu, ka 24 stundu laikā nav ielādējis jaunu robots.txt faila kopiju. Tas tiek uzskatīts par saprātīgu kompromisu faila robots.txt ielādē katru reizi, kad Google apmeklē, vai robots.txt ielādēšanu pārāk reti. Iepriekš tam nebija standarta, un vienmēr bija nelabvēlīgi faktori, vai nu robots.txt fails tika lasīts pārāk bieži, vai arī tas nebija pietiekami bieži. Jā. Dažreiz Google nevar uzvarēt.

Kad robots.txt tiek ielādēts, tas tiek saglabāts indeksā un tiek lietots, kamēr Googlebot veic savu biznesu. Tomēr ir arī process, kurā tiek lietotas regulāro izteiksmju (regex) kārtulas, kas viegli atvasinātas no noteikumiem, kas atrodami robots.txt, un noņem vietrāžus URL un lapas, kas atrodamas indeksā. Tas netiek darīts uzreiz, iespējams, lai izvairītos no tīmekļa pārziņa pieļautām īslaicīgām kļūdām, tomēr, tā kā robots.txt tiek uztverts ļoti nopietni kā galveno noteikumu mehānisms labi izturētiem robotiem, Google to pielietos diezgan ātri. Tas joprojām var aizņemt dienas vai nedēļas, tomēr tas tiek darīts vairumā.

Šī iemesla dēļ robots.txt bieži ir ātrākais veids, kā noņemt vietrāžus URL, ja tos var norādīt pēc parauga. Kaut arī ne katra meklētājprogramma pret robots.txt direktīvām izturas vienādi, par laimi Google atļauj aizstājējzīmes sniegt jums nopietnas priekšrocības.

User-agent: Googlebot Disallow: /glpkvn*/ 

Saskaņā ar lapu: https://support.google.com/webmasters/answer/6062596?hl=lv&ref_topic=6061961 sadaļā Paraugu saskaņošanas noteikumi, lai pilnveidotu robots.txt kodu, tiks parādīts līdzīgs piemērs.

Google negarantē, ka vietrāži URL tiks noņemti, un norāda, ka URL noņemšana prasīs zināmu laiku.

https://support.google.com/webmasters/answer/7424835?hl=lv&ref_topic=6061961#h17

https://support.google.com/webmasters/answer/7424835?hl=lv&ref_topic=6061961#h18

Tomēr mana pieredze ir tāda, ka šī metode darbojas un darbojas ātrāk nekā gaidīt, kamēr Google katru lapu ienes pa vienai.

Viens brīdinājums. Ja jūs bloķējat Google ielādēt šīs lapas, izmantojot failu robots.txt, Google lapā neredzēs kļūdu 404 vai 410. Jums jāizvēlas viena vai otra metode. Google vietņu URL noņemšanai iesaka izmantot Google Search Console.

Es gribētu gaidīt, kamēr Google dabiski noņem lapas, izmantojot 404. 410 kļūda ir ātrāka, jo katrs 404 pirms noņemšanas tiek atkārtoti pārbaudīts vairākas reizes. Tomēr, ņemot vērā to, ka jūsu vietne ir uzlauzta un šīs lapas paliek meklēšanas rezultātos, var būt prātīgi mēģināt lapas noņemt, izmantojot citu metodi. Es personīgi esmu noņēmis lapas masveidā, izmantojot šo metodi, lai gan tas bija pirms pāris gadiem. Kuru jūs izmantojat, ir atkarīgs no jums.

  • Paldies par visu iepriekš minēto, es ievietoju dažus Google Search Console, lai noņemtu vietrāžus URL, bet šķita, ka tas liek domāt, ka tas ir tikai īslaicīgs labojums, tāpēc es domāju, ka es šeit jautāšu? Es apskatīšu robots.txt labošanu failu, kā jūs, šķiet, domājat, tas nodrošinās ātrāku rezultātu nekā .htacess fails. Kad ieraksti tiks noņemti no google, es domāju, ka es varēšu droši sakārtot savus robots.txt pēcvārdus?
  • Jā. Tu saprati! Es personīgi izmantoju robots.txt, lai noņemtu lapas pirms pāris gadiem. Tas joprojām var aizņemt kādu laiku. Tikko atbildei pievienoju domu, kurā paskaidroju, ka, nekavējoties piemērojot robots.txt kārtulas, Google izvairīsies no īstermiņa tīmekļa pārziņa kļūdām. Agrāk tas bija tikai dažas dienas vai viena vai divas nedēļas. Kad šķiet, ka viss ir notīrīts, varat atjaunot failu robots.txt, kā vēlaties. Tomēr tas nekaitē, ja noteikumu atstāj ilgāk katram gadījumam. Priekā!!
  • Es ievēroju iepriekš minēto, lai iegūtu robots.txt ieteikumu, taču konstatēju, ka google tagad saka: "Šī rezultāta apraksts nav pieejams šīs vietnes robots.txt dēļ". Vai tie kādreiz pazūd, vai arī man vajadzētu mēģināt sekot kādam no citiem ieteikumiem? Vēlreiz paldies!
  • Pieņemot, ka Google sniedz šo ziņojumu vietrāžiem URL, kurus nevēlaties, nevis vietnei, tad tas var būt normāli. Google, manuprāt, kļūdaini dažreiz SERP satur URL, kur ir saite un kur robots.txt fails to neatļauj. Galu galā tiem vajadzētu vienkārši izzust. Es fanoju par iespēju izmantot 404 kļūdas vai 410 kļūdas. Ja to izdarīsit, noņemiet ierakstu no robots.txt, lai būtu redzamas kļūdas. Kā piezīmi, man nekad nav bijis problēmu ar robots.txt lietošanu. Kaut kur tīklā jābūt saitēm uz šīm sliktajām lapām. Priekā!!

strādāja par jums: Charles Robertson | Vēlies ar mums sazināties?