King Kongs (1/10) Filmas KLIPS - Cilvēka upuris (2005) HD

Šeit ir dīvaini, ka es nezinu, ko darīt. Šodien mūsu uzņēmumu e-komercijas vietne samazinājās. Es izveidoju ražošanas žurnālu un redzēju, ka mēs saņēmām tonnu pieprasījumu no šī IP diapazona 157.55.98.0/157.55.100.0. Es googlināju apkārt un nācu uzzināt, ka tas ir MSN tīmekļa rāpuļprogramma.

Tāpēc būtībā MS tīmekļa rāpuļprogramma pārslogoja mūsu vietni, liekot tai nereaģēt. Kaut arī failā robots.txt mums ir šādas darbības;

Crawl-delay: 10 

Tātad tas, ko es darīju, vienkārši aizliedza IP diapazonu iptables.

Bet ko es nedomāju darīt šeit, ir tas, kā sekot. Es nevaru atrast vietu, kur sazināties ar Bing par šo jautājumu, es nevēlos saglabāt šos IP bloķētus, jo esmu pārliecināts, ka galu galā mēs tiksim indeksēti no Bing. Un nešķiet, ka tas kādam citam būtu noticis iepriekš.

Kādi ieteikumi?

Atjaunināt, Mans serveris / Web statistika

Mūsu tīmekļa serveris izmanto Nginx, Rails 3 un 5 Unicorn darbiniekus. Mums ir 4 GB atmiņa un 2 virtuālie kodoli. Šī iestatīšana ir notikusi vairāk nekā 9 mēnešus, un mums nekad nav bijis problēmu. 95% gadījumu mūsu sistēmai ir ļoti maza slodze. Vidēji mēnesī mēs saņemam 800 000 lapu skatījumu, un tas nekad netuvojas mūsu tīmekļa servera palēnināšanai / palēnināšanai.

Apskatot žurnālus, kurus mēs saņēmām no 5 līdz 40 pieprasījumiem / sekundē no šī IP diapazona.

Visos savos tīmekļa izstrādes gados es vēl nekad neesmu redzējis, ka rāpuļprogramma tik daudz reižu nokļūtu vietnē.

Vai tas ir jauns ar Bingu?

  • 2 Lai to izdarītu a programmēšana jautājums, jūs varētu jautāt, kā salabot savu vietni, lai tā darbotos pietiekami labi, lai būtu publiskajā internetā.
  • Jūs uzdodat pareizo jautājumu nepareizajā vietā;)
  • Ja kāds rāpuļprogramma salauž jūsu vietni, iespējams, ir vairāk problēmu ar jūsu vietni nekā ar rāpuļprogrammu (papildus tam, ka rāpuļprogramma neievēro jūsu robots.txt, kuram jums nekad nevajadzētu uzticēties :-)).
  • Iespējams, ka jūsu robots.txt faila direktīvas netiek ievērotas formatēšanas problēmas dēļ - vai jūs varat ievietot visu faila saturu pārskatīšanai?
  • @PeeHaa, paldies par atbildi, jā, es domāju, ka es nevaru uzticēties, ka rāpuļprogramma ievēros manu robots.txt failu. Bet es atjaunināju savu jautājumu ar kādu servera statistiku. Ja jums ir kāds cits ieskats, es to ļoti novērtētu.

Pierakstieties, izmantojot Bing tīmekļa pārziņa rīkus un aizpildiet to pārmeklēšanas ātruma diagrammu. Iestatiet to ātrākajai pārmeklēšanai ārpus darba laika un daudz samazinātu likmi aktīvākajā laikā.

Ja Bings pārspēj jūsu vietni, jums jāpārdomā tīmekļa servera jauda. Vislabākais tests ir noskaidrot, vai jūs varat izdzīvot Google, Bing, Yahoo un Baidu, kas vienlaikus skar jūsu sistēmu. Ja uzbrukuma laikā tas paliek ekspluatācijā, jūs esat gatavs aktīvai klientu slodzei.

Jā, Bings var tev iesist diezgan smagi, ja neesi viņiem devis ierobežojumu. Pirms diviem mēnešiem tas man šeit sagādāja nopietnas problēmas. Es tikko noregulēju sistēmu, lai tā darbotos, un tā bija laba lieta, pretējā gadījumā Melnā piektdiena pēc servera statistikas skatīšanas būtu izraisījusi ļoti zilu pirmdienu.

  • Es to esmu izdarījis - un vispār nedarbojos ....
  • Vai jūs BWT instalējāt failu, kas identificē jūsu vietni, un pārbaudījāt, vai viņi to ir pārbaudījuši? Ja Bings nevar identificēt vietni, pārmeklēšanas ātruma histogramma neko nedarīs, lai ierobežotu datplūsmu.
  • Jā, manas vietnes ir pārbaudītas, es to vienkārši pārbaudu. Es tos tagad esmu sagriezis ar ugunsmūri ... lai nomierinātos, tomēr Bing atbalsts ir ļoti draudzīgs, man ir kontakts ar viņiem, viņi iesaka man pievienot robots.txt šo rindu crawl-delay: 10 tas nav darba ēteris, un tagad viņi man prasa žurnālus, lai es tos visus esmu gatavs sūtīt, lai tos apskatītu.
  • "Vislabākais pārbaudījums ir noskaidrot, vai jūs varat izdzīvot, kā Google, Bing, Yahoo un Baidu vienlaikus skar jūsu sistēmu. Ja uzbrukuma laikā tā joprojām darbojas, tad jūs esat gatavs dzīvai klientu slodzei." << Klienti pelna naudu, ja Google, Bing, Yahoo un Baidu sūta NULL trafiku, manuprāt, tie ir jābloķē. Manuprāt, nav jēgas izmantot rāpuļprogrammas, kas ļaunprātīgi izmanto vietni, lai ielādētu vietni.
  • 1 @blunders - un tā kā Bing, Google un Yandex ir lielākā daļa datplūsmas avotu mūsu vietnē, mums visiem jāizdzīvo, vienlaikus skenējot mūsu vietni. Uzminiet, kas šeit notiek ar Baidu -> Scrapheap. Heh, apgalvojums joprojām atbilst patiesībai, ka jūsu vietnei būs jāiztur indeksēšana ar tīmekļa rāpuļprogrammām, kuras izvēlējāties ielaist, vai arī tā vispār nav vietne.

Izmantojiet PHP plus Regex. Aizmirstiet Robots.txt. Vairāki slikti roboti to neciena ...

if (preg_match('/(?i)bingbot/',$_SERVER['HTTP_USER_AGENT'])) { exit(); } 

Un jūs Bingam sakāt: durvis jums ir aizvērtas!

  • 2 Laba izvēle, ja ienākošā datplūsma nav atkarīga no Bing / Live / MSNSearch. Tas pilnībā atdalīs jūsu vietni ar viņiem un padarīs diezgan labu darbu, lai samazinātu tīmekļa servera ielādi.
  • Paldies Fiasko. Manuprāt, BingBot ir ļauns robots, jo tie darbojas kā Web kaut kas lielisks. Ja tīmekļa pārzinim ir ieņēmumu gūšanas atkarība no Binga, tāpēc viņam jāapsver iespēja iegādāties vairāk un vairāk resursu, lai ar to strādātu. Bing tika aizliegts visās manās 95 vietnēs. Veiksmi visiem jums.
  • 1 Mans komentārs bija gandrīz, bet ne gluži mēle vaigā. Man ir bijis, ka gan Yahoo, gan Bing ir nokļuvuši manā vietnē uzreiz un gandrīz noliec vietni uz ceļiem. Iekraušana bija sliktāka nekā Yandex, kas agrāk man sagādāja skumjas. Yandex patiesībā ir uzlabojusi savas iekšējās darbības, lai tās darbotos vairāk kā Google un lai tik šausmīgi neapgrūtinātu. Baidu un Bing tagad ir ar vienādiem noteikumiem, jo ​​tie ir pārāk agresīvi un pieprasa servera iestatījumus, lai apstrādātu papildu trafiku.
  • Ja vēlaties atteikt, pamatojoties uz lietotāja aģentu, labāk tos noraidīt servera konfigurācijā.

Ir divi veidi, kā kontrolēt Bingbot; Sīkāku informāciju skatiet vietnē http://www.bing.com/webmaster/help/crawl-control-55a30302.

Ja jūs nevēlaties izmantot viņu vadības paneli, vienkārši izmantojiet a robots.txt failu.

"Ja mēs atradīsim a crawl-delay: robots.txt failā, tad tam vienmēr būs prioritāte pār informāciju, kas iegūta no šīs funkcijas. "

strādāja par jums: Charles Robertson | Vēlies ar mums sazināties?