Dziļais mežs # 03 [Axial scx10 Jeep Wrangler Rubicon un Jeep Comanche]

Man ir problēmas ar indeksētām lapām, kuras (iespējams) nekad nav bijušas saistītas. Lūk, iestatīšana:

  1. Datu serveris: Lietojumprogramma ar RESTful saskarni, kas nodrošina datus
  2. Vietne A: Sniedz datus par vietni (1) vietnē http://website-a.example.com/?id=RESOURCE_ID
  3. Vietne B: Sniedz datus (1) vietnē http://website-b.example.com/?id=OTHER_RESOURCE_ID

Tātad visi privātie dati tiek glabāti vietnē (1), un tīmekļa vietnes (2) un (3) var iegūt un parādīt šos datus, kas ir datu attēlojums ar papildu savstarpēju saikni starp tiem.

Faktiski vietnes-a vietrādis URL /? Id = 1 norāda uz to pašu resursu kā vietne-b / / id = 1. Tomēr resurss id: 1 vietnē b nav derīgs. Diemžēl google rādītājā vietnei-b tagad ir vairākas saites ar resursiem, kas pieder vietnei-a, un otrādi.

Es "dzirdēju", ka google rāpuļprogramma mēģina noteikt URL modeli (kas ir jēga, lai izlemtu, kurai lapai ir jāiet uz rādītāju un kurai ne), kā arī uzminu citus URL, izmēģinot dažādas vērtības (piemēram, "Es zinu, ka pastāv 1. ID , mēģināsim 2, 3, 4, ... ").

Vai ir kādi pierādījumi tam, ka Google rāpuļprogramma patiešām rīkojas šādi (par ko es šaubos). Es domāju, ka google rāpuļprogramma iesniedza HTML veidlapu un kaut kā ieguva saites uz šiem nevēlamajiem resursiem.

Es atradu dažus līdzīgus publicētus jautājumus par to, tostarp “Google tīmekļa pārziņa centrs: viltus lapu indeksēšana un ievietošana” [saite noņemta], tomēr neviena no šīm lapām neliecina.

  • 6 Kaut arī man nav atbildes uz jūsu jautājumu, pareizais veids, kā risināt šo jautājumu, ir izmantot robots.txt - google ir ļoti labi izturējās šajā ziņā.
  • 2 Paldies Markam Hendersonam. Tomēr resursu ierobežošana ar robots.txt nav iespējama, jo resursu ID ir dinamiski un modelis id = X ir pilnīgi derīgs.
  • @Dominik, skatiet šo atbildi SO par robots.txt un dinamiskā URL stackoverflow.com/a/1495507/804087
  • @Anagio: Kā tam vajadzēja atrisināt problēmu? Piemērs: Kaut arī /? Id = 1 ir derīgs resurss, un to vajadzētu indeksēt, /? Id = 2 nav. Es neredzu, kā robots.txt šeit var palīdzēt.

Mūsu pieredze liecina, ka google, šķiet, “uzmin” URL parametrus.

Mums kādreiz bija mantota URL struktūra main.php? Id = 1 utt., Un pirms gada to mainījām uz SEO draudzīgāku struktūru.

Mēs pamanījām, ka nesen ievadītos vienumus google joprojām indeksēja vietnē main.php? Id = 1234, nevis mūsu spici jauno SEO optimizēto URL, kaut arī šī lapa nekad nepastāvēja, kad mums bija vecā mantotā struktūra. Mums citur nebija saites uz šīm lapām, izmantojot šo veco URL.

Mēs pārskatījām mūsu serveru žurnālus un pamanījām, ka kāds skatās mūsu lapas secīgi, izmantojot mūsu veco mantoto URL, ti, main.php? Id = 1, 2, 3 utt. Viņi iet uz augšu ar aptuveni 150 partijām un tad nāk dažas stundas vēlāk un veiciet vēl 150. Mēs izsekojām pieprasījuma IP adresi un konstatējām, ka tā ir standarta google robota IP.

Vecais mantotais URL joprojām darbojās, jo mēs to nebijām atspējojuši - mēs vienkārši uz to nekad neattiecāmies un nekad nebijām domājuši, ka kāds to izmēģinās.

Mēs atrisinājām problēmu, ievietojot 301 novirzīšanu mūsu index.php ikreiz, kad tika izsaukts URL ar jaunu lapu. Dažu stundu kodēšana, taču šķiet, ka tā ir atrisinājusi mūsu problēmu - šķiet, ka jaunās google pievienotās lapās ir mūsu SEO URL, un mēs vairākas nedēļas neesam mēģinājuši izmantot savu veco mantoto URL.

Mēs varam tikai secināt, ka google robots zina parametrus un tos patiešām izmēģina, pat ja nav reālas saites.

  • Liels paldies par detalizēto atbildi! Jūsu attēlojums apstiprina manu pieņēmumu. Varbūt atrisināsim šo problēmu, pievienojot papildu parametru, kas norāda “darbības jomu”, kur konkrētais resurss ir derīgs.
  • Ļoti pārsteidzoša un ļoti interesanta informācija!

Ja jums ir Webmaster Tools iestatīšana, es iešu sadaļā URL parametri sadaļā Vietnes konfigurācija un redzētu, kādus parametrus viņi pēc noklusējuma ir iestatījuši jūsu vietnei. Mana vietne, kas ir WordPress google, atpazīst dažus parametrus, bet interesanti ir tas, ka tiešsaistes tērzēšanas skripts un daži citi izlases skripti, kurus es izmantoju, arī uzminēja dažus parametrus.

Es izmantotu noindex nofollow, kā arī robots.txt, ja iespējams.

  • Paldies par atbildi. Es varētu lūgt vietnes īpašnieku izpētīt google tīmekļa pārziņa URL parametrus. Varbūt tas dos pavedienu. Tomēr "nofollow" un / vai "noindex" izmantošana nav iespējama, jo daži no šiem resursiem ir pilnīgi derīgi un vajadzētu indeksēt.

strādāja par jums: Charles Robertson | Vēlies ar mums sazināties?