webmaster tools-status indeksa1

Juče je Google Webmaster Tools pokrenuo Index Status (dostupan pod sekcijom Health tj. Zdravlje) koji putem grafikona prikazuje broj indeksiranih stranica za vaš sajt tokom prošle godine.

Google navodi da je računanje ukupno indeksiranih stranca precizno. Ako vaš sajt sadrži dosta duplih URL-ova (zbog stvari kao što je praćenje parametara) i stranice uključuju kanonski atribut ili je Google na neki drugi način identifikovao i grupisao te duplirane adrese, računaće se samo kanonska verzija, a ne duplikati . Ove podatke takođe možete da dobijete submit-ovanjem XML Sitemaps, ali ćete samo videti ukupan broj indeksiranih stranica ako je vaš Sitemaps sveobuhvatan.

Napredna opcija nudi dodatne detalje:

Da bi vam ovi podaci imali smisla najbolji pristup je da se isključi Ever Crawled (Uopće indeksirano) i da se ostale mogućnosti gledaju zasebno a to su:

  • ukupano indeksirano (total indexed)
  • nije odabrano (not selected)
  • blokiran od strane robots.txt (blocked by robots)

webmaster tools-status indeksa2

Zbir ova tri broja tri daje je vam broj URL adresa koje Google trenutno razmatra. U gornjem primeru, Google gleda 252,252 URL adrese. Od toga 22.482 blokirano je od strane robots.txt, što je prilično realno s obzirom da se ovo uglavnom poklapa sa brojem blokiranih URL adresa pod Blocked URLs . Nažalost, sada je znatno teže pogledate listu tih URL adresa s obzirom da izveštaj o blokiranim URL adresama više nije dostupan u korisničkom interfejsu već samo API-ja. Kada izuzmemo blokirane URL adresa ostaje nam 229,770 URL adresa, što znači 74% URL-ova nije izabrano za indeks. Pitate se zašto je to tako, da li je to loše? Problem je u tome što se ovi brojevi gledaju bez konteksta pa je teško prosuditi. Ovaj problem je teško rešiti bez mnogo drugih podataka koji bi obezbedili kontekst. Google ističe da postoji mnogo razloga zašto neka URL adresa ne može biti izabrana za indeksiranje, Neki od razloga su:

  • URL radi preusmeravanje na drugu web stranicu
  • URL ima rel=”canonical” na drugu stranicu
  • Google algoritam je otkrio da je sadržaj na URL adresi suštinski slični drugoj URL adresi pa je uzet drugi URL da predstavlja taj sadržaj

Pitate se šta je sa Ever Crawled (Uopće indeksirano)? Ovaj podatak treba gledati odvojeno od ostatka jer se radi o ukupnom broj tj. broju svih ikada indeksiranih stranica. Na primer, indeksirano je 1,5 miliona URL adresa ali Google trenutno razmatra samo 252,252 URL adrese. Šta se dešava sa preostalih 1,2 miliona? U ovaj broj uključene su 404 stranice, sve koje su se vremenom pojavljivale, URL adrese koje više ne postoje, a možda čak i stvari kao što su CSS i JS fajlovi. 

U svakom slučaju, veoma je teško dobiti kvalitetan uvid sa brojkom koju obezbeđuje Ever Crawled (Uopće indeksirano). Ako je ovaj broj znatno manji od veličine vašeg sajta, onda je ovaj broj zaista vrlo korisna jer je to pokazatelj da definitivno postoji neki problem koji bi trebalo da istražite. Međutim, kod do sada testiranih sajtova ovaj broj je znatno veći od veličine sajta.

Određivanje veličine sajta nije jednostavno, međutim oni koji imaju dobar osećaj za to mogu zaključiti da li je većina njihovih stranica indeksirana ili ne?