Er Google for dårlig?

Google er for dårlig, i følge «søkeekspert Roar Eriksen» og Digi.

Google har nemlig ikke indeksert hele Webben. Nå er det vel egentlig aldri noen som har gjort det, da – og det er neppe mulig, webben forandrer seg for fort til det. Eksperten tipper at Google kun finner «60% av informasjonen som er lagt ut på Internett» (jeg regner med han mener webben), og dette er for dårlig, mener eksperten. På tross av at absolutt ingen gjør det bedre.

Men det som er mer interessant, er den videre argumentasjonen:

Googles spider (nettside-innsamler) imponerer lite selv om den er desidert blant de beste i markedet. Den stopper opp på sider som man må velge gjennom Javascript-menyer. Det samme gjelder Flash-sider og den er heller ikke perfekt når den møter sider med frames. Alt dette gjør at den ikke kommer videre og går glipp altså av veldig mye.

Her bommer eksperten totalt, etter min virkelighetsoppfatning. Sider med all navigasjon pakket inn i javascript eller all informasjon presentert som Flash, vil selvfølgelig ikke indekseres av Google. Det er en av de viktigste grunnene til at man aldri skal lage slike sider dersom de er tenkt for Internett. Flash og Javascript er tillegg til *ML-koding av websider, informasjonen på WWW skal være tilgjengelig med en webbrowser som støtter oppmerkingsspråkene som er standarisert for dette. Flash er forøvrig et proprietært format med sterk fokus på grafikk, og det vil nok ikke være problemfritt å indeksere dette.

Videre nevnes rammer. Og igjen, der eksperten ser et problem med Google, har stort sett alle seriøse aktører i bransjen for lengst sett problemet med rammer. Rammer bryter en-til-en-relasjonen mellom ressurs og URL, og vil derfor alltid gi søkeroboter problemer. Spesifikasjonen for rammer har «noframes»-taggen som løsning på dette, men den blir bare sporadisk brukt på en riktig måte (tips: Prøv dette søket …).

Problemet er altså slik jeg ser det, ikke at all verdens nettside-innsamlere er for dårlige. Disse forholder seg så langt jeg har kunnet bedømme meget godt til de relevante spesifikasjonene. Problemene er at websidene ikke gjør det. Så, istedet for å prøve å få alle spidere til å forstå alle feil – noe som fremstår omtrent som definisjonen av en Sisyfosarbeid – bør man heller jobbe for å få webutviklere til å følge standardene. Det er slettes ikke umulig, og jeg kan ikke se en eneste grunn til at man ikke skal gjøre dette.

Men det er klart – det blir mindre penger på innleide søke-konsulenter på denne måten 🙂

11 tanker om “Er Google for dårlig?

  1. Grei nok argumentasjon her, forsåvidt. Men det er søkemotorene som skryter av oversikten… -og det er nok enklere å omgå problemer med scriptede url’er og frames i hundre søkemotorer enn på milliarder av nettsider. Enklere, og mer realistisk.

    På den annen side, det er begrenset hvor mange av disse milliarder sider som bør være indeksert… -de som ønsker det kan lett gjøre siden tilgjengelig.

    Det koker vel ned til at dette ikke var en sak…

  2. Kjempebra argumentasjon. Når teknologien svikter, skylder vi på brukerne. Alle som lager nettsider gjør feil, google gjør alt rett.

    Kan du forklare meg hvordan hvorfor da google ikke klarer å indeksere mange nettsider som ikke bruker frames, har relativt god og kosnervativ kode og som ikke bruker hverken javascript eller flash?

    Videre må man også legge seg på minne at frames er en del av standaren som W3C har etablert – og at man da ikke skal få lov til å bruke Frames blir jo litt rart.

  3. «Tja ja» (Hvorfor ikke poste med eget navn?). Hvis du kunne ha listet noen sider som ikke blir synlige i Google hadde nok Lasse og undertegnede – og mange andre – kunnet svare deg.

    På strak arm vet jeg iallefall om en feil du kan gjøre som vil sørge for at de aller fleste søkemotorer vil indeksere sidene dine dårlig – og det er å bruke lange querystrings i URLene. Ikke bare er det helt håpløst for brukeren, Googles og andre søkemotoreres spidere blir svært forsiktige når de ser at sidene genereres dynamiskt. De ønsker nemlig ikke å få søksmål fordi dårlige skript sammen med deres spidere får nettsteder til å gå ned.

  4. At det er enklere å luke bort slike feil som dette i søkemotorene enn det er i websidene, stiller jeg meg sterkt tvilende til. Å parse ikke-standardisert kode, er ikke bare vanskelig, det er stort sett umulig. Det er nettopp derfor vi har standarder,

    Og jeg skylder da ingen steder på brukerne, jeg skylder på nettsideutviklerne. Skal man lage websider, bør man ha et blikk på W3Cs standarder. Sånn er det bare. Og i forhold til det, gjør mange (men langt fra «alle») nettsideutviklere feil, mens Google stort sett gjør dette meget bra – i det minste når det gjelder spidervirksomheten deres.

    Og hva frames angår – de er heldigvis på vei ut av spesifikasjonene, men hvis man bruker dem – og bruker dem riktig, ned tanke på «noscript», som absolutt bøter på mange av feilene, så er ikke frames et så stort problem. Men jeg sier som Asbjørn Ulsberg: «Hvorfor?» …

  5. Siden det som regel fremkommer bedre og mer velbalanserte synspunkter på din side enn hos Digi så velger jeg å poste her.

    Lange querystrings kan være et problem, men ikke nødvendigvis. Har kjørt noen tester på dette, så lenge strengen ikke ligner på, og/eller «spytter» ut sessionid’s går det stort sett bra. Men det er selvfølgelig bedre med omskrevne linker, de gir også mer mening for brukerne.

    Det som er «nøkkelen» til dypere indeksering er PageRank, jo høyere PageRank, jo oftere og dypere går spideren. Så lav PageRank kan være årsaken til at nettsider som ikke bruker frames etc. likevel ikke blir indeksert godt nok.

    Frames er en hindring fordi så lenge no-script ikke brukes på riktig måte som du påpeker, har søkemotoren bare en vei inn til kategorier/underkategorier, nemlig via den ene siden som holder disse linkene. Hvis man ikke bruker frames, har man (avhengig av hvordan nettstedet er bygd opp) like mange veier inn til kategoriene/underkategoriene som det finnes sider på nettstedet.

    Artikkelen peker også på at Flash ikke indekseres (slik tolker jeg det), det er feil. Vet om noen som optimaliserer Flash mot Google (ikke fra Norge).

    Også morsomt at antall indekserte nettsider nevnes som eksempel, tallet i dag er 4 285 199 774. Dette tallet har vært konstant i flere måneder og representerer nok ikke sannheten.

    Til slutt, støtter de som mener man skal følge standardene, dette medfører i større grad at nettsidene designes for brukerne (og dermed også søkemotorene).

  6. Dette blir som å si at vi egentlig ikke har problemer med kriminalitet i Norge, fordi vi har et lovverk som klart og tydelig gjør klart hva slags adferd som er uønsket. Politiet burde derfor bli sittende på kammeret, helt til de kriminelle begynner å følge reglene.

    Eller er det kanskje bedre å forholde seg til realitetene, og innse at man aldri vil få alle til å følge reglene, og at vi derfor bør vi gjøre vårt beste for å begrense problemet? Selvsagt må utviklerne oppfordres til å følge standardene, men hvis man har ambisjoner om å indeksere hele weben, så er det ikke annet å gjøre enn å brette opp ermene og streve for å indeksere også de sidene som benytter JavaScript og Flash.

    Alternativt kan man nedjustere ambisjonene noe, men det nytter altså ikke å sette seg på baken og klage over at blomsterbedet ser stygt ut når man ikke er villig til å luke ut ugress en gang i blant.

    P.S.: Jeg tror lagene våre møttes på fotballbanen i går. 😉

  7. Jeg skjønner ikke allegorien helt, Andreas. «Lovbruddene» rammer jo kun «forbryterne» i dette tilfellet. Dersom jeg søker etter noe – for eksempel en bok jeg vil kjøpe, en ny bærbar PC eller noe sånt – finner jeg det på websider som er kodet godt nok til at de blir søkbare. Jeg får det jeg vil ha, den godt kodede websiden genererer det salget den skal – hva er problemet?

    De 40% av websidene som det påstås «er usynlige», det er de som har problemet. Men det er kanskje ikke de som er i målgruppen til konsulenten som uttalte seg denne gangen? Uansett, hvis disse sidene ikke blir funnet, har de to valg: Kjøre på sparebluss til «noen» gidder å indeksere deres sider like godt som skikkelige websider, eller kode sidene sine slik at de får en levelig Googlerank.

    Det blir litt komisk når eksempel Norsk Tipping, som er norges største annonsør målt i kroner og bruker uanstendige beløp på å rope ut sitt budskap i hver eneste reklamepause på hver eneste kanal, ikke er blant de ti første treffene når du søker på «fotballtipping». Og det er slettes ikke vanskelig å kode slik at Google ser deg. Søk for eksempel etter «Lasse» … 😉

    Jeg tror forøvrig ikke noen har ambisjoner om å indeksere hele webben. Det holder med å indeksere det folk vil finne. Min erfarng med sider med slike hårreisende løsninger som Javascript-only-navigasjon gjør at jeg ikke blir overrasket hvis Google faktisk egentlig synes at de lever godt uten dem …

    Og hvis laget ditt er Hamkam: Gratulerer! Godt spilt.

  8. Hovedproblemet med å indeksere Flash og JavaScript er at det er umulig å vite hva og hvordan man skal indeksere. ‘href=»javascript:minFunksjon()»‘ er faktisk ikke mulig å gjøre noe som helst med. Hvordan skal Google vite hva den skal gjøre med ‘minFunksjon()’, egentlig? Innholdet i denne funksjonen kan være alt fra hundre ‘alert()’-kall til et ‘window.open()’-kall.

    Google kan ikke vite hva JavaScriptet utfører og det finnes ingen standard som sier hvordan JavaScript som kalles fra en lenke skal skrives. Dermed er dette så godt som umulig å gjøre noe fornuftig med.

    Nøyaktig det samme gjelder Flash. Selv om Macromedia nekter å la andre enn dem selv få lov til å lage avspillere av SWF-formatet, er det mulig å tolke innholdet i en SWF-fil. Men innholdet man finner vil være totalt ribbet for semantikk. I senere versjoner er det mulig å gjøre dette bedre, men hvor mange er det som gjør dette, egentlig? Ingen?

    Så uansett hvor mye innhold Google kan klare å finne i både JavaScript og Flash, så spiller det ingen rolle, for innholdet har absolutt ingen betydning. Det er jo nettopp derfor vi merker opp tekst med HTML: For å gi teksten mening. Semantikk kalles det, og både JavaScript og Flash er totalt frarøvet alt som har med semantikk å gjøre.

  9. Jeg mener å ha lest at Googles ambisjon ikke bare er å indeksere all informasjon på webben, men faktisk all informasjon i hele verden!

  10. Mitt navn er 64.68.82.172. Du kjenner meg kanskje ikke, men kjenner sannsynligvis deg. Jeg besøker deg sannsynligvis ofte, men er av den mer usynlige typen. Jeg er en ubuden, usynlig gjest. Jeg legger imidlertid alltid igjen beskjed om at jeg har vært på besøk, og i denne beskjeden ligger det gull. Dersom du ikke ønsker flere besøk er det bare å gi beskjed.

    Jeg og mine brødre er blitt utsendt i blinde. Vårt oppdrag er å finne informasjon på nettet. Vår hverdag er ofte ensidig og grå, så vi gjør derfor en del krumspring for moro skyld. Men stort sett gjør vi det vi har fått beskjed om: Vi skal finne dokumententer og tolke dem. Tolkningen er det som tar lengst tid. Det er så mye å forholde seg til. Heldigvis slipper vi å se på designet på nettstedet. Det er utenfor vårt domene. Vår blindhet gjør det dessuten litt problematisk. Vi er derimot opptatt av innholdet på siden. Vi skal sørge for at de som ønsker å finne den, finner den. Vårt første spørsmål er: Hva er det denne siden handler om, som vi kan referere til når vi skal anbefale den?

    Vi har flere ledetråder å gå etter for å svare på dette. Veldig mange gir stikkord om hva siden handler om i sidetittelen, overskrifter, uthevet tekst og lenker. Mange gir også et hint i adressenavnet og brødteksten. Slikt liker vi, godt. Av og til må jeg imidlertid le når vi besøker en webside. Enkelte tror at for å bli anbefalt, må man gjenta seg selv 50 ganger. Hvis jeg er i dårlig humør den dagen, nekter jeg å anbefale siden. På gode dager kan jeg se gjennom fingrene på sånt, hvis dette ikke gjøres til en vane.

    Det hevdes at vi ofte har problemer med å finne fram på et nettsted. Dette hender, men er sjelden sant. Vanligvis velger vi å ikke gå videre. (Vi har lært å følge JavaScript-lenker (det var ikke så vanskelig), men vi er fremdeles litt skeptiske til sessionid.) Enkelte sider er så drepende kjedelige at vi rett og slett ikke orker mer etter å ha besøkt noen tusen sider [1]. Vi har også andre grunner til å ikke gå videre. Mer om det senere.

    Mange prøver å gjøre narr av meg og mine brødre fordi vi er blinde. Noen gir oss søppel-tekst som andre ikke kan se. De ønsker at vi skal anbefale en annen side enn den vi blir servert, uten at vi er klar over det. Det er ikke alltid like lett å forholde seg til dette. Vi har naturligvis lært av våre feil. Stort sett er vi forsiktige med å være mistenksomme, men dersom vi først avslører noen, er vi nådeløse.Du vil ikke være venner med oss? Vi vil ikke være venner med deg. Enkelt og greit. Du har blitt advart.

    Våre fedre fikk en gang en idè de mente var strålende. De fant en forbindelse mellom popularitet og kvalitet på nettet. På samme måte som populære mennesker ofte er gode mennesker, mente de at populære nettsider gjerne er gode nettsider. De ville også legge vekt på referansene. Anerkjennelse fra konger og keisere skulle være mer verdt enn anerkjennelse fra en fillefrans. Noen prøver å misbruke denne logikken. De skaffer seg falske referanser. Dette skjer ofte i gjestebøker: «Se i gjesteboken, jeg kjenner da han!». Andre prøver å kjøpe seg popularitet. Det er vanskelig for oss å avsløre slikt lurendreierskap. Men vi tar det heller ikke så tungt. Det viktigste for oss er hva som står i referansene, og ikke minst at de kommer fra noen som har sitt virke i samme felt som deg.

    Når vi skal gi folk det de er ute etter, tar vi hensyn til denne populariteten, og mange andre faktorer. At du selv anbefaler andre i ditt eget felt, er èn faktor. En annen er at du har mye innhold på mange sider. Forutsetningen for å komme høyt på listen over anbefalinger er at du har fortalt på en god måte hva nettstedet ditt handler om. Dersom det er stor konkurranse om å bli anbefalt, velger vi helst de med de beste referansene.

    Mange tror at vi er opptatt av nettsidens struktur. Dette er bare litt riktig. Vi belønner ikke direkte de som lager korrekte sider. Vi burde kanskje gjøre det, og vil sikkert gjøre det i fremtiden. Indirekte belønner vi god struktur ved å vektlegge ord som er fremhevet i forskjellige sideelementer.

    Vår mor sliter tilsynelatende med en gentisk feil. Hun har ikke kapasitet til å lagre nye dokumenter uten å slette gamle. Noen hevder at hun er døende. Hun hevder likevel at hun er i storform. Vi vet imidlertid at hun har problemer med hukommelsen. Jeg og mine brødre får stadig beskjed om å hute oss. «Bare gå videre etter 500 dokumenter», hører vi stadig. Det er masser av godsaker som vi finner, som verden aldri får se [2]. Sånn går det når mor er full.

    Ryktet sier at de kommende årene skal bli tøffere. Onde tunger hevder også at våre dager er talte, at vi må byttes ut med unge og lovende talenter som forstår seg på den vindunderlige flashye nye verden. Designerhomoryggslikkere. Tror de kan komme her og komme her.

    [1]http://www.odin.no/fin/norsk/Korrespondanse/bud2004/parti/sp/006051-110139/dok-bn.html
    [2] Her er et eksempel: site:http://www.namebase.org -«home page» (90700 sider som vi har funnet men som det ikke er plass til)

    [Note to self: Get sleep]

Legg igjen en kommentar til Lasse G. Dahl Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Dette nettstedet bruker Akismet for å redusere spam. Lær om hvordan dine kommentar-data prosesseres.