Om Google

Hvad Google finder og ikke finder, og hvordan

Google består af tre dele:

1. Googlebot (webcrawler)

Googlebot henter kopier af hjemmesider på internettet på to måder:


Googlebot besøger regelmæssigt internetadresserne i databasen for at hente nye versioner. Samtidig checker den for nye links – og henter dem.

Googlebot opsøger oftere internetsider som tit opdateres. Fx bliver avisers internetsider og internetsider med aktiekurser.

2. Googles Indekserer

Efter Googlebot har anbragt internetdokumenterne i databasen, opssplitter Indeksereren ordene i dokumenterne og lister dem sammen med ord fra alle de andre internetdokumenter. Hvert ord har en henvisning til samtlige de dokumenter som indeholder dette ord. (Bort set fra stopord og visse tegn). Samtidig tilknytter den oplysninger om hvor i dokumentet ordet forekommer: I titlen, teksten, adressen osv. AF denne årsag kan man man bruge søgesprog og feltsøgning.

3. Googles Query processor

Query Processor sørger for at brugerne kan få adgang til indekset ved at omsætte søgeforespørgsler til søgeresultater: Den finder søgeord, tager højde for søgesprog, afgrænse søgningen til specielle felter o. lign. Den sorterer fundene op efter ganske bestemte regler (Page Rank). Der er flere hundreder kriterier som giver hvert fund ”points”. Alt efter pointtildelingen bliver de listet op i en resultatliste.

Query Processor foretager stavekontrol, henviser til specialsøgemaskiner, Google+ osv. Hvis man ikke ønsker påvirkning fra Google+, kan man slå Webhistorik fra.

Google opfatter internetdokumenter som ord, sætninger, billeder og hvad der ellers er lagt ud på siden. Ud fra disse data prøver Google at gætte sig til hvilke internetsider der er de bedste. Generelt kan man opdele disse sorteringskriterier ud fra  tre principper:

  • Relevans (relevance). Det kan fx være hvor mange gange søgeordet optræder i dokumentet (frekvens) og hvor højt de optræder i dokumentet. Det kaldes Term Vector Theory (ord-vektor-teori). Denne måde at sortere på tager lang tid og stående alene er den ikke altid effektivt fordi den er sårbar for manipulation.
  • Popularitet. Heri indgår: 1) Hvor mange der linker til en side (Google var den første til at bruge det princip og kalder det Page Rank). 2) Hvor mange der har klikket ind på den (bruges af Google til at rangere reklamer) og 3) hvor meget trafik i det hele taget der er på siden. Nye sider vil i en periode have et handicap ift dette princip.
  • Personalisering. Siden Google+ blev lanceret i 2011, påvirkes Googles sortering af hvordan man som Google+-bruger opfører sig. Dvs. hvad man søger efter, hvem man har i cirkler, hvad man Google+'er, hvad man bruger mobiltelefonen til mm.


Page Rank
Googles sorteringsmekanisme består af flere hundrede kriterier som  Page rank forstærker eller svækker relevanskriterier (titler, emneord osv.). De præcise detaljer er en firmahemmelighed. Google finder de sider som passer til søgeord. Herefter tages der højde for relevansfaktorerne, ialt op til 200 kriterier, alle med forskellig vægt. Dernæst ganges relevansfaktorer med en Page Rank-score, som bl.a. bygger på hvor mange link der er en til side, kvaliteten af de sider som linker til siden, og hvem der linker til de der linker.

Matematikken og logikken bag Page Rank
Intet er offentliggjort om Page Rank, eller ligningen eller algoritmen til at udregne Page Rank siden det blev lanceret som et universitetsprojekt i forrige årtusind. Dengang så ligningen sådan ud:

PR(A) = (1-d) + d(PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

PR(A)er Page Rank på den side, som Google ønsker at udregne.
d er en faktor (0,85 formentlig)
T1er en side som linker til A. Denne sides Page Rank divideres med antallet af links fra den side.
Tn er det samlede antal af sider som linker til A. (Med samme udregning som for T1).
C er antallet af udgående link

En sides Page Rank er 0,15 + 0,85 gange en andel af de Page Rank som indehaves af de sider som linker til den. For de sider som linker til siden gælder altså at både Page Rank og antallet af udgående link på siden er vigtige. Fx gælder at hvis der er mange udgående link (C) på en side, så tæller den mindre. Hvis A linker til B, så mener A at B er en vigtig side og hvis C er en vigtig side og linker til D, så vejer C tungere i rangeringen af D, set i forhold til sider som ikke anses for vigtige.

Page Rank er opkaldt efter en af de to grundlægger af Google, Larry Page.

Google Transparency Reports

Google opbevarer enorme mængder data og fx censur er et følsomt. Google Udgiver en Tranparency Report som fortæller om hvordan de håndterer anmodninger om at slette hjemmesider.

Det usynlige internet

Google finder ikke dokumenter fra det såkaldte usynlige internet, eller det dybe internet (deep web). Det består af hundrede milliarder af dokumenter:

  • Søgbare databaser. Fra en synlig internetside skriver man en søgning og genererer et resultat ud fra hvad databasen indeholder. databasen (dynamisk genererede). Eksempler: Virksomhedsinformation, telefonnumre, bibliotekskataloger, jobannoncer, statistik og såmænd Google selv.
  • Sider med login, password og eventuel betaling. Typisk intranetsider som man er udelukket fra af interne årsager. Mange leksika og specialiserede søgebaser skal man betale for, fx via licenser.
  • Udelukkede sider. Søgemaskiner udelukker visse sider. Men også webmastere kan forhindre søgemaskiner i at finde hjemmesiden.
  • Sider som ingen linker til. De bliver ganske enkelt aldrig fundet af søgemaskinerne.

 

Pga denne måde at fungere er der noget som Google ikke finder. Dette fænomen kaldes bl.a. "det usynlige internet". Man kan dog bruge Google som springbræt. Nemlig ved at finde steder på det synlige internet hvorfra man kan søge i det usynlige internet. Herfra kan man så gå i gang man at lave sin søgning herfra. Skriv søgeord og ordet database. (ens på dansk og engelsk). Se på hits for søgefunktioner.

Søg fx således:
[slægtsforskning database] i Google.

Bibliotekernes licenser.
Danske biblioteker har adgang til mange databaser. Nogle giver adgang til kommunens borgere hjemme fra, andre må du opsøge på biblioteket. 

Læs mere
Sådan fungerer søgning.
Web WorkShop om PageRank.
Oversigt over Googles egne hjælpeartikler.
Googles logo gennem tiderne.
Share Succes del gode oplevelser med Google.
Wikipedia. Emneopdelt liste over Google nuværende og tidligere tjenester.
Officielle Google Weblogs. Alfabetisk liste over alle Googles weblogs.
Wikipedia. Historie, kritik, gennemgang samt en bunke links. Et godt udgangspunkt.
Om internettets historie (engelsk).
CNet. Til at finde programmer til download og nyheder.
Webopedia. Opslagsværk, også med links
Googles grundlæggere om Google.
Chris Ridings, Mike Shishigin: "PageRank Uncovered".
Phil Craven: Google's PageRank Explained.


Google - knap så seriøst:

  • Mentalplex. Klik på den roterende cirkel.
  • Google Gulp. Drik (ikke) for at få mere energi til surfing.
  • Google Romance. Find din partner.
  • TISP. Hjemme-bredbånd ....?!
  • Gmail Paper. Få sendt dine emails med snailmail.
  • Virgle. Er du til ekspeditioner og rejser? Udfyld testskema for at se om du er egnet.
  •  

Tilbage til Google-Guide.

Spørg biblioteket