google's secret

geeky — 23.12.2008

google got all fat & rich because of one single reason: they excel at sorting search engine hits. the secret behind this is called PageRank, a clever algorithm to sort links. they even explain the basics of how that works on their homepage. how nice of them.

but hold on a second. if all of their success was based on one single business secret, why in the world would they be talking so openly about it on their webpage? granted, they don't give any implementation details there, but still, why put the competitors/cloners on the right track with information about the way PageRank works?

personally, i think it's a priori much more likely that the information about PageRank on the google homepage is deliberately misleading, so as to fool the competition (and the general public...).

but what else could be google's secret, then?

well, try this: go to google and search for 'antoine meillet' (feel free to use your favourite linguist instead ;). look at the results and hover over the links. you will see nothing strange: the full URL in the status bar will indicate that they are direct links to the target webpage.

or maybe not? check out the source code of the google result page (on firefox, select the text and choose 'view selection source' from the right-click menu - god i love that browser). surprise, surprise: the href attribute does in fact not show a direct link to the target (we expect: href="http://en.wikipedia.org/wiki/Antoine_Meillet"), but instead shows something really cryptic like:

href="/url?sa=t&source=web&ct=res&cd=1&url=http%3A%2F%2Fde.wikipedia.org%2Fwiki%2FAntoine_Meillet&ei=IzJQSaP3JY_m0gXV7KWEBA&usg=AFQjCNFHbV4saUM80cY7BQ6pfEYNAGnD0A&sig2=a9sZLl2cPM-V7WC5dGs--A"

now what exactly that means (and how they manage to still show the simple address in the browser's status page) is a mystery to me. but what seems quite obvious is that people are in fact never directly forwarded to the target site when they click on the google search hit. instead, it looks like they are secretly routed back through google HQ. now since it's rather difficult to figure out what exactly happens if you click on that link (too much javascript involved...), it's easier to just log the browser's activity to see what's going on behind the scenes. sounds like a job for wireshark (good thing i use linux, where great tools like this one come included!).

here's wireshark's list of the all HTTP/GET requests that happend on my network interface when clicking on one of the links from google's search result:

notice that the first HTTP/GET request went back to google! only the second (and the following ones) went to wikipedia:

with the help of wireshark, we have therefore confirmed that the users are being routed back through google before they reach their actual destination, so the question is: what could be the purpose of this? simple: google will store the key words of your search along with those hits from the search result that you actually clicked on, trusting that you will look through the list of results that google presents and choose the relevant hit(s) from among them. with this information, they will increase the ranking of the hits you clicked on, and decrease the ranking of those hits which you skipped, all in relation to your specific search keywords.

if true, it means that google does in fact let the users do the sorting for them. humans are much better at sorting out relevant hits from among a mass of unrelevant ones, and since google has the possibility to collect that information, why not use it to improve the ranking? it seems not too far fetched, then, to suspect that the core of PageRank is in fact not a fancy algorithm at all - but that it is simply a clever way to let the users rank the search results for them, by (secretly) collection data on which hits the users clicked on and which ones they didn't.

ps: further investigation showed that the cryptic links in the source of google's search result pages are not always there. but even in those cases, wireshark shows a HTTP/GET request sent to google before the loading of the actual link target.

zum erklärungspotential von synchroner und diachroner sprachwissenschaft

linguistik, vgs — 10.12.2008

das untersuchungsobjekt sprache birgt viele rätsel. dies zeigt sich inbesondere beim erlernen einer fremdsprache, wo man einerseits regelhaftigkeiten erkennen, andererseits aber auch mit vielen unregelmässigkeiten und besonderheiten auf allen ebenen der sprache umzugehen lernen muss. ebenso mysteriös erscheint die eigene, in der regel unbewusst verwendete sprache, wenn man sie einmal etwas reflektierter unter die lupe nimmt.

im bereich der germanischen sprachen könnten das z.b. fragen der folgenden art sein:

  1. wieso zeigen die präteritumsformen des verbs to be im englischen manchmal ein -s- und manchmal ein -r-? (I was, we were etc.)
  2. wieso entspricht dem hochdeutschen diphthong -ei- im schweizerdeutschen manchmal ein -ī- und manchmal ein -äi-? (vgl. nhd. Bein, Stein, Wein, Leiche vs. schweizdt. Bäi, Stäi, Wii, Liiche.)

in der sprachwissenschaft gibt es grundsätzlich zwei ansätze, um sprachliche fragestellungen anzugehen. zum einen kann man die sprache zu einem bestimmten zeitpunkt nehmen, wie sie ist, und diesen "eingefrorenen" zustand (in der regel die gegenwartssprache) für sich genommen analysieren. der schwerpunkt der untersuchung liegt dann auf der systematik der sprache in diesem gegebenen moment. zum anderen ist es möglich, die sprache historisch zu betrachten und danach zu fragen, wie sie sich über die zeit hinweg entwickelt hat. hier steht der sprachwandel und die frage danach, wie es zum gegenwärtigen zustand gekommen ist, im vordergrund. seit saussure wird der erste ansatz als synchrone (gleichzeitige), der zweite als diachrone (ungleichzeitige) sprachwissenschaft bezeichnet.

aus heutiger sicht ist klar, dass beide zugänge zur sprache ihre vorteile haben und sich nicht ausschliessen sondern - ganz im gegenteil - gegenseitig ergänzen können. nichtsdestotrotz scheint es mir offensichtlich, dass die diachronie im vergleich zur synchronie ein deutlich grösseres erklärungspotential aufweist. kommen wir auf die eingangs erwähnten fragen zurück:

engl. was vs. were
das nebeneinander von -s- und -r- im präteritum des verbs to be ist aus synchroner sicht nicht zu entschlüsseln. es scheint im englischen keinen parallelfall zu geben, den man als vergleichsgrundlage hinzuziehen könnte. kein anderes verb zeigt einen entsprechenden konsonantenwechsel, eine kontextabhängigkeit scheint nicht vorzuliegen (etwa in der art, dass -s- immer in einer bestimmten lautlichen umgebung stehen würde o.ä.), und die präsensformen des verbs helfen auch nicht weiter, da sie keinen entsprechenden wechsel zwischen -s- und -r- zeigen (sie gehören sowieso nicht zum selben stamm). mit den methoden der synchronen linguistik ist also keine erklärung für die vorliegenden daten zu finden, und es bleibt nichts anderes übrig, als dieses phänomen als “unregelmässigkeit” zu klassifizieren.

nimmt man nun die historische dimension dazu, lassen sich die formen leicht erklären. die formen gehören zu einem starken verb der klasse "V", bei der im singular präteritum ursprünglich andere akzentverhältnisse geherrscht haben als im plural. im singular geht man von einer vorform *(u̯e)-u̯ós-a mit akzentuierter wurzelsilbe aus, während der akzent im plural hinten stehen musste: *(u̯e)-u̯ēs-mé. mit zwei einfachen lautgesetzen (vernersches gesetz und rhotazismus) kann man nun erklären, warum sich das -s- in der pluralform über ein stimmhaftes -z- zu einem -r- entwickelt hat, während der singular nicht betroffen war.1

nhd. -ei- und schweizdt. -ī-/-äi-
auch bei den formen nhd. Bein, Stein, Wein, Leiche vs. schweizdt. Bäi, Stäi, Wii, Liiche kommt man mit synchronen methoden nicht weit. zwar lässt sich hier das korpus vergrössern, indem man sowohl für die entsprechung nhd. -ei- vs. schweizdt. -ī- als auch für die entsprechung nhd. -ei- vs. schweizdt. -äi- weitere fälle anführt, doch bringt einem das für die erklärung des phänomens nicht weiter. auch hier lässt sich nicht feststellen, dass ein bestimmter lautlicher kontext für den unterschied im schweizerdeutschen verantwortlich gemacht werden könnte. ein vergleich mit den anderen langvokale und diphthongen bringt ebenfalls keine erhellung der situation. wie man es also drehen und wenden mag, es gibt aus synchroner sicht keine erklärung für die vorliegenden vokalkorrespondenzen.

wiederum ist aber aus diachroner sicht leicht eine erklärung zu finden. der vergleich mit dem althochdeutschen, dass dem neuhochdeutschen gleichermassen wie dem schweizerdeutschen zugrunde liegt, zeigt, dass zwei der wörter einen alten diphthong haben, während die anderen zwei einen alten langvokal aufweisen: es heisst ahd. bein, stein, aber wīn, līh. die lösung des problems ist also ganz einfach, dass das schweizerdt. den alten zustand bewahrt hat, während das neuhochdeutsche - wiederum durch ein wohlbekanntes lautgesetz, nämlich die frühneuhochdeutsche diphthongierung - die aus ahd. wīn, līh herzuleitenden formen so umgeformt hat, dass sie mit den anderen wörtern, die von haus aus einen diphthong hatten, zusammengefallen sind.

auf den punkt gebracht hat das unterschiedliche erklärungspotential dieser zwei ansätze ein hierzulande wohlbekannter indogermanistikprofessor, der folgendes gesagt haben soll (mit starkem amerikanischen akzent zu lesen): “wenn dies die sprache ist” (zeigt auf die wandtafel) “sieht man mit synchronen methoden so viel” (malt einen fünflibergrossen kreis in die mitte der tafel) “und mit diachronen methoden so viel” (malt einen veloradgrossen kreis um den ersten herum).

h. paul zum thema
nun sind manche leute sogar so weit gegangen, die diachrone sprachwissenschaft zur einzigen sprachwissenschaft zu erklären. dem würden in dieser absolutheit heute wohl die wenigstens linguisten beipflichten (ich auch nicht). dennoch meine ich, dass pauls plädoyer für die historische sprachwissenschaft zumindest in der stossrichtung korrekt ist:

“Es ist eingewendet, dass es noch eine andere wissenschaftliche Betrachtung der Sprache gäbe, als die geschichtliche. Ich muss das in Abrede stellen. Was man für eine nichtgeschichtliche und doch wissenschaftliche Betrachtung der Sprache erklärt, ist im Grunde nichts als eine unvollkommen geschichtliche, unvollkommen teils durch Schuld des Betrachters, teils durch Schuld des Beobachtungsmaterials. Sobald man über das blosse Konstatieren von Einzelheiten hinausgeht, sobald man versucht den Zusammenhang zu erfassen, die Erscheinungen zu begreifen, so betritt man auch den geschichtlichen Boden, wenn auch vielleicht ohne sich klar darüber zu sein. [...] Und so wüsste ich überhaupt nicht, wie man mit Erfolg über eine Sprache reflektieren könnte, ohne dass man etwas darüber ermittelt, wie sie geschichtlich geworden ist.” (Paul 1909:20f)

referenz
Paul, Hermann: Prinzipien der Sprachgeschichte. Halle a.S. 1909.

  1. eine schlüssige erklärung, warum sich die 2. person singular wie die pluralformen verhält, ist allerdings schwieriger zu leisten. selbstverständlich kann die historische sprachwissenschaft auch nicht alles erklären, aber sie kann auf jeden fall sehr viel mehr erklären als die synchrone sprachwissenschaft. []

bahnbrechende erkenntnisse zur mehrsprachigkeit in der germanischen sprachfamilie

linguistik, uni — 8.12.2008

“spricht jemand aber zwei germanische sprachen, kann er wörter einer dritten, ihm unbekannten sprache derselben familie durch sein sprachliches wissen erschliessen.”

“personen, die zwei sprachen derselben familie auf hohem niveau beherrschen, haben deutlich mehr erfolg beim erschliessen [einer] unbekannten sprache [aus der selben familie].”

wow. was für eine einsicht! da wären wir selber nie draufgekommen, wenn herr berthele, professor an der uni freiburg, nicht extra eine studie dazu durchgeführt hätte...

(tagi-artikel, auf den ich hingewiesen wurde; habe leider keinen link).