breaking a cryptogram

on p. 206 of coulmas 1989 book the writing systems of the world, there is an image of the following cryptogram:

cryptogram

apparently, the author had given this encrypted text to some of his grad students, and gave them one week to study it and to find out as much about it as they could. surprisingly, one of the students managed to decrypt it completely in one week, without even knowing that the language of the encrypted text was english.

so, being intrigued by this riddle, i decided to give it a try myself. and i did eventually come up with the correct solution, though it took me a great effort and countless hours… during the process, i named and indexed every symbol of the script, did research on vowel and syllable frequencies, compiled a bunch of statistics, discussed my preliminary findings with various people, and even wrote a html/javascript tool to faciliate the testing of hypotheses :P the trouble was definitely worth it, though, since the feeling you get when the mess of letters before your eyes finally starts to make sense is very rewarding :)

in the following, i’ll explain what approaches i tried, what the largest obstacles were, and how i finally reached the solution. don’t read beyond this point if you want to give it a try yourself!

a few observations could be made right away from simply looking at the cryptogram:

  • there are more symbols than in the roman alphabet, but too few for a syllabary
  • we never find the same symbol twice in a row
  • there is a considerable number of single symbols which occur as words (i.e., between spaces)
  • there are no hyphenation marks, meaning there is either no hyphenation, or it is not indicated
  • because of the layout with a title and an indented first line of the paragraph, the text is clearly to be read left-to-right and top-to-bottom
  • one symbol that was evident was the one after the apostrophe in the title, which clearly had to be /s/

from these observations, i could draw one conclusion with certainty: because of the absence of doubled symbols, it couldn’t be a simple encoding of written english. rather, it was likely to be an encryption based on spoken english.

besided that, i faced a number of problems:

  • the amount of symbols (48) was certainly too low for a syllabary (since english has complex syllable codas, we’d expect at least 150), but surprisingly large for the amount of phonemes of english (usually assumed to be around 30). guessing that long vowels might be encoded separately, and that phonemes like the glottal stop /ʔ/ and possibly affricates like /tʃ/ might have their own symbols, it seemed possible to reach a number of phonemes as high as about 40. but 48 just seemed too high.
  • the high number of symbols, together with the high amount of 6 different symbols occurring alone, made me think that at least some of the symbols must represent a syllable rather than a phoneme. the only english word i could think of that consists of only one phoneme is the indefinite article a. it might be possible to reach more when counting diphthongs (personal pronoun i) and interjections (oh, ah etc.), but at least the latter seemed an unlikely assumption. this paradox was in fact a main obstacle for breaking the cryptogram, since i frequently discarded my attempts of assigning sounds to symbols when it resulted in some of the single symbols being assigned values like t or n, which are not words of the english language by any account.
  • because of the insufficient quality of the printed image, i was unsure about the reading of some signs. especially in the title, some symbol shapes were not properly printed, leading to some problems (how do we decide if small differences in appearence are significant? are we dealing with graph variants, or separate graphemes?), and the punctuation marks were overall hard to judge (comma or period?). if you check the list of symbols below, you will even notice that i listed one symbol (“ascending-spike”) which in fact turned out to be not a separate letter of the alphabet, but identical with the symbol “ascending-bent”, modified by a printing stain.

to make any progress, i decided that i needed to name and index all the symbols, so that i could make a transcript of the cryptogram and start compiling some statistics. here’s the list with names:

symbol names

using standard unix commands like sed, uniq and sort, as well as some regular expression magic, it was quite easy to compile statistics of 1) symbol frequencies 2) word frequencies 3) frequency list of symbols occurring in the beginning of words 4) frequency list of symbols occurring in the end of words.

but what could these statistics be compared to? i clearly needed some data about spoken english. luckily, i found a large transcript of a british english text on the internet, and i used it to compile similar statistics to the ones mentioned above, so that they could be compared easily.

thanks to that, i came up with some guesses of possible symbol – sound correlations. but how could i verify/falsify them easily? it seemed too tiresome to use a pencil and an eraser every time. that’s why i wrote a small HTML/javascript application that would substitute letters automatically and quickly. you can see it here (it’s actually still a bit buggy, but it was good enough for what i needed it).

one of the early ideas i had was that the sign i called “q” might have the value /ð/. the reason for that was that it was very frequent in anlaut, but never occured in auslaut, which matched the distribution of /ð/ in english.

but this – again – let to the problem that /ð/ is no word of the english language (not even in fast talk). this made me reconsider this guess repeatedly, even though it turned out to be correct in the end.

the breakthrough was then made possible by two observations. first, the second to last word in the title consisted of two symbols, and it was in the position right before a name. therefore, it was likely to be either an article or a preposition. i also spotted the same sequence in a frequent three-symbol word (being identical to symbol two and three in that word). so i checked the list of most frequent words in english to see if i could find a word consisting of three phonemes, where the phonemes two and three together would be identical to an article or a preposition. and i did in fact find one (actually, more than one, but this one seemed most promising): /ðæt/ and /æt/. since this fitted also with my guess that the “q” symbol might be /ð/, i felt that this was a good path to explore. with that, i was in fact already on the right track.

second, i noticed two sequences where /ðæt/ was followed by another word of length three, and they both started with /ð-/. these were likely to be one of /ðæt ðei/, /ðæt ðer/, /ðæt ðis/ or /ðæt ði:z/, and it turned out that the latter two fitted well. with that, i saw the hypothesis confirmed that long vowels were represented by separate symbols. in addition, i discovered that “it iz” had appeared in other parts of the cryptogram, giving me some confidence that i was going in the right direction.

next, i concentrated on a frequent two-symbol word ending in long /i:/, and i came to the conclusion that a /w/ would fit best for the first symbol. the sequence /w?t/ was then likely to be /wɒt/.

in the meantime, it had finally dawned on me how to read the single-letter words: it had to be the case that the most frequent functional words were given only by their characteristic consonant. therefore, /t/ was /to/, /ð/ was /ðə/, and one of the remaing ones had to be /n/ = /ænd/.

with these letters given, i managed to guess /wi: kænɒt/, occurring thrice in the first line, and this couldn’t possibly be a coincidence. so from there on forward, it wasn’t too hard anymore to guess the remaining symbols, though i admittedly didn’t get some of the symbols which represent a syllable (there were in fact a few of those in the alphabet, just as i had suspected based on the total number of symbols).

later, after decrypting the entire text, i found out that this script is in fact real. it’s known under the name of the shavian alphabet (check that link for the values of all the signs), and it was created at the occasion of a contest to invent an improved orthography for english (though it never became popular, for obvious reasons).

cryptogram
[the colored areas were crucial for the deciphering: blue - /æt/ and /ðæt/, green - /ðæt ði:z/ and /ðæt ðis/, orange - /wi:/]

the text turned out to be a part of lincoln’s gettysburg address. in full:

From Lincoln’s speech at Gettysburg

But, in a larger sense, we cannot dedicate…we cannot
consecrate…we cannot hallow…this ground. The brave men,
living and dead, who struggled here, have consecrated it
far above our poor power to add or detract. The world
will little note nor long remember what we say here, but
it can never forget what they did here. It is for us, the
living, rather, to be dedicated here to the unfinished
work which they who fought here have thus far so nobly
advanced. It is rather for us to be here dedicated to the
great task remaining before us…that from these honored
dead we take increased devotion to that cause for which
they gave the last full measure of devotion; that we here
highly resolve that these dead shall not have died in vain;
that this nation, under God, shall have a new birth of
freedom; and that government of the people, by the people,
for the people, shall not perish from the earth. (courtesy wikisource)

references
coulmas, florian: the writing systems of the world. oxford 1989.

eine bemerkung zur verwendung des präsens im englischen

gelesen,rant,uni — 2.05.2010

immer wieder stosse ich bei der lektüre englischer papers, die von nicht-muttersprachlern (insbesondere von solchen mit deutschsprachigem hintergrund) verfasst sind, auf konstruktionen der folgenden art:

in this paper, i argue that …
first, I introduce the theory of …
in section 4, i discuss the problem of …

nach meinem kenntnisstand (ich bin zugegebenermassen kein muttersprachler) ist das aber kein gutes englisch. das präsens hat im englischen eine aspektuelle semantik, die nicht mit dem deutschen präsens übereinstimmt. das englische präsens wird für gewohnheiten, routine-tätigkeiten oder generelle wahrheiten verwendet. die aussage i play soccer heisst gerade nicht ‘ich spiele jetzt fussball, ich bin am fussballspielen’ sondern ‘ich spiele oft/regelmässig fussball; es ist ein hobby von mir, fussball zu spielen’; i play soccer ist eine mögliche antwort auf die frage: “was machst du so in deiner freizeit?”, aber nicht auf die frage “was machst du hier auf dem fussballplatz?”, oder “was machst du morgen?”. korrekt ist die anwendung des präsens z.b. in:

i don’t drive a car ‘ich fahre nie auto; es ist keine gewohnheit von mir, auto zu fahren’
i like cats ‘ich mag katzen (schon immer und auch weiterhin)’
trees grow slowly ‘bäume wachsen grundsätzlich/immer langsam’

nun kann man sich fragen, wie man die eingangs erwähnten konstruktionen denn sonst formulieren könnte. wenn man sich einmal publikationen von muttersprachlern ansieht, merkt man, dass es eine vielzahl an strategien gibt, um das auszudrücken, wofür man im deutschen das präsens verwenden würde. da das in this paper, i argue that … ja oft futurisch gemeint ist, könnte man stattdessen sagen:

in this paper, i’m going to argue that…

oder

in section 4, i shall argue that…

deutlich besser als das präsens ist auch das present continuous:

in section 4, i’m discussing …

oft wird einfach eine prädikative konstruktion mit nominalisiertem verb verwendet:

statt: in section 4 i summarize …
also: section 4 is a summary of …

ferner ist folgendes korrekt:

section 4 presents an overview of …

… weil es hier um die generelle aussage geht, dass section 4 einen überblick präsentiert – sie tut das nicht durch eine zum gegenwartszeitpunkt stattfindende tätigkeit, sondern unabhängig davon, jetzt und auch in zukunft.

links
http://en.wikipedia.org/wiki/Present_tense#English

sprachwandel nach a. s. diamond

da der zeitpunkt, zu dem die menschliche sprache entstanden ist, sehr weit
in der vorgeschichte zurückliegt, werden wir nie eine sichere
antwort auf die frage haben, wie dieser vorgang genau abgelaufen
ist. das hat die leute aber nicht davon abgehalten, trotzdem die
verschiedensten sprachursprungstheorien zu entwickeln – allesamt
hochgradig spekulativ, aber dafür sehr originell. mittlerweile ist
die disziplin sogar so beliebt geworden, dass sie einen eigenen namen
erhalten hat: die glottogonie.

meine liebste sprachursprungstheorie ist nun die von einem herrn diamond
(1959:258ff). er ist der ansicht, dass am anfang der sprachentwicklung
geräusche standen, die man bei kräftigen bewegungen des arms
unwillentlich von sich gibt. bei verschiedenen arbeitstätigkeiten (er
nennt schneiden, brechen, zerquetschen, schlagen) hätten die menschen
aufgrund der anstrengung verschiedene geräusche produziert, die dann mit
der entsprechenden verbalhandlung assoziert worden seien. um anderen
menschen gegenüber klar zu machen, welche verbalhandlung man meint,
konnte man dann das jeweilige geräusch nachahmen. daraus
hätte sich durch präzisierung usw. eine richtige sprache entwickelt. am
anfang hätten dann genau die vier oben genannten verben gestanden, weil
diese einen “maximum arm effort” erforderten, also besonders anstrengend
waren und deshalb mit einem hörbaren geräusch einhergingen. diese wörter wären also die ältesten, und dies meint diamond sogar aufgrund der ältesten belegten sprachstufen nachweisen zu können.

na, überzeugt…? ;]

referenz

diamond, a. s.: the history and origin of language. london 1959.

der phonemstatus von /ɖ/ im norwegischen und braunmüllers minimalpaaranalyse

gelesen,linguistik,vgs — 1.03.2009

braunmüller (2007:171) schreibt, dass dem retroflexen /ɖ/ im norwegischen phonemischer status zukomme, da minimalpaare der folgenden art gebildet werden können:

Norden ['nu:ɖən] ‘der skand. norden’
noten ['nu:tən] ‘nute, zugnetz’

das kann aber so nicht stimmen. wenn dies eine zulässige minimalpaaranalyse wäre, könnte man selbst bei parade-fällen von allophonie einen phonemstatus nachweisen. nehmen wir z.b. die allophonie von [ç] und [χ] im deutschen, wovon letzteres bekanntlich nur nach hinteren vokalen auftritt.

nach braunmüllers logik könnte man mit folgendem minimalpaar den phonemstatus von /ç/beweisen:

ichim
[ç] – [m]

und mit folgendem minimalpaar wäre der phonemstatus von /χ/ nachweisbar:

DachDamm
[χ] – [m(:)]

ebenso verhält es sich bei der englischen allophonie von [l] und [ɫ] (velarisiertes l). hier könnte folgendermassen phonemstatus nachgewiesen werden:

peelpeep
[ɫ] – [p]

bzw.

liftgift
[l] – [g]

es gilt zu betonen, dass die minimalpaaranalyse zwar die richtige methode ist, um den phonemstatus von lauten zu ermitteln, dass die hier verwendete methode aber ungültig ist. es wäre z.b. richtig, zu behaupten, dass [ç] und [χ] keine allophone sondern eigenständige phoneme sind, wenn es gelänge, ein minimalpaar zu finden, dass sich nur durch den unterschied von [ç] und [χ] unterscheidet (was aber nicht möglich ist). es ist jedoch nicht zulässig, eines der allophone mit einem unabhängigen laut (z.b. /t/) zu konstrastieren und auf diesem weg den phonemstatus für das allophon zu behaupten, wie dies von braunmüller gemacht wird.

für den fall von norw. /ɖ/ heisst das konkret, dass /ɖ/ solange als allophon von /d/ anzusehen ist, bis man ein minimalpaar findet, dass sich nur durch den unterschied von /ɖ/ und /d/ unterscheidet, was mir (ohne mich damit beschäftigt zu haben) eher unwahrscheinlich vorkommt.

referenz
Braunmüller, K.: Die skandinavischen Sprachen im Überblick. Tübingen 2007. 3. Auflage.

allophonische verteilung von zungenspitzen- und gaumen-r in mittelschweden

gelesen,linguistik,vgs — 28.02.2009

viele sprachen kennen eine dialektale variation von r-lauten, aber dass es auch möglich ist, dass verschiedene r-varianten allophonisch verteilt sind, ist mir neu. nach braunmüller (2007:43) gibt es in einem “übergangsgebiet zwischen süd- und mittelschweden” einen dialekt, wo anlautend und inlautend (sofern der laut lang ist) ein gaumen-r [ʀ,ʁ] gesprochen wird, ansonsten zungenspitzen-r [r]. seine beispiele sind:

röra [''ʀœ:ra] ‘bewegen’
herre ['hɛʀ:ę̜] ‘herr’

es ist schwer zu glauben, dass es wirklich zwei verschiedene gerollte r-varianten im selben wort geben kann, aber genau das scheint hier der fall zu sein.

referenz
Braunmüller, K.: Die skandinavischen Sprachen im Überblick. Tübingen 2007. 3. Auflage.

programmiersprachen und sprachen

gerade habe ich das buch ‘eine kleine geschichte der sprache’ von steven roger fischer gelesen (2. auflage 2004; engl. original aus dem jahr 1999). es ist ein nettes kleines büchlein, das einen sehr allgemeinen und für laien ausgericheten überblick über die entstehung der sprache, über die sprachwissenschaft, die wichtigsten sprachfamilien, sprachtypologie etc. bietet. natürlich kratzt der autor bei den einzelnen themengebieten nur an der oberfläche, doch liegt dies in der natur eines solchen buches, das auf ein breites, nicht ausgebildetes publikum zielt. im teil zu den germanischen sprachen, den ich aufgrund meiner ausbildung beurteilen kann, hat es zwar einige ungenauigkeiten und fehler drin (z.B. kann man altnordisch nicht als die ‘ursprüngliche germanische sprache’ bezeichnen, S. 132), aber es ist nichts allzu schlimmes dabei.

allerdings, und dies ist der grund für meinen blog post, bin ich in einem punkt ganz und gar nicht mit fischer einverstanden: nämlich damit, dass er programmiersprachen immer wieder mit natürlichen sprachen in einem atemzug nennt, und damit die grundlegenden unterschiede zwischen beiden missachtet. um es auf den punkt zu bringen: programmiersprachen sind überhaupt keine sprachen. sie haben, wenn man es genau nimmt, in einem linguistischen einführungsbuch über die geschichte der sprache nichts verloren.

zwei punkte mögen genügen, um dies zu klären:

  • es sind verschiedene definitionen von ‘sprache’ denkbar, aber man kommt in keinem fall um die grundlegende feststellung herum, dass die sprache ein medium für die kommunikation ist. das trifft zu bei gesprochener sprache, bei geschriebener sprache, bei gehörlosensprachen, und, wenn man will, sogar bei der pheromon-kommunikation von insekten und anderen tieren. bei programmiersprachen trifft dies aber gerade nicht zu. programmiersprachen ermöglichen keine kommunikation. oder hast du dich schon einmal mit einem computer in java unterhalten? hat er vielleicht eine frage von dir mit einigen zeilen python beantwortet? natürlich nicht, denn programmiersprachen dienen einem ganz anderen zweck: sie sind konstrukte, um komplizierte berechnungen an einem computer effizient und übersichtlich beschreiben zu können. von einer kommunikation zwischen mensch und computer kann somit keine rede sein. mit einer maschine kann man lediglich interagieren, aber nicht kommunizieren. für die kommunikation braucht es einen gleichwertigen gesprächspartner.
  • wenn die sprachwissenschaft zu einer grundlegenden einsicht gekommen ist, was das wesen der sprache betrifft, dann ist es die, dass sich sprachen im verlaufe der zeit verändern. gerade dieser fundamentale satz trifft bei programmiersprachen aber nicht zu – jedenfalls nicht in der gleichen art wie bei natürlichen sprachen, wo sich ein wandel der sprache ohne bewusstes eingreifen einer ‘normativen kraft’ vollzieht. programmiersprachen können zwar von ihren erfindern überarbeitet werden, doch hat dies mit sprachwandel gar nichts zu tun.

in meinen augen ist die benennung von programmiersprachen als ‘sprachen’ nur eine metapher, die aufgrund von einigen oberflächlichen eigenschaften (z.B. dass beide eine syntax haben) zustande gekommen ist. damit sollte aber nur gesagt werden, dass c++, assembler, fortran und java so etwas ähnliches wie sprachen sind, aber keineswegs, dass es sich tatsächlich um sprachen handelt. aussagen in der art, dass computer miteinander “sprechen” könnten, dass sie programmiersprachen “benutzten” und dass dies ganz ähnlich wie bei der kommunikation zwischen mensch und tier ablaufen solle (alles nachzulesen auf s. 223), sind irreführend und zeugen von einem grundsätzlichen unverständnis darüber, was programmiersprachen sind und wie sie funktionieren.