`Medientyp Text`

`2. Digitalisierung geschriebener Sprache`

2.1 ASCII-Kode

2.2 HTML

2.3 Unicode

`Sprache und Schrift`

Zeitungsausschnitt "Woltuend klar" Die Zeit v. 17.10.97

Schrift, jedenfalls die lateinisch geschriebene, ist eine Kodierung des Lautwerts der Sprache:

"Das Alphabet ist schon eine ausgezeichnete Technik zur Sichtbarmachung von Lautäußerungen. ... Anders als andere Schriftsysteme zeichnet es Laute auf und nicht Gedanken."(Illich, I.: Im Weinberg des Textes &endash; Als das Schriftbild der Moderne entstand. Frankfurt am Main: Luchterhand 1991, S. 43)

Welche Möglichkeiten gibt es zur Digitalisierung von gesprochener Sprache?

Gesprochene Sprache wird als Klanginformation behandelt (siehe dazu dan Abschnitt über Sound).
Gesprochene Sprache wird in Schriftform überführt, wodurch natürlich einiges verlorengeht (Stimm-Charakteristik, Intonation, Gemütslage):
- Phonemanalyse: welches sprachliche Klangelement wurde gesprochen?
- (Demenys "Je vous aime"nach Kittler, F.: Grammophon Film Typewriter. Berlin: Brinkmann & Bose 1986. S. 266
- Wortseparation: wo (wann) hört eines auf, wo fängt das nächste an? "Blumento-Pferde"
- lexikalische Worterkennung: welche Phoneme formen welche Wörter?
- Notation gemäß Wörterbuch.

Der umgekehrte Weg ist einfacher: die Synthese von Sprache. Dazu kann man z.B. ausprobieren die Systemerweiterung/Kontrollfeld "Speech" im Mac OS 8.

`Digitalisierung geschriebener Sprache: Kodierung von Buchstaben (Lettern)`

Wie viele Zeichen braucht der Mensch? Wie groß ist der Informationsgehalt eines Buchstabens?

Antwort: zwischen 32 und 60.000.

Ein Vorschlag zur Kodierung von Buchstaben ist der

`ASCII-Kode.`

Er unterscheidet maximal 256 Zeichen (8 Bit ASCII), nur die ersten 128 werden von allen Rechnertypen garantiert gleich interpretiert (7 Bit ASCII). Folgende Tabelle gibt Kode und Zeichen an (wohlgemerkt: nur bis 128 kann man sich drauf verlassen).

So ist die Tabelle zu lesen: man addiere die Zahl aus der obersten Zeile zu der linken Spalte, das ergibt den Kode (etwa: dritte Spalte und achte Zeile, macht 73). Am Schnittpunkt von Zeile und Spalte steht dann das kodierte Zeichen (hier das "I").

In nicht besetzten Zellen in der Tabelle stehen Zeichen, die nicht gedruckt werden können, etwa Zeilenwechselzeichen, Tabulatoren, Warnsignale (etwa eine Klingel für den Fernschreiber). Die rot gesetzten Zeichen haben einen ASCII-Kode, der ab 128. Über deren Zeichenwert gilt im Rahmen von ASCII keine herstellerübergreifende Konvention. Hier ist es der Zeichensatz "Courier" unter dem Betriebssystem "Mac OS 8".

E-Mail nach gängigem Standard unterstützt nur 7 Bit ASCII, es findet also statt dasSonderzeichenmassaker.

Offenbar genügen 7 Bit nicht, selbst 8 Bit sind zu wenig.

Frage: was macht man, wenn mit 7 Bit ASCII, etwa also mit einem E-Mail-System, auch andere als 7-Bit-ASCII-Zeichen versenden will, etwas ganze Byte, also 8-Bit-Bitketten?

Antwort: Kode-Einbettung z.B. mit BinHex: die Kode-Symbole sind immer nur genau 4 Bit lang, jedes dieser Halb-Bytes (so etwas heißt ein Nibble), wird mit 7 Bit verschickt.

`HTML`

So regelt es HTML (HypertextMarkup Language), die Kodierungskonvention von WWW-Seiten:

Zeichen Kode HTML-Umschrift

< #60 <

> #62 >

& #38 &

> #62 >

#160  

Ý #134

ý #135

^ #136

‰ #137

Sÿ #138

Œ #140

™ #153

sÿ #154

œ #156

Ÿ #159

¡ #161

¢ #162

£ #163

¤ #164

¥ #165

§ #167

¨ #168

© #169 ©

a #170

« #171

¬ #172

&endash; #173 

® #174 ®

&emdash; #175

° #176

± #177

2 #178

3 #179

´ #180

µ #181

¶ #182

· #183

, #184

1 #185

û #186

» #187

1/4 #188

1/2 #189

3/4 #190

¿ #191

À #192 À

Á #193 Á

Â #194 Â

Ã #195 Ã

Ä #196 Ä

Å #197 Å

Æ #198 &Aelig;

Ç #199 Ç

È #200 È

É #201 É

Ê #202 Ê

Ë #203 Ë

Ì #204 Ì

Í #205 Í

Î #206 Î

Ï #207 Ï

-D #208 Ð

Ñ #209 Ñ

Ò #210 Ò

Ó #211 Ó

Ô #212 Ô

Õ #213 Õ

Ö #214 Ö

x #215

Ø #216 Ø

Ù #217 Ù

Ú #218 Ú

Û #219 Û

Ü #220 Ü

y´ #221 Ý

l> #222 Þ

ß #223 ß

à #224 à

á #225 á

â #226 â

ã #227 ã

ä #228 ä

å #229 å

æ #230 æ

ç #231 ç

è #232 è

é #233 é

ê #234 è

ë #235 ë

ì #236 ì

í #237 í

î #238 î

ï #239 ï

¶ #240 ð

ñ #241 ñ

ò #242 ò

ó #243 ó

ô #244 ô

õ #245 õ

ö #246 ö

÷ #247

ø #248 ø

ù #249 ù

ú #250 ú

û #251 û

ü #252 ü

y´ #253 ý

l> #254 þ

ÿ #255 ÿ

`UNICODE`

Auch dieses genügt ganz offensichtlich noch nicht, denn beispielsweise das Chinesische, das Japanische, Arabische, das Hebräische ist nicht in den 256 Zeichen, gemeinsam mit den lateinischen Lettern, zu kodieren. Auch Schrift-Attribute, etwa die Schreibrichtung, ist mit den bisher gezeigten Methoden und Kodierungen noch nicht berücksichtigt. Deshalb gibt es Unicode. Was das ist, kann manhiernachlesen.

Kurz gesagt: UNICODE in der derzeitigen Fassung benutzt 16 Bit pro Zeichen, das macht insgesamt 2¹⁶ = 65536 verschiedene Zeichen. Texte werden bei dieser Kodierung natürlich doppelt so lang, aber Anwendungen können von vorn herein in allen Sprachen funktionieren.

Bei Zeichensystemen, die selbst schon prinzipiell offen sind, wie das Chinesische, gibt es noch massive Probleme, aber immerhin bietet UNICODE schon eine gewissen Aussicht auch auf Globalisierung der Textkodierung.

Die offizielle UNICODE-Seite liegt hier.

Ausblick und Überleitung: erzwungene Periodizität

könnte man nennen, wenn im Zuge der Digitalisierung die Rasterung Muster hervorruft, die artifiziell sind. Es gibt viele solcher Phänomene, bei allen Medientypen heißen sie anders (Schwebung, Aliasing, Moirée, …), beim Text heißen sie Bächlein:

wenn Mann also stets etwa sone Sachen will dann nannten wirs oft Bächlein.

Diese Streifen im Textbild verschwinden, wenn die Buchstaben nicht alle gleich breit sind (Proportianalschriften):

wenn Mann also
stets etwa sone
Sachen will dann
nannten wirs oft
Bächlein.

Die erzwungene Periodizität -- das artifizielle Raster -- kann abgeschwächt werden durch Verrauschen: die Buchstabenbreite in diesem Falle schwankt unregelmäßig um einen Mittelwert. Dieses ist auch genau die Methode, die bei den anderen Medientypen angewendet wird.

Nun genau zu diesen.

Literatur

M.Warnke: Text und Technik

http://www.w3.org

http://www.archmatic.com/glossar/z_unicode.htm

http://privat.schlund.de/R/Rainer_Seitel/unicode.html

http://193.174.46.93/gast/selfhtml/