
Technische Spezifikationen sind meist öde. Ihr Fachchinesisch schreckt ab und die Anwender interessieren sich in der Regel mehr für praktische Ergebnisse als für die Theorie dahinter. Gelegentlich lohnt es sich aber, die Motorhaube zu öffnen und einen Blick ins Innenleben einer Technologie zu wagen. Bestes Beispiel dafür ist das Mac-OS. Eher unbekannt ist eine andere Technologie auf jedem Mac, deren Auswirkungen für den Arbeitsalltag allerdings weit reichen. Ihr Name lautet: Unicode.
Warum Unicode?
Bereits in der Classic-Ära sorgten Fonts immer wieder für Trouble. Hauptgründe: die beiden unterschiedlichen Formate Postscript und Truetype sowie die Inkompatibilität von Mac-Schriften auf PCs und umgekehrt. Für professionelle DTP-Anwender sowie Anwender, die viel mit fremden Sprachen zu tun hatten, gab es schließlich noch ein drittes Ärgernis: die strikte Beschränkung von Zeichensatzdateien auf maximal 255 Zeichen. Dank der voranschreitenden Computertechnologie sind diese Ärgernisse mittlerweile weitgehend Vergangenheit. Mehr und mehr Schriftfonts liegen im Format Opentype vor, und viele moderne Schriftvarianten haben eine Zeichenfülle, die diejenige herkömmlicher Postscript- und Truetype-Schriften um ein Mehrfaches übertrifft. Beispiele dafür sind die Systemschrift Lucida Grande oder die Opentype-Pro-Fonts in der Creative Suite von Adobe.
Sicher ist es richtig, dass verbreiterte Datentiefen die Entwicklung begünstigt haben. Richtig ist auch, dass sich das plattformübergreifende Format Opentype-Format zunehmend durchsetzt. Ohne eine weitere Grundlage, nämlich einen zeitgemäßen Standard für die Zeichenbelegung digitaler Schriftfonts, wären die Fortschritte bei Bits, Bytes, Taktraten und Formaten allerdings nicht viel mehr als Stückwerk. Genau an der Stelle setzt Unicode an. Anders als die lange Jahre als Standard verwendete Zeichenbelegungsspezifikation ASCII (American Standard Code for Information Interchange) offeriert Unicode ein einheitliches Kennnummer-Korsett für alle Sprachen, Zeichen- und Schriftsysteme dieser Welt – angefangen von unserem lateinischen Alphabet über diverse Erweiterungen bis hin zu den Schriftsystemen des ostasiatischen Raums, Standardinfogrammen und Specials wie beispielsweise der Braille-Blindenschrift.
Was steckt hinter dem Unicode-Bauplan?
Das System von Unicode ist ebenso einfach wie effektiv: Vom lateinischen Großbuchstaben A bis hin zum chinesischen Ideogramm für “Perle” wird jedem Zeichen, das in die Unicode-Belegung aufgenommen wird, eine eindeutige Kennnummer zugeordnet – der so genannte Codepoint. Die Aufnahmebedingungen sind streng. Über die Stringenz der seit 1991 stetig ausgebauten Spezifikation wacht eine internationale Non-Profit-Organisation. Vertreten sind in ihr so gut wie alle Software-Branchengrößen – von Apple und Adobe bis hin zu Google und Microsoft.
Die aktuelle Unicode-Version 5.1.0, gültig seit April 2008, bietet Planplatz für rund 1,2 Millionen Zeichen. Allerdings: Neun Zehntel davon sind derzeit reine Planmasse. Wichtig bei der Aufteilung ist zunächst die strikte Orientierung an echten Zeichen. Glyphen etwa gelten nicht als eigenständige Zeichen, sondern lediglich als unterschiedliche Ausprägungen ein- und desselben Zeichens. Der Kleinbuchstabe a etwa kann entweder als normales Buchstaben-a erscheinen oder aber als Kapitälchen sowie hochgestellter Buchstabe. Ähnlich sieht es bei den Ziffern aus.

Echtes Zeichen oder nur Glyphe? Zum Zankapfel kann diese Frage etwa bei historischen Vorformen bestimmter Alphabete werden. Umstritten im Unicode-Konsortium war vor einigen Jahren etwa die Frage, ob die im Altertum verwendete phönizische Schrift eine Vorform des hebräischen Alphabets sei (= Glyphe) oder aber ein eigenständiges Alphabet (= Zeichen). Das Konsortium erkannte schließlich auf Letzteres. Anlass dieser Streitfrage waren neue Unicode-Sektoren, in die nunmehr auch Zeichen toter, rein historischer Schriftsysteme einsortiert werden sollten. Strukturell untergliedert sich die Unicode-Gesamtbelegung derzeit in 16 Hauptebenen. Jede dieser Ebenen enthält bis zu 65 000 Zeichen. Die Aufgliederung folgt dem in der Computertechnologie üblichen Bit-und-Byte-Schema, die Nummerierung dem Hexadezimalschema von 0 bis F. Die aufgeführten Ebenen (“Planes”) untergliedern sich wiederum in einzelne Blöcke: jeweils 256 Blöcke mit 256 Zeichen.
Was betrifft nun normale Anwender?
Nicht alle Ebenen sind für Schriftanwender interessant; die Ebenen 4 bis 13 sind derzeit reine Planbereiche. Für Anwender unterschiedlich relevant sind auch die einzelnen Blöcke innerhalb dieser Ebenen. Die lebenden Sprachen und Schriftsysteme konzentrieren sich allesamt in der ersten Ebene, in Plane 0, der “Basic Multilingual Plane”. Eine Ausnahme bilden einige Erweiterungsblöcke für die drei fernöstlichen Schriftsysteme Chinesisch, Japanisch und Koreanisch. Plane 0 beginnt mit den vertrauten ASCII-Zeichen des lateinischen Alphabets. An die Zeichengruppe “Latin 1 Basic” schließen sich die drei Gruppen “Latin 1 (Ergänzung)”, “Latin Extended-A” und “Latin Extended-B” an. Enthalten sind in den drei zusätzlichen Gruppen die erweiterte ASCII-Belegung, Akzent-Buchstaben für den Satz mitteleuropäischer Sprachen sowie eine Reihe unterschiedlichster Spezialzeichen. Direkt daran schließen die Zeichengruppen für das Internationale Phonetische Alphabet an, für diakritische Zeichen mit eigenem Platzbedarf (nötig beispielsweise beim Satz nahöstlicher Sprachen) sowie für Akzentzeichen, die lediglich andere Buchstaben modifizieren (wie etwa das Akut-Zeichen in Café).
Die bisher aufgeführten sieben Blöcke nehmen nicht einmal tausend Zeichen in Beschlag. Ein weiteres Merkmal der Unicode-Zeichenbelegung: Um unnötige Irritationen zu vermeiden, wurden herkömmliche Alphabetgruppen so weit wie möglich belassen. Daher sind die einzelnen Blöcke in Plane 0 unterschiedlich groß. Trotzdem hat die Grobreihenfolge Stringenz. Auf die Blöcke für das lateinische Alphabet, die IPA-Extension sowie die diakritischen Zeichen folgen Zug um Zug die Zeichenblöcke für das griechische, kyrillische, hebräische und arabische Alphabet. Ebenfalls weit vorne in der Basic Multilingual Plane liegen die diversen Schriftsysteme für die südasiatischen Sprachen. Da bereits auf dem indischen Subkontinent allein ein rundes Dutzend unterschiedlicher Schriftsysteme nebeneinander koexistiert, ergibt sich im vorderen Bereich von Plane 0 eine relativ starke Blockfragmentierung.
Untergebracht sind im vorderen Teil einige weitere, kleinere Schriftsysteme – beispielsweise die georgische Schrift, die armenische sowie die koptische. Fast zwei Drittel der Unicode-Basisebene wird allerdings von den unterschiedlichen Zeichen und Schriftsystemen der fernöstlichen Sprachen in Beschlag genommen. Das Gros entfällt dabei auf die Zeichen des traditionellen Chinesisch. Da auch die japanische und koreanische Schrift auf diesen Zeichen basieren, firmiert dieser Block unter der Bezeichnung CJK-Ideogramme. Zusätzliche Blöcke enthalten die Zeichen für die ergänzenden japanischen Silbenschriften Hiragana und Katakana sowie die koreanische Schrift. Auf diversen Partitionen in Plane 0 untergebracht sind schließlich noch unterschiedliche Symbolschriften, Piktogramm-Standards und Specials. Das komplette Volumen – entsprechend den Zeichen-Basics, mit denen mal weltweit grob über die Runden kommen dürfte: rund 65 000.
Wer profitiert von den Spezifikationen?
Wie macht sich nun die Unicode-Spezifikation in der Praxis bemerkbar? Schriften für fremde Sprachen gab es bereits früher. Mit ihren eigenen Belegungssystemen hantierten in der Vergangenheit zudem auch die Anwender in anderen Ländern. Was bringt Unicode, was schriftsystem-gebundene Belegungssysteme à la ASCII nicht können? Die Antwort lautet: potenziell mehrere Schriftsysteme innerhalb einer Schrift. Schriften, die Zeichen für mehrere Schriftsysteme beinhalten, vereinfachen die Texteingabe selbst zwar nur temporär. Die Handhabung schon gesetzter Dokumente lässt sich durch entsprechend ausgestattete Fonts indes erheblich erleichtern. Enthält ein Text etwa Zeichen für lateinische und arabische Sprachen, kann der gesamte Text mit dem entsprechenden Font formatiert werden. Um die Richtigkeit der Zeichen muss man sich (zumindest technisch gesehen) keine Sorgen machen: Die Unicode-Belegung der entsprechenden Schrift sorgt dafür, dass jedes Zeichen korrekt umgesetzt wird. Das Gleiche gilt beim Umformatieren mit einer anderen Schrift. Basiert diese auf Unicode und unterstützt sie die im Dokument vorkommenden Schriftsysteme, lässt sich eine Umformatierung ähnlich einfach bewerkstelligen wie im Satz mit einer Schrift.

Zugegeben: In der Praxis sind “Universalschrift”-Fonts derzeit noch Zukunftsmusik. Das beginnt bereits beim Design: 30 000 oder gar 60 000 Zeichen mit einem einheitlichen Aussehen zu versehen, möglicherweise noch in mehreren Fettungsgraden und Schnitten, übersteigt die Kapazitäten einzelner Schriftentwerfer bei weitem. Fonts, die mehr als nur ein Schriftsystem bedienen, liegen aber im Trend. Die von Adobe initiierte High-End-Spezifikation Opentype Pro etwa gewährleistet Sprachunterstützung zumindest für die mitteleuropäischen Sprachen. Fonts, die zusätzliche Unterstützung für Griechisch, Kyrillisch oder Türkisch bieten, gelten im Bereich gut ausgebauter Textschriften mittlerweile fast als neue Eichmarke. Mittelfristig lässt sich also prognostizieren, dass Textschriftstandards der Zukunft Unterstützung für alle vier europäischen Schriftsysteme liefern werden: das lateinische, die erweiterte Belegung für Mittel- und Osteuropa, das griechische Alphabet und das kyrillische.
Info: Unicode und Opentype
Unicode und Opentype offerieren zwar ähnliche Vorteile, sind allerdings zwei unterschiedliche Baustellen.
Unicode ist ein Zeichenbelegungsstandard, Opentype ein Schriftformat, das Unicode als Grundlage verwendet. Der Unterschied zeigt sich beispielsweise darin, dass Opentype-Schriften unterschiedliche Glyphenvarianten von Zeichen beinhalten können. Glyphenvarianten sind allerdings eine spezielle Eigenheit der Opentype-Technologie, die mit Unicode selbst wenig zu tun hat. Für die Codierung von Unicode-Zeichen gibt es spezielle Transformationsformate; bekannt sind hier vor allem die beiden Spezifizierungen UTF-8 und UTF-16. UTF-8 ist derzeit am weitesten verbreitet, vor allem bei der Codierung von Zeichen für das Internet.
Weiterführende Infos
Zum Thema Unicode generell, zu einzelnen Unicode-Blöcken und Zeichen finden sich im Netz hilfreiche Informationen. Hilfreich sind hier vor allem Zeichentabellen, die mit Zusatzinfos angereichert sind.
Das von Design-Studenten der Mainzer Fachhochschule initiierte Wiki erschließt die Welt der einzelnen Unicode-Blöcke auf interaktive Weise.
http://de.wikipedia.org/wiki/Liste_der_Unicode-Blöcke
Die Wikipedia-Seite zu den einzelnen Unicode-Blöcken lohnt sich für alle, die zu speziellen Zeichen Informationen suchen. Ist eine entsprechende Schrift aktiviert, lässt sich ein bestimmtes Zeichen auch via Copy-and-paste in eine Textverarbeitung übertragen.
https://www.unicode.org/charts
Auf der offiziellen Webseite des Unicode-Konsortiums finden sich einerseits Überblicktabellen zum aktuellen Ausbau von Unicode. Zusätzlich aufrufbar sind hier auch PDF-Dokumente zu den einzelnen Blockbelegungen. Sämtliche Infos sind aber nur in englischer Sprache.
Blöcke und Sprachen
Die unterste Unicode-Ebene 0 beinhaltet Zeichenblöcke für alle aktuell wichtigen Schrift- und Zeichensysteme.

Die ersten vier Blöcke enthalten alle nötigen Zeichen für west- sowie zentraleuropäische Sprachen. Daran an schließen sich drei Blöcke für das Internationale Phonetische Alphabet (IPA), diakritische Zeichen mit und solche ohne eigenen Platzbedarf (Akzente). Die drei folgenden Blöcke beinhalten Zeichen für die beiden restlichen europäischen Alphabete – das griechische und das kyrillische Alphabet.
Schriftsysteme aus Nahost
Weiter geht es in Plane 0 mit den nahöstlichen Schriftsystemen. Reihenfolge: Armenisch, Hebräisch, Arabisch und Syrisch. In konventionelle Blöcke mit 255 Zeichen oder weniger aufgeteilt ist auch der daran anschließende Sektor. Hier finden sich einerseits die diversen Alphabete und Schriftsysteme Süd- und Südostasiens wie etwa die indischen Schriftsysteme Devanagari, Tamilisch und Bengali sowie die südostasiatischen Schriftzeichen für Thailändisch oder Singhalesisch. Andererseits sind im vorderen Sektor auch kleinere Schriftsysteme untergebracht wie etwa die westafrikanische N‘Ko-Schrift, die äthiopische Schrift oder die Schrift der US-amerikanischen Cherokee.
Der ostasiatische Block
Rund zwei Drittel der Basic Multilingual Plane benötigen die Blöcke für die ostasiatischen Schriftsysteme. Mit Abstand größter Block ist der für die vereinheitlichten CJK-Ideogramme; zusätzliche Blöcke enthalten Ergänzungen sowie Zeichen für die japanischen Silbenschriften Hiragana und Katakana sowie für das Koreanische. Der vordere Bereich der Unicode-Basisebene ist zudem stark fragmentiert. Neben Schriftsystemen enthält er auch eine Reihe von Blöcken für Symbole oder spezielle Zeichensysteme. Die hinteren Code-Bereiche sind nicht mit Schriftzeichen belegt; sie dienen internen Zwecken.
Fazit

Internationalisierung liegt im Trend. Gerecht werden diesem Trend auch die Systemschrift-Ausstattungen moderner Mac-Rechner. Die Lucida Grande etwa liefert mehr als 2800 Zeichen, die Genova immerhin noch fast 1900. Praktisch sind internationalisierte Schriftfonts jedoch nicht nur für die professionelle Medienproduktion, sondern auch beim ganz normalen Surfen. Nur wenn die entsprechenden Schriften aktiviert sind, zeigt Safari Websites in Arabisch, Chinesisch oder der indischen Schrift Devanagari an. Welche Potenziale stark internationalisierte Schriften beinhalten, zeigen entsprechend ausgebaute Superschriften wie etwa der Microsoft-Zeichensatz Arial Unicode MS oder die Sharewareschrift Code 2000. Zwar werden normale Schriften wohl auch längerfristig kaum die Zeichendimensionen dieser Superschriften erreichen. Das Zusammenrücken der unterschiedlichen Regionen der Welt macht sich auch schrifttechnologisch immer stärker bemerkbar.