Erweiterte Unix-Code

Erweiterte Unix-Code ist ein Mehrbyte-Zeichencodierungssystem in erster Linie für Japanisch, Koreanisch und vereinfachtes Chinesisch verwendet.

Die Struktur der EUC basiert auf dem ISO-2022-Standard, der einen Weg, um Zeichensätze, die maximal 94 Zeichen oder 8836 Zeichen oder 830.584 Zeichen als Sequenzen von 7-Bit Codes stellen spezifiziert basierend. Nur ISO-2022 konforme Zeichensätze EUC Formen haben. Bis zu vier codierten Zeichensätze können mit dem EUC Schema dargestellt werden. G0 ist fast immer ein ISO-646-konform codierten Zeichensatz, der auf GL aufgerufen wird.

Um die EUC Form eines ISO-2022 Charakter, das höchstwertige Bit jedes 7-Bit-Byte der ursprünglichen ISO 2022-Codes gesetzt zu bekommen; Damit kann die Software leicht zu unterscheiden, ob ein bestimmtes Byte in einer Zeichenkette gehört der ISO-646-Code oder dem ISO-2022-Code.

Die am häufigsten verwendeten EUC Codes variabler Breite Kodierungen mit einem Zeichen gehör G0 wobei ein Byte und ein Zeichen an G1 in Zweibytedarstellung gehören. Die EUC-CN Form von GB2312 und EUC-KR sind Beispiele für solche Zwei-Byte-EUC-Codes. EUC-JP-Zeichen enthält bis zu drei Bytes der Erwägung, dass ein einzelnes Zeichen in EUC-TW kann bis zu vier Bytes nehmen vertreten.

Moderne Anwendungen sind wahrscheinlicher, UTF-8, die alle der Glyphen der EUC-Codes unterstützt, und mehr, und ist in der Regel tragbare mit weniger Anbieter Abweichungen und Fehler zu verwenden.

EUC-CN

EUC-CN ist der übliche Weg, um die GB2312 Standard für vereinfachtes Chinesisch Zeichen verwenden. Im Gegensatz zu dem Fall des Japanischen wird die ISO-2022 Form GB2312 normalerweise nicht verwendet, wenn eine Variantenform genannt HZ wurde manchmal USENET verwendet.

EUC-CN kann auch verwendet werden, um die Unicode-basierte GB18030 Zeichenkodierung, die traditionellen Zeichen enthält kodieren, auch wenn GB18030 häufiger ohne EUC-Codierung verwendet, da GB18030 ist bereits eine Unicode-Codierung. , GB18030 in EUC-CN codiert ist jedoch ein Multibyte Character Set, denn GB18030 enthält mehr als 8836 Zeichen.

Verwandte Codierungssysteme

Eine Codierung EUC-CN verbunden ist die "748" Code in der WITS Satzsystem von Peking Founder Technology entwickelt, verwendet. Die 748-Code enthält alle GB2312, ist aber nicht ISO 2022-konform und daher nicht um eine echte EUC-Code. Die nicht-GB2312 Teil der 748-Code enthält traditionelle und Hongkong Zeichen und andere Glyphen in Zeitungssatz verwendet.

EUC-JP

EUC-JP ist ein variabler Breite Kodierung verwendet werden, um die Elemente der drei japanischen Zeichensatz-Standards, nämlich JIS X 0208, JIS X 0212 und JIS X 0201 zu vertreten.

  • Ein Zeichen aus der unteren Hälfte der JIS-X-0201 wird durch ein Byte dargestellt, im Bereich 0x21 - 0x7E.
  • Ein Zeichen aus der oberen Hälfte der JIS-X-0201 wird durch zwei Bytes dargestellt, wobei die erste 0x8E, der zweite im Bereich 0xA1 - 0xDF.
  • Ein Charakter von JIS-X-0208 ist durch zwei Bytes dargestellt, die beide im Bereich 0xA1 - 0xFE.
  • Ein Charakter von JIS-X-0212 ist durch drei Bytes dargestellt, wobei die erste 0x8F, die folgenden beiden im Bereich 0xA1 - 0xFE.

Dieses Codierungsschema ermöglicht die einfache Vermischung der 7-bit ASCII und 8-Bit-japanischen, ohne die Notwendigkeit für die von der ISO-2022-JP, die auf den gleichen Zeichensatz-Standards verwendet wird Escape-Zeichen.

In Japan wird die EUC-JP-Codierung stark von Unix oder Unix-ähnlichen Betriebssystemen verwendet, während Shift JIS oder dessen Erweiterungen werden auf anderen Plattformen verwendet. Daher, ob japanische Web-Seiten verwenden, EUC-JP oder Shift_JIS oft hängt davon ab, welches Betriebssystem verwendet der Autor.

EUC-JISX0213 ist ähnlich, aber unterscheidet sich von EUC-JP, dass zwei Ebenen der JIS X 0213 stattfinden von JIS-X-0208 und JIS-X-0212. Es gibt eine ähnliche Beziehung zwischen Shift_JIS und Shift-JISX0213.

EUC-KR

EUC-KR ist ein variabler Breite Codierung koreanischen Text stellen mit Hilfe von zwei codierten Zeichensätze, KS X 1001 und KS X 1003 / ISO 646: KR / US-ASCII. KS X 2901 sieht vor, die Kodierung und RFC 1557 nannte es wie EUC-KR. Ein Charakter von KS X 1001 gezogen wird als zwei Bytes in GR und ein Charakter aus KS X 1003 / US-ASCII dauert ein Byte in GL codiert.

Es ist die am weitesten verbreitete Legacy-Zeichencodierung in Korea auf allen drei wichtigen Plattformen, aber ihre Verwendung ist sehr langsam ab, wie UTF-8 Popularität gewinnt, vor allem unter Linux und Mac OS X. Es wird in der Regel als Wansung in Republik bezeichnet Korea. Die Standard-Codepage Koreanisch für Windows ist eine proprietäre, aber aufwärts kompatible Erweiterung von EUC-KR bezeichnet als Unified-Hangeul-Code. Mac Korean im klassischen Mac OS verwendet wird, ist auch EUC-KR kompatibel.

Wie bei den meisten anderen Kodierungen, wird UTF-8 jetzt neue Verwendung bevorzugt, die Lösung von Problemen mit der Kohärenz zwischen den Plattformen und Anbietern.

EUC-TW

EUC-TW ist ein variabler Breite Codierung, die US-ASCII und 16 Ebenen des ZNS 11643, von denen jede 94x94 unterstützt. Es ist eine selten verwendete Codierung für traditionelle chinesische Zeichen als auf Taiwan verwendet. Big5 ist sehr viel häufiger. Ein Zeichen in US-ASCII als ein einzelnes Byte in GL und ein Zeichen in CNS 11643 Ebene 1 ist als zwei Bytes in GR, codiert. Ein Zeichen in Ebene 1 bis 16 von CNS 11643 als vier Bytes mit dem ersten Byte stets 0x8E und dem zweiten Byte, das die Ebene kodiert. Die dritte und vierte Byte in GR. Beachten Sie, dass das Flugzeug 1 von CNS 11643 wird zweimal codiert als Codesatz 1 und ein Teil des Code festgelegt 2. UTF-8 wird immer häufiger als EUC-TW, wie bei den meisten Codepages.

(0)
(0)
Kommentare - 0
Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha