Плоскость (Юникод)
В стандарте Юникод плоскость — непрерывный диапазон из 65 536 (216) кодовых позиций. Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00—1016 первых двух шестнадцатеричных цифр в шестизначном формате номера кодовой позиции (U+hhhhhh). Последняя кодовая позиция в Юникоде — последняя кодовая позиция в плоскости 16, U+10FFFF. Плоскость 0 называется Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP), она содержит наиболее часто используемые символы. Остальные плоскости (1—16) называются «дополнительными»[1]. В версии Юникода 14.0 задействованы кодовые позиции семи плоскостей, при этом две из них предназначены для частного использования.
Ограничение в 17 плоскостей обусловлено кодировкой UTF-16, в которой могли быть закодированы 220 (1 048 576) кодовых позиций (16 плоскостей) и BMP[2]. Кодировка UTF-8 была разработана с гораздо большим лимитом в 231 (2 147 483 648) кодовых позиций (32 768 плоскостей) и могла задействовать 221 (2 097 152) кодовых позиций (32 плоскости) даже при лимите в 4 байта[3].
Плоскости Юникода:
- Плоскость 0 (0000—FFFF): Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP)
- Плоскость 1 (10000—1FFFF): Дополнительная многоязычная плоскость (англ. Supplementary Multilingual Plane, SMP)
- Плоскость 2 (20000—2FFFF): Дополнительная идеографическая плоскость (англ. Supplementary Ideographic Plane, SIP)
- Плоскость 3 (30000—3FFFF): Третичная идеографическая плоскость (англ. Tertiary Ideographic Plane, TIP)
- Плоскости 4—13 (40000—DFFFF) не используются
- Плоскость 14 (E0000—EFFFF): Специализированная дополнительная плоскость (англ. Supplementary Special-purpose Plane, SSP)
- Плоскость 15 (F0000—FFFFF) Дополнительная область для частного использования — A (англ. Supplementary Private Use Area-A, SPUA-A)
- Плоскость 16 (100000—10FFFF) Дополнительная область для частного использования — B (англ. Supplementary Private Use Area-B, SPUA-B)
Основная многоязычная плоскость
Плоскость 0 (Основная многоязычная плоскость, англ. Basic Multilingual Plane, BMP) отведена для символов большинства современных письменностей и большого числа специальных символов. Большая часть таблицы занята идеограммами ККЯ и корейскими слогами.
В Юникоде 14.0 в этой плоскости представлены следующие блоки:
Дополнительная многоязычная плоскость
Плоскость 1 (Дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена преимущественно для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.
В Юникоде 14.0 в этой плоскости представлены следующие наборы символов:
Дополнительная идеографическая плоскость
Плоскость 2 (Дополнительная идеографическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.
В Юникоде 14.0 в этой плоскости представлены следующие наборы иероглифов:
- Унифицированные идеограммы ККЯ — расширение B (20000—2A6DF)
- Унифицированные идеограммы ККЯ — расширение C (2A700—2B73F)
- Унифицированные идеограммы ККЯ — расширение D (2B740—2B81F)
- Унифицированные идеограммы ККЯ — расширение E (2B820—2CEAF)
- Унифицированные идеограммы ККЯ — расширение F (2CEB0—2EBEF)
- Дополнение к совместимым иероглифам ККЯ (2F800—2FA1F)
Третичная идеографическая плоскость
Плоскость 3 (Третичная идеографическая плоскость, англ. Tertiary Ideographic Plane, TIP) содержит редко используемые китайские иероглифы, в неё также предполагается внести исторические формы китайского письма.
Третичная идеографическая плоскость разделена на следующие диапазоны[4]:
- Унифицированные идеограммы ККЯ — расширение G (30000—3134F) — дополнительные редко используемые идеограммы китайского письма;
- Чжуаньшу (31400—342FF) — иероглифы в стиле «малая печать» (сяочжуань, 小篆) и «большая печать» (дачжуань, 大篆)[5][4];
- Цзягувэнь (34400—35BFF) — древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях, черепах и костях животных[6][4]
В будущем также предполагается включить иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах, и наборы иероглифов Периода Сражающихся царств[4].
Специализированная дополнительная плоскость
Плоскость 14 (Специализированная дополнительная плоскость, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.
В Юникоде 14.0 в этой плоскости представлены следующие блоки:
- Тэги[англ.] (E0000—E007F)
- Дополнение к вариантным селекторам[англ.] (E0100—E01EF)
Области для частного использования
Некоторые диапазоны Юникода отведены для частного использования и экспериментов. Они включают:
- Частную область в Базовой многоязыковой плоскости (E000—F8FF)
- Дополнительные плоскости 15 (F0000—U+FFFFF) и 16 (100000—10FFFF)
См. также
Примечания
- ↑ Unicode Consortium Glossary—Supplementary Planes . Дата обращения: 30 сентября 2018. Архивировано 24 сентября 2018 года.
- ↑ See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf Архивная копия от 31 марта 2019 на Wayback Machine
- ↑ See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf Архивная копия от 31 марта 2019 на Wayback Machine
- ↑ 4,0 4,1 4,2 4,3 Roadmap to the TIP (англ.) (PDF) (12 марта 2020). Дата обращения: 17 марта 2020. Архивировано 29 февраля 2020 года.
- ↑ Proposal to encode Small Seal Script in UCS (англ.) (PDF) (20 июня 2019). Дата обращения: 17 марта 2020. Архивировано 30 ноября 2019 года.
- ↑ Request for comment on encoding Oracle Bone Script (англ.) (PDF) (21 октября 2015). Дата обращения: 20 ноября 2017. Архивировано 14 июня 2019 года.
Ссылки
- The Unicode Standard Latest Version (англ.) — последняя версия стандарта.
- Таблица символов Юникода (англ.) (рус.) (нем.)
- Изображения всех символов Юникода в PDF-файлах Архивная копия от 6 июля 2018 на Wayback Machine (англ.)