Плоскость (Юникод)

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

В стандарте Юникод плоскость — непрерывный диапазон из 65 536 (216) кодовых позиций. Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00—1016 первых двух шестнадцатеричных цифр в шестизначном формате номера кодовой позиции (U+hhhhhh). Последняя кодовая позиция в Юникоде — последняя кодовая позиция в плоскости 16, U+10FFFF. Плоскость 0 называется Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP), она содержит наиболее часто используемые символы. Остальные плоскости (1—16) называются «дополнительными»[1]. В версии Юникода 14.0 задействованы кодовые позиции семи плоскостей, при этом две из них предназначены для частного использования.

Ограничение в 17 плоскостей обусловлено кодировкой UTF-16, в которой могли быть закодированы 220 (1 048 576) кодовых позиций (16 плоскостей) и BMP[2]. Кодировка UTF-8 была разработана с гораздо большим лимитом в 231 (2 147 483 648) кодовых позиций (32 768 плоскостей) и могла задействовать 221 (2 097 152) кодовых позиций (32 плоскости) даже при лимите в 4 байта[3].

Плоскости Юникода:

  • Плоскость 0 (0000—FFFF): Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP)
  • Плоскость 1 (10000—1FFFF): Дополнительная многоязычная плоскость (англ. Supplementary Multilingual Plane, SMP)
  • Плоскость 2 (20000—2FFFF): Дополнительная идеографическая плоскость (англ. Supplementary Ideographic Plane, SIP)
  • Плоскость 3 (30000—3FFFF): Третичная идеографическая плоскость (англ. Tertiary Ideographic Plane, TIP)
  • Плоскости 4—13 (40000—DFFFF) не используются
  • Плоскость 14 (E0000—EFFFF): Специализированная дополнительная плоскость (англ. Supplementary Special-purpose Plane, SSP)
  • Плоскость 15 (F0000—FFFFF) Дополнительная область для частного использования — A (англ. Supplementary Private Use Area-A, SPUA-A)
  • Плоскость 16 (100000—10FFFF) Дополнительная область для частного использования — B (англ. Supplementary Private Use Area-B, SPUA-B)

Основная многоязычная плоскость

Основная многоязычная плоскость

Плоскость 0 (Основная многоязычная плоскость, англ. Basic Multilingual Plane, BMP) отведена для символов большинства современных письменностей и большого числа специальных символов. Большая часть таблицы занята идеограммами ККЯ и корейскими слогами.

В Юникоде 14.0 в этой плоскости представлены следующие блоки:

Дополнительная многоязычная плоскость

Дополнительная многоязыковая плоскость

Плоскость 1 (Дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена преимущественно для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.

В Юникоде 14.0 в этой плоскости представлены следующие наборы символов:

Дополнительная идеографическая плоскость

Дополнительная идеографическая плоскость

Плоскость 2 (Дополнительная идеографическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.

В Юникоде 14.0 в этой плоскости представлены следующие наборы иероглифов:

Третичная идеографическая плоскость

Плоскость 3 (Третичная идеографическая плоскость, англ. Tertiary Ideographic Plane, TIP) содержит редко используемые китайские иероглифы, в неё также предполагается внести исторические формы китайского письма.

Третичная идеографическая плоскость разделена на следующие диапазоны[4]:

В будущем также предполагается включить иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах, и наборы иероглифов Периода Сражающихся царств[4].

Специализированная дополнительная плоскость

Специализированная дополнительная плоскость

Плоскость 14 (Специализированная дополнительная плоскость, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.

В Юникоде 14.0 в этой плоскости представлены следующие блоки:

Области для частного использования

Некоторые диапазоны Юникода отведены для частного использования и экспериментов. Они включают:

  • Частную область в Базовой многоязыковой плоскости (E000—F8FF)
  • Дополнительные плоскости 15 (F0000—U+FFFFF) и 16 (100000—10FFFF)

См. также

Примечания

  1. Unicode Consortium Glossary—Supplementary Planes. Дата обращения: 30 сентября 2018. Архивировано 24 сентября 2018 года.
  2. See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf Архивная копия от 31 марта 2019 на Wayback Machine
  3. See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf Архивная копия от 31 марта 2019 на Wayback Machine
  4. 4,0 4,1 4,2 4,3 Roadmap to the TIP (англ.) (PDF) (12 марта 2020). Дата обращения: 17 марта 2020. Архивировано 29 февраля 2020 года.
  5. Proposal to encode Small Seal Script in UCS (англ.) (PDF) (20 июня 2019). Дата обращения: 17 марта 2020. Архивировано 30 ноября 2019 года.
  6. Request for comment on encoding Oracle Bone Script (англ.) (PDF) (21 октября 2015). Дата обращения: 20 ноября 2017. Архивировано 14 июня 2019 года.

Ссылки