صفحه (یونی‌کد)

در استاندارد یونی‌کد ، یک صفحه یک گروه پیوسته از 65.536 (2) موقعیت کد است. 17 صفحه وجود دارد، که با شماره های 0 تا 16 مشخص شده اند. مقادیر ممکن برای صفحه ها در محدوده عددی 00–10₁₆ هستند و منطبق بر دو جایگاه اول از شش جایگاه در مبنای 16 (U + hhhhhh). صفحه 0، صفحه چندزبانه پایه (BMP) است که کاراکترهای متداول را شامل شده. صفحه‌های 1 تا 16 "صفحه‌های مکمل" خوانده می شوند. انتهایی ترین موقعیت کد در یونی‌کد آخرین موقعیت کد در صفحه 16 است، با آدرس U + 10FFFF. در یونی‌کد نسخه 13.0، هفت صفحه دارای موقعیت کد (کاراکترها) هستند و از این بین برای پنج صفحه نام تعیین شده است.

محدودیت 17 صفحه ای در یونی‌کد به یوتی‌اف-16 مربوط می شود که می تواند 220 موقعیت کد (16 صفحه) را به عنوان یک جفت کلمه کدگذاری کند، و به علاوه ی BMP که به عنوان یک کلمه واحد در نظر گرفته می شود . UTF-8 با حد بسیار بالاتر برابر با 2 (2,147,483,648) موقعیت کد (معادل 32,768 صفحه) طراحی شده است، و می تواند 221 (2,097,152) موقعیت کد (32 صفحه) را حتی زیر حد فعلی 4 بایت رمزگذاری کند. [3]

این 17 صفحه می توانند 1,114,112 موقعیت کد را در خود جای دهند. از این تعداد 2,048 موقعیت کد نقش جایگزین دارند (برای ساختن زوج در UTF-16)، 66 موقعیت کد غیر کاراکتری هستند و 137,468 برای کاربرد شخصی رزرو شده اند، و 974,530 نیز برای کاربردهای عمومی در نظر گرفته شده اند.

خود صفحه‌ها نیز به بلوک های یونی‌کد تقسیم می شوند که بر خلاف صفحه‌ها اندازه ثابت ندارند. 308 بلوک تعریف شده در یونی‌کد 13.0، معادل 26٪ از فضای موقعیت کد کلی را شامل می شود و از لحاظ اندازه از حداقل میزانِ 16 موقعیت موقعیت کد (بلوک پانزدهم) تا حداکثر میزان 65,536 موقعیت کد (ناحیه کاربرد خصوصی-A و -B) میتوانند تغییر کنند؛ که کل صفحه‌های 15 و 16 را تشکیل می دهد. به منظور کارایی بیشتر، طیف وسیعی از کاراکترها به طور آزمایشی برای بسیاری از سیستم های نوشتاری فعلی و باستانی نگاشته شده اند.

مقدمه

کاراکترهای تعیین شده در یونی‌کد نسخه 13.0
صفحه	موقعیت کد های منتسب شده	کاراکترهای منتسب شده
0 BMP	65,472	55,503
1 SMP	24,704	22,279
2 SIP	60,912	60,866
3 TIP	4,944	4,939
14 SSP	368	337
15 SPUA-A	65,536
16 SPUA-B	65,536
Totals	287,472	143,924

↑ موقعیت کد هایی که به یک بلوک های یونی‌کد منتسب شده اند.
↑ تعداد کل کاراکترهای گرافیکی، فالب بندی، و کنترلی (بغیر از کاراکترهای کاربرد خصوصی، غیر کاراکترها و موقعیت کدهای جایگزین

صفحه چندزبانه پایه

نقشه صفحه چندزبانه پایه. هر مربع نماینده 256 موقعیت کد است.

صفحه اول یا صفحه 0، صفحه چندزبانه پایه (BMP) است و تقریباً برای همه زبانهای مدرن و تعداد زیادی از نمادها کاراکتر دارد. هدف اصلی برای BMP پشتیبانی از یکسانسازی مجموعه کاراکترهای قدیمی و همچنین کاراکترهایی که برای نوشتن به کار می روند. بیشتر موقعیت کدها در BMP به کاراکترهای چینی ، ژاپنی و کره ای (CJK) اختصاص یافته است.

کدهای جایگزین بالا (U + D800-U + DBFF) و جایگزین پایین (U + DC00-U + DFFF) برای کدگذاری کاراکترهای غیر BMP در UTF-16 استفاده می شود که با استفاده از یک جفت کد 16 بیتی امکانپذیر است: یک جایگزین بالا و یک جایگزین پایین. یک کد جایگزین هرگز به یک کارکتر اختصاص داده نمی‌شود.

65,472 از 65,536 نقطه کد در این صفحه به یک بلوک های یونی‌کد اختصاص داده شده است ، و فقط 64 نقطه کد در دامنه های غیرمجاز باقی مانده است (48 نقطه کد در 0870..089F و 16 نقطه کد در 2FE0..2FEF).

از یونی‌کد نسخه 13.0 به بعد، BMP شامل 163 بلاک زیر است:

Basic Latin (Lower half of ISO/IEC 8859-1: ISO/IEC 646:1991-IRV aka en:ASCII) (0000–007F)
[[|:en:Latin-1 Supplement (Unicode block)|Latin-1 Supplement]] (Upper half of en:ISO/IEC 8859-1) (0080–00FF)
Latin Extended-A (0100–017F)
Latin Extended-B (0180–024F)
IPA Extensions (0250–02AF)
Spacing Modifier Letters (02B0–02FF)
Combining Diacritical Marks (0300–036F)
Greek and Coptic (0370–03FF)
Cyrillic (0400–04FF)
Cyrillic Supplement (0500–052F)
Armenian (0530–058F)
Aramaic Scripts:
- Hebrew (0590–05FF)
- Arabic (0600–06FF)
- Syriac (0700–074F)
- Arabic Supplement (0750–077F)
- Thaana (0780–07BF)
- N'Ko (07C0–07FF)
- Samaritan (0800–083F)
- Mandaic (0840–085F)
- Syriac Supplement (0860–086F)
- Arabic Extended-A (08A0–08FF)
Brahmic scripts:
- Devanagari (0900–097F)
- Bengali (0980–09FF)
- Gurmukhi (0A00–0A7F)
- Gujarati (0A80–0AFF)
- Oriya (0B00–0B7F)
- Tamil (0B80–0BFF)
- Telugu (0C00–0C7F)
- Kannada (0C80–0CFF)
- Malayalam (0D00–0D7F)
- Sinhala (0D80–0DFF)
- Thai (0E00–0E7F)
- Lao (0E80–0EFF)
- Tibetan (0F00–0FFF)
- Myanmar (1000–109F)
Georgian (10A0–10FF)
Hangul Jamo (1100–11FF)
Ethiopic (1200–137F)
Ethiopic Supplement (1380–139F)
Cherokee (13A0–13FF)
Unified Canadian Aboriginal Syllabics (1400–167F)
Ogham (1680–169F)
Runic (16A0–16FF)
Philippine scripts:
- Tagalog (1700–171F)
- Hanunoo (1720–173F)
- Buhid (1740–175F)
- Tagbanwa (1760–177F)
Khmer (1780–17FF)
Mongolian (1800–18AF)
Unified Canadian Aboriginal Syllabics Extended (18B0–18FF)
Limbu (1900–194F)
Tai scripts:
- Tai Le (1950–197F)
- New Tai Lue (1980–19DF)
- Khmer Symbols (19E0–19FF)
- Buginese (1A00–1A1F)
- Tai Tham (1A20–1AAF)
Combining Diacritical Marks Extended (1AB0–1AFF)
Balinese (1B00–1B7F)
Sundanese (1B80–1BBF)
Batak (1BC0–1BFF)
Lepcha (1C00–1C4F)
Ol Chiki (1C50–1C7F)
Cyrillic Extended-C (1C80–1C8F)
Georgian Extended (1C90–1CBF)
Sundanese Supplement (1CC0–1CCF)
Vedic Extensions (1CD0–1CFF)
Latin-2 supplement:
- Phonetic Extensions (1D00–1D7F)
- Phonetic Extensions Supplement (1D80–1DBF)
- Combining Diacritical Marks Supplement (1DC0–1DFF)
- Latin Extended Additional (1E00–1EFF)
Greek Extended (1F00–1FFF)
Symbols:
- General Punctuation (2000–206F)
- Superscripts and Subscripts (2070–209F)
- Currency Symbols (20A0–20CF)
- Combining Diacritical Marks for Symbols (20D0–20FF)
- Letterlike Symbols (2100–214F)
- Number Forms (2150–218F)
- Arrows (2190–21FF)
- Mathematical Operators (2200–22FF)
- Miscellaneous Technical (2300–23FF)
- Control Pictures (2400–243F)
- Optical Character Recognition (2440–245F)
- Enclosed Alphanumerics (2460–24FF)
- Box Drawing (2500–257F)
- Block Elements (2580–259F)
- Geometric Shapes (25A0–25FF)
- Miscellaneous Symbols (2600–26FF)
- Dingbats (2700–27BF)
- Miscellaneous Mathematical Symbols-A (27C0–27EF)
- Supplemental Arrows-A (27F0–27FF)
- Braille Patterns (2800–28FF)
- Supplemental Arrows-B (2900–297F)
- Miscellaneous Mathematical Symbols-B (2980–29FF)
- Supplemental Mathematical Operators (2A00–2AFF)
- Miscellaneous Symbols and Arrows (2B00–2BFF)
Glagolitic (2C00–2C5F)
Latin Extended-C (2C60–2C7F)
Coptic (2C80–2CFF)
Georgian Supplement (2D00–2D2F)
Tifinagh (2D30–2D7F)
Ethiopic Extended (2D80–2DDF)
Cyrillic Extended-A (2DE0–2DFF)
Supplemental Punctuation (2E00–2E7F)
CJK scripts and symbols:
- CJK Radicals Supplement (2E80–2EFF)
- Kangxi Radicals (2F00–2FDF)
- Ideographic Description Characters (2FF0–2FFF)
- CJK Symbols and Punctuation (3000–303F)
- Hiragana (3040–309F)
- Katakana (30A0–30FF)
- Bopomofo (3100–312F)
- Hangul Compatibility Jamo (3130–318F)
- Kanbun (3190–319F)
- Bopomofo Extended (31A0–31BF)
- CJK Strokes (31C0–31EF)
- Katakana Phonetic Extensions (31F0–31FF)
- Enclosed CJK Letters and Months (3200–32FF)
- CJK Compatibility (3300–33FF)
- CJK Unified Ideographs Extension A (3400–4DBF)
- Yijing Hexagram Symbols (4DC0–4DFF)
- CJK Unified Ideographs (4E00–9FFF)
Yi Syllables (A000–A48F)
Yi Radicals (A490–A4CF)
Lisu (A4D0–A4FF)
Vai (A500–A63F)
Cyrillic Extended-B (A640–A69F)
Bamum (A6A0–A6FF)
Modifier Tone Letters (A700–A71F)
Latin Extended-D (A720–A7FF)
Syloti Nagri (A800–A82F)
Common Indic Number Forms (A830–A83F)
Phags-pa (A840–A87F)
Saurashtra (A880–A8DF)
Devanagari Extended (A8E0–A8FF)
Kayah Li (A900–A92F)
Rejang (A930–A95F)
Hangul Jamo Extended-A (A960–A97F)
Javanese (A980–A9DF)
Myanmar Extended-B (A9E0–A9FF)
Cham (AA00–AA5F)
Myanmar Extended-A (AA60–AA7F)
Tai Viet (AA80–AADF)
Meetei Mayek Extensions (AAE0–AAFF)
Ethiopic Extended-A (AB00–AB2F)
Latin Extended-E (AB30–AB6F)
Cherokee Supplement (AB70–ABBF)
Meetei Mayek (ABC0–ABFF)
Hangul Syllables (AC00–D7AF)
Hangul Jamo Extended-B (D7B0–D7FF)
Surrogates:
- High Surrogates (D800–DB7F)
- High Private Use Surrogates (DB80–DBFF)
- Low Surrogates (DC00–DFFF)
Private Use Area (E000–F8FF)
CJK Compatibility Ideographs (F900–FAFF)
Alphabetic Presentation Forms (FB00–FB4F)
Arabic Presentation Forms-A (FB50–FDFF)
Variation Selectors (FE00–FE0F)
Vertical Forms (FE10–FE1F)
Combining Half Marks (FE20–FE2F)
CJK Compatibility Forms (FE30–FE4F)
Small Form Variants (FE50–FE6F)
Arabic Presentation Forms-B (FE70–FEFF)
Halfwidth and Fullwidth Forms (FF00–FFEF)
Specials (FFF0–FFFF)

صفحه چندزبانه تکمیلی

نقشه صفحه چندزبانه تکمیلی. هر مربع نماینده 256 موقعین کد است.

صفحه 1، صفحه چندزبانه تکمیلی (SMP)، شامل نویسه های تاریخی (به جز اندیشه‌نگاری CJK) و نمادهای مورد استفاده در زمینه های خاص است. نویسه ها شامل B خطی ، هیروگلیف های مصری و خط میخی هستند. همچنین شامل املای تغییر شکل یافته انگلیسی مانند Shavian و Deseret و برخی از نویسه های مدرن مانند اوساژ، وارانگ سیتی و ادلم است. نمادها شامل نمادهای موسیقی تاریخی و مدرن، الفبایی ریاضی، ایموجی و سایر مجموعه های تصویری، نمادهای بازی برای کارتهای بازی ، ماژونگ و دومینو می شود.

از یونی‌کد نسخه 13.0 به بعد، BMP شامل 134 بلاک زیر است:

یونان کهن و دیگر نویسه های چپ-به-راست:
- سیلاب خطی B آدرس (10000–1007F)
- Linear B Ideograms (10080–100FF)
- Aegean Numbers (10100–1013F)
- Ancient Greek Numbers (10140–1018F)
- Ancient Symbols (10190–101CF)
- Phaistos Disc (101D0–101FF)
- Lycian (10280–1029F)
- Carian (102A0–102DF)
- Coptic Epact Numbers (102E0–102FF)
- Old Italic (10300–1032F)
- Gothic (10330–1034F)
- Old Permic (10350–1037F)
- Ugaritic (10380–1039F)
- Old Persian (103A0–103DF)
- Deseret (10400–1044F)
- Shavian (10450–1047F)
- Osmanya (10480–104AF)
- Osage (104B0–104FF)
- Elbasan (10500–1052F)
- Caucasian Albanian (10530–1056F)
- Linear A (10600–1077F)
Right-to-left scripts:
- Cypriot Syllabary (10800–1083F)
- Imperial Aramaic (10840–1085F)
- Palmyrene (10860–1087F)
- Nabataean (10880–108AF)
- Hatran (108E0–108FF)
- Phoenician (10900–1091F)
- Lydian (10920–1093F)
- Meroitic Hieroglyphs (10980–1099F)
- Meroitic Cursive (109A0–109FF)
- Kharoshthi (10A00–10A5F)
- Old South Arabian (10A60–10A7F)
- Old North Arabian (10A80–10A9F)
- Manichaean (10AC0–10AFF)
- Avestan (10B00–10B3F)
- Inscriptional Parthian (10B40–10B5F)
- Inscriptional Pahlavi (10B60–10B7F)
- Psalter Pahlavi (10B80–10BAF)
- Old Turkic (10C00–10C4F)
- Old Hungarian (10C80–10CFF)
- Hanifi Rohingya (10D00–10D3F)
- Rumi Numeral Symbols (10E60–10E7F)
- Yezidi (10E80–10EBF)
- Old Sogdian (10F00–10F2F)
- Sogdian (10F30–10F6F)
- Chorasmian (10FB0–10FDF)
- Elymaic (10FE0–10FFF)
Brahmic scripts:
- Brahmi (11000–1107F)
- Kaithi (11080–110CF)
- Sora Sompeng (110D0–110FF)
- Chakma (11100–1114F)
- Mahajani (11150–1117F)
- Sharada (11180–111DF)
- Sinhala Archaic Numbers (111E0–111FF)
- Khojki (11200–1124F)
- Multani (11280–112AF)
- Khudawadi (112B0–112FF)
- Grantha (11300–1137F)
- Newa (11400–1147F)
- Tirhuta (11480–114DF)
- Siddham (11580–115FF)
- Modi (11600–1165F)
- Mongolian Supplement (11660–1167F)
- Takri (11680–116CF)
- Ahom (11700–1173F)
- Dogra (11800–1184F)
- Warang Citi (118A0–118FF)
- Dives Akuru (11900–1195F)
- Nandinagari (119A0–119FF)
- Zanabazar Square (11A00–11A4F)
- Soyombo (11A50–11AAF)
- Pau Cin Hau (11AC0–11AFF)
- Bhaiksuki (11C00–11C6F)
- Marchen (11C70–11CBF)
- Masaram Gondi (11D00–11D5F)
- Gunjala Gondi (11D60–11DAF)
- Makasar (11EE0–11EFF)
Lisu Supplement (11FB0–11FBF)
Tamil Supplement (11FC0–11FFF)
Cuneiform (12000–123FF)
Cuneiform Numbers and Punctuation (12400–1247F)
Early Dynastic Cuneiform (12480–1254F)
Egyptian Hieroglyphs (13000–1342F)
Egyptian Hieroglyph Format Controls (13430–1343F)
Anatolian Hieroglyphs (14400–1467F)
Bamum Supplement (16800–16A3F)
Mro (16A40–16A6F)
Bassa Vah (16AD0–16AFF)
Pahawh Hmong (16B00–16B8F)
Medefaidrin (16E40–16E9F)
Miao (16F00–16F9F)
Ideographic Symbols and Punctuation (16FE0–16FFF)
Tangut (17000–187FF)
Tangut Components (18800–18AFF)
Khitan Small Script (18B00–18CFF)
Tangut Supplement (18D00–18D8F)
Kana Supplement (1B000–1B0FF)
Kana Extended-A (1B100–1B12F)
Small Kana Extension (1B130–1B16F)
Nushu (1B170–1B2FF)
Duployan (1BC00–1BC9F)
Shorthand Format Controls (1BCA0–1BCAF)
Supplementary symbols:
- Musical notation:
  - Byzantine Musical Symbols (1D000–1D0FF)
  - Musical Symbols (1D100–1D1FF)
  - Ancient Greek Musical Notation (1D200–1D24F)
- Mayan Numerals (1D2E0–1D2FF)
- Mathematical symbols:
  - Tai Xuan Jing Symbols (1D300–1D35F)
  - Counting Rod Numerals (1D360–1D37F)
  - Mathematical Alphanumeric Symbols (1D400–1D7FF)
- Sutton SignWriting (1D800–1DAAF)
Glagolitic Supplement (1E000–1E02F)
Nyiakeng Puachue Hmong (1E100–1E14F)
Wancho (1E2C0–1E2FF)
Mende Kikakui (1E800–1E8DF)
Adlam (1E900–1E95F)
Indic Siyaq Numbers (1EC70–1ECBF)
Ottoman Siyaq Numbers (1ED00–1ED4F)
Arabic Mathematical Alphabetic Symbols (1EE00–1EEFF)
Game tiles and cards:
- Mahjong Tiles (1F000–1F02F)
- Domino Tiles (1F030–1F09F)
- Playing Cards (1F0A0–1F0FF)
Enclosed Alphanumeric Supplement (1F100–1F1FF)
Enclosed Ideographic Supplement (1F200–1F2FF)
Miscellaneous Symbols and Pictographs (1F300–1F5FF)
Emoticons (1F600–1F64F)
Ornamental Dingbats (1F650–1F67F)
Transport and Map Symbols (1F680–1F6FF)
Alchemical Symbols (1F700–1F77F)
Geometric Shapes Extended (1F780–1F7FF)
Supplemental Arrows-C (1F800–1F8FF)
Supplemental Symbols and Pictographs (1F900–1F9FF)
Chess Symbols (1FA00–1FA6F)
Symbols and Pictographs Extended-A (1FA70–1FAFF)
Symbols for Legacy Computing (1FB00–1FBFF)

صفحه اندیشه‌نگاری تکمیلی

نقشه صفحه اندیشه‌نگاری تکمیلی. هر مربع نماینده 256 موقعیت کد است.

صفحه 2 ، صفحه اندیشه‌نگاری تکمیلی (SIP)، برای اندیشه‌نگاری های CJK است؛ البته بیشتر اندیشه‌نگاری های CJK مشترک، که در استانداردهای کدگذاری قبلی گنجانده نشده است.

از یونی‌کد نسخه 13.0 به بعد، SIP شامل 134 بلاک زیر است:

اندیشه‌نگاری های CJK اشتقاق B آدرس (20000–2A6DF)
اندیشه‌نگاری های CJK اشتقاق C آدرس (2A700–2B73F)
اندیشه‌نگاری های CJK اشتقاق D آدرس (2B740–2B81F)
اندیشه‌نگاری های CJK اشتقاق E آدرس (2B820–2CEAF)
اندیشه‌نگاری های CJK اشتقاق F آدرس (2CEB0–2EBEF)
اندیشه‌نگاری های تطبیق شده CJK تکمیلی آدرس (2F800–2FA1F)

صفحه اندیشه‌نگاری ثالث

نقشه صفحه اندیشه‌نگاری ثالث. هر مربع نماینده 256 موقعیت کد است.

صفحه 3، صفحه اندیشه‌نگاری ثالث (TIP) است. اندیشه‌نگاری های CJK اشتقاق G در نسخه 13.0 استاندارد یونی‌کد که در مارس 2020 منتشر شد به TIP اضافه شد. این صفحه به صورت آزمایشی شامل نویسه های استخوانی اوراکل، نویسه های برنزی چینی، نویسه های چینی کوچک اختصاص داده شده است.

از یونی‌کد نسخه 13.0 به بعد، TIP شامل بلاک زیر است:

اندیشه‌نگاری های CJK اشتقاق G آدرس (30000–3134F)

صفحه های منتسب نشده

صفحه های 4 تا 13 (صفحه های 4 تا D در مبنای شانزده تایی): هیچ کاراکتری در صفحه های 4 تا 13 تعریف نشده.

صفحه تکمیلی با کاربرد مخصوص

نقشه کاربرد خصوصی تکمیلی. هر مربع نماینده 256 موقعیت کد است.

صفحه 14 (E در مبنای شانزده تایی) ، صفحه تکمیلی با کاربرد مخصوص (SSP) ، در حال حاضر حاوی کارکترهای غیر گرافیکی است. بلوک اول مخصوص کاراکترهای برچسب است. بلوک دیگر شامل انتخابگرهای متغیر گلیف است.

برچسب ها آدرس (E0000–E007F)
انتخابگرهای متغیر گلیف آدرس (E0100–E01EF)

صفحه های ناحیه کاربرد خصوصی

دو صفحه 15 و 16 (صفحه های F و 10 در مبنای شانزده تایی)، به عنوان "صفحه های کاربرد خصوصی" معرفی شده اند. این دو صفحه حاوی بلوک هایی به نام ناحیه کاربرد خصوصی نکمیلی-A یا (PUA-A) و -B یا (PUA-B)، مناطق استفاده خصوصی هستند که برای استفاده توسط استفاده کنندگان ثالث، خارج از ایزو و کنسرسیوم یونی‌کد، در دسترس هستند. آنها ممکن است توسط فونت ها برای اشاره به گلیف های کمکی داخلی مورد استفاده قرار گیرند. چنین شخصیت هایی قابلیت های محدود دارند.

منابع

↑ Unicode Consortium Glossary—Supplementary Planes
↑ See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
↑ See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
↑ Unicode roadmaps
↑ Unicode, Inc. "Announcing The Unicode® Standard, Version 13.0".
↑ "Proposed New Characters: The Pipeline". www.unicode.org.

[5] موقعیت کد هایی که به یک بلوک های یونی‌کد منتسب شده اند.

[6] تعداد کل کاراکترهای گرافیکی، فالب بندی، و کنترلی (بغیر از کاراکترهای کاربرد خصوصی، غیر کاراکترها و موقعیت کدهای جایگزین

[1] Unicode Consortium Glossary—Supplementary Planes

[2] See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf

[3] See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf

[4] Unicode roadmaps

[7] Unicode, Inc. "Announcing The Unicode® Standard, Version 13.0".

[8] "Proposed New Characters: The Pipeline". www.unicode.org.