صفحه (یونیکد)
در استاندارد یونیکد ، یک صفحه یک گروه پیوسته از 65.536 (2) موقعیت کد است. 17 صفحه وجود دارد، که با شماره های 0 تا 16 مشخص شده اند. مقادیر ممکن برای صفحه ها در محدوده عددی 00–1016 هستند و منطبق بر دو جایگاه اول از شش جایگاه در مبنای 16 (U + hhhhhh). صفحه 0، صفحه چندزبانه پایه (BMP) است که کاراکترهای متداول را شامل شده. صفحههای 1 تا 16 "صفحههای مکمل" خوانده می شوند. انتهایی ترین موقعیت کد در یونیکد آخرین موقعیت کد در صفحه 16 است، با آدرس U + 10FFFF. در یونیکد نسخه 13.0، هفت صفحه دارای موقعیت کد (کاراکترها) هستند و از این بین برای پنج صفحه نام تعیین شده است.
محدودیت 17 صفحه ای در یونیکد به یوتیاف-16 مربوط می شود که می تواند 220 موقعیت کد (16 صفحه) را به عنوان یک جفت کلمه کدگذاری کند، و به علاوه ی BMP که به عنوان یک کلمه واحد در نظر گرفته می شود . UTF-8 با حد بسیار بالاتر برابر با 2 (2,147,483,648) موقعیت کد (معادل 32,768 صفحه) طراحی شده است، و می تواند 221 (2,097,152) موقعیت کد (32 صفحه) را حتی زیر حد فعلی 4 بایت رمزگذاری کند. [3]
این 17 صفحه می توانند 1,114,112 موقعیت کد را در خود جای دهند. از این تعداد 2,048 موقعیت کد نقش جایگزین دارند (برای ساختن زوج در UTF-16)، 66 موقعیت کد غیر کاراکتری هستند و 137,468 برای کاربرد شخصی رزرو شده اند، و 974,530 نیز برای کاربردهای عمومی در نظر گرفته شده اند.
خود صفحهها نیز به بلوک های یونیکد تقسیم می شوند که بر خلاف صفحهها اندازه ثابت ندارند. 308 بلوک تعریف شده در یونیکد 13.0، معادل 26٪ از فضای موقعیت کد کلی را شامل می شود و از لحاظ اندازه از حداقل میزانِ 16 موقعیت موقعیت کد (بلوک پانزدهم) تا حداکثر میزان 65,536 موقعیت کد (ناحیه کاربرد خصوصی-A و -B) میتوانند تغییر کنند؛ که کل صفحههای 15 و 16 را تشکیل می دهد. به منظور کارایی بیشتر، طیف وسیعی از کاراکترها به طور آزمایشی برای بسیاری از سیستم های نوشتاری فعلی و باستانی نگاشته شده اند.
مقدمه
صفحه | موقعیت کد های منتسب شده | کاراکترهای منتسب شده |
---|---|---|
0 BMP | 65,472 | 55,503 |
1 SMP | 24,704 | 22,279 |
2 SIP | 60,912 | 60,866 |
3 TIP | 4,944 | 4,939 |
14 SSP | 368 | 337 |
15 SPUA-A | 65,536 | |
16 SPUA-B | 65,536 | |
Totals | 287,472 | 143,924 |
صفحه چندزبانه پایه
صفحه اول یا صفحه 0، صفحه چندزبانه پایه (BMP) است و تقریباً برای همه زبانهای مدرن و تعداد زیادی از نمادها کاراکتر دارد. هدف اصلی برای BMP پشتیبانی از یکسانسازی مجموعه کاراکترهای قدیمی و همچنین کاراکترهایی که برای نوشتن به کار می روند. بیشتر موقعیت کدها در BMP به کاراکترهای چینی ، ژاپنی و کره ای (CJK) اختصاص یافته است.
کدهای جایگزین بالا (U + D800-U + DBFF) و جایگزین پایین (U + DC00-U + DFFF) برای کدگذاری کاراکترهای غیر BMP در UTF-16 استفاده می شود که با استفاده از یک جفت کد 16 بیتی امکانپذیر است: یک جایگزین بالا و یک جایگزین پایین. یک کد جایگزین هرگز به یک کارکتر اختصاص داده نمیشود.
65,472 از 65,536 نقطه کد در این صفحه به یک بلوک های یونیکد اختصاص داده شده است ، و فقط 64 نقطه کد در دامنه های غیرمجاز باقی مانده است (48 نقطه کد در 0870..089F و 16 نقطه کد در 2FE0..2FEF).
از یونیکد نسخه 13.0 به بعد، BMP شامل 163 بلاک زیر است:
- Basic Latin (Lower half of ISO/IEC 8859-1: ISO/IEC 646:1991-IRV aka en:ASCII) (0000–007F)
- [[|:en:Latin-1 Supplement (Unicode block)|Latin-1 Supplement]] (Upper half of en:ISO/IEC 8859-1) (0080–00FF)
- Latin Extended-A (0100–017F)
- Latin Extended-B (0180–024F)
- IPA Extensions (0250–02AF)
- Spacing Modifier Letters (02B0–02FF)
- Combining Diacritical Marks (0300–036F)
- Greek and Coptic (0370–03FF)
- Cyrillic (0400–04FF)
- Cyrillic Supplement (0500–052F)
- Armenian (0530–058F)
- Aramaic Scripts:
- Hebrew (0590–05FF)
- Arabic (0600–06FF)
- Syriac (0700–074F)
- Arabic Supplement (0750–077F)
- Thaana (0780–07BF)
- N'Ko (07C0–07FF)
- Samaritan (0800–083F)
- Mandaic (0840–085F)
- Syriac Supplement (0860–086F)
- Arabic Extended-A (08A0–08FF)
- Brahmic scripts:
- Georgian (10A0–10FF)
- Hangul Jamo (1100–11FF)
- Ethiopic (1200–137F)
- Ethiopic Supplement (1380–139F)
- Cherokee (13A0–13FF)
- Unified Canadian Aboriginal Syllabics (1400–167F)
- Ogham (1680–169F)
- Runic (16A0–16FF)
- Philippine scripts:
- Khmer (1780–17FF)
- Mongolian (1800–18AF)
- Unified Canadian Aboriginal Syllabics Extended (18B0–18FF)
- Limbu (1900–194F)
- Tai scripts:
- Tai Le (1950–197F)
- New Tai Lue (1980–19DF)
- Khmer Symbols (19E0–19FF)
- Buginese (1A00–1A1F)
- Tai Tham (1A20–1AAF)
- Combining Diacritical Marks Extended (1AB0–1AFF)
- Balinese (1B00–1B7F)
- Sundanese (1B80–1BBF)
- Batak (1BC0–1BFF)
- Lepcha (1C00–1C4F)
- Ol Chiki (1C50–1C7F)
- Cyrillic Extended-C (1C80–1C8F)
- Georgian Extended (1C90–1CBF)
- Sundanese Supplement (1CC0–1CCF)
- Vedic Extensions (1CD0–1CFF)
- Latin-2 supplement:
- Phonetic Extensions (1D00–1D7F)
- Phonetic Extensions Supplement (1D80–1DBF)
- Combining Diacritical Marks Supplement (1DC0–1DFF)
- Latin Extended Additional (1E00–1EFF)
- Greek Extended (1F00–1FFF)
- Symbols:
- General Punctuation (2000–206F)
- Superscripts and Subscripts (2070–209F)
- Currency Symbols (20A0–20CF)
- Combining Diacritical Marks for Symbols (20D0–20FF)
- Letterlike Symbols (2100–214F)
- Number Forms (2150–218F)
- Arrows (2190–21FF)
- Mathematical Operators (2200–22FF)
- Miscellaneous Technical (2300–23FF)
- Control Pictures (2400–243F)
- Optical Character Recognition (2440–245F)
- Enclosed Alphanumerics (2460–24FF)
- Box Drawing (2500–257F)
- Block Elements (2580–259F)
- Geometric Shapes (25A0–25FF)
- Miscellaneous Symbols (2600–26FF)
- Dingbats (2700–27BF)
- Miscellaneous Mathematical Symbols-A (27C0–27EF)
- Supplemental Arrows-A (27F0–27FF)
- Braille Patterns (2800–28FF)
- Supplemental Arrows-B (2900–297F)
- Miscellaneous Mathematical Symbols-B (2980–29FF)
- Supplemental Mathematical Operators (2A00–2AFF)
- Miscellaneous Symbols and Arrows (2B00–2BFF)
- Glagolitic (2C00–2C5F)
- Latin Extended-C (2C60–2C7F)
- Coptic (2C80–2CFF)
- Georgian Supplement (2D00–2D2F)
- Tifinagh (2D30–2D7F)
- Ethiopic Extended (2D80–2DDF)
- Cyrillic Extended-A (2DE0–2DFF)
- Supplemental Punctuation (2E00–2E7F)
- CJK scripts and symbols:
- CJK Radicals Supplement (2E80–2EFF)
- Kangxi Radicals (2F00–2FDF)
- Ideographic Description Characters (2FF0–2FFF)
- CJK Symbols and Punctuation (3000–303F)
- Hiragana (3040–309F)
- Katakana (30A0–30FF)
- Bopomofo (3100–312F)
- Hangul Compatibility Jamo (3130–318F)
- Kanbun (3190–319F)
- Bopomofo Extended (31A0–31BF)
- CJK Strokes (31C0–31EF)
- Katakana Phonetic Extensions (31F0–31FF)
- Enclosed CJK Letters and Months (3200–32FF)
- CJK Compatibility (3300–33FF)
- CJK Unified Ideographs Extension A (3400–4DBF)
- Yijing Hexagram Symbols (4DC0–4DFF)
- CJK Unified Ideographs (4E00–9FFF)
- Yi Syllables (A000–A48F)
- Yi Radicals (A490–A4CF)
- Lisu (A4D0–A4FF)
- Vai (A500–A63F)
- Cyrillic Extended-B (A640–A69F)
- Bamum (A6A0–A6FF)
- Modifier Tone Letters (A700–A71F)
- Latin Extended-D (A720–A7FF)
- Syloti Nagri (A800–A82F)
- Common Indic Number Forms (A830–A83F)
- Phags-pa (A840–A87F)
- Saurashtra (A880–A8DF)
- Devanagari Extended (A8E0–A8FF)
- Kayah Li (A900–A92F)
- Rejang (A930–A95F)
- Hangul Jamo Extended-A (A960–A97F)
- Javanese (A980–A9DF)
- Myanmar Extended-B (A9E0–A9FF)
- Cham (AA00–AA5F)
- Myanmar Extended-A (AA60–AA7F)
- Tai Viet (AA80–AADF)
- Meetei Mayek Extensions (AAE0–AAFF)
- Ethiopic Extended-A (AB00–AB2F)
- Latin Extended-E (AB30–AB6F)
- Cherokee Supplement (AB70–ABBF)
- Meetei Mayek (ABC0–ABFF)
- Hangul Syllables (AC00–D7AF)
- Hangul Jamo Extended-B (D7B0–D7FF)
- Surrogates:
- High Surrogates (D800–DB7F)
- High Private Use Surrogates (DB80–DBFF)
- Low Surrogates (DC00–DFFF)
- Private Use Area (E000–F8FF)
- CJK Compatibility Ideographs (F900–FAFF)
- Alphabetic Presentation Forms (FB00–FB4F)
- Arabic Presentation Forms-A (FB50–FDFF)
- Variation Selectors (FE00–FE0F)
- Vertical Forms (FE10–FE1F)
- Combining Half Marks (FE20–FE2F)
- CJK Compatibility Forms (FE30–FE4F)
- Small Form Variants (FE50–FE6F)
- Arabic Presentation Forms-B (FE70–FEFF)
- Halfwidth and Fullwidth Forms (FF00–FFEF)
- Specials (FFF0–FFFF)
صفحه چندزبانه تکمیلی
صفحه 1، صفحه چندزبانه تکمیلی (SMP)، شامل نویسه های تاریخی (به جز اندیشهنگاری CJK) و نمادهای مورد استفاده در زمینه های خاص است. نویسه ها شامل B خطی ، هیروگلیف های مصری و خط میخی هستند. همچنین شامل املای تغییر شکل یافته انگلیسی مانند Shavian و Deseret و برخی از نویسه های مدرن مانند اوساژ، وارانگ سیتی و ادلم است. نمادها شامل نمادهای موسیقی تاریخی و مدرن، الفبایی ریاضی، ایموجی و سایر مجموعه های تصویری، نمادهای بازی برای کارتهای بازی ، ماژونگ و دومینو می شود.
از یونیکد نسخه 13.0 به بعد، BMP شامل 134 بلاک زیر است:
- یونان کهن و دیگر نویسه های چپ-به-راست:
- سیلاب خطی B آدرس (10000–1007F)
- Linear B Ideograms (10080–100FF)
- Aegean Numbers (10100–1013F)
- Ancient Greek Numbers (10140–1018F)
- Ancient Symbols (10190–101CF)
- Phaistos Disc (101D0–101FF)
- Lycian (10280–1029F)
- Carian (102A0–102DF)
- Coptic Epact Numbers (102E0–102FF)
- Old Italic (10300–1032F)
- Gothic (10330–1034F)
- Old Permic (10350–1037F)
- Ugaritic (10380–1039F)
- Old Persian (103A0–103DF)
- Deseret (10400–1044F)
- Shavian (10450–1047F)
- Osmanya (10480–104AF)
- Osage (104B0–104FF)
- Elbasan (10500–1052F)
- Caucasian Albanian (10530–1056F)
- Linear A (10600–1077F)
- Right-to-left scripts:
- Cypriot Syllabary (10800–1083F)
- Imperial Aramaic (10840–1085F)
- Palmyrene (10860–1087F)
- Nabataean (10880–108AF)
- Hatran (108E0–108FF)
- Phoenician (10900–1091F)
- Lydian (10920–1093F)
- Meroitic Hieroglyphs (10980–1099F)
- Meroitic Cursive (109A0–109FF)
- Kharoshthi (10A00–10A5F)
- Old South Arabian (10A60–10A7F)
- Old North Arabian (10A80–10A9F)
- Manichaean (10AC0–10AFF)
- Avestan (10B00–10B3F)
- Inscriptional Parthian (10B40–10B5F)
- Inscriptional Pahlavi (10B60–10B7F)
- Psalter Pahlavi (10B80–10BAF)
- Old Turkic (10C00–10C4F)
- Old Hungarian (10C80–10CFF)
- Hanifi Rohingya (10D00–10D3F)
- Rumi Numeral Symbols (10E60–10E7F)
- Yezidi (10E80–10EBF)
- Old Sogdian (10F00–10F2F)
- Sogdian (10F30–10F6F)
- Chorasmian (10FB0–10FDF)
- Elymaic (10FE0–10FFF)
- Brahmic scripts:
- Brahmi (11000–1107F)
- Kaithi (11080–110CF)
- Sora Sompeng (110D0–110FF)
- Chakma (11100–1114F)
- Mahajani (11150–1117F)
- Sharada (11180–111DF)
- Sinhala Archaic Numbers (111E0–111FF)
- Khojki (11200–1124F)
- Multani (11280–112AF)
- Khudawadi (112B0–112FF)
- Grantha (11300–1137F)
- Newa (11400–1147F)
- Tirhuta (11480–114DF)
- Siddham (11580–115FF)
- Modi (11600–1165F)
- Mongolian Supplement (11660–1167F)
- Takri (11680–116CF)
- Ahom (11700–1173F)
- Dogra (11800–1184F)
- Warang Citi (118A0–118FF)
- Dives Akuru (11900–1195F)
- Nandinagari (119A0–119FF)
- Zanabazar Square (11A00–11A4F)
- Soyombo (11A50–11AAF)
- Pau Cin Hau (11AC0–11AFF)
- Bhaiksuki (11C00–11C6F)
- Marchen (11C70–11CBF)
- Masaram Gondi (11D00–11D5F)
- Gunjala Gondi (11D60–11DAF)
- Makasar (11EE0–11EFF)
- Lisu Supplement (11FB0–11FBF)
- Tamil Supplement (11FC0–11FFF)
- Cuneiform (12000–123FF)
- Cuneiform Numbers and Punctuation (12400–1247F)
- Early Dynastic Cuneiform (12480–1254F)
- Egyptian Hieroglyphs (13000–1342F)
- Egyptian Hieroglyph Format Controls (13430–1343F)
- Anatolian Hieroglyphs (14400–1467F)
- Bamum Supplement (16800–16A3F)
- Mro (16A40–16A6F)
- Bassa Vah (16AD0–16AFF)
- Pahawh Hmong (16B00–16B8F)
- Medefaidrin (16E40–16E9F)
- Miao (16F00–16F9F)
- Ideographic Symbols and Punctuation (16FE0–16FFF)
- Tangut (17000–187FF)
- Tangut Components (18800–18AFF)
- Khitan Small Script (18B00–18CFF)
- Tangut Supplement (18D00–18D8F)
- Kana Supplement (1B000–1B0FF)
- Kana Extended-A (1B100–1B12F)
- Small Kana Extension (1B130–1B16F)
- Nushu (1B170–1B2FF)
- Duployan (1BC00–1BC9F)
- Shorthand Format Controls (1BCA0–1BCAF)
- Supplementary symbols:
- Musical notation:
- Byzantine Musical Symbols (1D000–1D0FF)
- Musical Symbols (1D100–1D1FF)
- Ancient Greek Musical Notation (1D200–1D24F)
- Mayan Numerals (1D2E0–1D2FF)
- Mathematical symbols:
- Tai Xuan Jing Symbols (1D300–1D35F)
- Counting Rod Numerals (1D360–1D37F)
- Mathematical Alphanumeric Symbols (1D400–1D7FF)
- Sutton SignWriting (1D800–1DAAF)
- Musical notation:
- Glagolitic Supplement (1E000–1E02F)
- Nyiakeng Puachue Hmong (1E100–1E14F)
- Wancho (1E2C0–1E2FF)
- Mende Kikakui (1E800–1E8DF)
- Adlam (1E900–1E95F)
- Indic Siyaq Numbers (1EC70–1ECBF)
- Ottoman Siyaq Numbers (1ED00–1ED4F)
- Arabic Mathematical Alphabetic Symbols (1EE00–1EEFF)
- Game tiles and cards:
- Mahjong Tiles (1F000–1F02F)
- Domino Tiles (1F030–1F09F)
- Playing Cards (1F0A0–1F0FF)
- Enclosed Alphanumeric Supplement (1F100–1F1FF)
- Enclosed Ideographic Supplement (1F200–1F2FF)
- Miscellaneous Symbols and Pictographs (1F300–1F5FF)
- Emoticons (1F600–1F64F)
- Ornamental Dingbats (1F650–1F67F)
- Transport and Map Symbols (1F680–1F6FF)
- Alchemical Symbols (1F700–1F77F)
- Geometric Shapes Extended (1F780–1F7FF)
- Supplemental Arrows-C (1F800–1F8FF)
- Supplemental Symbols and Pictographs (1F900–1F9FF)
- Chess Symbols (1FA00–1FA6F)
- Symbols and Pictographs Extended-A (1FA70–1FAFF)
- Symbols for Legacy Computing (1FB00–1FBFF)
صفحه اندیشهنگاری تکمیلی
صفحه 2 ، صفحه اندیشهنگاری تکمیلی (SIP)، برای اندیشهنگاری های CJK است؛ البته بیشتر اندیشهنگاری های CJK مشترک، که در استانداردهای کدگذاری قبلی گنجانده نشده است.
از یونیکد نسخه 13.0 به بعد، SIP شامل 134 بلاک زیر است:
- اندیشهنگاری های CJK اشتقاق B آدرس (20000–2A6DF)
- اندیشهنگاری های CJK اشتقاق C آدرس (2A700–2B73F)
- اندیشهنگاری های CJK اشتقاق D آدرس (2B740–2B81F)
- اندیشهنگاری های CJK اشتقاق E آدرس (2B820–2CEAF)
- اندیشهنگاری های CJK اشتقاق F آدرس (2CEB0–2EBEF)
- اندیشهنگاری های تطبیق شده CJK تکمیلی آدرس (2F800–2FA1F)
صفحه اندیشهنگاری ثالث
صفحه 3، صفحه اندیشهنگاری ثالث (TIP) است. اندیشهنگاری های CJK اشتقاق G در نسخه 13.0 استاندارد یونیکد که در مارس 2020 منتشر شد به TIP اضافه شد. این صفحه به صورت آزمایشی شامل نویسه های استخوانی اوراکل، نویسه های برنزی چینی، نویسه های چینی کوچک اختصاص داده شده است.
از یونیکد نسخه 13.0 به بعد، TIP شامل بلاک زیر است:
- اندیشهنگاری های CJK اشتقاق G آدرس (30000–3134F)
صفحه های منتسب نشده
صفحه های 4 تا 13 (صفحه های 4 تا D در مبنای شانزده تایی): هیچ کاراکتری در صفحه های 4 تا 13 تعریف نشده.
صفحه تکمیلی با کاربرد مخصوص
صفحه 14 (E در مبنای شانزده تایی) ، صفحه تکمیلی با کاربرد مخصوص (SSP) ، در حال حاضر حاوی کارکترهای غیر گرافیکی است. بلوک اول مخصوص کاراکترهای برچسب است. بلوک دیگر شامل انتخابگرهای متغیر گلیف است.
- برچسب ها آدرس (E0000–E007F)
- انتخابگرهای متغیر گلیف آدرس (E0100–E01EF)
صفحه های ناحیه کاربرد خصوصی
دو صفحه 15 و 16 (صفحه های F و 10 در مبنای شانزده تایی)، به عنوان "صفحه های کاربرد خصوصی" معرفی شده اند. این دو صفحه حاوی بلوک هایی به نام ناحیه کاربرد خصوصی نکمیلی-A یا (PUA-A) و -B یا (PUA-B)، مناطق استفاده خصوصی هستند که برای استفاده توسط استفاده کنندگان ثالث، خارج از ایزو و کنسرسیوم یونیکد، در دسترس هستند. آنها ممکن است توسط فونت ها برای اشاره به گلیف های کمکی داخلی مورد استفاده قرار گیرند. چنین شخصیت هایی قابلیت های محدود دارند.
منابع
- ↑ Unicode Consortium Glossary—Supplementary Planes
- ↑ See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ↑ See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
- ↑ Unicode roadmaps
- ↑ Unicode, Inc. "Announcing The Unicode® Standard, Version 13.0".
- ↑ "Proposed New Characters: The Pipeline". www.unicode.org.