Khas (blok Unicode)
Khas | |
---|---|
Julat | U+FFF0..U+FFFF (16 titik kod) |
Satah | BMP |
Aksara | Lazim |
Terumpuk | 5 titik kod |
Nirguna | 9 titik kod disimpan 2 bukan aksara |
Sejarah gubahan Unikod | |
1.0.0 | 1 (+1) |
2.1 | 2 (+1) |
3.0 | 5 (+3) |
Nota: [1][2] |
Khas ialah blok Unicode pendek yang diperuntukkan di hujung Satah Multibahasa Asas, pada U+FFF0–FFFF, mengandungi titik kod berikut:
- U+FFF9 PENANDA ANOTASI ANTARA BARIS, menandakan permulaan teks beranotasi
- U+FFFA PEMISAH ANOTASI ANTARA BARIS, menandakan permulaan aksara penjelasan
- U+FFFB PENAMAT ANOTASI ANTARA BARIS, menandakan akhir blok anotasi
- U+FFFC  AKSARA PENGGANTI OBJEK, pemegang tempat dalam teks untuk objek lain yang tidak ditentukan
- U+FFFD � AKSARA PENGGANTI digunakan untuk menggantikan aksara yang tidak dikenali atau tidak boleh dipaparkan
- U+FFFE <noncharacter-FFFE> bukan aksara
- U+FFFF <noncharacter-FFFF> bukan aksara
U+FFFE <noncharacter-FFFE> dan U+FFFF <noncharacter-FFFF> ialah bukan-aksara, bermakna ia dikhaskan tetapi tidak menyebabkan teks Unicode yang tidak terbentuk dengan betul. Versi piawaian Unicode dari 3.1.0 hingga 6.3.0 menyatakan bahawa aksara ini tidak boleh ditukar, menyebabkan beberapa aplikasi menggunakannya untuk meneka pengekodan teks. Namun, Pembetulan #9 kemudian menetapkan bahawa bukan-aksara tidak dilarang dan kaedah pemeriksaan pengekodan ini tidak betul.[3] Contoh penggunaan dalaman U+FFFE ialah algoritma CLDR; algoritma Unicode lanjutan ini memetakan bukan-aksara kepada berat utama yang minimum dan unik.[4]
Aksara Unicode U+FEFF JARAK TANPA PUTUS BERKELEBARAN SIFAR boleh dimasukkan pada permulaan teks Unicode untuk menunjukkan keendianan: program yang membaca teks ini dan menemui 0xFFFE akan tahu bahawa ia perlu menukar urutan bait untuk aksara berikutnya.
Nama bloknya dalam Unicode 1.0 ialah Khas.[5]
Aksara pengganti
[sunting | sunting sumber]
Aksara pengganti � (selalunya dipaparkan sebagai rombus hitam dengan tanda soal putih) ialah simbol dalam piawaian Unicode pada titik kod U+FFFD dalam jadual Khas. Ia digunakan untuk menunjukkan masalah apabila sistem tidak dapat memaparkan aliran data sebagai simbol yang betul.[6]
Sebagai contoh, fail teks dalam ISO 8859-1 mengandungi perkataan Jerman für mempunyai bait 0x66 0xFC 0x72
. Jika fail ini dibuka dengan penyunting teks yang menganggap input sebagai UTF-8, bait pertama dan ketiga adalah pengekodan UTF-8 yang sah untuk ASCII, tetapi bait kedua (0xFC
) tidak sah dalam UTF-8. Penyunting teks boleh menggantikan bait ini dengan aksara pengganti untuk menghasilkan rentetan titik kod Unicode yang sah, jadi pengguna melihat "f�r".
Penyunting teks yang kurang baik mungkin menulis aksara pengganti apabila pengguna menyimpan fail; data dalam fail akan menjadi 0x66 0xEF 0xBF 0xBD 0x72
. Jika fail dibuka semula menggunakan ISO 8859-1, ia akan memaparkan "f�r" (dipanggil mojibake). Oleh sebab penggantian ini adalah sama untuk semua ralat, aksara asal tidak boleh dipulihkan. Reka bentuk yang lebih baik (tetapi lebih sukar untuk diimplementasikan) ialah menyimpan bait-bait asal termasuk sebarang ralat, dan hanya menukar kepada pengganti ketika memaparkan teks. Ini akan membolehkan editor teks menyimpan turutan bait asal, sambil masih menunjukkan petunjuk ralat kepada pengguna.
Pada suatu masa, aksara pengganti sering digunakan apabila tiada glif tersedia dalam fon untuk aksara tersebut. Namun, kebanyakan sistem moden menggunakan aksara {{tt|[[.notdef]]}} sesuatu fon, yang biasanya kotak kosong, atau "?" atau "X" dalam kotak[7], kadangkala dipanggil "tofu". Tiada titik kod Unicode untuk simbol ini.
Kini, aksara pengganti hanya dilihat untuk ralat pengekodan. Sesetengah perisian menukar bait UTF-8 tidak sah kepada aksara sepadan dalam Windows-1252 (kerana itulah sumber yang paling biasa untuk ralat-ralat ini), jadi aksara pengganti tidak pernah kelihatan.
Carta Unicode
[sunting | sunting sumber]Templat:Unicode chart Specials
Sejarah
[sunting | sunting sumber]Dokumen berkaitan Unicode berikut merekodkan tujuan dan proses mentakrifkan aksara tertentu dalam blok Khas:
Versi | Titik kod akhir[a] | Bilangan | UTC ID | L2 ID | WG2 ID | Dokumen |
---|---|---|---|---|---|---|
1.0.0 | U+FFFD | 1 | (akan ditentukan) | |||
U+FFFE..FFFF | 2 | (akan ditentukan) | ||||
L2/01-295R | Moore, Lisa (2001-11-06), "Mosi 88-M2", Minit mesyuarat UTC/L2 #88 | |||||
L2/01-355 | N2369 (html, doc) | Davis, Mark (2001-09-26), Permintaan untuk membenarkan FFFF, FFFE dalam UTF-8 teks ISO/IEC 10646 | ||||
L2/02-154 | N2403 | Umamaheswaran, V. S. (2002-04-22), "9.3 Membenarkan FFFF dan FFFE dalam UTF-8", Rancangan minit mesyuarat WG 2 #41, Hotel Phoenix, Singapura, 2001-10-15/19 | ||||
2.1 | U+FFFC | 1 | UTC/1995-056 | Sargent, Murray (1995-12-06), Cadangan untuk mengekod aksara WCH_EMBEDDING | ||
UTC/1996-002 | Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), "Objek Terbenam", Minit UTC #67 | |||||
N1365 | Sargent, Murray (1996-03-18), Ringkasan Cadangan – Aksara Penggantian Objek | |||||
N1353 | Umamaheswaran, V. S.; Ksar, Mike (1996-06-25), "8.14", Rancangan minit mesyuarat WG2 Copenhagen #30 | |||||
L2/97-288 | N1603 | Umamaheswaran, V. S. (1997-10-24), "7.3", Minit Mesyuarat Tidak Disahkan, WG 2 #33, Heraklion, Crete, Greece, 20 Jun – 4 Julai 1997 | ||||
L2/98-004R | N1681 | Teks ISO 10646 – AMD 18 untuk pendaftaran PDAM dan undi FPDAM, 1997-12-22 | ||||
L2/98-070 | Aliprand, Joan; Winkler, Arnold, "Komen tambahan mengenai 2.1", Minit mesyuarat bersama UTC dan L2 di Cupertino, 25-27 Februari 1998 | |||||
L2/98-318 | N1894 | Teks diubah suai 10646-1/FPDAM 18, PINDAN 18: Simbol dan Lain-lain, 1998-10-22 | ||||
3.0 | U+FFF9..FFFB | 3 | L2/97-255R | Aliprand, Joan (1997-12-03), "3.D Cadangan untuk Notasi Dalam Baris (ruby)", Minit Diluluskan – Mesyuarat bersama UTC #73 & L2 #170, Palo Alto, CA – 4-5 Ogos 1997 | ||
L2/98-055 | Freytag, Asmus (1998-02-22), Sokongan untuk Melaksanakan Anotasi Dalam Baris dan Antara Baris | |||||
L2/98-070 | Aliprand, Joan; Winkler, Arnold, "3.C.5. Sokongan untuk melaksanakan anotasi dalam baris dan antara baris", Minit mesyuarat bersama UTC dan L2 di Cupertino, 25-27 Februari 1998 | |||||
L2/98-099 | N1727 | Freytag, Asmus (1998-03-18), Sokongan untuk Melaksanakan Anotasi Antara Baris seperti dalam Tipografi Asia Timur | ||||
L2/98-158 | Aliprand, Joan; Winkler, Arnold (1998-05-26), "Anotasi Dalam Baris dan Antara Baris", Rancangan Minit – Mesyuarat bersama UTC #76 & NCITS Subkumpulan L2 #173, Tredyffrin, Pennsylvania, 20-22 April 1998 | |||||
L2/98-286 | N1703 | Umamaheswaran, V. S.; Ksar, Mike (1998-07-02), "8.14", Minit Mesyuarat Tidak Disahkan, WG 2 #34, Redmond, WA, USA; 1998-03-16--20 | ||||
L2/98-270 | Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Cadangan untuk cadangan anotasi dalam baris dan antara baris | |||||
L2/98-281R (pdf, html) | Aliprand, Joan (1998-07-31), "Anotasi Dalam Baris dan Antara Baris (III.C.1.c)", Minit Tidak Disahkan – MESYUARAT BERSAMA UTC #77 & NCITS SUBKUMPULAN L2 #174, Redmond, WA -- 29-31 Julai 1998 | |||||
L2/98-363 | N1861 | Sato, T. K. (1998-09-01), Penanda Ruby | ||||
L2/98-372 | N1884R2 (pdf, doc) | Whistler, Ken; dll. (1998-09-22), Aksara Tambahan untuk UCS | ||||
L2/98-416 | N1882.zip | Sokongan untuk Melaksanakan Anotasi Antara Baris, 1998-09-23 | ||||
L2/98-329 | N1920 | Gabungan pendaftaran PDAM dan undi balot WD untuk ISO/IEC 10646-1/Amd. 30, PINDAN 30: Aksara Latin Tambahan dan Lain-lain, 1998-10-28 | ||||
L2/98-421R | Suignard, Michel; Hiura, Hideki (1998-12-04), Nota mengenai aksara anotasi antara baris PDAM 30 | |||||
L2/99-010 | N1903 (pdf, html, doc) | Umamaheswaran, V. S. (1998-12-30), "8.2.15", Minit mesyuarat WG 2 #35, London, U.K.; 1998-09-21--25 | ||||
L2/98-419 (pdf, doc) | Aliprand, Joan (1999-02-05), "Aksara Anotasi Antara Baris", Minit Diluluskan -- MESYUARAT BERSAMA UTC #78 & NCITS SUBKUMPULAN L2 #175, San Jose, CA -- 1-4 Disember 1998 | |||||
UTC/1999-021 | Duerst, Martin; Bosak, Jon (1999-06-08), Pernyataan W3C XML CG mengenai aksara anotasi | |||||
L2/99-176R | Moore, Lisa (1999-11-04), "Pernyataan Perhubungan W3C mengenai Aksara Anotasi", Minit mesyuarat bersama UTC/L2 di Seattle, 8-10 Jun 1999 | |||||
L2/01-301 | Whistler, Ken (2001-08-01), "E. Ditunjukkan sebagai "tidak digalakkan" untuk pertukaran teks biasa", Analisis Penyahtarafan Aksara dalam Piawaian Unicode | |||||
|
Lihat juga
[sunting | sunting sumber]Rujukan
[sunting | sunting sumber]- ^ "Pangkalan data aksara Unicode". The Unicode Standard. Dicapai pada 2023-07-26.
- ^ "Versi Terbilang Piawaian Unicode". The Unicode Standard. Dicapai pada 2023-07-26.
- ^ "Pembetulan #9: Penjelasan Tentang Bukan-Aksara". The Unicode Standard. Diarkibkan daripada yang asal pada Jun 10, 2023. Dicapai pada 2023-06-07.
- ^ "Piawaian Teknikal Unicode #35". Unicode Locale Data Markup Language (LDML). Dicapai pada 2024-08-27.
- ^ "3.8: Carta Blok demi Blok" (PDF). The Unicode Standard. Versi 1.0. Unicode Consortium. Diarkibkan (PDF) daripada yang asal pada 2021-02-11. Dicapai pada 2020-09-30.
- ^ Wichary, Marcin (September 29, 2020). "Apabila fon gagal". Figma. Diarkibkan daripada yang asal pada 13 June 2021. Dicapai pada 6 June 2021.
- ^ Microsoft Learn (dalam bahasa Inggeris) https://docs.microsoft.com/en-us/typography/opentype/otspec170/recom#shape-of-notdef-glyph. Diarkibkan daripada yang asal pada 19 Oktober 2020. Dicapai pada 18 Oktober 2020. Text "Recommendations for OpenType Fonts (OpenType 1.7) - Typography" ignored (bantuan); Missing or empty
|title=
(bantuan)