Khas (blok Unicode)

Khas
Khas
Julat	U+FFF0..U+FFFF; (16 titik kod)
Satah	BMP
Aksara	Lazim
Terumpuk	5 titik kod
Nirguna	9 titik kod disimpan ; 2 bukan aksara
Sejarah gubahan Unikod
1.0.0	1 (+1)
2.1	2 (+1)
3.0	5 (+3)
	Nota:

Khas ialah blok Unicode pendek yang diperuntukkan di hujung Satah Multibahasa Asas, pada U+FFF0–FFFF, mengandungi titik kod berikut:

U+FFF9 PENANDA ANOTASI ANTARA BARIS, menandakan permulaan teks beranotasi
U+FFFA PEMISAH ANOTASI ANTARA BARIS, menandakan permulaan aksara penjelasan
U+FFFB PENAMAT ANOTASI ANTARA BARIS, menandakan akhir blok anotasi
U+FFFC AKSARA PENGGANTI OBJEK, pemegang tempat dalam teks untuk objek lain yang tidak ditentukan
U+FFFD � AKSARA PENGGANTI digunakan untuk menggantikan aksara yang tidak dikenali atau tidak boleh dipaparkan
U+FFFE <noncharacter-FFFE> bukan aksara
U+FFFF <noncharacter-FFFF> bukan aksara

U+FFFE <noncharacter-FFFE> dan U+FFFF <noncharacter-FFFF> ialah bukan-aksara, bermakna ia dikhaskan tetapi tidak menyebabkan teks Unicode yang tidak terbentuk dengan betul. Versi piawaian Unicode dari 3.1.0 hingga 6.3.0 menyatakan bahawa aksara ini tidak boleh ditukar, menyebabkan beberapa aplikasi menggunakannya untuk meneka pengekodan teks. Namun, Pembetulan #9 kemudian menetapkan bahawa bukan-aksara tidak dilarang dan kaedah pemeriksaan pengekodan ini tidak betul.^[3] Contoh penggunaan dalaman U+FFFE ialah algoritma CLDR; algoritma Unicode lanjutan ini memetakan bukan-aksara kepada berat utama yang minimum dan unik.^[4]

Aksara Unicode U+FEFF JARAK TANPA PUTUS BERKELEBARAN SIFAR boleh dimasukkan pada permulaan teks Unicode untuk menunjukkan keendianan: program yang membaca teks ini dan menemui 0xFFFE akan tahu bahawa ia perlu menukar urutan bait untuk aksara berikutnya.

Nama bloknya dalam Unicode 1.0 ialah Khas.^[5]

Aksara pengganti

Aksara pengganti � (selalunya dipaparkan sebagai rombus hitam dengan tanda soal putih) ialah simbol dalam piawaian Unicode pada titik kod U+FFFD dalam jadual Khas. Ia digunakan untuk menunjukkan masalah apabila sistem tidak dapat memaparkan aliran data sebagai simbol yang betul.^[6]

Sebagai contoh, fail teks dalam ISO 8859-1 mengandungi perkataan Jerman für mempunyai bait 0x66 0xFC 0x72. Jika fail ini dibuka dengan penyunting teks yang menganggap input sebagai UTF-8, bait pertama dan ketiga adalah pengekodan UTF-8 yang sah untuk ASCII, tetapi bait kedua (0xFC) tidak sah dalam UTF-8. Penyunting teks boleh menggantikan bait ini dengan aksara pengganti untuk menghasilkan rentetan titik kod Unicode yang sah, jadi pengguna melihat "f�r".

Penyunting teks yang kurang baik mungkin menulis aksara pengganti apabila pengguna menyimpan fail; data dalam fail akan menjadi 0x66 0xEF 0xBF 0xBD 0x72. Jika fail dibuka semula menggunakan ISO 8859-1, ia akan memaparkan "fï¿½r" (dipanggil mojibake). Oleh sebab penggantian ini adalah sama untuk semua ralat, aksara asal tidak boleh dipulihkan. Reka bentuk yang lebih baik (tetapi lebih sukar untuk diimplementasikan) ialah menyimpan bait-bait asal termasuk sebarang ralat, dan hanya menukar kepada pengganti ketika memaparkan teks. Ini akan membolehkan editor teks menyimpan turutan bait asal, sambil masih menunjukkan petunjuk ralat kepada pengguna.

Pada suatu masa, aksara pengganti sering digunakan apabila tiada glif tersedia dalam fon untuk aksara tersebut. Namun, kebanyakan sistem moden menggunakan aksara {{tt|[[.notdef]]}} sesuatu fon, yang biasanya kotak kosong, atau "?" atau "X" dalam kotak^[7], kadangkala dipanggil "tofu". Tiada titik kod Unicode untuk simbol ini.

Kini, aksara pengganti hanya dilihat untuk ralat pengekodan. Sesetengah perisian menukar bait UTF-8 tidak sah kepada aksara sepadan dalam Windows-1252 (kerana itulah sumber yang paling biasa untuk ralat-ralat ini), jadi aksara pengganti tidak pernah kelihatan.

Carta Unicode

Templat:Unicode chart Specials

Sejarah

Dokumen berkaitan Unicode berikut merekodkan tujuan dan proses mentakrifkan aksara tertentu dalam blok Khas:

Versi	Titik kod akhir^[a]	Bilangan	UTC ID	L2 ID	WG2 ID	Dokumen
1.0.0	U+FFFD	1				(akan ditentukan)
	U+FFFE..FFFF	2				(akan ditentukan)
				L2/01-295R		Moore, Lisa (2001-11-06), "Mosi 88-M2", Minit mesyuarat UTC/L2 #88
				L2/01-355	N2369 (html, doc)	Davis, Mark (2001-09-26), Permintaan untuk membenarkan FFFF, FFFE dalam UTF-8 teks ISO/IEC 10646
				L2/02-154	N2403	Umamaheswaran, V. S. (2002-04-22), "9.3 Membenarkan FFFF dan FFFE dalam UTF-8", Rancangan minit mesyuarat WG 2 #41, Hotel Phoenix, Singapura, 2001-10-15/19
2.1	U+FFFC	1	UTC/1995-056			Sargent, Murray (1995-12-06), Cadangan untuk mengekod aksara WCH_EMBEDDING
			UTC/1996-002			Aliprand, Joan; Hart, Edwin; Greenfield, Steve (1996-03-05), "Objek Terbenam", Minit UTC #67
					N1365	Sargent, Murray (1996-03-18), Ringkasan Cadangan – Aksara Penggantian Objek
					N1353	Umamaheswaran, V. S.; Ksar, Mike (1996-06-25), "8.14", Rancangan minit mesyuarat WG2 Copenhagen #30
				L2/97-288	N1603	Umamaheswaran, V. S. (1997-10-24), "7.3", Minit Mesyuarat Tidak Disahkan, WG 2 #33, Heraklion, Crete, Greece, 20 Jun – 4 Julai 1997
				L2/98-004R	N1681	Teks ISO 10646 – AMD 18 untuk pendaftaran PDAM dan undi FPDAM, 1997-12-22
				L2/98-070		Aliprand, Joan; Winkler, Arnold, "Komen tambahan mengenai 2.1", Minit mesyuarat bersama UTC dan L2 di Cupertino, 25-27 Februari 1998
				L2/98-318	N1894	Teks diubah suai 10646-1/FPDAM 18, PINDAN 18: Simbol dan Lain-lain, 1998-10-22
3.0	U+FFF9..FFFB	3		L2/97-255R		Aliprand, Joan (1997-12-03), "3.D Cadangan untuk Notasi Dalam Baris (ruby)", Minit Diluluskan – Mesyuarat bersama UTC #73 & L2 #170, Palo Alto, CA – 4-5 Ogos 1997
				L2/98-055		Freytag, Asmus (1998-02-22), Sokongan untuk Melaksanakan Anotasi Dalam Baris dan Antara Baris
				L2/98-070		Aliprand, Joan; Winkler, Arnold, "3.C.5. Sokongan untuk melaksanakan anotasi dalam baris dan antara baris", Minit mesyuarat bersama UTC dan L2 di Cupertino, 25-27 Februari 1998
				L2/98-099	N1727	Freytag, Asmus (1998-03-18), Sokongan untuk Melaksanakan Anotasi Antara Baris seperti dalam Tipografi Asia Timur
				L2/98-158		Aliprand, Joan; Winkler, Arnold (1998-05-26), "Anotasi Dalam Baris dan Antara Baris", Rancangan Minit – Mesyuarat bersama UTC #76 & NCITS Subkumpulan L2 #173, Tredyffrin, Pennsylvania, 20-22 April 1998
				L2/98-286	N1703	Umamaheswaran, V. S.; Ksar, Mike (1998-07-02), "8.14", Minit Mesyuarat Tidak Disahkan, WG 2 #34, Redmond, WA, USA; 1998-03-16--20
				L2/98-270		Hiura, Hideki; Kobayashi, Tatsuo (1998-07-29), Cadangan untuk cadangan anotasi dalam baris dan antara baris
				L2/98-281R (pdf, html)		Aliprand, Joan (1998-07-31), "Anotasi Dalam Baris dan Antara Baris (III.C.1.c)", Minit Tidak Disahkan – MESYUARAT BERSAMA UTC #77 & NCITS SUBKUMPULAN L2 #174, Redmond, WA -- 29-31 Julai 1998
				L2/98-363	N1861	Sato, T. K. (1998-09-01), Penanda Ruby
				L2/98-372	N1884R2 (pdf, doc)	Whistler, Ken; dll. (1998-09-22), Aksara Tambahan untuk UCS
				L2/98-416	N1882.zip	Sokongan untuk Melaksanakan Anotasi Antara Baris, 1998-09-23
				L2/98-329	N1920	Gabungan pendaftaran PDAM dan undi balot WD untuk ISO/IEC 10646-1/Amd. 30, PINDAN 30: Aksara Latin Tambahan dan Lain-lain, 1998-10-28
				L2/98-421R		Suignard, Michel; Hiura, Hideki (1998-12-04), Nota mengenai aksara anotasi antara baris PDAM 30
				L2/99-010	N1903 (pdf, html, doc)	Umamaheswaran, V. S. (1998-12-30), "8.2.15", Minit mesyuarat WG 2 #35, London, U.K.; 1998-09-21--25
				L2/98-419 (pdf, doc)		Aliprand, Joan (1999-02-05), "Aksara Anotasi Antara Baris", Minit Diluluskan -- MESYUARAT BERSAMA UTC #78 & NCITS SUBKUMPULAN L2 #175, San Jose, CA -- 1-4 Disember 1998
			UTC/1999-021			Duerst, Martin; Bosak, Jon (1999-06-08), Pernyataan W3C XML CG mengenai aksara anotasi
				L2/99-176R		Moore, Lisa (1999-11-04), "Pernyataan Perhubungan W3C mengenai Aksara Anotasi", Minit mesyuarat bersama UTC/L2 di Seattle, 8-10 Jun 1999
				L2/01-301		Whistler, Ken (2001-08-01), "E. Ditunjukkan sebagai "tidak digalakkan" untuk pertukaran teks biasa", Analisis Penyahtarafan Aksara dalam Piawaian Unicode
^ Titik kod dan nama aksara yang dicadangkan mungkin berbeza dengan yang akhir

Lihat juga

Aksara kawalan Unicode

Rujukan

^ "Pangkalan data aksara Unicode". The Unicode Standard. Dicapai pada 2023-07-26.
^ "Versi Terbilang Piawaian Unicode". The Unicode Standard. Dicapai pada 2023-07-26.
^ "Pembetulan #9: Penjelasan Tentang Bukan-Aksara". The Unicode Standard. Diarkibkan daripada yang asal pada Jun 10, 2023. Dicapai pada 2023-06-07.
^ "Piawaian Teknikal Unicode #35". Unicode Locale Data Markup Language (LDML). Dicapai pada 2024-08-27.
^ "3.8: Carta Blok demi Blok" (PDF). The Unicode Standard. Versi 1.0. Unicode Consortium. Diarkibkan (PDF) daripada yang asal pada 2021-02-11. Dicapai pada 2020-09-30.
^ Wichary, Marcin (September 29, 2020). "Apabila fon gagal". Figma. Diarkibkan daripada yang asal pada 13 June 2021. Dicapai pada 6 June 2021.
^ Microsoft Learn (dalam bahasa Inggeris) https://docs.microsoft.com/en-us/typography/opentype/otspec170/recom#shape-of-notdef-glyph. Diarkibkan daripada yang asal pada 19 Oktober 2020. Dicapai pada 18 Oktober 2020. Text "Recommendations for OpenType Fonts (OpenType 1.7) - Typography" ignored (bantuan); Missing or empty |title= (bantuan)

[final-8] Titik kod dan nama aksara yang dicadangkan mungkin berbeza dengan yang akhir

[1] "Pangkalan data aksara Unicode". The Unicode Standard. Dicapai pada 2023-07-26.

[2] "Versi Terbilang Piawaian Unicode". The Unicode Standard. Dicapai pada 2023-07-26.

[3] "Pembetulan #9: Penjelasan Tentang Bukan-Aksara". The Unicode Standard. Diarkibkan daripada yang asal pada Jun 10, 2023. Dicapai pada 2023-06-07.

[4] "Piawaian Teknikal Unicode #35". Unicode Locale Data Markup Language (LDML). Dicapai pada 2024-08-27.

[5] "3.8: Carta Blok demi Blok" (PDF). The Unicode Standard. Versi 1.0. Unicode Consortium. Diarkibkan (PDF) daripada yang asal pada 2021-02-11. Dicapai pada 2020-09-30.

[Wichary_fallback-6] Wichary, Marcin (September 29, 2020). "Apabila fon gagal". Figma. Diarkibkan daripada yang asal pada 13 June 2021. Dicapai pada 6 June 2021.

[7] Microsoft Learn (dalam bahasa Inggeris) https://docs.microsoft.com/en-us/typography/opentype/otspec170/recom#shape-of-notdef-glyph. Diarkibkan daripada yang asal pada 19 Oktober 2020. Dicapai pada 18 Oktober 2020. Text "Recommendations for OpenType Fonts (OpenType 1.7) - Typography" ignored (bantuan); Missing or empty |title= (bantuan)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[a]