Pergi ke kandungan

Khas (blok Unicode)

Daripada Wikipedia, ensiklopedia bebas.
Khas
JulatU+FFF0..U+FFFF
(16 titik kod)
SatahBMP
AksaraLazim
Terumpuk5 titik kod
Nirguna9 titik kod disimpan
2 bukan aksara
Sejarah gubahan Unikod
1.0.01 (+1)
2.12 (+1)
3.05 (+3)
Nota: [1][2]

Khas ialah blok Unicode pendek yang diperuntukkan di hujung Satah Multibahasa Asas, pada U+FFF0–FFFF, mengandungi titik kod berikut:

  • U+FFF9 PENANDA ANOTASI ANTARA BARIS, menandakan permulaan teks beranotasi
  • U+FFFA PEMISAH ANOTASI ANTARA BARIS, menandakan permulaan aksara penjelasan
  • U+FFFB PENAMAT ANOTASI ANTARA BARIS, menandakan akhir blok anotasi
  • U+FFFC AKSARA PENGGANTI OBJEK, pemegang tempat dalam teks untuk objek lain yang tidak ditentukan
  • U+FFFD AKSARA PENGGANTI digunakan untuk menggantikan aksara yang tidak dikenali atau tidak boleh dipaparkan
  • U+FFFE <noncharacter-FFFE> bukan aksara
  • U+FFFF <noncharacter-FFFF> bukan aksara

U+FFFE <noncharacter-FFFE> dan U+FFFF <noncharacter-FFFF> ialah bukan-aksara, bermakna ia dikhaskan tetapi tidak menyebabkan teks Unicode yang tidak terbentuk dengan betul. Versi piawaian Unicode dari 3.1.0 hingga 6.3.0 menyatakan bahawa aksara ini tidak boleh ditukar, menyebabkan beberapa aplikasi menggunakannya untuk meneka pengekodan teks. Namun, Pembetulan #9 kemudian menetapkan bahawa bukan-aksara tidak dilarang dan kaedah pemeriksaan pengekodan ini tidak betul.[3] Contoh penggunaan dalaman U+FFFE ialah algoritma CLDR; algoritma Unicode lanjutan ini memetakan bukan-aksara kepada berat utama yang minimum dan unik.[4]

Aksara Unicode U+FEFF JARAK TANPA PUTUS BERKELEBARAN SIFAR boleh dimasukkan pada permulaan teks Unicode untuk menunjukkan keendianan: program yang membaca teks ini dan menemui 0xFFFE akan tahu bahawa ia perlu menukar urutan bait untuk aksara berikutnya.

Nama bloknya dalam Unicode 1.0 ialah Khas.[5]

Aksara pengganti

[sunting | sunting sumber]
Aksara pengganti

Aksara pengganti � (selalunya dipaparkan sebagai rombus hitam dengan tanda soal putih) ialah simbol dalam piawaian Unicode pada titik kod U+FFFD dalam jadual Khas. Ia digunakan untuk menunjukkan masalah apabila sistem tidak dapat memaparkan aliran data sebagai simbol yang betul.[6]

Sebagai contoh, fail teks dalam ISO 8859-1 mengandungi perkataan Jerman für mempunyai bait 0x66 0xFC 0x72. Jika fail ini dibuka dengan penyunting teks yang menganggap input sebagai UTF-8, bait pertama dan ketiga adalah pengekodan UTF-8 yang sah untuk ASCII, tetapi bait kedua (0xFC) tidak sah dalam UTF-8. Penyunting teks boleh menggantikan bait ini dengan aksara pengganti untuk menghasilkan rentetan titik kod Unicode yang sah, jadi pengguna melihat "f�r".

Penyunting teks yang kurang baik mungkin menulis aksara pengganti apabila pengguna menyimpan fail; data dalam fail akan menjadi 0x66 0xEF 0xBF 0xBD 0x72. Jika fail dibuka semula menggunakan ISO 8859-1, ia akan memaparkan "f�r" (dipanggil mojibake). Oleh sebab penggantian ini adalah sama untuk semua ralat, aksara asal tidak boleh dipulihkan. Reka bentuk yang lebih baik (tetapi lebih sukar untuk diimplementasikan) ialah menyimpan bait-bait asal termasuk sebarang ralat, dan hanya menukar kepada pengganti ketika memaparkan teks. Ini akan membolehkan editor teks menyimpan turutan bait asal, sambil masih menunjukkan petunjuk ralat kepada pengguna.

Pada suatu masa, aksara pengganti sering digunakan apabila tiada glif tersedia dalam fon untuk aksara tersebut. Namun, kebanyakan sistem moden menggunakan aksara {{tt|[[.notdef]]}} sesuatu fon, yang biasanya kotak kosong, atau "?" atau "X" dalam kotak[7], kadangkala dipanggil "tofu". Tiada titik kod Unicode untuk simbol ini.

Kini, aksara pengganti hanya dilihat untuk ralat pengekodan. Sesetengah perisian menukar bait UTF-8 tidak sah kepada aksara sepadan dalam Windows-1252 (kerana itulah sumber yang paling biasa untuk ralat-ralat ini), jadi aksara pengganti tidak pernah kelihatan.

Carta Unicode

[sunting | sunting sumber]

Templat:Unicode chart Specials

Dokumen berkaitan Unicode berikut merekodkan tujuan dan proses mentakrifkan aksara tertentu dalam blok Khas:

Lihat juga

[sunting | sunting sumber]
  1. ^ "Pangkalan data aksara Unicode". The Unicode Standard. Dicapai pada 2023-07-26.
  2. ^ "Versi Terbilang Piawaian Unicode". The Unicode Standard. Dicapai pada 2023-07-26.
  3. ^ "Pembetulan #9: Penjelasan Tentang Bukan-Aksara". The Unicode Standard. Diarkibkan daripada yang asal pada Jun 10, 2023. Dicapai pada 2023-06-07.
  4. ^ "Piawaian Teknikal Unicode #35". Unicode Locale Data Markup Language (LDML). Dicapai pada 2024-08-27.
  5. ^ "3.8: Carta Blok demi Blok" (PDF). The Unicode Standard. Versi 1.0. Unicode Consortium. Diarkibkan (PDF) daripada yang asal pada 2021-02-11. Dicapai pada 2020-09-30.
  6. ^ Wichary, Marcin (September 29, 2020). "Apabila fon gagal". Figma. Diarkibkan daripada yang asal pada 13 June 2021. Dicapai pada 6 June 2021.
  7. ^ Microsoft Learn (dalam bahasa Inggeris) https://docs.microsoft.com/en-us/typography/opentype/otspec170/recom#shape-of-notdef-glyph. Diarkibkan daripada yang asal pada 19 Oktober 2020. Dicapai pada 18 Oktober 2020. Text "Recommendations for OpenType Fonts (OpenType 1.7) - Typography" ignored (bantuan); Missing or empty |title= (bantuan)