Zum Inhalt springen

Portal Diskussion:Unicode/Archiv/2016

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 4. Dezember 2016 um 03:30 Uhr durch TaxonBot (Diskussion | Beiträge) (1 Abschnitt aus Portal Diskussion:Unicode archiviert). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 8 Jahren von Antonsusi in Abschnitt Fehlerhafte Beschreibung des Tabellenaufbaus

Unicodeblock Arabisch: fehlendes Zeichen, Schraffur

Ist es gewollt, daß für das Zeichen U+061C nur ein Platzhalter dargestellt wird? Bei der unten eingebundenen Grafik heißt es „Codepoints fehlender Zeichen sind grau dargestellt, schraffierte Codepoints sind unbesetzt“. Ich sehe da gar kein grau …?! Gruß --Schniggendiller Diskussion 02:55, 19. Jan. 2016 (CET)

Es handelt sich um ein unsichtbares Steuerzeichen. Da kann schlichtweg nichts dargestellt werden. Die Beschreibung unter dem Bild scheint hingegen veraltet zu sein; grau wurde wohl früher mal benutzt, jetzt benutzt man ein Kreuzmuster. -- Liliana 11:17, 19. Jan. 2016 (CET)

Unicodeblock Mathematische alphanumerische Symbole

hi in Unicodeblock Mathematische alphanumerische Symbole fehlt unter U+1D544 (120132) das N und auch das P --188.96.234.114 14:14, 20. Feb. 2016 (CET)

Steht auch oben in der Einleitung: Einige Fraktur-, doppelt gestrichene und nicht-fette Schreibschrift-Buchstaben sowie die kursive Planck-Konstante ℎ finden sich im Unicodeblock Buchstabenähnliche Symbole. Ihre Plätze sind im Unicodeblock Mathematische alphanumerische Symbole frei gelassen worden. -- Liliana 14:21, 20. Feb. 2016 (CET)

Fehlerhafte Beschreibung des Tabellenaufbaus

Da stimmt doch wohl etwas nicht:

"Das Unicode-Konsortium unterteilt die Liste in verschiedene „Blöcke“, die in der Wikipedia auf verschiedenen Unterseiten vorgestellt und erläutert werden.

Die Tabellen für jeden einzelnen Block enthalten in der ersten Spalte die Codenummer des Zeichens in hexadezimaler Darstellung, dann folgt die gleiche Nummer als Dezimalzahl in Klammern. Die zweite Spalte enthält das Zeichen so, wie es am Bildschirm oder auf dem Papier dargestellt wird, die dritte Spalte eine deutschsprachige Benennung des Zeichens und die vierte Spalte die (englischsprachige) offizielle Bezeichnung des Zeichens."

Denn die Vorlage Unicodetabelle/Kopf sieht so aus:

UnicodenummerZeichen
(400 %)
  .   .   .  Offizielle BezeichnungBeschreibung

Daher sollte es ja wohl heißen:

"... Die zweite Spalte enthält das Zeichen so, wie es am Bildschirm oder auf dem Papier dargestellt wird, die vorletzte Spalte die (englischsprachige) offizielle Bezeichnung des Zeichens und die letzte Spalte eine deutschsprachige Benennung des Zeichens."

Mit freundlichem Gruß, --188.102.29.25 11:06, 5. Mai 2016 (CEST)

Erledigt. ÅñŧóñŜûŝî (Ð) 18:35, 22. Sep. 2016 (CEST)

Archivierung dieses Abschnittes wurde gewünscht von: ÅñŧóñŜûŝî (Ð) 18:32, 22. Sep. 2016 (CEST)

Unicode 9.0

Hat schon jemand vor, die ganzen Unicodeblock-Seiten auf Unicode 9.0 zu aktualisieren? Ansonsten würde ich mich dessen annehmen. --RandomGuy032 (Diskussion) 01:05, 24. Jul. 2016 (CEST)

Kannst du gerne machen. Am Besten fängst du mit den Ergänzungen bereits existierender Blöcke an. Es gibt auch zahlreiche logische Änderungen an bereits vorhandenen Zeichen. ÅñŧóñŜûŝî (Ð) 01:08, 24. Jul. 2016 (CEST)

32 reservierte "non-characters" in Unicodeblock Arabische Präsentationsformen-A

Wieso wurden in jenem Block 32 Codepoints als "non-characer" reserviert?

Im Artikel steht: „Der innerhalb des Blocks liegende Bereich von U+FDD0 bis U+FDEF kann nicht für die Codierung von Zeichen verwendet werden, da diese Bitfolgen für die interne UTF-Codierung benötigt werden.“

Aber was genau hat es damit auf sich? Es wäre toll, wenn der Artikel das genauer erläutern würde, denn mir ist keine UTF-Kodierung bekannt, die diese 32 Codepoints nutzt. --62.224.160.232RokerHRO (Diskussion) 16:47, 17. Aug. 2016 (CEST)

Man brauchte einfach 32 Noncharacters und in Arabic Presentation Forms-A war noch Platz. Ich werde das bei Gelegenheit mal im Artikel ergänzen, sobald ich die Quelle wiederfinde. --RandomGuy032 (Diskussion) 14:48, 2. Sep. 2016 (CEST)
Ich empfehle, bei den FAQs des Unicode-Konsortiums den Abschnitt Noncharacters von Anfang an durchzulesen. Dort wird übrigens auch die Frage Why are 32 of the noncharacters located in a block of Arabic characters? behandelt. — Ich bin sehr gespannt auf deine Quelle, RandomGuy032. Lieben Gruß —LiliCharlie (Disk.) 15:31, 2. Sep. 2016 (CEST)
Das FAQ ist mir bekannt, aber ich könnte schwören, an anderer Stelle noch Ausführlicheres dazu gelesen zu haben. Vielleicht erinnere ich mich auch falsch. --RandomGuy032 (Diskussion) 16:04, 2. Sep. 2016 (CEST)
Vielleicht ist deine Erinnerung aber auch sehr richtig. — Ich habe leider im Moment keine Zeit, die Archive der Unicode Mail List zu durchstöbern, mit denen ich bei meiner Suche anfangen würde. Lieben Gruß —LiliCharlie (Disk.) 17:47, 2. Sep. 2016 (CEST)
P.S.: Das oben zitierte „für die interne UTF-Codierung benötigt“ halte ich für äußerst fragwürdig und möchte ich belegt haben. Ein Zusammenhang mit UTF ist mir unbekannt. Lieben Gruß —LiliCharlie (Disk.) 17:55, 2. Sep. 2016 (CEST)
Das steht gewiss mit den Bitfolgen im Zusammenhang. Der o.g. Block "hat einfach nur das Pech" genau dort platziert zu sein, wo die nicht nutzbaren bitfolgen sind. Ich schaue mal genauer danach... ÅñŧóñŜûŝî (Ð) 20:44, 2. Sep. 2016 (CEST)
ÅñŧóñŜûŝî schrieb: „Das steht gewiss mit den Bitfolgen im Zusammenhang.“
Ach so.
Auch ich hatte zwar einen Moment lang an einen Zusammenhang mit der Einführung von surrogate pairs gedacht, halte das aber für unwahrscheinlich. Noncharacters sind ihrem Namen zum Trotz keine Nicht-Zeichen, sondern dürfen und sollen genauso wie private use characters verwendet werden, wenn auch nur „zum internen Gebrauch“ (“for internal use”). Vermutest du auch bei irgendwelchen private use characters einen Zusammenhang mit Bitfolgen?. Lieben Gruß —LiliCharlie (Disk.) 21:33, 2. Sep. 2016 (CEST)
Private Use sind einfach nur Codepoints, denen keine konkrete Bedeutung zugeordnet werden. Es sind keine reservierten Codepoints. Noncharacters sind jedoch gesperrte Codepoints. Sie sind weder mit einer (Zeichen-) Bedeutung belegt noch sind sie reserviert, also Teil des ggf. später genutzten "Vorrats" an Codepoints. Dieses “for internal use” kann eigentlich nur bedeuten, dass es einen technischen Grund gibt. Könnte aber sein, dass es um einen Konflikt mit einer anderen Codierung als UTF gibt. ÅñŧóñŜûŝî (Ð) 19:49, 3. Sep. 2016 (CEST)
Ich finde, die Frage nach dem Unterschied zwischen PUA-Zeichen und noncharacters wird hier in den FAQs klar beantwortet. Für PUA-Zeichen sollen zum Zwecke des Austauschs (z.B. per E-Mail) von den sich austauschenden Benutzern geteilte Konventionen geschaffen werden wie das ConScript Unicode Registry, SIL’s Private Use Area oder ähnliche, während noncharacters (die wie PUA-Zeichen über keine von Unicode vorgegebene Bedeutung verfügen) andere Aufgaben, nämlich solche ohne Austausch (d.h. innerhalb eines Computersystems) übernehmen sollen. Die zuletzt genannte Art der Zeichenbenutzung trägt den Namen internal use. — Dass 32 der noncharacters bei den Arabic Presentation Forms-A gelandet sind, lag laut dem Konsortium daran, dass das (aus technischen Gründen natürlich bevorzugte) BMP schon fast voll war und man sich klar geworden war, dass in diesem Block – und ich möchte hinzufügen: auch generell – keine weiteren reinen Präsentationsformen mehr hilfreich sein und definiert werden würden. Lieben Gruß —LiliCharlie (Disk.) 21:01, 3. Sep. 2016 (CEST)
Du meinst, das das einfach nur 32 Codepoints zur Verwendung "daheim im stillen Kämmerlein" sind? ÅñŧóñŜûŝî (Ð) 21:58, 3. Sep. 2016 (CEST)
Ja, oder noch genauer: daheim im stillen Compüterlein, wo die Apps nach Gutdünken der Programmierer die Bits’n’Bytes’n’Characters vom Benutzer unbemerkt verarbeiten. — Andererseits: obwohl ausdrücklich nicht dazu vorgesehen, besteht ja kein Verbot des Austauschs von noncharacters, sondern nur der Sicherheit halber ein Verbot, sie dann einfach löschen. Manchmal verlassen sie also doch ihr Zuhause uns machen sich auf die Reise in fremde Gefilde, wo man die Bedeutung, die sie daheim hatten, allerdings nicht kennt und zu schätzen weiß. Lieben Gruß —LiliCharlie (Disk.) 22:52, 3. Sep. 2016 (CEST)
Das wäre dann aber kaum etwas anderes als PUAs. Allenfalls mit dem Unterschied, dass man da beispielsweise auch Steuerzeichen für Geräte unterbringen könnte. So könnte der Hersteller eines Druckers mit Endlospapier dort ein Zeichen zum Schneiden unterbringen oder ein Programmierer einem der Noncharacters die Bedeutung zuordnen, mit der heimlichen Datenübertragung an die NSA zu beginnen ;-( ... ÅñŧóñŜûŝî (Ð) 13:32, 4. Sep. 2016 (CEST)
Das Konsortium nennt als zwei Nutzungsbeispiele, dass “they might be used internally as a particular kind of object placeholder in a string. Or they might be used in a collation tailoring as a target for a weighting that comes between weights for "real" characters of different scripts, thus simplifying the support of "alphabetic index" implementations.” Deine Verwendungsvorschläge sind aber natürlich auch möglich und vielleicht sogar längst umgesetzt. ;-) Aber da nicht wie bei echten PUA-Zeichen Konventionen geschaffen (und zum Zwecke des Austauschs veröffentlicht) werden sollen, werden wir das wohl nie erfahren, es sei denn, wir gründen die Organisation NoncharacterLeaks aka InternalCharacterLeaks. :-( Lieben Gruß —LiliCharlie (Disk.) 14:35, 4. Sep. 2016 (CEST)

Zwischenstand

Danke für eure Antworten bisher. Ich hätte ja nicht gedacht, dass meine Frage so eine intensive Diskussion auslöst. :-o
Den Abschnitt in der FAQ ("but as of 2001, when the need for more BMP noncharacters became apparent") fand ich wenig befriedigend, da dort ja nicht steht, was denn genau den Bedarf ("need") für diese Noncharacters auslöste.
Die 2. Erklärung ("For example, they might be used internally as a particular kind of object placeholder in a string. Or they might be used in a collation tailoring as a target for a weighting that comes between weights for "real" characters of different scripts, thus simplifying the support of "alphabetic index" implementations." fand ich da schon hilfreicher. Aber da macht es mich neugierig, ob es wirklich ein Programm (oder eine Unicode-Library) gibt, das diese Zeichen zu diesem Zwecke gebraucht. Weiß da jemand Genaueres?
--RokerHRO (Diskussion) 20:34, 4. Sep. 2016 (CEST)
Das ist auch echt ein ziemlich kryptisches Thema bei unicode.org. von den FAQs und den Antworten dzu mal abgesehen, gibt es wohl keine zusammengefasste Dokumentation oder Definition, was noncharacters sind oder bezwecken sollen. Einen Objektersetzungszeichen gibt es auch im Unicodeblock Spezielles unter U+FFFC. Ich versuche gerade, den "Unicode Technical Standard Nr. 10" zu kapieren. Insbesondere, was mit "collation tailoring" (dt. etwa "Zuschneiden der Sortierung") gemeint ist und was die Nonchars da bezwecken sollen. ÅñŧóñŜûŝî (Ð) 23:52, 4. Sep. 2016 (CEST)
@Antonsusi: Im UTS #35, in dem es ebenfalls um collation geht, gibt es im letzten Kapitel mehrere Sätze, in denen ein Gebrauch von U+FDD0 (dem ersten noncharacter im Block Arabic Presentation Forms-A) beschrieben wird. Lieben Gruß —LiliCharlie (Disk.) 00:45, 5. Sep. 2016 (CEST)