Discussion aide:Unicode

Urgent

Remplissage urgent par quelqu'un qui s'y connait (à cause de {{Msg:Unicode}} qui fait appel à cet article et qui commence à être utilisé par quelques articles, comme Langue japonaise). Ploum's 24 fév 2004 à 19:35 (CET)

C'était prévu et c'est fait (je n'allais pas lancer comme cela un

message

sans qu'il soit pertinent). Vincent 24 fév 2004 à 20:10 (CET)

Total respect ! C'est mieux que pertinent. C'était préparé. Je m'incline. Ploum's 24 fév 2004 à 20:15 (CET)

Je n'ai fait que mon devoir, Général. Vincent

A ce titre, et au nom de ~~la nation~~Wikipedia reconnaissante, je te décerne une décoration en chocolat. Ploum's 24 fév 2004 à 20:28 (CET)

Merci. Vincent

On pourrait faire un page de test unicode commune a toute les langues, non ? A☮ineko 27 fév 2004 à 02:27 (CET)

Toutes ? Cela me semble irréalisable (et puis : comment teste-t-on les langues CJK ?). Pour les principales écritures, oui, mais il faut les séparer. Vincent 27 fév 2004 à 06:44 (CET)

En fait, c'est surtout pour tester les fontes de caractères. Dans un premier temps, mettre des phrases dans les principales langues utilisant l'Unicode (chinois, japonais, russe, grec, etc.). Pour l'arabe c'est un peu particulier a cause du moteur de rendu, mais sinon, je vois pas le problème. A☮ineko 27 fév 2004 à 06:52 (CET)

Le problème est qu'il faudra faire de même que pour l'arabe avec les écritures de l'Inde à variantes contextuelles... Sinon, j'ai une page de test plus générale sur mon site web ( http://sivanataraja.free.fr/config/test.htm ) dont je peux réutiliser le système. Vincent 27 fév 2004 à 07:12 (CET)

Oui, il y a un certain nombre de langue qui necessite un traitement speciale, mais la page de teste general pourrait servir pour toutes les autres. Sympa ta page! On peux l'utiliser ? A☮ineko 27 fév 2004 à 07:54 (CET)

Bien sûr ! Je peux en pondre d'autres comme cela facilement. On peut aussi se servir du I can eat glass, du moins un peu. J'y ai participé et ai fourni quelques exemples. Vincent 27 fév 2004 à 09:50 (CET)

C'est justement la page que je coulais retrouvé :o) On peux reprendre librement les exemples ? A☮ineko 27 fév 2004 à 09:57 (CET)

Pas sûr. Il vaut mieux demander (Frank da Cruz est quelqu'un de très sympa). Le problème, c'est que les exemples ne contiennent pas forcément les caractères de blocs importants (comme les diacritiques sans chasse). Vincent 27 fév 2004 à 12:35 (CET)

Code	ISO-8859-1	Unicode	Equivalent	Unicode
128	Ç		199	Ç
129	ü		252	ü
130	é		233	é
131	â		226	â
132	ä		228	ä
133	à		224	à
134	å		229	å
135	ç		231	ç
136	ê		234	ê
137	ë		235	ë
138	è		232	è
139	ï		239	ï
140	î		238	î
141	ì		236	ì
142	Ä		196	Ä
143	Å		197	Å
144	É		201	É
145	æ		230	æ
146	Æ		198	Æ
147	ô		244	ô
148	ö		246	ö
149	ò		242	ò
150	û		251	û
151	ù		249	ù
152	ÿ		255	ÿ
153	Ö		214	Ö
154	Ü		220	Ü
155	ø		248	ø
156	£		163	£
157	Ø		216	Ø
158	×		215	×
159			402	ƒ
160	á		225	á
161	í	¡	237	í
162	ó	¢	243	ó
163	ú	£	250	ú
164	ñ	¤	241	ñ
165	Ñ	¥	209	Ñ
166	ª	¦
167	º	§	186	º
168	¿	¨	191	¿
169	®	©	174	®
170	¬	ª	172	¬
171	½	«	189	½
172	¼	¬	188	¼
173	¡		161	¡
174	«	®	171	«
175	»	¯	187	»
176	░	°	9617	░
177	▒	±	9618	▒
178	▓	²	9619	▓
179	│	³	9474	│
180	┤	´	9508	┤
181	Á	µ	193	Á
182	Â	¶	194	Â
183	À	·	192	À
184	©	¸	169	©
185	╣	¹	9571	╣
186	║	º	9553	║
187	╗	»	9559	╗
188	╝	¼	9565	╝
189	¢	½	162	¢
190	¥	¾	165	¥
191	┐	¿	9488	┐
192	└	À	9492	└
193	┴	Á	9524	┴
194	┬	Â	9516	┬
195	├	Ã	9500	├
196	─	Ä	9472	─
197	┼	Å	9532	┼
198	ã	Æ	227	ã
199	Ã	Ç	195	Ã
200	╚	È	9562	╚
201	Ð	É	208	Ð
202	╩	Ê	9577	╩
203	╦	Ë	9574	╦
204	╠	Ì	9568	╠
205	═	Í	9552	═
206	╬	Î	9580	╬
207	¤	Ï	164	¤
208	ð	Ð	xf0	ð
209	Ð	Ñ	x110	Đ
210	Ê	Ò	xca	Ê
211	Ë	Ó	xcb	Ë
212	È	Ô	xc8	È
213	ı	Õ	305	ı
214	Í	Ö	205	Í
215	Î	×	206	Î
216	Ï	Ø	207	Ï
217	┘	Ù	9496	┘
218	┌	Ú	9484	┌
219	█	Û	9608	█
220	▄	Ü	9604	▄
221	¦	Ý	254f ?	&#x254f ?
222	Ì	Þ	204	Ì
223	▀	ß	9600	▀
224	Ó	à	211	Ó
225	ß	á	223	ß
226	Ô	â	212	Ô
227	Ò	ã	210	Ò
228	õ	ä	245	õ
229	Õ	å	213	Õ
230	µ	æ	x3bc	μ
231	þ	ç	254	þ
232	Þ	è	222	Þ
233	Ú	é	217	Ú
234	Û	ê	219	Û
235	Ù	ë	218	Ù
236	ý	ì	253	ý
237	Ý	í	221	Ý
238	¯	î
239	´	ï
240		ð
241	±	ñ
242	‗	ò	8215	‗
243	¾	ó
244	¶	ô
245	§	õ
246	÷	ö
247	¸	÷
248	°	ø
249	¨	ù
250	·	ú
251	¹	û
252	³	ü
253	²	ý
254	■	þ	9632	■
255		ÿ

un lien : http://www.natural-innovations.com/wa/doc-charset.html

Note : le texte ci-dessous a été déplacé depuis le Bistro de Wikipédia. Ryo 11 mar 2004 à 10:02 (CET)

Passage à l'UTF-8

Bonjour, pour le passage à l'UTF-8, il faudra que le site soit inaccessible (au moins en écriture) pendant le temps du transfert. De plus, tous les caractères actuellement codé entre 128-255 qui ne sont pas égale entre ISO-8859-1 et UTF-8 devrons être corrigé par un ou des bots dans les plus brefs délais. Je vais essayer de faire la liste des caractères à corriger. A☮ineko 10 mar 2004 à 03:07 (CET)

Voila, j'ai fait le tableau de comparaison sur la page Discussion Wikipédia:Unicode. Tous les caractères de gauche seront affichés comme dans la colonne de droite après passage à l'UTF-8. Il faut donc trouver leurs équivalents Unicode. Je pense que dans le tas, seul une 20e~30e doivent être utilisé. Si quelqu'un peu m'aider, ça sera avec plaisir. A☮ineko 10 mar 2004 à 03:38 (CET)

Logiquement HasharBot est bilingue iso-8859-1 / UTF-8 et devrait pouvoir convertir les articles sans aucun problème. Il faudra que je fasse quelques tests. Ashar Voultoiz 10 mar 2004 à 08:10 (CET)

En fait, apparemment, la conversion serait fait automatiquement lors du switch. Par contre, il restera peut-être les entité HTML, du genre &#abcd;, a reconvertir en caractères Unicode. J'attends des nouvelles sur la ML technique. Je suis assez mauvais en anglais (qui a dit "en français aussi" !), et ça serait vraiment bien que d'autre s'inscrivent sur les ML pour transmettre nos interrogations et nos doléances. A☮ineko 10 mar 2004 à 08:49 (CET)

Ce n'est pas nécessaire de convertir les entités HTML... Elles n'utilisent que des caractères ASCII (code < 128/80h) donc elles sont 100% compatibles avec UTF8. Ce qui pose problème ce sont les caractères dans le code source HTML dont le numéro est supérieur à 128 dans une page de code donnée, ici ISO 8859-1. «é» n'a pas à être converti, pas plus que «&2345;» ; seuls les caractères binaires du genre «é» ont besoin d'être convertis, et seuls les caractères binaires non-prévus par la norme ISO 8859-1 du genre «œ» peuvent éventuellement poser problème et demander des corrections manuelles. JX Bardant 10 mar 2004 à 12:13 (CET)

D'après ce que j'ai compris, le passage à l'UTF8 est simple, mais lent. Il faut passer toutes les pages par un script qui convertit en UTF-8. Puis après relancer les scripts de reconstruction des liens (méthode la plus simple) Shai 10 mar 2004 à 10:15 (CET)

Oui, c'est simple en théorie... Je pense qu'il serait bien de tester d'abord. On notera que le processus rend la base de donnée innaccesible durant un temps. Beatnick

Et concernant l'affichage correct des caractères ? Personnellement, j'ai quand même quelques problemes avec mon IE 6 sous XP. Ne serait-il pas utile d'indiquer quelque part où trouver les plug-ins necessaires s'ils existent ? Traroth 10 mar 2004 à 11:18 (CET)

Bonjour, les entités HTML, du genre &#abcd;, n'ont pas besoin d'etre converties. Elles s'affichent correctement sous n'importe quel encodage.
En revanche, il est indispensable de corriger les entites illegales Windows qui existent actuellement dans le code:

apostrophes,
oe lié,
points de suspension,
tirets longs,
guillemets anglais, etc.

Vargenau 10 mar 2004 à 12:06 (CET)

La liste des caractères à problèmes est donnée dans l'article ISO 8859-1 au chapitre ISO-8859-1 vs Windows ANSI. Il s'agit des caractères de 80h à 9Fh (128 à 159). JX Bardant 10 mar 2004 à 12:28 (CET)

Je sais, c'est moi qui ai cree l'article ISO 8859-1 (a partir de l'anglais) :-)

Eh bien, bravo pour la cohérence de tes propos :-) JX Bardant 10 mar 2004 à 13:52 (CET)

En resume : Qui lance le robot pour corriger ? Vargenau 10 mar 2004 à 13:31 (CET)

J'ai pas dit, il faudra convertir les entités HTML, mais je prefereai. Quite a passer a l'UTF-8, j'aimerai bien que le source des pages pleines de caracteres japonais deviennes lisible sans que j'ai tout a retaper. A☮ineko 10 mar 2004 à 14:42 (CET)

Je ne suis pas sur que ce soit une bonne idee de convertir toutes les entites HTML. Je suis capable de corriger du grec s'il est ecrit αβ. C'est beaucoup plus difficile si les caracteres sont en UTF-8. Il faut en discuter. Vargenau 10 mar 2004 à 15:19 (CET)

En fait tu pourras toujours saisir du grec sous la forme α, même si la conversion est faite... L'entité α reste valide quel que soit le codage... Par contre c'est vraiment plus difficile de lire «αβγ» que «αβγ». Je crois qu'on a intérêt à convertir systématiquement en «binaire» les caractères saisis pour être stockés (saisi comme «α» => stocké comme «α»). Dans l'autre sens, les seuls caractères qu'on devrait toujours afficher dans la zone d'édition sous forme d'entité HTML sont ceux du type espace insécable, puisqu'on ne peut pas faire la différence à l'œil. JX Bardant 10 mar 2004 à 16:05 (CET)