[MAJ] CODAGE ISO - encodage UTF-8 dans URL.. comprends pas.

CODAGE ISO - encodage UTF-8 dans URL.. comprends pas. [MAJ] - Divers - Programmation

Marsh Posté le 30-05-2003 à 11:53:57    

hello.
j'ai un petit problème pour comprendre l'encodage UTF 8.
en effet, d'après ce site http://terroirs.denfrance.free.fr/ [...] utf-8.html , le codage de 'é' en utf-8 est "233" en décimal, soit "0xE9" en hexadecimal.
or si je vais sur http://www.google.com (site encodé en UTF-8), et  que je tappe

Code :
  1. é

dans le champ de saisie, puis que je valide, dans l'URL de résultat, il y a %C3%E9 en lieu et place du é.
d'où vient le %C3 ?
é étant un caractère non standard, il est codé sur 2 octets en UTF-8, sous la forme

Code :
  1. 110bbbbb 10bbbbbb

, où 'b' est un bit. Mais j'avoue que je comprends pas très bien la divergence entre ce qu'il y a dans la table et ce qu'on trouve dans l'URL...  :sweat:  
quelqu'un, d'expert ou pas, peut m'aider ??
 :hello:


Message édité par rui le 05-06-2003 à 14:16:32
Reply

Marsh Posté le 30-05-2003 à 11:53:57   

Reply

Marsh Posté le 30-05-2003 à 12:08:31    

rui a écrit :

le codage de 'é' en utf-8 est "233" en décimal, soit "0xE9" en hexadecimal.
 


 
non le é en UTF8 c'est 0xC3 0xA9 (les caractères autre que l'ASCII 7 bits sont stockés sur 2 ou 3 octets)


Message édité par antp le 30-05-2003 à 12:08:47

---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 30-05-2003 à 14:56:48    

antp a écrit :


 
non le é en UTF8 c'est 0xC3 0xA9 (les caractères autre que l'ASCII 7 bits sont stockés sur 2 ou 3 octets)


oui ça je l'avais compris..
ce que je ne captais pas est pourquoi dans ce cas, le site sus-nommé indiquait une valeur décimale qui ne correspond pas dans son tableau..
 
d'après ce que tu me dit, ue fois l'ascii 7 bits épuisé, on met %C3 et hop on continue à incrémenter le code ? as-tu une table de l'unicode qui soit claire ?  
merci et désolé pour mes harcèlements de newbie.. :D :D

Reply

Marsh Posté le 30-05-2003 à 15:01:15    

non, pas spécialement C3
tout ce qui est entre 80 et FF annonce que le ou les octets suivants constituent la suite du caractère
ftp://ftp.rfc-editor.org/in-notes/rfc2279.txt


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 30-05-2003 à 15:29:34    

quel gosu ce antp quand meme :)

Reply

Marsh Posté le 30-05-2003 à 17:57:23    

merci de ton aide antp  :hello:

Reply

Marsh Posté le 05-06-2003 à 14:32:37    

heelo.
j'ai a nouveau un probleme d'encode..avec de l'ISO cette fois :D
un browser me renvoie en paramètre d'URL depuis une zone de saisie en ISO 8859-1, en guise de 'é' le code '%e9' .
or le code généralement trouvé dans les tables est '%E9'
dois-je considérer que ce browser ne respecte pas le standard ?
a quels documents precis/rfcs se référer sur ce point precis?
 
merci :hello:

Reply

Marsh Posté le 05-06-2003 à 14:58:47    

En général les codes en hexa ne sont pas case-sensitive il me semble


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 05-06-2003 à 14:59:45    

http://www.google.com/search?q=rfc [...] 8&oe=utf-8
 
1er résultat:

Citation :


URL encoding of a character consists of a "%" symbol, followed by the two-digit hexadecimal representation (case-insensitive) of the ISO-Latin code point for the character.


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 05-06-2003 à 17:27:28    

antp a écrit :

http://www.google.com/search?q=rfc [...] 8&oe=utf-8
 
1er résultat:

Citation :


URL encoding of a character consists of a "%" symbol, followed by the two-digit hexadecimal representation (case-insensitive) of the ISO-Latin code point for the character.




 
merci.  :love:  
j'ai honte, j'ai pourtant cherché sur google avant et sur le site de l'isoc  :sweat: , j'ai de meme consulté la RFC de l'utf8 au cas ou.. ftp://ftp.rfc-editor.org/in-notes/rfc2279.txt  
en fait j'avais pas pensé que c'était du domaine de l'URL encoding mais du character set ...
encore merci  :hello:


Message édité par rui le 05-06-2003 à 17:29:44
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed