Webrichtlijnen versie 2 - Succescriterium U.8.1 Specificeer UTF-8

Principe Universeel - Creëer content die betekenisvol, voor iedereen bruikbaar, uitwisselbaar en duurzaam is

Richtlijn U.8 Identificatie van tekens en symbolen: Specificeer karaktercodering

Bedoeling van Richtlijn U.8

Karaktercodering (character encoding) is een term voor een mechanisme dat achter de schermen van vrijwel ieder digitaal document plaatsvindt. Het vertelt een computer uit welke karakters (letters, cijfers, punctuatietekens, enzovoort) een document is opgebouwd: bytes worden vertaald naar karakters en andersom.

Bij uitwisseling van informatie is van belang dat duidelijk is welke karaktercodering is gebruikt en dat de karaktercodering overeen stemt met de context waarbinnen de uitgewisselde informatie wordt gebruikt.

Succescriterium U.8.1 Specificeer UTF-8

U.8.1 Specificeer UTF-8: Specificeer voor tekstuele content die door middel van een opmaaktaal is vastgelegd de UTF-8 karakterset. (Niveau A)

Niveau van conformiteit

A

Bedoeling van dit Succescriterium

Veel karaktersets hebben karakters die ook voorkomen in andere karaktersets, maar die op een andere manier zijn gedefinieerd. Daarnaast bevatten de meeste karaktersets slechts een deel van de karakters die in verschillende talen in gebruik zijn. Wanneer content karakters bevat die niet in de gespecificeerde karakterset voorkomen, of op een andere wijze zijn gedefinieerd, kunnen al snel problemen ontstaan met de consistentie - en de conversie - van content. Teksten waarbij letters met een trema of een accent in de browser zijn vervangen door onverklaarbare tekens of vraagtekens zijn daarvan het gevolg.

Met de UTF-8 karakterset kan elk karakter in de internationale standaard ISO/IEC 10646 worden weergegeven. Deze internationale standaard is ontwikkeld in nauwe samenwerking met het Unicode Consortium.

Een ander kenmerk is dat alle 128 tekens in de veel gebruikte ASCII karakterset exact overeenkomen met de eerste 128 tekens in UTF-8.

Consequente toepassing van de UTF-8 karakterset is een geschikt middel om de consistentie van content te borgen en meertaligheid te ondersteunen.

Opmerking: Niet alle contentformaten ondersteunen UTF-8 even goed. Dat is onder meer het geval bij eerdere versies van Microsoft Office documentformaten en eerdere versies van PDF. Daarom is het bereik van dit succescriterium beperkt tot opmaaktalen.
Aangeraden wordt om, indien de mogelijkheid beschikbaar is, altijd te kiezen voor de UTF-8 karakterset.

Definities
content (webcontent)

informatie en zintuiglijke ervaring die aan de gebruiker doorgegeven wordt door middel van een user agent, met inbegrip van code of opmaak die de structuur, presentatie en interacties van de content definieert

karakterset

systeem dat bestaat uit een code waarmee karakters uit een bepaalde lijst worden gekoppeld aan een reeks getallen, octetten of elektrische pulsen en dat is bedoeld voor de overdracht van tekstuele content via telecommunicatienetwerken, of de opslag van tekstuele content door computers.

opmaaktaal (markup language)

formele manier om content te annoteren, gebruik makend van in de content aangebrachte markeringen waarmee de structuur en betekenis worden vastgelegd. Deze markeringen bieden een user agent informatie over hoe de content dient te worden verwerkt en weergegeven

Voldoen aan succescriterium U.8.1 Specificeer UTF-8 (niveau A)

Afdoende technieken: technieken of combinaties van technieken die volstaan

Elk genummerd item in deze sectie staat voor een techniek of combinatie van technieken die afdoende wordt beschouwd om aan dit succescriterium te voldoen. Met de genoemde technieken wordt pas aan het succescriterium voldaan indien ze in overeenstemming zijn met de conformiteitseisen.

  1. Hu5: De UTF-8 karakterset is zowel via HTTP headers gespecificeerd als door middel van een meta element, waarbij het meta element zo hoog mogelijk in de head sectie van de opmaaktaal is geplaatst (HTML)

Gangbare fouten: praktijksituaties die veroorzaken dat webcontent niet voldoet

Als een 'gangbare fout' uit deze sectie van toepassing is, dan wordt niet aan het succescriterium voldaan.

  • Fu19: Gangbare fout voor succescriterium U.8.1 doordat in de webcontent en via HTTP headers karaktersets zijn gespecificeerd die niet gelijk zijn aan elkaar

  • Fu21: Gangbare fout voor succescriterium U.8.1 doordat een bestand in UTF-8 formaat is opgeslagen met een Unicode byte-order mark (BOM)

Normatieve content op deze pagina

De volgende content op deze pagina heeft de status 'normatief' en is ongewijzigd overgenomen uit het normdocument Webrichtlijnen versie 2: