Le W3C, consortium dédié au développement et à la promotion des standards web, recommande les spécifications Voice XML 2.1 (Voice Extensible Markup Language) et SISR 1.0 (Semantic Interpretation for Speech Recognition). Ces dernières permettent d'enrichir les fonctionnalités des navigateurs vocaux et des systèmes de reconnaissance vocale.
Dans un souci d'interopérabilité, VoiceXML 2.1 étend le langage VoiceXML 2.0 avec : des références dynamiques aux syntaxes et scripts, la détection de l'interaction utilisateur lors d'une annonce vocale et le traitement d'ensembles de données multiples depuis le serveur en accès unique. A noter : toutes les applications VoiceXML 2.0 fonctionneront sous VoiceXML 2.1 « sans modification aucune », précise le consortium dans un communiqué daté du 19 juin 2007. Quant à la SISR 1.0, spécification d'interprétation sémantique pour la reconnaissance de la parole, elle permet aux développeurs « d'extraire et de traduire des représentations textuelles de mots identifiés par un système de reconnaissance vocale et d'en structurer le résultat dans un format adapté au traitement par une application vocale ».
Bien entendu, l'interface vocale du W3C utilise ces standards, mais aussi SRGS 1.0 (grammaire de reconnaissance de la parole) et SSML 1.0 (langage de synthèse vocale). D'autres spécifications comme CCXML (contrôle d'appel de navigateur vocal), PLS 1.0 (lexique de prononciation version 1.0) et la version 1.1 de SSML viendront prochainement compléter la plate-forme avant d'être recommandées (standardisées) afin que celles-ci soient largement adoptées par l'industrie. Enfin, le groupe 'navigateur vocal' du W3C (Deutsche Telecom, , HP, , Matsushita, Toshiba, Voxeo, Voxpilot...) travaille actuellement au développement des standards VoiceXML 3.0 et SCXML.
Dirigé par le britannique Tim Berners-Lee, le World Wide Web Consortium est piloté conjointement par le MIT (Etats-Unis), l'ERCIM (France) et l'Université de Keio au Japon.