![]() |
ISCApad Archive » 2025 » ISCApad #321 » Resources » Database » Corpus Les Vocaux version 0.0.2, Ortolang |
ISCApad #321 |
Sunday, March 09, 2025 by Chris Wellekens |
Nous avons le plaisir de vous annoncer la publication de la nouvelle version du corpus Les Vocaux version 0.0.2, librement téléchargeable sur Ortolang à l’adresse suivante :
https://www.ortolang.fr/market/corpora/lesvocaux
Contenu de cette version : La version 0.0.2 contient la totalité du corpus, soit 1196 fichiers audio provenant des deux collectes (dont la totalité de la campagne 2021, y compris les extraits). Ces fichiers totalisent une durée de 19h32min49sec, correspondant à plus de 240 000 tokens transcrits. Chaque fichier correspond à un vocal authentique (sauf les extraits de la campagne 2021, identifiés comme tels dans le nom de fichier même et dans les métadonnées). Ces 1196 vocaux constituent la version complète finale du corpus (campagne 2021 et 2022). Certains vocaux reçus ont été écartés de l’étude pour diverses raisons (par ex. présence d’un autre locuteur dans l’enregistrement). Les métadonnées ont été également enrichies par rapport à la précédente version (voir section 8).
Cette livraison inclut :
Les fichiers .wav et .txt portent exactement le même nom, dans lequel le premier nombre correspond à l’identifiant locuteur, le deuxième nombre permet d’identifier de manière unique le vocal par un numéro (IDloc_NumVocal)
Note : le corpus étant toujours en cours d’édition, la version distribuée doit être considérée comme une version « alpha » provisoire. Certains choix éditoriaux sont susceptibles d’être modifiés (outre les corrections d’erreurs manifestes). Il convient ainsi de veiller à citer explicitement la version du corpus utilisée pour toute recherche.
Changements depuis la version 0.0.1 La version V.0.0.1 ne contenait que 10h de données. Cette nouvelle version contient la totalité du corpus. Les métadonnées ont été enrichies de plusieurs informations complémentaires (voir section 8 du guide). En outre, un certain nombre de problèmes ont été corrigés pour l’ensemble du corpus (y compris les fichiers déjà présents dans la version précédente) :
|
![]() | Back | ![]() | Top |