CineTTS
Intégrée à Cinetwork, cette fonctionnalité génère une lecture audio neuronale des scénarios pour l'entraînement des acteurs.
Vue d’ensemble
Une fonctionnalité de production intégrée à la plateforme Cinetwork, convertissant les scénarios de films et séries en flux audio multi-personnages grâce à la synthèse vocale neuronale.
Enjeux
Cinetwork équipe des productions majeures (TF1, Netflix, France TV). Les comédiens ont besoin d’outils de répétition réalistes. Contrairement aux voix robotiques classiques, CineTTS offre des voix naturelles et nuancées, permettant aux acteurs de mémoriser leurs textes et de saisir le rythme d’une scène avant le tournage.
Fonctionnalités clés
- Qualité neuronale : Utilisation de voix quasi-humaines (via ElevenLabs) pour une expérience d’écoute agréable, bien supérieure aux voix système standard.
- Casting vocal cohérent : Attribution manuelle des voix aux personnages pour maintenir la continuité audio d’un épisode à l’autre.
- Mode répétition : Fonctionnalité de “mute” sélectif permettant à l’acteur de couper les répliques de son personnage pour s’exercer avec l’audio.
Dispositif technique
- Parsing intelligent : Extraction des dialogues et métadonnées depuis des sources PDF/Final Draft pour l’assignation dynamique des voix.
- Diffusion streaming : Lecture audio intégrée directement dans l’application web sécurisée, évitant les fuites de fichiers.
- Rythme : Gestion des temps de pause et de l’enchaînement naturel des répliques via le modèle externe.
Rôle
Développeur Lead de la fonctionnalité. Gestion du pipeline complet, de l’extraction du texte à la génération audio et l’interface lecteur.
Bilan
- Validation utilisateur : Retours qualitatifs de dizaines de comédiens confirmant que la qualité “naturelle” transforme leur processus de répétition.
- Livraison rapide : Prototypé et déployé en version bêta en avance sur le planning.
Tech stack
TypeScript, Next.js, ElevenLabs SDK