Para quienes sienten que la voz de la IA "suena demasiado mecánica", es posible que aún estén utilizando una generación antigua de TTS. Gemini 3.1 Flash TTS, presentado por Google en abril de 2026, es un modelo de síntesis de voz que permite indicar con detalle emociones, ritmo y volumen mediante texto.
En este artículo explicaremos sus fundamentos, características, modo de uso y cómo aprovechar la voz de IA en vídeos.
Parte 1. ¿Qué es Gemini 3.1 Flash TTS? Resumen básico
Gemini 3.1 Flash TTS es un modelo de IA dedicado a la síntesis de voz (TTS) lanzado por Google el 15 de abril de 2026. Está disponible a través de Google AI Studio, Gemini API y Vertex AI, y actualmente se ofrece en versión preliminar.
En el benchmark de calidad de voz AI (Artificial Analysis Elo Score), registró el segundo puesto mundial con 1,211 puntos, situándose al nivel de modelos TTS como ElevenLabs y OpenAI.
Su característica principal son más de 200 etiquetas de voz. Basta con incluir en el texto indicaciones como [lentamente] o [susurrando] para que la IA modifique el tono y la interpretación de la lectura. La diferencia fundamental respecto a los TTS tradicionales es que no se "elige una voz", sino que se "indica la interpretación".
Parte 2. Características y rendimiento de Gemini 3.1 Flash TTS
Naturalidad en la narración en japonés
El japonés está dentro del grupo de idiomas de alta calidad (24 idiomas) entre los 70 idiomas soportados por Gemini 3.1 Flash TTS. El acento y las pausas naturales han mejorado notablemente respecto a generaciones anteriores, alcanzando un nivel práctico para narraciones. Sin embargo, pueden ocurrir errores en la lectura de términos técnicos y nombres propios, por lo que en contenido importante se recomienda verificar previamente.
Comparación con modelos anteriores
| Ítems comparativos | Gemini 2.5 Flash TTS (antiguo) | Gemini 3.1 Flash TTS (nuevo) |
|---|---|---|
| Modulación y pausas | Relativamente plano | Oscila naturalmente según el contexto |
| Adherencia a etiquetas de voz | Solo parcialmente reflejado | El tono cambia fielmente según la indicación |
| Expresión emocional | Reservada | Puede expresar susurros, suspiros y risas |
| Multi-voz | Requiere generar y unir varias veces | Soporta hasta 2 hablantes en una sola solicitud |
Además, todas las voces generadas incluyen de forma automática una marca digital llamada SynthID, que permite identificar el contenido generado por IA.
Parte 3. Cómo usar Gemini 3.1 Flash TTS [Para principiantes]
Procedimiento de uso
Para comenzar, Google AI Studio es una opción sencilla y gratuita si se tiene cuenta de Google.
- Iniciar sesión en Google AI Studio
- Abrir el menú "Speech and Music"
- Seleccionar el modelo "Gemini 3.1 Flash TTS Preview"
- Elegir una voz entre 30 opciones
- Ingresar texto, reproducir y descargar WAV
Al incluir etiquetas de voz como [con cuidado] o [lentamente] en el texto, el tono cambia.
Sobre tarifas
Se puede probar dentro del límite gratuito de Google AI Studio (con limitación de tasa). El precio de referencia en plan de pago es $20.00 por 1 millón de tokens de salida de voz. La generación de narración de 1 minuto cuesta aproximadamente entre 3 y 5 yenes.
Parte 4. Ventajas y precauciones de Gemini 3.1 Flash TTS
Ventajas
- Incluye el japonés en el grupo de idiomas de alta calidad, útil para narración inmediata
- Permite controlar con detalle emociones y estilos mediante más de 200 etiquetas de voz
- Puede generar diálogo con 2 hablantes en una sola solicitud (soporte multi-voz)
- La marca digital SynthID facilita el cumplimiento normativo
Precauciones
- Al ser versión preliminar, las especificaciones y tarifas pueden cambiar
- La salida es solo en formato WAV, se requiere herramienta externa para convertir a MP3
- Se debe verificar la última normativa de uso de Gemini API para confirmar si es posible el uso comercial
Parte 5. Cómo aprovechar la voz de IA en vídeos|Herramienta recomendada para crear vídeos fácilmente para principiantes - Edimakor
Aunque se pueda generar un archivo de voz con Gemini 3.1 Flash TTS, eso solo no completa el contenido de vídeo. Es necesario un proceso de edición que incluya añadir subtítulos, música de fondo y sincronizar con las imágenes.
El software que permite realizar todo este flujo en un solo entorno es HitPaw Edimakor.
1 Desde la lectura de texto hasta la edición de vídeo en un solo paquete
Edimakor es un software de edición de vídeo que integra generación de voz IA, creación de subtítulos y edición de vídeo en una sola interfaz. Permite importar archivos WAV generados externamente para editarlos, así como generar narración directamente mediante la función interna de lectura de texto.
Actualmente, la función de lectura de texto de Edimakor utiliza ElevenLabs V3, conocido por su naturalidad extremadamente cercana a la voz humana y su rica expresión emocional. Se puede usar en una amplia variedad de aplicaciones como:
- Narración de vídeos y producción de audiolibros
- Asistentes de voz IA y soporte al cliente
- Localización de contenidos multilingües
- Producción de voces para personajes de juegos
2 Creación conjunta de subtítulos, BGM e imágenes
La función de subtítulos IA de Edimakor genera automáticamente texto sincronizado en la línea de tiempo a partir del audio. Soporta más de 120 idiomas, facilitando añadir subtítulos en inglés a narraciones en japonés para distribución multilingüe. La música de fondo puede seleccionarse de la biblioteca interna o importarse desde archivos externos.
3 Operación sencilla incluso para principiantes
El flujo es simple: ordenar materiales mediante arrastrar y soltar, y delegar las partes que puedan ser realizadas por IA. Es útil para la producción de narraciones en cursos online o la creación masiva de vídeos cortos para YouTube, con amplio rango de usos.
4 Compatibilidad con voces IA de alta precisión
Además de ElevenLabs V3, Edimakor incluye más de 80 idiomas y más de 1,000 voces IA. Se puede elegir libremente entre voces alegres, calmadas, infantiles, etc., para adecuar el tono al contenido.
Parte 6. Preguntas frecuentes sobre Gemini 3.1 Flash TTS
R1: Es un modelo de IA dedicado a la síntesis de voz lanzado por Google en abril de 2026. Soporta más de 70 idiomas y más de 200 etiquetas de voz, y está disponible desde Google AI Studio y Gemini API.
R2: El japonés está en el grupo de idiomas de alta calidad, con mejoras significativas en acento y pausas. Pueden darse errores en términos técnicos, por lo que se recomienda verificar antes de la entrega.
R3: Su mayor diferenciación es la posibilidad de escribir directamente indicaciones de emoción y estilo en el texto mediante "etiquetas de voz". También destaca la función multi-voz que permite generar diálogos naturales con 2 hablantes en una sola solicitud.
R4: Por ahora, es posible dentro de los términos de uso de Gemini API. Al ser versión preliminar, se debe revisar siempre la documentación oficial más reciente para confirmar las condiciones.
Resumen
Gemini 3.1 Flash TTS es un modelo de síntesis de voz IA con nivel práctico. Para convertir la voz generada en contenido de vídeo finalizado, es importante combinarlo con herramientas de edición.
HitPaw Edimakor permite gestionar desde la generación de voz IA hasta la creación de subtítulos y edición de imágenes en un solo paquete, por lo que quienes consideren usar voz IA deberían revisarlo sin falta.
Deja un Comentario
Crea tu opinión sobre los artículos de HitPaw