
Muy atentos, nueva función de Gemini 2.5: Native Speech Generation!
Pero ¿Qué es Native Speech Generation?
En mayo de 2025, Google presentó en su evento I/O una de sus funciones más destacadas: la generación nativa de voz (Native Speech Generation), integrada en Gemini 2.5 y disponible directamente desde Google AI Studio.
Native Speech Generation es una tecnología de texto a voz (TTS) que permite convertir texto en audio de forma natural, expresiva y personalizable. No solo transforma el texto en voz, sino que lo hace controlando el estilo, el tono y las emociones mediante instrucciones escritas en lenguaje natural. Por ejemplo, puedes pedir que la voz suene “alegre”, “seria”, “susurrando” o con un acento específico.
Además, ofrece dos modos de generación:
•
Single-speaker: la narración completa es realizada por una sola voz.
•
Multi-speaker: permite combinar hasta dos voces diferentes en un mismo audio, ideal para diálogos, podcasts o narraciones más dinámicas.
Principales ventajas
•
Calidad de audio en alta definición y baja latencia, ideal para respuestas en tiempo real.
•
Narraciones naturales: con pausas, ritmo y entonación similares al habla humana.
•
Aplicaciones accesibles: mejora la lectura de contenido para personas con discapacidad visual.
•
Multilingüe y con variedad de acentos, adaptado a un mundo global.
•
Integración directa en el flujo de trabajo dentro de Google AI Studio, sin necesidad de herramientas externas.
¿Por qué es tan relevante?
A diferencia de las voces robóticas del pasado, esta tecnología logra un nivel de realismo impresionante. Gracias al uso de redes neuronales avanzadas y aprendizaje profundo, las voces no solo suenan claras, sino también humanas y emocionales. Esto abre un mundo de posibilidades para desarrolladores, creadores de contenido, educadores y proyectos inclusivos.
Hoy te vamos a enseñar, como utilizar esta fantástica herramienta, de forma sencilla, accesible y totalmente gratuita.