Cómo armar un traductor voz a voz entre 70+ idiomas en 30 minutos con Gemini 3.5 Live Translate

Contexto del día

Cerramos una semana de noticias caras: GitHub Copilot pasó a cobro por tokens y la comunidad reportó facturas de hasta 100 veces más altas, Anthropic presentó su S-1 confidencial, OpenAI llegó a Oracle Cloud, Microsoft firmó el contrato gubernamental más grande de su historia. Mucho marco estratégico, poco código.

Hoy bajamos al nivel del desarrollador. Una sola herramienta, una implementación que cabe en 30 minutos y un fin de semana de práctica.

El caso de la semana: construir un traductor en vivo voz a voz con Gemini 3.5 Live Translate, entre cualquiera de 70+ idiomas, con el caso LATAM más obvio siendo Inglés ↔ Español, pero igual de útil para Portugués, Francés, Japonés o el par que necesites.

🎯 El caso de la semana: Gemini 3.5 Live Translate

Qué es y por qué importa

Google lanzó Gemini 3.5 Live Translate el 9 de junio (hace tres días) en vista previa pública. Es un modelo de audio que hace traducción voz a voz en tiempo real entre más de 70 idiomas, con tres características que lo hacen útil de verdad:

Detecta el idioma automáticamente. No necesitas decirle "esto es inglés, traduce a español". Lo identifica solo.
Preserva entonación, ritmo y tono del hablante. No suena como un robot — suena como tú hablando otro idioma.
Latencia baja sostenida. Se mantiene unos segundos detrás del hablante en lugar de esperar pausas completas.

Precio: US$0.023 por minuto. Una hora de traducción cuesta US$1.38.

Probado con resultados sólidos: Inglés ↔ Español (caso obvio), Portugués (Brasil) ↔ Español, Francés ↔ Español, Italiano ↔ Inglés. La calidad se mantiene consistente entre pares de idiomas, no es "bueno en inglés y regular en el resto", es genuinamente multilingüe.

Por qué este caso importa para LATAM

El problema obvio es Inglés ↔ Español, pero no es el único:

Fundador presenta a inversionistas en EE.UU. y su inglés no es de presentación.
Empresa LATAM expandiéndose a Brasil necesita reuniones fluidas Español ↔ Portugués sin perder matices comerciales.
Equipo de desarrollo en Bogotá atiende cliente empresarial en San Francisco con vocabulario técnico complejo.
Startup LATAM pitcheando a fondos asiáticos (cada vez más común) necesita traducción al japonés, mandarín o coreano.
Soporte regional desde México recibe clientes anglohablantes con preguntas urgentes.
Productores de contenido LATAM quieren alcanzar audiencias en otros idiomas sin doblaje profesional.
Consultoría LATAM participa en comités regulatorios con patrocinadores europeos (francés, italiano, alemán) que dudan del idioma del proveedor.

Hasta ahora, las opciones eran: tener un humano bilingüe en cada conversación (caro), usar Google Translate clásico copiando y pegando (lento, mata el flujo), o forzar el inglés como denominador común y perder matices. Live Translate cambia esa ecuación para cualquier par de los 70+ idiomas soportados.

Cinco escenarios concretos donde se justifica

Presentación a inversionistas. El fundador habla en español natural, el inversionista escucha en inglés (o japonés, o lo que sea) con su tono, ritmo y pausas. El inversionista percibe confianza, no esfuerzo.
Expansión regional Brasil ↔ resto de LATAM. Reuniones comerciales fluidas Español ↔ Portugués sin que ninguna parte tenga que "forzar el otro idioma". Especialmente útil para fintech, retail y SaaS que cruzan la frontera.
Reuniones de soporte entre regiones. El cliente anglohablante explica el problema con todos los detalles técnicos, el equipo de soporte responde en español natural, ambos lados se entienden completamente.
Capacitación interna distribuida en empresas multinacionales. Un especialista en Brasil capacita en portugués, equipos en México y Argentina escuchan en español, oficinas europeas en francés o alemán. Las preguntas se traducen de vuelta en tiempo real.
Atención de comités regulatorios. Procesos de licitación con clientes en idiomas distintos al equipo. Live Translate elimina la fricción y deja la conversación natural.

🛠️ Cómo armarlo en 30 minutos — implementación mínima

❝

Nota de honestidad: este código no salió a la primera. Lo iteré probándolo en mi máquina con varios bugs por el camino. Lo que sigue es la versión que ya funciona — con las gotchas documentadas explícitamente para que no las descubras tú.

Lo que necesitas antes de empezar:

Python 3.10+ (yo usé 3.14 en macOS Apple Silicon)
API key de Google AI Studio (gratis para empezar): https://aistudio.google.com/apikey
Micrófono y parlantes funcionando
Permiso del micrófono otorgado a tu Terminal en macOS (System Settings → Privacy & Security → Microphone)

Paso 1 — Configuración del ambiente (5 minutos)

Si estás en macOS, primero instala la librería C portaudio que usa pyaudio:

bash

brew install portaudio

Sin este paso, la instalación de pyaudio falla con fatal error: 'portaudio.h' file not found.

Después, crea el ambiente virtual y las dependencias:

bash

python3 -m venv translate-env
source translate-env/bin/activate   # o translate-env\Scripts\activate en Windows
pip install google-genai pyaudio

Guarda tu API key como variable de entorno:

bash

export GEMINI_API_KEY="tu-api-key-aqui"

Paso 2 — Verificar la conexión antes de meter audio (5 minutos)

Antes de complicar las cosas con micrófono y parlante, valida que la API y tu key funcionan. Crea test_conexion.py:

python

import asyncio
import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))
MODEL = "gemini-3.5-live-translate-preview"

config = types.LiveConnectConfig(
    response_modalities=[types.Modality.AUDIO],
    translation_config=types.TranslationConfig(
        target_language_code="es",
        echo_target_language=True,
    ),
)

async def main():
    async with client.aio.live.connect(model=MODEL, config=config) as session:
        print("✓ Conexión exitosa")
        print(f"  Modelo: {MODEL}")

if __name__ == "__main__":
    asyncio.run(main())

Ejecuta:

bash

python3 test_conexion.py

Si ves "✓ Conexión exitosa", todo el setup base está bien. Si falla, es problema de API key o red — mucho más fácil de debuguear que envuelto en errores de audio.

Paso 3 — El traductor completo con micrófono (20 minutos)

Crea translator.py con el código completo:

python

import argparse
import asyncio
import os
import struct
import pyaudio
from google import genai
from google.genai import types

# === Configuración global ===
client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))
MODEL = "gemini-3.5-live-translate-preview"

# Formato de audio (según documentación oficial)
FORMAT = pyaudio.paInt16
CHANNELS = 1
SEND_SAMPLE_RATE = 16000     # micrófono → 16 kHz
RECEIVE_SAMPLE_RATE = 24000  # parlante ← 24 kHz
CHUNK_SIZE = 1600            # 100ms a 16kHz (lo que recomienda la doc)

IDIOMAS_COMUNES = {
    "es":      "Español",
    "en":      "English",
    "pt-BR":   "Português (Brasil)",
    "pt-PT":   "Português (Portugal)",
    "fr":      "Français",
    "de":      "Deutsch",
    "it":      "Italiano",
    "ja":      "日本語",
    "ko":      "한국어",
    "zh-Hans": "中文 (Simplified)",
    "ar":      "العربية",
    "hi":      "हिन्दी",
    "ru":      "Русский",
}


class Traductor:
    def __init__(self, target_language: str):
        self.target_language = target_language
        self.config = types.LiveConnectConfig(
            response_modalities=[types.Modality.AUDIO],
            translation_config=types.TranslationConfig(
                target_language_code=target_language,
                echo_target_language=True,
            ),
            input_audio_transcription=types.AudioTranscriptionConfig(),
            output_audio_transcription=types.AudioTranscriptionConfig(),
        )
        self.audio_a_gemini = asyncio.Queue(maxsize=10)
        self.audio_desde_gemini = asyncio.Queue()
        self.session = None
        self.pya = pyaudio.PyAudio()

    async def captura_microfono(self):
        mic_info = self.pya.get_default_input_device_info()
        print(f"📢 Micrófono: {mic_info['name']}")

        stream = await asyncio.to_thread(
            self.pya.open,
            format=FORMAT, channels=CHANNELS, rate=SEND_SAMPLE_RATE,
            input=True, input_device_index=mic_info["index"],
            frames_per_buffer=CHUNK_SIZE,
        )

        chunk_count = 0
        while True:
            data = await asyncio.to_thread(stream.read, CHUNK_SIZE, exception_on_overflow=False)
            chunk_count += 1
            if chunk_count % 10 == 0:
                samples = struct.unpack(f"{len(data)//2}h", data)
                nivel = sum(abs(s) for s in samples) / len(samples)
                estado = "🔇 silencio" if nivel < 500 else f"🎤 voz (nivel: {int(nivel)})"
                print(f"  {estado}")
            await self.audio_a_gemini.put(data)

    async def envia_a_gemini(self):
        while True:
            chunk = await self.audio_a_gemini.get()
            await self.session.send_realtime_input(
                audio=types.Blob(
                    data=chunk,
                    mime_type=f"audio/pcm;rate={SEND_SAMPLE_RATE}",
                )
            )
            self.audio_a_gemini.task_done()

    async def recibe_de_gemini(self):
        async for response in self.session.receive():
            server_content = response.server_content
            if not server_content:
                continue

            if server_content.model_turn:
                for part in server_content.model_turn.parts:
                    if part.inline_data and isinstance(part.inline_data.data, bytes):
                        self.audio_desde_gemini.put_nowait(part.inline_data.data)

            if server_content.input_transcription and server_content.input_transcription.text:
                lang = server_content.input_transcription.language_code or "?"
                print(f"  🗣️  Oí ({lang}): {server_content.input_transcription.text}", flush=True)

            if server_content.output_transcription and server_content.output_transcription.text:
                lang = server_content.output_transcription.language_code or "?"
                print(f"  💬 Traducción ({lang}): {server_content.output_transcription.text}", flush=True)

    async def reproduce_audio(self):
        stream = await asyncio.to_thread(
            self.pya.open,
            format=FORMAT, channels=CHANNELS, rate=RECEIVE_SAMPLE_RATE, output=True,
        )
        while True:
            audio = await self.audio_desde_gemini.get()
            await asyncio.to_thread(stream.write, audio)

    async def run(self):
        try:
            async with client.aio.live.connect(model=MODEL, config=self.config) as session:
                self.session = session
                print(f"✓ Conectado a {MODEL}. Idioma destino: {self.target_language}")
                print("  Habla normal — Ctrl+C para salir.\n")
                async with asyncio.TaskGroup() as tg:
                    tg.create_task(self.captura_microfono())
                    tg.create_task(self.envia_a_gemini())
                    tg.create_task(self.recibe_de_gemini())
                    tg.create_task(self.reproduce_audio())
        finally:
            self.pya.terminate()


if __name__ == "__main__":
    parser = argparse.ArgumentParser(
        description="Traductor en vivo voz a voz con Gemini Live Translate.",
        formatter_class=argparse.RawDescriptionHelpFormatter,
        epilog="""Ejemplos:
  python3 translator.py                 # traduce al español (default)
  python3 translator.py -t en           # traduce al inglés
  python3 translator.py --target pt-BR  # traduce al portugués brasileño
  python3 translator.py -l              # lista idiomas comunes""",
    )
    parser.add_argument("-t", "--target", default="es",
        help="Código BCP-47 del idioma destino (default: es)")
    parser.add_argument("-l", "--list-languages", action="store_true",
        help="Muestra los idiomas más comunes y termina")
    args = parser.parse_args()

    if args.list_languages:
        print("\nIdiomas comunes (códigos BCP-47):\n")
        for codigo, nombre in IDIOMAS_COMUNES.items():
            print(f"  {codigo:<10}  {nombre}")
        print("\nLista completa: https://ai.google.dev/gemini-api/docs/live-api/live-translate#supported-languages")
        exit(0)

    try:
        asyncio.run(Traductor(args.target).run())
    except KeyboardInterrupt:
        print("\nFin.")

Paso 4 — Probarlo y experimentar

bash

# Default: traduce al español
python3 translator.py

# Traducir al inglés
python3 translator.py -t en

# Ver idiomas disponibles
python3 translator.py -l

# Ver ayuda
python3 translator.py -h

Lo que deberías ver cuando funcione:

✓ Conectado a gemini-3.5-live-translate-preview. Idioma destino: en
  Habla normal — Ctrl+C para salir.

📢 Micrófono: EarPods Microphone
  🔇 silencio
  🎤 voz (nivel: 2456)
  🗣️  Oí (es): Hola, ¿puedes oírme?
  💬 Traducción (en): Hello, can you hear me?

Y al mismo tiempo escuchas la traducción por el parlante con 2-5 segundos de demora respecto a tu voz.

Gotchas importantes (las que me hicieron perder tiempo)

Códigos de idioma simples. Usa "es" y "en", no "es-MX" ni "en-US". La API rechaza variantes regionales con error 1007 invalid argument.
Chunk size exacto. CHUNK_SIZE = 1600 (100ms a 16kHz). Otros valores funcionan pero la documentación lo especifica claramente.
MIME type con sample rate. Debe ser "audio/pcm;rate=16000", no "audio/pcm". Sin el rate=, también obtienes error 1007.
Parseo de respuesta. El audio traducido vive en response.server_content.model_turn.parts[].inline_data.data, no en response.data directamente.
Permiso del micrófono en macOS. Si Python no aparece como app autorizada en System Settings, no captura nada y no hay error visible — silencio total.

⚠️ Tres limitaciones honestas

Antes de mostrárselo al cliente, prueba estos casos:

Acentos muy regionales fallan. A veces según el acento que uses puede fallar en algunas palabras
Jerga técnica específica de tu dominio se pierde. "Stack trace", "deploy en blue-green", "service mesh", Live Translate a veces las toma bien otras veces las traduce literalmente. Para reuniones técnicas profundas, dejar términos clave en inglés sin traducir es mejor que la traducción literal confusa.
No funciona bien con interrupciones cruzadas. Si dos personas hablan al mismo tiempo, el modelo se confunde y empieza a saltar entre idiomas. Para reuniones con más de dos participantes, asignar moderador es necesario.
A veces cambia el tipo de voz en el camino, pero imagino que es algo que irán arreglando.

🔗 Dos enlaces de interés cortos

SpaceX salió a bolsa hoy con valuación récord de US$1.75 billones. El precio de apertura fue ayer, hoy 12 de junio empezó a cotizar en Nasdaq bajo el símbolo SPCX. Si va al precio máximo de la banda, recauda US$75.000M. Es la IPO más grande de la historia, superando a Saudi Aramco (2019). Implicación indirecta para IA: el contrato de cómputo de Anthropic con xAI/SpaceX (US$1.250M/mes, cubierto en mayo) ahora corre dentro de una empresa pública. La transparencia de los costos de cómputo frontier va a aumentar significativamente. (Reuters)
Claude Sonnet 4.8 esperado para mediados de junio. El rumor sigue circulando en comunidades de desarrolladores. Si llega antes del 17 de junio (probable según señales internas), completaría el cuadro de Anthropic con Sonnet + Opus + Fable + Mythos. Vigilar anthropic.com/news entre el 13 y el 18 de junio. (LLM-Stats)

💡 Tip del día — Lo que vas a probar este fin de semana

Si llegaste hasta aquí, dedica 30 minutos este fin de semana a la implementación de arriba. No para "ver si funciona", todos sabemos que sí funciona. Para responder dos preguntas concretas que solo tu contexto sabe:

¿En qué reunión de tu próxima semana laboral hubieras ahorrado fricción real con esto? Identifícala. Si es con un cliente, prueba la configuración el lunes mismo (con permiso previo). Si es con un inversionista, ténlo listo para la próxima presentación.
¿Hay un flujo de trabajo recurrente en tu empresa que se beneficia de esto? (Atención al cliente bilingüe, comités regulatorios, capacitación distribuida.) Si la respuesta es sí, esta configuración es la versión 0 de un producto interno que puedes construir el próximo mes.

La distancia entre "leí un newsletter sobre esto" y "tengo esto corriendo en producción" es 30 minutos de tiempo concentrado. Para casi cualquier equipo LATAM con cliente o operación entre idiomas, la inversión se paga en una sola reunión.

Nos leemos el lunes.

Cómo armar un traductor voz a voz entre 70+ idiomas en 30 minutos con Gemini 3.5 Live Translate

Contexto del día

🎯 El caso de la semana: Gemini 3.5 Live Translate

Qué es y por qué importa

Por qué este caso importa para LATAM

Cinco escenarios concretos donde se justifica

🛠️ Cómo armarlo en 30 minutos — implementación mínima

Paso 1 — Configuración del ambiente (5 minutos)

Paso 2 — Verificar la conexión antes de meter audio (5 minutos)

Paso 3 — El traductor completo con micrófono (20 minutos)

Paso 4 — Probarlo y experimentar

Gotchas importantes (las que me hicieron perder tiempo)

⚠️ Tres limitaciones honestas

🔗 Dos enlaces de interés cortos

💡 Tip del día — Lo que vas a probar este fin de semana

Keep Reading

BitNeuronal