Agentes de voz que modifican tu interface en tiempo real

Build a real‑time, voice‑driven multi‑agent system using Google ADK and Gemini Live API, with live function calls that manipulate UI components.

Overview

Cómo construí un sistema multi-agente de voz en tiempo real con el ADK de Google y Gemini Live API, aplicado a un caso real.
Presento la arquitectura y el código de un asistente conversacional que entrevista al usuario por voz, invoca functions para buscar, analizar y comparar “traffickers” (media buyers) y recomienda el mejor perfil; todo full-duplex con audio de ida y vuelta, barge-in (interrupciones) y latencias bajas. La demo usa Gemini Live API para streaming bidireccional de audio y sesión persistente, y function calling para enlazar intenciones del modelo con acciones de UI (mostrar tarjetas, comparar perfiles, iniciar contacto). El front está hecho con Lit + Web Audio API + TypeScript, y el runtime con el Google GenAI SDK. Veremos: diseño multi-agente, tooling (declaración de funciones), manejo de sesión en vivo, codecs y sample rate (16 kHz in / 24 kHz out), y patrones para conectar tool calls con componentes visuales.

Links

https://github.com/JamiltonQuintero/jarvis-realtime-agentic/blob/ma...
LitElement component uses Google GenAI agent for real-time audio-driven recommendations.

Tech stack