¿Qué son los Tests?
Los Tests son pruebas de regresión automatizadas que validan el comportamiento de tu agente. A diferencia de las Evaluaciones (que se ejecutan después de cada llamada real), los Tests se ejecutan bajo demanda en el Editor Avanzado para verificar que tu agente responde correctamente a escenarios específicos antes de desplegar cambios.Ejecuta tests después de modificar prompts, base de conocimiento o acciones para detectar regresiones antes de que afecten a clientes reales.
Accediendo a los Tests
Los Tests están ubicados en el panel derecho del Editor Avanzado. Haz clic en la pestaña Tests (icono de portapapeles) para acceder.Tests vs Evaluaciones
| Característica | Tests | Evaluaciones |
|---|---|---|
| Cuándo se ejecutan | Bajo demanda en el editor | Después de cada llamada real |
| Propósito | Validar escenarios específicos antes de desplegar | Medir calidad de llamadas en el tiempo |
| Configuración | Flujo de conversación + criterios de éxito | Preguntas sí/no |
| Resultado | Aprobado/fallo por test | Aprobado/fallo por evaluación por llamada |
Tipos de Tests
Tests de Escenario
Un test de Escenario define un flujo de conversación fijo. Especificas los mensajes exactos (usuario y agente) y una condición de éxito. El sistema evalúa si la respuesta del agente cumple tus criterios.| Propiedad | Descripción | Ejemplo |
|---|---|---|
| Historial de chat | Mensajes alternados usuario/agente | Usuario: “Hola” → Agente: “Buenos días…” |
| Condición de éxito | Lo que el agente debe lograr | ”El agente responde de manera profesional y útil” |
| Ejemplos de éxito | Respuestas de ejemplo que deben pasar | ”Buenos días, ¿en qué puedo ayudarle?” |
| Ejemplos de fallo | Respuestas de ejemplo que deben fallar | ”No tengo idea” |
Tests de Simulación
Un test de Simulación usa IA para simular un usuario. Defines una persona, objetivo y primer mensaje. El sistema ejecuta una conversación completa y evalúa el resultado.| Propiedad | Descripción | Ejemplo |
|---|---|---|
| Primer mensaje | Cómo empieza el usuario simulado | ”Hola, buenos días” |
| Persona | Perfil del usuario simulado | ”Cliente interesado en información” |
| Objetivo | Lo que quiere el usuario simulado | ”Obtener información sobre el servicio” |
Funcionalidades Avanzadas de Tests
Simulación de Conversaciones en Tiempo Real
La función Simular permite ejecutar conversaciones dinámicas sin crear un test permanente.
Configurar Parámetros
- Primer mensaje: Cómo empieza el usuario simulado
- Persona: Perfil y características del usuario
- Objetivo: Meta que busca alcanzar el usuario
- Límite de turnos: Máximo de intercambios (por defecto 10)
Variables Dinámicas Avanzadas
Los tests pueden usar variables de contexto que se reemplazan durante la ejecución:| Variable | Descripción | Ejemplo |
|---|---|---|
fecha_y_hora_actual | Fecha y hora en español | ”Miércoles 12 de Febrero de 2026 a las 14:30” |
cliente_nombre | Nombre del cliente | ”Juan Pérez” |
numero_pedido | Identificador de pedido | ”ORD-12345” |
producto_seleccionado | Producto en contexto | ”Seguro de vida premium” |
Testing por Lotes y Repeticiones
El sistema permite ejecutar tests múltiples veces para detectar inconsistencias:- Ejecución por lotes: Ejecuta todos los tests seleccionados en una sola operación
- Repeticiones automáticas: Configura hasta 10 repeticiones por test para validar consistencia
- Análisis estadístico: Obtén métricas de éxito/fallo a través de múltiples ejecuciones
- Ejecución Simple
- Ejecución por Lotes
Historial de Ejecuciones Detallado
La pestaña Historial proporciona análisis completos de ejecuciones anteriores:Información de Ejecución
| Campo | Descripción |
|---|---|
| Timestamp | Fecha y hora exacta de ejecución |
| Estado Global | Resumen: Aprobados/Fallidos/Total |
| Duración | Tiempo total de ejecución |
| Versión del Agente | Versión específica probada |
| Variables Usadas | Valores de contexto aplicados |
Análisis Individual por Test
Cada ejecución muestra:- Respuesta completa del agente
- Razón de evaluación detallada
- Conversación completa (para simulaciones)
- Tiempo de respuesta
- Tokens utilizados
Integración con Copilot para Mejoras Automáticas
Meetzy analiza automáticamente los resultados de tests fallidos y genera sugerencias de mejora específicas.
Análisis Inteligente de Fallos
Cuando tests fallan consistentemente, el sistema:- Analiza patrones de fallo en múltiples ejecuciones
- Identifica problemas comunes en respuestas del agente
- Genera prompts de mejora específicos para Copilot
- Sugiere modificaciones a prompts, conocimientos o acciones
Flujo de Mejora Automática
Tipos de Sugerencias de Copilot
| Tipo de Problema | Sugerencia de Copilot | Ejemplo |
|---|---|---|
| Respuesta inconsistente | Modificar prompt para mayor claridad | ”Añadir ejemplo específico de respuesta profesional” |
| Información faltante | Actualizar base de conocimiento | ”Agregar FAQ sobre horarios de atención” |
| Tono inadecuado | Ajustar instrucciones de personalidad | ”Reforzar tono amigable pero profesional” |
| Acción incorrecta | Revisar configuración de funciones | ”Corregir parámetros de función de reserva” |
Crear un Test
Paso 1 - Nombre y Tipo
- Introduce un nombre descriptivo
- Elige Escenario (conversación fija) o Simulación (conversación dinámica)
Paso 2 - Configurar Conversación
Para Escenario: Añade el flujo de conversación (mensajes usuario/agente alternativos).Para Simulación: Configura:
- Primer mensaje del usuario simulado
- Persona y características del usuario
- Objetivo que busca alcanzar
Paso 3 - Criterios de Éxito
- Define la condición de éxito clara y específica
- Añade ejemplos de respuestas exitosas
- Incluye ejemplos de respuestas que deben fallar
Variables de Contexto Avanzadas
- Variables del Sistema
- Variables Personalizadas
- Variables de Entrada del Agente
| Variable | Formato | Actualización |
|---|---|---|
fecha_y_hora_actual | ”Miércoles 12 de Febrero de 2026 a las 14:30” | Manual via botón refresh |
timestamp_unix | 1709386200 | Automática |
dia_semana | ”Miércoles” | Automática |
hora_24h | ”14:30” | Automática |
Configurar Variables de Contexto
Abrir Panel de Variables
Haz clic en el icono Variables de contexto (llaves
{}) en el encabezado de Tests.Configurar Variables del Sistema
Haz clic en el icono de actualizar junto a
fecha_y_hora_actual para usar la hora actual.Añadir Variables Personalizadas
- Nombre: clave de la variable (ej.
cliente_nombre) - Valor: contenido que se inyectará (ej. “Juan Pérez”)
Ejecutar Tests Avanzado
Estrategias de Ejecución
- Ejecución Selectiva
- Ejecución Completa
- Ejecución por Lotes
- Marca casillas de tests específicos
- Útil para validar cambios puntuales
- Menor tiempo de ejecución
Configuración de Lotes
| Configuración | Propósito | Recomendación |
|---|---|---|
| 1 repetición | Validación rápida | Tests exploratorios |
| 3-5 repeticiones | Detección de inconsistencias | Tests críticos |
| 10 repeticiones | Análisis estadístico completo | Validación pre-producción |
Monitoreo en Tiempo Real
Durante la ejecución observa:- Progreso de cada test con indicadores visuales
- Tiempo estimado restante
- Fallos inmediatos para detención rápida
- Uso de recursos (tokens, tiempo de respuesta)
Pestaña Historial Avanzado
Vista de Resumen
La vista principal del historial muestra:| Columna | Información |
|---|---|
| Fecha/Hora | Timestamp completo de ejecución |
| Resultados | Ratio visual de éxito/fallo |
| Duración | Tiempo total de ejecución |
| Versión | Versión del agente probada |
| Repeticiones | Número de ejecuciones por test |
| Acciones | Opciones de re-ejecución |
Análisis Detallado de Ejecuciones
Revisar Métricas Globales
- Tiempo promedio de respuesta
- Distribución de éxitos/fallos
- Tokens totales utilizados
- Variables de contexto aplicadas
Analizar Tests Individuales
Para cada test revisa:
- Respuesta completa del agente
- Evaluación paso a paso
- Conversación completa (simulaciones)
- Comparación con ejecuciones anteriores
Acciones de Seguimiento
| Acción | Cuándo Usar | Resultado |
|---|---|---|
| Reintentar fallidos | Fallos esporádicos | Re-ejecuta solo tests fallidos |
| Reintentar todo | Validación completa | Re-ejecuta suite completa |
| Exportar resultados | Documentación | Reporte detallado en PDF/CSV |
| Comparar versiones | Análisis de regresión | Comparación lado a lado |
Simular Conversación Avanzada
La función Simular permite testing exploratorio sin crear tests permanentes:Configuración de Simulación
- Básica
- Avanzada
Monitoreo de Simulación
Durante la simulación observa:- Progreso de la conversación en tiempo real
- Calidad de respuestas del agente
- Cumplimiento del objetivo del usuario simulado
- Naturalidad del diálogo entre ambas partes
Las simulaciones son ideales para explorar edge cases y situaciones no contempladas en tests fijos.
Gestionar Tests
Operaciones Básicas
- Editar
- Clonar
- Eliminar
- Haz clic en el menú (⋮) → Editar
- Modifica conversación, criterios o ejemplos
- Los cambios se aplican inmediatamente
Filtrado Avanzado
| Filtro | Muestra | Casos de Uso |
|---|---|---|
| Todos | Todos los tests | Vista completa de la suite |
| Aprobados | Solo tests exitosos | Verificar tests que funcionan |
| Fallidos | Solo tests fallidos | Enfocar en problemas |
| Sin ejecutar | Tests pendientes | Identificar tests nuevos |
| Inconsistentes | Tests con fallos esporádicos | Detectar problemas de estabilidad |
Organización de Tests
Usar Nombres Descriptivos
- “Saludo inicial profesional”
- “Manejo de objeción precio alto”
- “Transferencia a humano - caso complejo”
Agrupar por Funcionalidad
- Tests de saludo y bienvenida
- Tests de manejo de objeciones
- Tests de finalización de conversación
Resultados y Análisis
Estados de Tests
| Icono | Estado | Significado | Acción Recomendada |
|---|---|---|---|
| ✅ | Aprobado | Cumple criterios de éxito | Mantener, usar como referencia |
| ❌ | Fallido | No cumple criterios | Investigar y corregir |
| 🔄 | Ejecutando | En proceso | Esperar resultado |
| ⚪ | Pendiente | Sin ejecutar | Ejecutar para validar |
| ⚠️ | Inconsistente | Resultados variables | Revisar estabilidad |
Análisis de Tendencias
El sistema rastrea métricas históricas para identificar:- Degradación de calidad tras cambios
- Mejoras consistentes en el tiempo
- Tests inestables que requieren revisión
- Patrones de fallo recurrentes
Métricas de Rendimiento
- Tiempo de Respuesta
- Uso de Tokens
- Tasa de Éxito
- Promedio por test
- Variación entre ejecuciones
- Comparación con versiones anteriores
Integración con Copilot
Análisis Automático de Fallos
Cuando tests fallan repetidamente, Copilot:Tipos de Mejoras Sugeridas
- Prompts del Sistema
- Base de Conocimientos
- Configuración de Acciones
Flujo de Mejora Continua
Establece un ciclo de mejora continua usando tests y Copilot para optimizar constantemente tu agente.
- Ejecutar tests después de cada cambio
- Identificar fallos y patrones problemáticos
- Consultar Copilot para sugerencias de mejora
- Implementar cambios recomendados
- Validar mejoras con re-testing
- Documentar aprendizajes para referencia futura
Mejores Prácticas Avanzadas
Estrategia de Testing Integral
Estrategia de Testing Integral
Cobertura Completa
- Tests de flujos principales (happy path)
- Tests de manejo de errores y excepciones
- Tests de edge cases y situaciones inusuales
- Tests de integración con acciones externas
- 70% tests de escenario (casos conocidos)
- 30% tests de simulación (exploración)
Optimización de Variables
Optimización de Variables
Variables Dinámicas Efectivas
- Usa
fecha_y_hora_actualpara contexto temporal - Incluye variables de cliente para personalización
- Mantén valores realistas y representativos
- Actualiza regularmente para mantener relevancia
- Configura variables antes de cada ejecución batch
- Documenta el propósito de cada variable
- Usa nombres descriptivos (ej.
cliente_telefonovstel)
Análisis de Resultados Avanzado
Análisis de Resultados Avanzado
Identificación de Patrones
- Agrupa fallos por tipo de problema
- Rastrea métricas de rendimiento en el tiempo
- Compara resultados entre versiones del agente
- Identifica correlaciones entre cambios y resultados
- Revisa tendencias semanales/mensuales
- Identifica tests que se vuelven obsoletos
- Detecta degradación gradual de calidad
Integración con Desarrollo
Integración con Desarrollo
Testing Pre-Publicación
- Ejecuta suite completa antes de cada release
- Valida cambios críticos con repeticiones múltiples
- Mantén tests de regresión para funcionalidades clave
- Documenta casos de test para conocimiento del equipo
- Establece umbrales mínimos de éxito (ej. 90%)
- Configura alertas para fallos críticos
- Integra feedback de Copilot en proceso de desarrollo
Mantenimiento de Tests
Mantenimiento de Tests
Evolución de la Suite
- Revisa y actualiza tests regularmente
- Elimina tests redundantes o obsoletos
- Añade tests para nuevas funcionalidades
- Mantén ejemplos actualizados y relevantes
- Documenta propósito y contexto de cada test
- Comparte patrones de fallo y soluciones
- Establece convenciones de naming y organización
Próximos Pasos
Evaluaciones
Configura métricas de calidad post-llamada para monitoreo continuo
Copilot
Obtén ayuda IA para mejorar prompts basado en resultados de tests
Playground
Prueba tu agente de forma interactiva antes de crear tests
Parámetros de Entrada
Configura variables globales para tests y llamadas reales

