Tests - Meetzy Docs

¿Qué son los Tests?

Los Tests son pruebas de regresión automatizadas que validan el comportamiento de tu agente. A diferencia de las Evaluaciones (que se ejecutan después de cada llamada real), los Tests se ejecutan bajo demanda en el Editor Avanzado para verificar que tu agente responde correctamente a escenarios específicos antes de desplegar cambios.

Ejecuta tests después de modificar prompts, base de conocimiento o acciones para detectar regresiones antes de que afecten a clientes reales.

Accediendo a los Tests

Los Tests están ubicados en el panel derecho del Editor Avanzado. Haz clic en la pestaña Tests (icono de portapapeles) para acceder.

Tests vs Evaluaciones

Característica	Tests	Evaluaciones
Cuándo se ejecutan	Bajo demanda en el editor	Después de cada llamada real
Propósito	Validar escenarios específicos antes de desplegar	Medir calidad de llamadas en el tiempo
Configuración	Flujo de conversación + criterios de éxito	Preguntas sí/no
Resultado	Aprobado/fallo por test	Aprobado/fallo por evaluación por llamada

Tipos de Tests

Tests de Escenario

Un test de Escenario define un flujo de conversación fijo. Especificas los mensajes exactos (usuario y agente) y una condición de éxito. El sistema evalúa si la respuesta del agente cumple tus criterios.

Propiedad	Descripción	Ejemplo
Historial de chat	Mensajes alternados usuario/agente	Usuario: “Hola” → Agente: “Buenos días…”
Condición de éxito	Lo que el agente debe lograr	”El agente responde de manera profesional y útil”
Ejemplos de éxito	Respuestas de ejemplo que deben pasar	”Buenos días, ¿en qué puedo ayudarle?”
Ejemplos de fallo	Respuestas de ejemplo que deben fallar	”No tengo idea”

Tests de Simulación

Un test de Simulación usa IA para simular un usuario. Defines una persona, objetivo y primer mensaje. El sistema ejecuta una conversación completa y evalúa el resultado.

Propiedad	Descripción	Ejemplo
Primer mensaje	Cómo empieza el usuario simulado	”Hola, buenos días”
Persona	Perfil del usuario simulado	”Cliente interesado en información”
Objetivo	Lo que quiere el usuario simulado	”Obtener información sobre el servicio”

Funcionalidades Avanzadas de Tests

Simulación de Conversaciones en Tiempo Real

La función Simular permite ejecutar conversaciones dinámicas sin crear un test permanente.

Para usar la simulación rápida:

Abrir Simulador

Haz clic en el icono de burbuja de chat en el encabezado de Tests.

Configurar Parámetros

Primer mensaje: Cómo empieza el usuario simulado
Persona: Perfil y características del usuario
Objetivo: Meta que busca alcanzar el usuario
Límite de turnos: Máximo de intercambios (por defecto 10)

Ejecutar Simulación

Observa la conversación en tiempo real mientras el agente y usuario simulado interactúan.

Variables Dinámicas Avanzadas

Los tests pueden usar variables de contexto que se reemplazan durante la ejecución:

Variable	Descripción	Ejemplo
`fecha_y_hora_actual`	Fecha y hora en español	”Miércoles 12 de Febrero de 2026 a las 14:30”
`cliente_nombre`	Nombre del cliente	”Juan Pérez”
`numero_pedido`	Identificador de pedido	”ORD-12345”
`producto_seleccionado`	Producto en contexto	”Seguro de vida premium”

Las variables dinámicas se evalúan al momento de ejecutar el test, no al crearlo. Asegúrate de configurar los valores correctos antes de la ejecución.

Testing por Lotes y Repeticiones

El sistema permite ejecutar tests múltiples veces para detectar inconsistencias:

Ejecución por lotes: Ejecuta todos los tests seleccionados en una sola operación
Repeticiones automáticas: Configura hasta 10 repeticiones por test para validar consistencia
Análisis estadístico: Obtén métricas de éxito/fallo a través de múltiples ejecuciones

Ejecución Simple
Ejecución por Lotes

Selecciona tests individuales
Haz clic en "Ejecutar"
Revisa resultados inmediatamente

Configura número de repeticiones (1-10)
Selecciona tests o "Ejecutar todo"
Monitorea progreso en tiempo real
Analiza estadísticas agregadas

Historial de Ejecuciones Detallado

La pestaña Historial proporciona análisis completos de ejecuciones anteriores:

Información de Ejecución

Campo	Descripción
Timestamp	Fecha y hora exacta de ejecución
Estado Global	Resumen: Aprobados/Fallidos/Total
Duración	Tiempo total de ejecución
Versión del Agente	Versión específica probada
Variables Usadas	Valores de contexto aplicados

Análisis Individual por Test

Cada ejecución muestra:

Respuesta completa del agente
Razón de evaluación detallada
Conversación completa (para simulaciones)
Tiempo de respuesta
Tokens utilizados

Acceder al Historial

Cambia a la pestaña “History” en el panel de Tests.

Seleccionar Ejecución

Haz clic en cualquier ejecución para ver detalles completos.

Analizar Resultados

Revisa respuestas individuales y identifica patrones de fallo.

Ejecutar Acciones

Reintentar fallidos: Re-ejecuta solo tests fallidos
Reintentar todo: Re-ejecuta toda la suite
Exportar resultados: Descarga reporte detallado

Integración con Copilot para Mejoras Automáticas

Meetzy analiza automáticamente los resultados de tests fallidos y genera sugerencias de mejora específicas.

Análisis Inteligente de Fallos

Cuando tests fallan consistentemente, el sistema:

Analiza patrones de fallo en múltiples ejecuciones
Identifica problemas comunes en respuestas del agente
Genera prompts de mejora específicos para Copilot
Sugiere modificaciones a prompts, conocimientos o acciones

Flujo de Mejora Automática

Ejecutar Suite de Tests

Ejecuta tests después de cambios en el agente.

Detectar Fallos Consistentes

El sistema identifica tests que fallan repetidamente.

Generar Análisis Automático

Copilot analiza fallos y propone mejoras específicas.

Aplicar Sugerencias

Implementa las mejoras recomendadas directamente desde Copilot.

Validar con Re-testing

Ejecuta tests nuevamente para confirmar mejoras.

Tipos de Sugerencias de Copilot

Tipo de Problema	Sugerencia de Copilot	Ejemplo
Respuesta inconsistente	Modificar prompt para mayor claridad	”Añadir ejemplo específico de respuesta profesional”
Información faltante	Actualizar base de conocimiento	”Agregar FAQ sobre horarios de atención”
Tono inadecuado	Ajustar instrucciones de personalidad	”Reforzar tono amigable pero profesional”
Acción incorrecta	Revisar configuración de funciones	”Corregir parámetros de función de reserva”

Crear un Test

Abrir Panel de Tests

Haz clic en la pestaña Tests en el panel derecho.

Clic en Nuevo

Haz clic en el botón “Nuevo” para iniciar el asistente de creación.

Paso 1 - Nombre y Tipo

Introduce un nombre descriptivo
Elige Escenario (conversación fija) o Simulación (conversación dinámica)

Paso 2 - Configurar Conversación

Para Escenario: Añade el flujo de conversación (mensajes usuario/agente alternativos).Para Simulación: Configura:

Primer mensaje del usuario simulado
Persona y características del usuario
Objetivo que busca alcanzar

Paso 3 - Criterios de Éxito

Define la condición de éxito clara y específica
Añade ejemplos de respuestas exitosas
Incluye ejemplos de respuestas que deben fallar

Configurar Variables (Opcional)

Añade variables dinámicas que se necesiten durante la ejecución.

Guardar y Probar

El test se crea y aparece en la lista. Ejecuta inmediatamente para validar.

Variables de Contexto Avanzadas

Variables del Sistema
Variables Personalizadas
Variables de Entrada del Agente

Variable	Formato	Actualización
`fecha_y_hora_actual`	”Miércoles 12 de Febrero de 2026 a las 14:30”	Manual via botón refresh
`timestamp_unix`	1709386200	Automática
`dia_semana`	”Miércoles”	Automática
`hora_24h`	”14:30”	Automática

cliente_nombre: "María González"
numero_contrato: "CTR-2024-001"
producto_interes: "Seguro de hogar"
presupuesto_max: "500€"
canal_contacto: "Teléfono"

Configurar Variables de Contexto

Abrir Panel de Variables

Haz clic en el icono Variables de contexto (llaves {}) en el encabezado de Tests.

Configurar Variables del Sistema

Haz clic en el icono de actualizar junto a fecha_y_hora_actual para usar la hora actual.

Añadir Variables Personalizadas

Nombre: clave de la variable (ej. cliente_nombre)
Valor: contenido que se inyectará (ej. “Juan Pérez”)

Validar Inyección

Las variables se reemplazan automáticamente en prompts del agente durante la ejecución.

Ejecutar Tests Avanzado

Estrategias de Ejecución

Ejecución Selectiva
Ejecución Completa
Ejecución por Lotes

Marca casillas de tests específicos
Útil para validar cambios puntuales
Menor tiempo de ejecución

Configuración de Lotes

Configuración	Propósito	Recomendación
1 repetición	Validación rápida	Tests exploratorios
3-5 repeticiones	Detección de inconsistencias	Tests críticos
10 repeticiones	Análisis estadístico completo	Validación pre-producción

Monitoreo en Tiempo Real

Durante la ejecución observa:

Progreso de cada test con indicadores visuales
Tiempo estimado restante
Fallos inmediatos para detención rápida
Uso de recursos (tokens, tiempo de respuesta)

Pestaña Historial Avanzado

Vista de Resumen

La vista principal del historial muestra:

Columna	Información
Fecha/Hora	Timestamp completo de ejecución
Resultados	Ratio visual de éxito/fallo
Duración	Tiempo total de ejecución
Versión	Versión del agente probada
Repeticiones	Número de ejecuciones por test
Acciones	Opciones de re-ejecución

Análisis Detallado de Ejecuciones

Seleccionar Ejecución

Haz clic en cualquier fila del historial.

Revisar Métricas Globales

Tiempo promedio de respuesta
Distribución de éxitos/fallos
Tokens totales utilizados
Variables de contexto aplicadas

Analizar Tests Individuales

Para cada test revisa:

Respuesta completa del agente
Evaluación paso a paso
Conversación completa (simulaciones)
Comparación con ejecuciones anteriores

Identificar Patrones

Tests que fallan consistentemente
Variaciones en respuestas
Degradación de rendimiento
Mejoras tras cambios

Acciones de Seguimiento

Acción	Cuándo Usar	Resultado
Reintentar fallidos	Fallos esporádicos	Re-ejecuta solo tests fallidos
Reintentar todo	Validación completa	Re-ejecuta suite completa
Exportar resultados	Documentación	Reporte detallado en PDF/CSV
Comparar versiones	Análisis de regresión	Comparación lado a lado

Simular Conversación Avanzada

La función Simular permite testing exploratorio sin crear tests permanentes:

Configuración de Simulación

Básica
Avanzada

Primer mensaje: "Hola, buenos días"
Persona: "Cliente interesado"  
Objetivo: "Obtener información"
Límite: 10 turnos

Primer mensaje: "Tengo un problema con mi póliza"
Persona: "Cliente frustrado, prisa, conoce el producto"
Objetivo: "Resolver incidencia específica rápidamente"  
Límite: 15 turnos
Contexto: Variables de cliente real

Monitoreo de Simulación

Durante la simulación observa:

Progreso de la conversación en tiempo real
Calidad de respuestas del agente
Cumplimiento del objetivo del usuario simulado
Naturalidad del diálogo entre ambas partes

Las simulaciones son ideales para explorar edge cases y situaciones no contempladas en tests fijos.

Gestionar Tests

Operaciones Básicas

Editar
Clonar
Eliminar

Haz clic en el menú (⋮) → Editar
Modifica conversación, criterios o ejemplos
Los cambios se aplican inmediatamente

Filtrado Avanzado

Filtro	Muestra	Casos de Uso
Todos	Todos los tests	Vista completa de la suite
Aprobados	Solo tests exitosos	Verificar tests que funcionan
Fallidos	Solo tests fallidos	Enfocar en problemas
Sin ejecutar	Tests pendientes	Identificar tests nuevos
Inconsistentes	Tests con fallos esporádicos	Detectar problemas de estabilidad

Organización de Tests

Usar Nombres Descriptivos

“Saludo inicial profesional”
“Manejo de objeción precio alto”
“Transferencia a humano - caso complejo”

Agrupar por Funcionalidad

Tests de saludo y bienvenida
Tests de manejo de objeciones
Tests de finalización de conversación

Priorizar por Criticidad

Tests críticos: flujos principales
Tests importantes: casos comunes
Tests exploratorios: edge cases

Resultados y Análisis

Estados de Tests

Icono	Estado	Significado	Acción Recomendada
✅	Aprobado	Cumple criterios de éxito	Mantener, usar como referencia
❌	Fallido	No cumple criterios	Investigar y corregir
🔄	Ejecutando	En proceso	Esperar resultado
⚪	Pendiente	Sin ejecutar	Ejecutar para validar
⚠️	Inconsistente	Resultados variables	Revisar estabilidad

Análisis de Tendencias

El sistema rastrea métricas históricas para identificar:

Degradación de calidad tras cambios
Mejoras consistentes en el tiempo
Tests inestables que requieren revisión
Patrones de fallo recurrentes

Métricas de Rendimiento

Tiempo de Respuesta
Uso de Tokens
Tasa de Éxito

Promedio por test
Variación entre ejecuciones
Comparación con versiones anteriores

Integración con Copilot

Análisis Automático de Fallos

Cuando tests fallan repetidamente, Copilot:

Detecta Patrones

Analiza respuestas fallidas para identificar problemas comunes.

Genera Diagnóstico

Crea análisis detallado del problema y sus causas probables.

Propone Soluciones

Sugiere cambios específicos en prompts, conocimientos o configuración.

Facilita Implementación

Proporciona código/texto exacto para implementar mejoras.

Tipos de Mejoras Sugeridas

Prompts del Sistema
Base de Conocimientos
Configuración de Acciones

Problema: Respuestas muy técnicas
Sugerencia: "Añadir instrucción: 'Explica en términos simples'"

Problema: Falta de empatía  
Sugerencia: "Incluir: 'Muestra comprensión por la situación'"

Problema: Información desactualizada
Sugerencia: "Actualizar FAQ con nuevos horarios de atención"

Problema: Respuesta genérica
Sugerencia: "Añadir casos específicos para situación X"

Problema: Parámetros incorrectos
Sugerencia: "Corregir formato de fecha en función reservar_cita"

Problema: Validación faltante
Sugerencia: "Añadir validación de email antes de enviar"

Flujo de Mejora Continua

Establece un ciclo de mejora continua usando tests y Copilot para optimizar constantemente tu agente.

Ejecutar tests después de cada cambio
Identificar fallos y patrones problemáticos
Consultar Copilot para sugerencias de mejora
Implementar cambios recomendados
Validar mejoras con re-testing
Documentar aprendizajes para referencia futura

Mejores Prácticas Avanzadas

Estrategia de Testing Integral

Cobertura Completa

Tests de flujos principales (happy path)
Tests de manejo de errores y excepciones
Tests de edge cases y situaciones inusuales
Tests de integración con acciones externas

Balancear Tipos de Test

70% tests de escenario (casos conocidos)
30% tests de simulación (exploración)

Optimización de Variables

Variables Dinámicas Efectivas

Usa fecha_y_hora_actual para contexto temporal
Incluye variables de cliente para personalización
Mantén valores realistas y representativos
Actualiza regularmente para mantener relevancia

Gestión de Contexto

Configura variables antes de cada ejecución batch
Documenta el propósito de cada variable
Usa nombres descriptivos (ej. cliente_telefono vs tel)

Análisis de Resultados Avanzado

Identificación de Patrones

Agrupa fallos por tipo de problema
Rastrea métricas de rendimiento en el tiempo
Compara resultados entre versiones del agente
Identifica correlaciones entre cambios y resultados

Uso del Historial

Revisa tendencias semanales/mensuales
Identifica tests que se vuelven obsoletos
Detecta degradación gradual de calidad

Integración con Desarrollo

Testing Pre-Publicación

Ejecuta suite completa antes de cada release
Valida cambios críticos con repeticiones múltiples
Mantén tests de regresión para funcionalidades clave
Documenta casos de test para conocimiento del equipo

Automatización de Calidad

Establece umbrales mínimos de éxito (ej. 90%)
Configura alertas para fallos críticos
Integra feedback de Copilot en proceso de desarrollo

Mantenimiento de Tests

Evolución de la Suite

Revisa y actualiza tests regularmente
Elimina tests redundantes o obsoletos
Añade tests para nuevas funcionalidades
Mantén ejemplos actualizados y relevantes

Colaboración en Equipo

Documenta propósito y contexto de cada test
Comparte patrones de fallo y soluciones
Establece convenciones de naming y organización

Próximos Pasos

Evaluaciones

Configura métricas de calidad post-llamada para monitoreo continuo

Copilot

Obtén ayuda IA para mejorar prompts basado en resultados de tests

Playground

Prueba tu agente de forma interactiva antes de crear tests

Parámetros de Entrada

Configura variables globales para tests y llamadas reales

Documentation Index

​¿Qué son los Tests?

​Accediendo a los Tests

​Tests vs Evaluaciones

​Tipos de Tests

​Tests de Escenario

​Tests de Simulación

​Funcionalidades Avanzadas de Tests

​Simulación de Conversaciones en Tiempo Real

​Variables Dinámicas Avanzadas

​Testing por Lotes y Repeticiones

​Historial de Ejecuciones Detallado

​Información de Ejecución

​Análisis Individual por Test

​Integración con Copilot para Mejoras Automáticas

​Análisis Inteligente de Fallos

​Flujo de Mejora Automática

​Tipos de Sugerencias de Copilot

​Crear un Test

​Variables de Contexto Avanzadas

​Configurar Variables de Contexto

​Ejecutar Tests Avanzado

​Estrategias de Ejecución

​Configuración de Lotes

​Monitoreo en Tiempo Real

​Pestaña Historial Avanzado

​Vista de Resumen

​Análisis Detallado de Ejecuciones

​Acciones de Seguimiento

​Simular Conversación Avanzada

​Configuración de Simulación

​Monitoreo de Simulación

​Gestionar Tests

​Operaciones Básicas

​Filtrado Avanzado

​Organización de Tests

​Resultados y Análisis

​Estados de Tests

​Análisis de Tendencias

​Métricas de Rendimiento

​Integración con Copilot

​Análisis Automático de Fallos

​Tipos de Mejoras Sugeridas

​Flujo de Mejora Continua

​Mejores Prácticas Avanzadas

​Próximos Pasos

Evaluaciones

Copilot

Playground

Parámetros de Entrada

¿Qué son los Tests?

Accediendo a los Tests

Tests vs Evaluaciones

Tipos de Tests

Tests de Escenario

Tests de Simulación

Funcionalidades Avanzadas de Tests

Simulación de Conversaciones en Tiempo Real

Variables Dinámicas Avanzadas

Testing por Lotes y Repeticiones

Historial de Ejecuciones Detallado

Información de Ejecución

Análisis Individual por Test

Integración con Copilot para Mejoras Automáticas

Análisis Inteligente de Fallos

Flujo de Mejora Automática

Tipos de Sugerencias de Copilot

Crear un Test

Variables de Contexto Avanzadas

Configurar Variables de Contexto

Ejecutar Tests Avanzado

Estrategias de Ejecución

Configuración de Lotes

Monitoreo en Tiempo Real

Pestaña Historial Avanzado

Vista de Resumen

Análisis Detallado de Ejecuciones

Acciones de Seguimiento

Simular Conversación Avanzada

Configuración de Simulación

Monitoreo de Simulación

Gestionar Tests

Operaciones Básicas

Filtrado Avanzado

Organización de Tests

Resultados y Análisis

Estados de Tests

Análisis de Tendencias

Métricas de Rendimiento

Integración con Copilot

Análisis Automático de Fallos

Tipos de Mejoras Sugeridas

Flujo de Mejora Continua

Mejores Prácticas Avanzadas

Próximos Pasos