Saltar al contenido principal

¿Qué son los Tests?

Los Tests son pruebas de regresión automatizadas que validan el comportamiento de tu agente. A diferencia de las Evaluaciones (que se ejecutan después de cada llamada real), los Tests se ejecutan bajo demanda en el Editor Avanzado para verificar que tu agente responde correctamente a escenarios específicos antes de desplegar cambios.
Ejecuta tests después de modificar prompts, base de conocimiento o acciones para detectar regresiones antes de que afecten a clientes reales.

Accediendo a los Tests

Los Tests están ubicados en el panel derecho del Editor Avanzado. Haz clic en la pestaña Tests (icono de portapapeles) para acceder.

Tests vs Evaluaciones

CaracterísticaTestsEvaluaciones
Cuándo se ejecutanBajo demanda en el editorDespués de cada llamada real
PropósitoValidar escenarios específicos antes de desplegarMedir calidad de llamadas en el tiempo
ConfiguraciónFlujo de conversación + criterios de éxitoPreguntas sí/no
ResultadoAprobado/fallo por testAprobado/fallo por evaluación por llamada

Tipos de Tests

Tests de Escenario

Un test de Escenario define un flujo de conversación fijo. Especificas los mensajes exactos (usuario y agente) y una condición de éxito. El sistema evalúa si la respuesta del agente cumple tus criterios.
PropiedadDescripciónEjemplo
Historial de chatMensajes alternados usuario/agenteUsuario: “Hola” → Agente: “Buenos días…”
Condición de éxitoLo que el agente debe lograr”El agente responde de manera profesional y útil”
Ejemplos de éxitoRespuestas de ejemplo que deben pasar”Buenos días, ¿en qué puedo ayudarle?”
Ejemplos de falloRespuestas de ejemplo que deben fallar”No tengo idea”

Tests de Simulación

Un test de Simulación usa IA para simular un usuario. Defines una persona, objetivo y primer mensaje. El sistema ejecuta una conversación completa y evalúa el resultado.
PropiedadDescripciónEjemplo
Primer mensajeCómo empieza el usuario simulado”Hola, buenos días”
PersonaPerfil del usuario simulado”Cliente interesado en información”
ObjetivoLo que quiere el usuario simulado”Obtener información sobre el servicio”

Funcionalidades Avanzadas de Tests

Simulación de Conversaciones en Tiempo Real

La función Simular permite ejecutar conversaciones dinámicas sin crear un test permanente.
Para usar la simulación rápida:
1

Abrir Simulador

Haz clic en el icono de burbuja de chat en el encabezado de Tests.
2

Configurar Parámetros

  • Primer mensaje: Cómo empieza el usuario simulado
  • Persona: Perfil y características del usuario
  • Objetivo: Meta que busca alcanzar el usuario
  • Límite de turnos: Máximo de intercambios (por defecto 10)
3

Ejecutar Simulación

Observa la conversación en tiempo real mientras el agente y usuario simulado interactúan.

Variables Dinámicas Avanzadas

Los tests pueden usar variables de contexto que se reemplazan durante la ejecución:
VariableDescripciónEjemplo
fecha_y_hora_actualFecha y hora en español”Miércoles 12 de Febrero de 2026 a las 14:30”
cliente_nombreNombre del cliente”Juan Pérez”
numero_pedidoIdentificador de pedido”ORD-12345”
producto_seleccionadoProducto en contexto”Seguro de vida premium”
Las variables dinámicas se evalúan al momento de ejecutar el test, no al crearlo. Asegúrate de configurar los valores correctos antes de la ejecución.

Testing por Lotes y Repeticiones

El sistema permite ejecutar tests múltiples veces para detectar inconsistencias:
  • Ejecución por lotes: Ejecuta todos los tests seleccionados en una sola operación
  • Repeticiones automáticas: Configura hasta 10 repeticiones por test para validar consistencia
  • Análisis estadístico: Obtén métricas de éxito/fallo a través de múltiples ejecuciones
1. Selecciona tests individuales
2. Haz clic en "Ejecutar"
3. Revisa resultados inmediatamente

Historial de Ejecuciones Detallado

La pestaña Historial proporciona análisis completos de ejecuciones anteriores:

Información de Ejecución

CampoDescripción
TimestampFecha y hora exacta de ejecución
Estado GlobalResumen: Aprobados/Fallidos/Total
DuraciónTiempo total de ejecución
Versión del AgenteVersión específica probada
Variables UsadasValores de contexto aplicados

Análisis Individual por Test

Cada ejecución muestra:
  • Respuesta completa del agente
  • Razón de evaluación detallada
  • Conversación completa (para simulaciones)
  • Tiempo de respuesta
  • Tokens utilizados
1

Acceder al Historial

Cambia a la pestaña “History” en el panel de Tests.
2

Seleccionar Ejecución

Haz clic en cualquier ejecución para ver detalles completos.
3

Analizar Resultados

Revisa respuestas individuales y identifica patrones de fallo.
4

Ejecutar Acciones

  • Reintentar fallidos: Re-ejecuta solo tests fallidos
  • Reintentar todo: Re-ejecuta toda la suite
  • Exportar resultados: Descarga reporte detallado

Integración con Copilot para Mejoras Automáticas

Meetzy analiza automáticamente los resultados de tests fallidos y genera sugerencias de mejora específicas.

Análisis Inteligente de Fallos

Cuando tests fallan consistentemente, el sistema:
  1. Analiza patrones de fallo en múltiples ejecuciones
  2. Identifica problemas comunes en respuestas del agente
  3. Genera prompts de mejora específicos para Copilot
  4. Sugiere modificaciones a prompts, conocimientos o acciones

Flujo de Mejora Automática

1

Ejecutar Suite de Tests

Ejecuta tests después de cambios en el agente.
2

Detectar Fallos Consistentes

El sistema identifica tests que fallan repetidamente.
3

Generar Análisis Automático

Copilot analiza fallos y propone mejoras específicas.
4

Aplicar Sugerencias

Implementa las mejoras recomendadas directamente desde Copilot.
5

Validar con Re-testing

Ejecuta tests nuevamente para confirmar mejoras.

Tipos de Sugerencias de Copilot

Tipo de ProblemaSugerencia de CopilotEjemplo
Respuesta inconsistenteModificar prompt para mayor claridad”Añadir ejemplo específico de respuesta profesional”
Información faltanteActualizar base de conocimiento”Agregar FAQ sobre horarios de atención”
Tono inadecuadoAjustar instrucciones de personalidad”Reforzar tono amigable pero profesional”
Acción incorrectaRevisar configuración de funciones”Corregir parámetros de función de reserva”

Crear un Test

1

Abrir Panel de Tests

Haz clic en la pestaña Tests en el panel derecho.
2

Clic en Nuevo

Haz clic en el botón “Nuevo” para iniciar el asistente de creación.
3

Paso 1 - Nombre y Tipo

  • Introduce un nombre descriptivo
  • Elige Escenario (conversación fija) o Simulación (conversación dinámica)
4

Paso 2 - Configurar Conversación

Para Escenario: Añade el flujo de conversación (mensajes usuario/agente alternativos).Para Simulación: Configura:
  • Primer mensaje del usuario simulado
  • Persona y características del usuario
  • Objetivo que busca alcanzar
5

Paso 3 - Criterios de Éxito

  • Define la condición de éxito clara y específica
  • Añade ejemplos de respuestas exitosas
  • Incluye ejemplos de respuestas que deben fallar
6

Configurar Variables (Opcional)

Añade variables dinámicas que se necesiten durante la ejecución.
7

Guardar y Probar

El test se crea y aparece en la lista. Ejecuta inmediatamente para validar.

Variables de Contexto Avanzadas

VariableFormatoActualización
fecha_y_hora_actual”Miércoles 12 de Febrero de 2026 a las 14:30”Manual via botón refresh
timestamp_unix1709386200Automática
dia_semana”Miércoles”Automática
hora_24h”14:30”Automática

Configurar Variables de Contexto

1

Abrir Panel de Variables

Haz clic en el icono Variables de contexto (llaves {}) en el encabezado de Tests.
2

Configurar Variables del Sistema

Haz clic en el icono de actualizar junto a fecha_y_hora_actual para usar la hora actual.
3

Añadir Variables Personalizadas

  • Nombre: clave de la variable (ej. cliente_nombre)
  • Valor: contenido que se inyectará (ej. “Juan Pérez”)
4

Validar Inyección

Las variables se reemplazan automáticamente en prompts del agente durante la ejecución.

Ejecutar Tests Avanzado

Estrategias de Ejecución

  • Marca casillas de tests específicos
  • Útil para validar cambios puntuales
  • Menor tiempo de ejecución

Configuración de Lotes

ConfiguraciónPropósitoRecomendación
1 repeticiónValidación rápidaTests exploratorios
3-5 repeticionesDetección de inconsistenciasTests críticos
10 repeticionesAnálisis estadístico completoValidación pre-producción

Monitoreo en Tiempo Real

Durante la ejecución observa:
  • Progreso de cada test con indicadores visuales
  • Tiempo estimado restante
  • Fallos inmediatos para detención rápida
  • Uso de recursos (tokens, tiempo de respuesta)

Pestaña Historial Avanzado

Vista de Resumen

La vista principal del historial muestra:
ColumnaInformación
Fecha/HoraTimestamp completo de ejecución
ResultadosRatio visual de éxito/fallo
DuraciónTiempo total de ejecución
VersiónVersión del agente probada
RepeticionesNúmero de ejecuciones por test
AccionesOpciones de re-ejecución

Análisis Detallado de Ejecuciones

1

Seleccionar Ejecución

Haz clic en cualquier fila del historial.
2

Revisar Métricas Globales

  • Tiempo promedio de respuesta
  • Distribución de éxitos/fallos
  • Tokens totales utilizados
  • Variables de contexto aplicadas
3

Analizar Tests Individuales

Para cada test revisa:
  • Respuesta completa del agente
  • Evaluación paso a paso
  • Conversación completa (simulaciones)
  • Comparación con ejecuciones anteriores
4

Identificar Patrones

  • Tests que fallan consistentemente
  • Variaciones en respuestas
  • Degradación de rendimiento
  • Mejoras tras cambios

Acciones de Seguimiento

AcciónCuándo UsarResultado
Reintentar fallidosFallos esporádicosRe-ejecuta solo tests fallidos
Reintentar todoValidación completaRe-ejecuta suite completa
Exportar resultadosDocumentaciónReporte detallado en PDF/CSV
Comparar versionesAnálisis de regresiónComparación lado a lado

Simular Conversación Avanzada

La función Simular permite testing exploratorio sin crear tests permanentes:

Configuración de Simulación

Primer mensaje: "Hola, buenos días"
Persona: "Cliente interesado"  
Objetivo: "Obtener información"
Límite: 10 turnos

Monitoreo de Simulación

Durante la simulación observa:
  • Progreso de la conversación en tiempo real
  • Calidad de respuestas del agente
  • Cumplimiento del objetivo del usuario simulado
  • Naturalidad del diálogo entre ambas partes
Las simulaciones son ideales para explorar edge cases y situaciones no contempladas en tests fijos.

Gestionar Tests

Operaciones Básicas

  • Haz clic en el menú (⋮) → Editar
  • Modifica conversación, criterios o ejemplos
  • Los cambios se aplican inmediatamente

Filtrado Avanzado

FiltroMuestraCasos de Uso
TodosTodos los testsVista completa de la suite
AprobadosSolo tests exitososVerificar tests que funcionan
FallidosSolo tests fallidosEnfocar en problemas
Sin ejecutarTests pendientesIdentificar tests nuevos
InconsistentesTests con fallos esporádicosDetectar problemas de estabilidad

Organización de Tests

1

Usar Nombres Descriptivos

  • “Saludo inicial profesional”
  • “Manejo de objeción precio alto”
  • “Transferencia a humano - caso complejo”
2

Agrupar por Funcionalidad

  • Tests de saludo y bienvenida
  • Tests de manejo de objeciones
  • Tests de finalización de conversación
3

Priorizar por Criticidad

  • Tests críticos: flujos principales
  • Tests importantes: casos comunes
  • Tests exploratorios: edge cases

Resultados y Análisis

Estados de Tests

IconoEstadoSignificadoAcción Recomendada
AprobadoCumple criterios de éxitoMantener, usar como referencia
FallidoNo cumple criteriosInvestigar y corregir
🔄EjecutandoEn procesoEsperar resultado
PendienteSin ejecutarEjecutar para validar
⚠️InconsistenteResultados variablesRevisar estabilidad

Análisis de Tendencias

El sistema rastrea métricas históricas para identificar:
  • Degradación de calidad tras cambios
  • Mejoras consistentes en el tiempo
  • Tests inestables que requieren revisión
  • Patrones de fallo recurrentes

Métricas de Rendimiento

  • Promedio por test
  • Variación entre ejecuciones
  • Comparación con versiones anteriores

Integración con Copilot

Análisis Automático de Fallos

Cuando tests fallan repetidamente, Copilot:
1

Detecta Patrones

Analiza respuestas fallidas para identificar problemas comunes.
2

Genera Diagnóstico

Crea análisis detallado del problema y sus causas probables.
3

Propone Soluciones

Sugiere cambios específicos en prompts, conocimientos o configuración.
4

Facilita Implementación

Proporciona código/texto exacto para implementar mejoras.

Tipos de Mejoras Sugeridas

Problema: Respuestas muy técnicas
Sugerencia: "Añadir instrucción: 'Explica en términos simples'"

Problema: Falta de empatía  
Sugerencia: "Incluir: 'Muestra comprensión por la situación'"

Flujo de Mejora Continua

Establece un ciclo de mejora continua usando tests y Copilot para optimizar constantemente tu agente.
  1. Ejecutar tests después de cada cambio
  2. Identificar fallos y patrones problemáticos
  3. Consultar Copilot para sugerencias de mejora
  4. Implementar cambios recomendados
  5. Validar mejoras con re-testing
  6. Documentar aprendizajes para referencia futura

Mejores Prácticas Avanzadas

Cobertura Completa
  • Tests de flujos principales (happy path)
  • Tests de manejo de errores y excepciones
  • Tests de edge cases y situaciones inusuales
  • Tests de integración con acciones externas
Balancear Tipos de Test
  • 70% tests de escenario (casos conocidos)
  • 30% tests de simulación (exploración)
Variables Dinámicas Efectivas
  • Usa fecha_y_hora_actual para contexto temporal
  • Incluye variables de cliente para personalización
  • Mantén valores realistas y representativos
  • Actualiza regularmente para mantener relevancia
Gestión de Contexto
  • Configura variables antes de cada ejecución batch
  • Documenta el propósito de cada variable
  • Usa nombres descriptivos (ej. cliente_telefono vs tel)
Identificación de Patrones
  • Agrupa fallos por tipo de problema
  • Rastrea métricas de rendimiento en el tiempo
  • Compara resultados entre versiones del agente
  • Identifica correlaciones entre cambios y resultados
Uso del Historial
  • Revisa tendencias semanales/mensuales
  • Identifica tests que se vuelven obsoletos
  • Detecta degradación gradual de calidad
Testing Pre-Publicación
  • Ejecuta suite completa antes de cada release
  • Valida cambios críticos con repeticiones múltiples
  • Mantén tests de regresión para funcionalidades clave
  • Documenta casos de test para conocimiento del equipo
Automatización de Calidad
  • Establece umbrales mínimos de éxito (ej. 90%)
  • Configura alertas para fallos críticos
  • Integra feedback de Copilot en proceso de desarrollo
Evolución de la Suite
  • Revisa y actualiza tests regularmente
  • Elimina tests redundantes o obsoletos
  • Añade tests para nuevas funcionalidades
  • Mantén ejemplos actualizados y relevantes
Colaboración en Equipo
  • Documenta propósito y contexto de cada test
  • Comparte patrones de fallo y soluciones
  • Establece convenciones de naming y organización

Próximos Pasos

Evaluaciones

Configura métricas de calidad post-llamada para monitoreo continuo

Copilot

Obtén ayuda IA para mejorar prompts basado en resultados de tests

Playground

Prueba tu agente de forma interactiva antes de crear tests

Parámetros de Entrada

Configura variables globales para tests y llamadas reales