Name: BlogBurst
Author: BlogBurst

Cuando gestionas un agente de IA que publica contenido para más de 50 usuarios, te enfrentas a un problema de optimización clásico: para cada usuario, ¿qué tipo de contenido deberías publicar? ¿Consejos técnicos? ¿Detrás de escena? ¿Anuncios de productos? ¿Comentarios sobre la industria? La respuesta es diferente para cada usuario y cambia con el tiempo.

La mayoría de las herramientas de redes sociales utilizan horarios fijos o simples A/B testing. Nosotros utilizamos Thompson Sampling — un enfoque bayesiano para el problema del bandido multibrazo (multi-armed bandit) que equilibra la exploración y la explotación de forma natural. Así es como funciona en la práctica.

El problema: optimización del mix de contenido

Imagina que un usuario vende una herramienta para desarrolladores. Su agente de IA puede generar 6 tipos de contenido:

Consejos técnicos y tutoriales
Destacados de funciones del producto
Detrás de escena / building in public
Comentarios sobre noticias de la industria
Engagement con la comunidad (respuestas e hilos)
Anuncios promocionales / de lanzamiento

Cada tipo tiene una tasa de engagement "real" desconocida para esta audiencia específica. Queremos averiguar qué tipos funcionan mejor y asignarles más presupuesto, pero tampoco queremos dejar de explorar otros tipos por completo, porque las preferencias de la audiencia cambian.

Este es exactamente el problema del multi-armed bandit: cada tipo de contenido es un "brazo" de una máquina tragamonedas con una tasa de pago desconocida.

¿Por qué no simplemente usar A/B testing?

El A/B testing tradicional presenta dos problemas para este caso de uso:

Es ineficiente: El A/B testing asigna el 50/50 del tráfico a ambas variantes, incluso cuando una es claramente mejor. Si los "consejos técnicos" obtienen 4 veces más engagement que las "noticias de la industria", estás desperdiciando la mitad de tus publicaciones en la opción inferior durante el periodo de prueba.
No es escalable: Con 6 tipos de contenido y parámetros como la hora de publicación, el tono y el formato, necesitarías cientos de pruebas A/B simultáneas. La explosión combinatoria lo hace impracticable.

Thompson Sampling resuelve ambos problemas de forma elegante.

Cómo funciona Thompson Sampling

La idea central es sencilla: mantener una distribución de probabilidad sobre la tasa de engagement de cada tipo de contenido y tomar muestras de esas distribuciones para decidir qué publicar a continuación.

Paso 1: Inicializar con distribuciones Beta

Para cada tipo de contenido, mantenemos una distribución Beta parametrizada por (alpha, beta):

alpha = número de "éxitos" (publicaciones que lograron un engagement superior a la mediana)
beta = número de "fracasos" (publicaciones que lograron un engagement inferior a la mediana)

Comenzamos con alpha=1, beta=1 para todos los tipos (prior uniforme; no sabemos nada).

Paso 2: Muestrear y seleccionar

Cuando llega el momento de decidir qué publicar:

Para cada tipo de contenido, se extrae una muestra aleatoria de su distribución Beta(alpha, beta)
Se selecciona el tipo de contenido con el valor de muestra más alto
Se genera y publica contenido de ese tipo

Paso 3: Actualizar tras la observación

Después de que la publicación haya estado activa durante 24 horas, se comprueba el engagement:

Si el engagement fue superior a la mediana: alpha += 1 (se registra un éxito)
Si el engagement fue inferior a la mediana: beta += 1 (se registra un fracaso)

Por qué funciona

La belleza de Thompson Sampling reside en el paso de muestreo. Los tipos de contenido con altas tasas de engagement tendrán distribuciones desplazadas hacia 1.0, por lo que serán muestreados como ganadores con más frecuencia. Pero los tipos de contenido con pocas observaciones tendrán distribuciones más amplias, lo que significa que ocasionalmente serán muestreados con valores altos, asegurando que sean explorados.

A medida que se acumulan los datos, las distribuciones se estrechan. El algoritmo transita de forma natural de la exploración (probar todo) a la explotación (centrarse en los ganadores) sin necesidad de ajustes manuales.

Resultados reales: Antes vs. Después de Thompson Sampling

Aquí están los datos de la cuenta de un usuario. Las primeras 2 semanas se utilizó una selección de contenido aleatoria uniforme; las semanas 3 a 6 se utilizó Thompson Sampling.

Periodo	Selección de contenido	Tasa de engagement promedio	Crecimiento de seguidores/semana
Semanas 1-2	Aleatorio uniforme	2.1%	+15
Semana 3	Thompson Sampling (explorando)	2.8%	+22
Semana 4	Thompson Sampling (convergiendo)	3.4%	+29
Semanas 5-6	Thompson Sampling (explotando)	4.1%	+36

El algoritmo descubrió que esta audiencia responde mejor a los consejos técnicos (45% de las publicaciones) y al contenido detrás de escena (30%), con pequeñas asignaciones al engagement con la comunidad (15%) y menciones ocasionales de productos (10%). Los comentarios sobre la industria fueron casi eliminados; sistemáticamente obtuvieron la puntuación más baja.

Más allá del tipo de contenido: optimización multidimensional

En la práctica, optimizamos algo más que el tipo de contenido. El Strategy Agent utiliza Thompson Sampling en múltiples dimensiones:

Tipo de contenido: Como se describió anteriormente
Horario de publicación: 6 franjas horarias al día, cada una tratada como un brazo
Tono: Informal, profesional, humorístico, inspirador — 4 brazos
Formato: Publicación corta, hilo, pregunta, enlace compartido — 4 brazos

Cada dimensión se optimiza de forma independiente con su propio conjunto de distribuciones Beta. El prompt completo de generación de contenido combina las muestras ganadoras de cada dimensión: "Genera una [publicación corta] con un [tono informal] sobre [consejos técnicos] para ser publicada a las [11 AM]."

Consideraciones prácticas

Gestión de la no estacionariedad

Las preferencias de la audiencia cambian con el tiempo. Un tema que fue tendencia el mes pasado puede estar obsoleto ahora. Para gestionar esto, aplicamos un factor de decaimiento: cada 7 días, multiplicamos tanto alpha como beta por 0.9. Esto "olvida" gradualmente los datos antiguos y mantiene el algoritmo receptivo a las tendencias recientes. El concepto es similar al suavizado exponencial en el análisis de series temporales.

Problema de Cold Start

Para los nuevos usuarios, inicializamos las distribuciones Beta utilizando datos agregados de usuarios similares (misma industria, tamaño de audiencia similar). Esto le da al algoritmo una ventaja inicial en lugar de empezar desde la exploración pura. Después de 10-15 publicaciones, predominan los datos propios del usuario.

Tasa mínima de exploración

Incluso después de la convergencia, imponemos una tasa mínima de exploración del 10%: al menos 1 de cada 10 publicaciones se extraerá de un tipo de contenido poco explorado. Esto evita que el algoritmo se quede atascado en un óptimo local.

Cuando Thompson Sampling no es suficiente

Thompson Sampling optimiza dentro de un conjunto fijo de opciones. No puede inventar nuevos tipos de contenido ni reconocer que toda la estrategia necesita un replanteamiento. Para eso, añadimos una capa superior con un "Strategy Agent" independiente: un meta-agente impulsado por Gemini que revisa el panorama completo (tendencias de engagement, trayectoria de crecimiento de seguidores, actividad de la competencia) y puede realizar cambios estructurales en la estrategia.

La combinación de optimización algorítmica (Thompson Sampling para decisiones tácticas) y razonamiento de LLM (Strategy Agent para decisiones estratégicas) es más robusta que cualquiera de los dos enfoques por separado.

Si estás construyendo algo similar o quieres ver esta optimización en acción en tus propias redes sociales, prueba BlogBurst gratis. El algoritmo de Thompson Sampling empieza a funcionar desde tu primera publicación.

Uso de Thompson Sampling para optimizar contenido en redes sociales: una guía práctica