Hola, soy Richard. En este blog comparto pensamientos, historias personales — y en qué estoy trabajando. Espero que este artículo te aporte algo de valor.
Entrenar un agente de IA que aprende entre sesiones
Cómo los agentes de IA aprenden entre sesiones
El objetivo que me propuse
Quería construir un agente que no solo asista. Uno que actúe.
La idea era sencilla: configurar automatizaciones para obtener datos, dejar que el agente analice lo que encuentra, que proponga los siguientes pasos, que envíe esas propuestas a algún lugar para revisión, y a través de ese ciclo de retroalimentación — mejorar gradualmente. En un momento dado, cuando sus propuestas coincidieran de forma consistente con lo que yo consideraba buenas decisiones, dejaría de esperar aprobación y comenzaría a actuar por su cuenta.
No un chatbot. No un copiloto. Un sistema autónomo que gana autoridad a través de una precisión demostrada.
Ese era el objetivo. Escribí sobre partes de ello en mi artículo anterior sobre los modelos de IA locales. Este es el siguiente capítulo.
LO QUE CONSTRUÍ — Y LO QUE NO PODÍA HACER
La primera versión era simple por diseño. Pero la parte interesante no era lo que hacía. La parte interesante era lo que no podía hacer.
El agente funciona según un horario, obtiene datos, los analiza y envía un informe a Slack. Para asegurar la consistencia del resultado, creé un esquema — un formato aprobado contra el que el agente se verifica antes de enviar cualquier cosa. Si algo no coincide, se corrige. Repite el ciclo hasta que el resultado es correcto. Si algo le impide completar el proceso — como una llamada fallida al LLM — no envía un resultado degradado. En su lugar, envía una alerta a Slack.
También añadí ejemplos positivos. Resultados aprobados de ejecuciones anteriores que el agente puede consultar al producir el siguiente.
Parecía un sistema sólido. Y durante un tiempo, lo creí así.
LO QUE ME SEGUÍA MOLESTANDO
Cada sesión empieza desde cero.
El esquema está ahí. Los ejemplos están ahí. Pero el agente no sabe con qué tuvo dificultades ayer. No sabe qué regla sigue violando. No sabe qué ya ha resuelto.
Y eso lo cambia todo.
El ciclo de autocorrección funciona dentro de una sola sesión. Entre sesiones, nada se acumula. Así que la inconsistencia que veía no era un problema de configuración. No era un problema de instrucciones.
El problema no era técnico. Era estructural.
AUTOCORRECCIÓN VS AUTOAPRENDIZAJE
Aquí fue donde me di cuenta de algo importante.
La autocorrección significa que el agente detecta sus propios errores antes de enviar el resultado. Ocurre dentro de una sola ejecución, contra un esquema fijo. La sesión termina, y lo que el agente aprendió — desaparece.
El autoaprendizaje significa que el agente construye algo a lo largo de las ejecuciones. Cada sesión deja un rastro que la siguiente puede usar. Los errores se convierten en reglas. Las reglas se convierten en contexto. El contexto da forma al siguiente resultado antes incluso de que empiece la generación.
Lo primero es un filtro de calidad. Lo segundo se parece más al aprendizaje.
Y esta distinción no es solo sobre agentes de IA. Es la diferencia entre sistemas que repiten y sistemas que evolucionan. Entre personas que corrigen errores y personas que dejan de cometer los mismos. La mayoría de las organizaciones tienen autocorrección. Muy pocas tienen un autoaprendizaje genuino. El mecanismo parece similar desde fuera. La arquitectura que hay debajo es completamente diferente.
Lo que tenía era un buen filtro de calidad. Lo que me faltaba era la capa de acumulación que hay debajo.
¿CLAUDE CODE YA TIENE MEMORIA PERSISTENTE?
Es una pregunta legítima — y una que yo mismo tuve que resolver.
Claude Code tiene un archivo llamado CLAUDE.md. Se carga automáticamente al inicio de cada sesión. Cuando le dices al agente que recuerde algo para futuras ejecuciones, puede escribirlo ahí. Y la próxima vez, estará ahí. Eso es persistencia real. No es una ilusión.
Así que cuando Claude Code confirma que recordará algo — no está mintiendo.
El problema es lo que "ahí" significa en la práctica.
Acceso completo a mis pensamientos, historias personales, hallazgos y lo que me cuentan las personas con las que me encuentro.
Únete a la BibliotecaReciba el artículo completo por correo electrónico y no dude en responder si desea seguir comentándolo.
Resumen
Si tienes pensamientos, preguntas o comentarios, no dudes en escribirme a mail@richardgolian.com.