Artículo
Entrenar un agente de IA que aprende entre sesiones
El objetivo que me propuse
Quería construir un agente que no solo asista. Uno que actúe.
La idea era sencilla: configurar automatizaciones para obtener datos, dejar que el agente analice lo que encuentra, que proponga los siguientes pasos, que envíe esas propuestas a algún lugar para revisión, y a través de ese ciclo de retroalimentación — mejorar gradualmente. En un momento dado, cuando sus propuestas coincidieran de forma consistente con lo que yo consideraba buenas decisiones, dejaría de esperar aprobación y comenzaría a actuar por su cuenta.
No un chatbot. No un copiloto. Un sistema autónomo que gana autoridad a través de una precisión demostrada.
Ese era el objetivo. Escribí sobre partes de ello en mi artículo anterior sobre los modelos de IA locales. Este es el siguiente capítulo.
LO QUE CONSTRUÍ — Y LO QUE NO PODÍA HACER
La primera versión era simple por diseño. Pero la parte interesante no era lo que hacía. La parte interesante era lo que no podía hacer.
El agente funciona según un horario, obtiene datos, los analiza y envía un informe a Slack. Para asegurar la consistencia del resultado, creé un esquema — un formato aprobado contra el que el agente se verifica antes de enviar cualquier cosa. Si algo no coincide, se corrige. Repite el ciclo hasta que el resultado es correcto. Si algo le impide completar el proceso — como una llamada fallida al LLM — no envía un resultado degradado. En su lugar, envía una alerta a Slack.
También añadí ejemplos positivos. Resultados aprobados de ejecuciones anteriores que el agente puede consultar al producir el siguiente.
Parecía un sistema sólido. Y durante un tiempo, lo creí así.
LO QUE ME SEGUÍA MOLESTANDO
Cada sesión empieza desde cero.
El esquema está ahí. Los ejemplos están ahí. Pero el agente no sabe con qué tuvo dificultades ayer. No sabe qué regla sigue violando. No sabe qué ya ha resuelto.
Y eso lo cambia todo.
El ciclo de autocorrección funciona dentro de una sola sesión. Entre sesiones, nada se acumula. Así que la inconsistencia que veía no era un problema de configuración. No era un problema de instrucciones.
El problema no era técnico. Era estructural.
AUTOCORRECCIÓN VS AUTOAPRENDIZAJE
Aquí fue donde me di cuenta de algo importante.
La autocorrección significa que el agente detecta sus propios errores antes de enviar el resultado. Ocurre dentro de una sola ejecución, contra un esquema fijo. La sesión termina, y lo que el agente aprendió — desaparece.
El autoaprendizaje significa que el agente construye algo a lo largo de las ejecuciones. Cada sesión deja un rastro que la siguiente puede usar. Los errores se convierten en reglas. Las reglas se convierten en contexto. El contexto da forma al siguiente resultado antes incluso de que empiece la generación.
Lo primero es un filtro de calidad. Lo segundo se parece más al aprendizaje.
Y esta distinción no es solo sobre agentes de IA. Es la diferencia entre sistemas que repiten y sistemas que evolucionan. Entre personas que corrigen errores y personas que dejan de cometer los mismos. La mayoría de las organizaciones tienen autocorrección. Muy pocas tienen un autoaprendizaje genuino. El mecanismo parece similar desde fuera. La arquitectura que hay debajo es completamente diferente.
Lo que tenía era un buen filtro de calidad. Lo que me faltaba era la capa de acumulación que hay debajo.
¿CLAUDE CODE YA TIENE MEMORIA PERSISTENTE?
Es una pregunta legítima — y una que yo mismo tuve que resolver.
Claude Code tiene un archivo llamado CLAUDE.md. Se carga automáticamente al inicio de cada sesión. Cuando le dices al agente que recuerde algo para futuras ejecuciones, puede escribirlo ahí. Y la próxima vez, estará ahí. Eso es persistencia real. No es una ilusión.
Así que cuando Claude Code confirma que recordará algo — no está mintiendo.
El problema es lo que "ahí" significa en la práctica.
Únete a la Biblioteca
Acceso completo a mis pensamientos, historias personales, hallazgos y lo que me cuentan las personas con las que me encuentro.
Únete a la Biblioteca — €29,99 al añoReciba el artículo completo por correo electrónico y no dude en responder si desea seguir comentándolo.
Resumen
Preguntas frecuentes sobre el tema del artículo
¿Cuál es la diferencia entre autocorrección y automejora en IA?
¿Qué es CLAUDE.md y cuáles son sus limitaciones para agentes de IA?
¿Por qué cada sesión de un agente de IA empieza desde cero?
¿Qué es una capa de memoria estructurada para agentes de IA?
¿Se pueden ejecutar agentes de IA autónomos localmente?
¿Qué se necesita para construir un agente de IA que gane autonomía?
Artículos relacionados
Estoy construyendo un sistema de IA para predecir el S&P 500. Corre en mi propia máquina, usa datos públicos gratuitos — yfinance, FRED, el dataset de Shiller — y evalúa cada pronóstico contra la realidad. Esta serie documenta la construcción en sí: las decisiones, la metodología, los errores. Lo que finalmente comparta del sistema en funcionamiento es una pregunta separada, y honesta.
Antes de enseñarle algo a la IA, necesitas ver lo que te está ocultando.
En el momento en que otras personas necesitaron acceso, el problema cambió por completo. Ya no se trataba de si el agente podía aprender. Se trataba de quién tenía derecho a enseñarle.
Más artículos
Ayer no podía despegarme del ordenador. Cuando levanté la cabeza, eran las ocho y media de la tarde. Llevaba unas tres horas sentado solo arriba.
¿Me quitará la IA el trabajo? Un formador certificado de Google me dijo en junio de 2024 que mi profesión dejaría de existir. Veintidós meses después, mi cargo no ha cambiado — pero el noventa por ciento de lo que hago durante el día es distinto. He delegado más de mi pensamiento a agentes de IA de lo que jamás creí posible. No tengo miedo. Esto es por qué, y qué significa para cualquiera que se haga la misma pregunta.
Una hora. Cincuenta y cinco minutos. Ese es el tiempo que me llevó construir lo que una empresa checa de software había cotizado en más de 50.000 €. Lo construí con Claude Code. Ni un prototipo. Ni una prueba de concepto. Una herramienta funcional — la que la empresa realmente necesitaba. Aquella misma tarde ya estaba corriendo en staging. Esto no va sobre Claude Code. Va sobre lo que Claude Code deja al descubierto.
He realizado aproximadamente ciento cincuenta entrevistas prácticas a lo largo de los últimos cuatro años. Cincuenta para puestos de especialista en datos. Cien para especialistas en publicidad y marketing de rendimiento. Casi todas consistieron en sentarme con un candidato frente a una tarea práctica — algo cercano a un problema real que necesitamos resolver en la empresa. Sin teoría. Sin trivialidades. Resolución aplicada de problemas. Con el tiempo, empecé a notar un patrón.
Esto es lo que aprendí sobre IA local vs cloud y por qué cambié a Claude Code.
¿Qué ocurrió y cómo puede revertirse?
Es un sistema. Un mecanismo.
Cuatro días en Cataluña. Sin ordenador, sin IA, casi sin redes sociales. Me compré este cuaderno para anotar lo que pensaría y lo que encontraría y aprendería durante el viaje.
