Richard Golian

Nacido en 1995. Graduado de la Universidad Carolina. Responsable de rendimiento en Mixit. Más de 10 años en el marketing basado en datos.

#micamino #myfamily #health #cognicion #filosofia #tecnologia #inteligenciaartificial #oscuridad #seguridad #finanzas #politica #banskabystrica #carpatos

English Français Slovenčina

Gestionar suscripción Elegir suscripción

RSS
Newsletter
Nuevos artículos en tu correo
Richard Golian

Hola, soy Richard. En este blog comparto pensamientos, historias personales — y en qué estoy trabajando. Espero que este artículo te aporte algo de valor.

Entrenar un agente de IA que aprende entre sesiones

Cómo los agentes de IA aprenden entre sesiones

Richard Golian

El objetivo que me propuse

Quería construir un agente que no solo asista. Uno que actúe.

La idea era sencilla: configurar automatizaciones para obtener datos, dejar que el agente analice lo que encuentra, que proponga los siguientes pasos, que envíe esas propuestas a algún lugar para revisión, y a través de ese ciclo de retroalimentación — mejorar gradualmente. En un momento dado, cuando sus propuestas coincidieran de forma consistente con lo que yo consideraba buenas decisiones, dejaría de esperar aprobación y comenzaría a actuar por su cuenta.

No un chatbot. No un copiloto. Un sistema autónomo que gana autoridad a través de una precisión demostrada.

Ese era el objetivo. Escribí sobre partes de ello en mi artículo anterior sobre los modelos de IA locales. Este es el siguiente capítulo.

LO QUE CONSTRUÍ — Y LO QUE NO PODÍA HACER

La primera versión era simple por diseño. Pero la parte interesante no era lo que hacía. La parte interesante era lo que no podía hacer.

El agente funciona según un horario, obtiene datos, los analiza y envía un informe a Slack. Para asegurar la consistencia del resultado, creé un esquema — un formato aprobado contra el que el agente se verifica antes de enviar cualquier cosa. Si algo no coincide, se corrige. Repite el ciclo hasta que el resultado es correcto. Si algo le impide completar el proceso — como una llamada fallida al LLM — no envía un resultado degradado. En su lugar, envía una alerta a Slack.

También añadí ejemplos positivos. Resultados aprobados de ejecuciones anteriores que el agente puede consultar al producir el siguiente.

Parecía un sistema sólido. Y durante un tiempo, lo creí así.

LO QUE ME SEGUÍA MOLESTANDO

Cada sesión empieza desde cero.

El esquema está ahí. Los ejemplos están ahí. Pero el agente no sabe con qué tuvo dificultades ayer. No sabe qué regla sigue violando. No sabe qué ya ha resuelto.

Y eso lo cambia todo.

El ciclo de autocorrección funciona dentro de una sola sesión. Entre sesiones, nada se acumula. Así que la inconsistencia que veía no era un problema de configuración. No era un problema de instrucciones.

El problema no era técnico. Era estructural.

AUTOCORRECCIÓN VS AUTOAPRENDIZAJE

Aquí fue donde me di cuenta de algo importante.

La autocorrección significa que el agente detecta sus propios errores antes de enviar el resultado. Ocurre dentro de una sola ejecución, contra un esquema fijo. La sesión termina, y lo que el agente aprendió — desaparece.

El autoaprendizaje significa que el agente construye algo a lo largo de las ejecuciones. Cada sesión deja un rastro que la siguiente puede usar. Los errores se convierten en reglas. Las reglas se convierten en contexto. El contexto da forma al siguiente resultado antes incluso de que empiece la generación.

Lo primero es un filtro de calidad. Lo segundo se parece más al aprendizaje.

Y esta distinción no es solo sobre agentes de IA. Es la diferencia entre sistemas que repiten y sistemas que evolucionan. Entre personas que corrigen errores y personas que dejan de cometer los mismos. La mayoría de las organizaciones tienen autocorrección. Muy pocas tienen un autoaprendizaje genuino. El mecanismo parece similar desde fuera. La arquitectura que hay debajo es completamente diferente.

Lo que tenía era un buen filtro de calidad. Lo que me faltaba era la capa de acumulación que hay debajo.

¿CLAUDE CODE YA TIENE MEMORIA PERSISTENTE?

Es una pregunta legítima — y una que yo mismo tuve que resolver.

Claude Code tiene un archivo llamado CLAUDE.md. Se carga automáticamente al inicio de cada sesión. Cuando le dices al agente que recuerde algo para futuras ejecuciones, puede escribirlo ahí. Y la próxima vez, estará ahí. Eso es persistencia real. No es una ilusión.

Así que cuando Claude Code confirma que recordará algo — no está mintiendo.

El problema es lo que "ahí" significa en la práctica.

Seguir leyendo:

Acceso completo a mis pensamientos, historias personales, hallazgos y lo que me cuentan las personas con las que me encuentro.

Únete a la Biblioteca
o solo este artículo

Reciba el artículo completo por correo electrónico y no dude en responder si desea seguir comentándolo.

Visa Mastercard Apple Pay Google Pay

Resumen

Quería construir un agente de IA autónomo que mejore con el tiempo — no solo uno que se corrija dentro de una sola sesión. Este artículo explica la diferencia entre autocorrección y autoaprendizaje, por qué la memoria integrada de Claude Code tiene límites para agentes que funcionan a diario, y cómo una capa de memoria estructurada cambia lo que es posible.
Richard Golian

Si tienes pensamientos, preguntas o comentarios, no dudes en escribirme a mail@richardgolian.com.

Newsletter

Nuevos artículos en tu correo

Preguntas frecuentes sobre el tema del artículo

¿Cuál es la diferencia entre autocorrección y automejora en IA?
La autocorrección significa que el agente detecta errores dentro de una sola sesión — verificando el resultado contra un esquema y repitiendo hasta que pase. Cuando la sesión termina, todo lo aprendido se pierde. La automejora significa que el agente construye conocimiento entre sesiones: los errores se convierten en reglas, las reglas en contexto, y el contexto moldea los resultados futuros antes de que la generación comience. En el artículo, esta distinción se identifica como la brecha crítica en las arquitecturas actuales de agentes de IA — y la clave para construir sistemas que genuinamente evolucionen.
¿Qué es CLAUDE.md y cuáles son sus limitaciones para agentes de IA?
CLAUDE.md es un archivo que Claude Code carga automáticamente al inicio de cada sesión, proporcionando memoria persistente entre ejecuciones. Cuando se le dice al agente que recuerde algo, lo escribe en este archivo. La persistencia es real — no una ilusión. Sin embargo, en el artículo se identifica la limitación: CLAUDE.md es un archivo estático y no estructurado. No se organiza solo, no distingue entre entradas relevantes y obsoletas, ni gestiona su propio crecimiento. Para un agente que se ejecuta diariamente durante semanas, el archivo se convierte en ruido en lugar de señal.
¿Por qué cada sesión de un agente de IA empieza desde cero?
Porque los modelos de IA actuales no tienen un mecanismo integrado para acumular experiencia entre sesiones. La ventana de contexto se llena de nuevo cada vez. En el artículo, esto se identifica como el problema estructural — no técnico: el agente no sabe con qué tuvo dificultades ayer, qué reglas sigue violando o qué ya ha descubierto. El bucle de autocorrección funciona dentro de una sesión. Entre sesiones, nada persiste a menos que se almacene explícitamente.
¿Qué es una capa de memoria estructurada para agentes de IA?
Una capa de memoria estructurada se sitúa junto a los archivos de memoria estáticos y organiza la experiencia acumulada en categorías que el agente puede consultar selectivamente. En lugar de cargar todo en la ventana de contexto cada vez, el agente recupera solo lo relevante para la tarea actual. En el artículo, esta es la solución que se está construyendo: un sistema donde los errores se convierten en reglas, las reglas en contexto, y el comportamiento del agente mejora mediblemente entre sesiones en lugar de reiniciarse cada vez.
¿Se pueden ejecutar agentes de IA autónomos localmente?
Sí, pero con limitaciones significativas. En el artículo y su predecesor sobre modelos de IA locales, la configuración usó un Mac Mini con Ollama y n8n. Las pipelines básicas funcionaron: recuperación de datos, análisis simple, alertas a Slack. Pero las limitaciones de la ventana de contexto de los modelos locales hicieron imposible el análisis complejo. Para agentes autónomos que necesitan procesar volúmenes de datos del mundo real y mantener calidad con el tiempo, los modelos en la nube con ventanas de contexto más grandes resultaron necesarios.
¿Qué se necesita para construir un agente de IA que gane autonomía?
En el artículo, el principio es que la autonomía debe ganarse a través de precisión demostrada — no otorgarse por defecto. La arquitectura comienza con revisión humana de cada acción propuesta. A medida que las propuestas del agente coinciden consistentemente con buenas decisiones, gradualmente gana permiso para actuar de forma independiente. Esto requiere no solo buen rendimiento en sesiones individuales sino mejora genuina con el tiempo — por eso la capa de memoria estructurada es esencial. Sin aprendizaje entre sesiones, el agente no puede construir el historial necesario para justificar la acción autónoma.