Richard Golian

Nacido en 1995. Graduado de la Universidad Carolina. Responsable de rendimiento en Mixit. Más de 10 años en el marketing basado en datos.

#micamino #myfamily #health #cognicion #filosofia #tecnologia #inteligenciaartificial #oscuridad #seguridad #finanzas #politica #banskabystrica #carpatos

English Français Slovenčina

Gestionar suscripción Elegir suscripción

RSS
Newsletter
Nuevos artículos en tu correo
Richard Golian

Hola, soy Richard. En este blog comparto pensamientos, historias personales — y en qué estoy trabajando. Espero que este artículo te aporte algo de valor.

Limitaciones de los modelos de IA locales: por qué cambié de Ollama a Claude

Agente de IA local: configuración, límites y aprendizajes

Richard Golian

He estado escribiendo sobre IA desde principios de 2023. Durante ese tiempo, he visto cómo ha cambiado mi forma de programar, de pensar sobre el contenido y de imaginar el futuro del trabajo.

Esta es una historia sobre ir un nivel más allá: pasar de usar la IA como herramienta a intentar construir algo autónomo sobre ella. No funcionó como esperaba.

POR QUÉ INTENTÉ EJECUTAR IA DE FORMA LOCAL

Antes de tener experiencia real con ello, la IA local me parecía el movimiento más interesante que podía hacer. No solo por la flexibilidad o la seguridad —aunque ambas importaban—, sino porque me parecía la forma más honesta de acercarse a esta tecnología.

En medio de todo lo que está ocurriendo en torno a la IA, ejecutar realmente un modelo en local, configurarlo, conectarlo a datos y ver en qué punto falla me parecía algo fundamentalmente distinto de usar una interfaz cloud ya pulida. Me parecía la diferencia entre usar una herramienta y entender de verdad cómo funciona esa herramienta.

Al mismo tiempo, no lo estaba planteando como un experimento puramente técnico. Desde el principio tenía en mente un caso de uso claro.

La primera área en la que quise aplicar esto fue el SEO. El SEO es una disciplina documentada y relativamente exacta. Tiene estructura, reglas, patrones y resultados medibles. En teoría, eso lo convierte en algo ideal para automatizar. Un agente puede escanear cientos de subpáginas en minutos, identificar problemas estructurales, detectar elementos que faltan y, si además tiene acceso a datos sobre tendencias de búsqueda, puede generar recomendaciones de contenido realmente útiles.

No es una idea abstracta. Es un flujo de trabajo real con un valor de negocio claro.

La visión más amplia era más ambiciosa. Quería construir un agente que recuperara datos a partir de automatizaciones configuradas, propusiera pasos en función de lo que encontrara, enviara esas propuestas a algún lugar para revisión y, mediante ese bucle de feedback, mejorara gradualmente. En cierto punto, una vez que los pasos que propusiera coincidieran de forma consistente con lo que yo considero buenas decisiones, empezaría a ejecutar esas acciones de manera autónoma.

No solo asistir. Actuar.

Ese era el objetivo.

MAC MINI, OLLAMA, N8N

La configuración en sí fue sencilla. Utilicé un Mac Mini, ejecuté un modelo local a través de Ollama y gestioné la orquestación básica mediante n8n.

Poner Ollama en marcha fue sorprendentemente simple. Mucho más de lo que esperaba. En poco tiempo tenía un modelo funcionando, respondiendo y comportándose como un chatbot. Desde una perspectiva puramente técnica, la barrera de entrada era baja.

En unas pocas horas ya tenía montado un pipeline básico. El modelo era capaz de recuperar datos, realizar un análisis básico de marketing y yo ya veía con claridad el camino para automatizar alertas hacia Slack a partir de ese output. En esa fase, todo parecía prometedor. El sistema funcionaba, y funcionaba localmente.

Lo que todavía no comprendía del todo era lo rápido que iba a encontrar sus límites.

Entonces lo probé con datos de muestra representativos, diseñados para simular condiciones reales.

LA VENTANA DE CONTEXTO

Aquí es donde se hizo evidente la limitación real.

El modelo podía manejar unas pocas páginas de texto. Podía procesar una tabla pequeña o un conjunto de datos de unos pocos kilobytes. Dentro de ese rango, se comportaba de una manera que parecía funcional.

Pero en el momento en que le di datos SEO representativos —el tipo de volumen que realmente necesitas analizar si quieres obtener resultados con sentido—, el sistema dejó de responder bien.

Procesaba lo que cabía dentro de su ventana de contexto e ignoraba el resto. Generaba un output que, en la superficie, parecía estructurado, pero al mirarlo de cerca, tenía muy poco valor. Captaba algún número perdido dentro de los datos y simplemente lo repetía. No combinaba señales. No priorizaba correctamente. No entendía las relaciones dentro del conjunto de datos.

Y la razón era simple. No podía ver suficiente cantidad de información.

Lo noté inmediatamente durante el primer análisis real. La calidad del output era aproximadamente comparable a la que los modelos cloud producían en 2023. No lo digo como una crítica al modelo en sí. Es un reflejo de las limitaciones.

El problema no era la configuración. No eran los prompts. No era una falta de esfuerzo.

El hardware determinaba qué modelo podía ejecutar. Y el modelo que podía ejecutar, sencillamente, no era capaz de mantener dentro del contexto la cantidad de información que requería esa tarea.

QUÉ SIGNIFICA REALMENTE “AUTÓNOMO”

En ese punto, quedó claro qué requiere realmente en la práctica algo “autónomo” y en qué parte el sistema se quedaba corto.

Un agente autónomo no es simplemente un bucle que llama repetidamente a un modelo. Requiere la capacidad de razonar sobre una gran cantidad de contexto, mantener coherencia a lo largo de múltiples pasos y producir outputs lo suficientemente precisos como para actuar sobre ellos sin supervisión constante.

Eso significa que necesita mantener no solo la entrada actual, sino el estado acumulado de todo el flujo de trabajo. Qué datos se recuperaron, qué acciones se propusieron, qué decisiones se tomaron, qué falló, qué funcionó y cuál es el objetivo general.

Aquí es donde la limitación se vuelve estructural.

Un modelo con una ventana de contexto limitada no puede mantener ese estado. No puede conectar decisiones a lo largo del tiempo. No puede evaluar sus propios outputs de una manera realmente significativa porque le falta visibilidad sobre el proceso completo.

La visión del sistema no era el problema.

Lo era la infraestructura que había debajo.

PASAR A CLAUDE CODE

En ese momento pasé a una solución basada en cloud y empecé a trabajar con Claude Code de Anthropic.

Seguir leyendo:

Acceso completo a mis pensamientos, historias personales, hallazgos y lo que me cuentan las personas con las que me encuentro.

Únete a la Biblioteca
o solo este artículo

Reciba el artículo completo por correo electrónico y no dude en responder si desea seguir comentándolo.

Visa Mastercard Apple Pay Google Pay

Resumen

Intenté construir un agente de IA autónomo local — Mac Mini, Ollama, n8n. Las limitaciones de contexto lo hicieron inviable. Esto es lo que aprendí y por qué cambié a Claude Code.
Richard Golian

Si tienes pensamientos, preguntas o comentarios, no dudes en escribirme a mail@richardgolian.com.

Newsletter

Nuevos artículos en tu correo

Preguntas frecuentes sobre el tema del artículo

¿Cuál es la diferencia entre ejecutar IA localmente y usar IA en la nube?
La IA local se ejecuta en tu propio hardware — dándote control total sobre los datos y sin costes recurrentes de API, pero con limitaciones significativas en potencia de procesamiento y tamaño de ventana de contexto. La IA en la nube (como Claude o GPT-4) se ejecuta en servidores remotos con modelos mucho más grandes, ventanas de contexto más largas y mejores capacidades de razonamiento, pero requiere enviar datos externamente y pagar por uso. En el artículo, la IA local se eligió inicialmente por privacidad y control, pero sus limitaciones forzaron un cambio a la nube.
¿Qué es una ventana de contexto y por qué importa?
La ventana de contexto es la cantidad de texto que un modelo de IA puede procesar en una sola interacción — análogo a cuánto de un documento puede ver a la vez. Los modelos locales típicamente tienen ventanas de contexto mucho más pequeñas que los modelos en la nube. En el artículo, esta fue la limitación crítica: cuando se le dio volúmenes reales de datos SEO, el modelo local solo pudo procesar lo que cabía en su ventana e ignoró el resto, produciendo resultados que parecían estructurados pero casi no tenían valor analítico.
¿Qué es Ollama y qué tan fácil es configurarlo?
Ollama es una herramienta de código abierto que permite a los usuarios ejecutar modelos de lenguaje grandes localmente en su propio hardware. En el artículo, la configuración se describe como sorprendentemente simple — en poco tiempo, un modelo estaba funcionando y respondiendo en un Mac Mini. La barrera de entrada fue baja desde una perspectiva técnica. Los problemas surgieron solo cuando al modelo se le pidió procesar volúmenes de datos del mundo real que excedían la capacidad de su ventana de contexto.
¿Pueden los modelos de IA locales manejar análisis de datos empresariales reales?
En el artículo, la respuesta es aún no — al menos no para análisis complejos y multidimensionales. El modelo local podía manejar conjuntos de datos pequeños y consultas simples. Pero cuando se le dio datos SEO representativos a escala de producción, colapsó: procesando solo lo que cabía en su ventana de contexto, tomando números aislados sin entender relaciones y produciendo resultados comparables a los modelos en la nube de 2023. La brecha entre la capacidad local y en la nube sigue siendo significativa.
¿Qué es un agente de IA autónomo?
Un agente de IA autónomo es un sistema que recupera datos, propone acciones basadas en lo que encuentra, aprende de la retroalimentación y eventualmente ejecuta decisiones de forma independiente. En el artículo, el objetivo era construir tal agente para SEO: escanear subpáginas, identificar problemas, proponer recomendaciones de contenido y mejorar gradualmente a través de un bucle de retroalimentación hasta poder actuar sin intervención humana. La visión no era solo IA asistiendo — sino IA actuando.
¿Deberían los desarrolladores comenzar con IA local o IA en la nube?
En el artículo, comenzar localmente proporcionó una comprensión práctica valiosa de cómo funcionan realmente los modelos — la diferencia entre usar una interfaz pulida y entender la tecnología subyacente. Sin embargo, para casos de uso de producción que requieren razonamiento complejo y grandes volúmenes de datos, la IA en la nube fue necesaria. La recomendación práctica es: experimentar localmente para construir comprensión, pero usar modelos en la nube para aplicaciones empresariales reales donde la calidad y la capacidad de contexto importan.