Hola, soy Richard. En este blog comparto pensamientos, historias personales — y en qué estoy trabajando. Espero que este artículo te aporte algo de valor.
Lo que la IA te oculta
Transparencia de la IA, prompts de sistema y dissimulatio artis
Antes de enseñarle algo a la IA, mira lo que te oculta
En la universidad, pasé años estudiando la estructura de la comprensión — cómo se forma el significado, cómo funciona la interpretación y qué la moldea antes de que seamos siquiera conscientes de ello. No esperaba que esos conceptos se volvieran relevantes para mi trabajo con inteligencia artificial. Pero así fue.
Este artículo forma parte de una serie que llamo Enseñando a la IA a comprender. Antes de llegar a la enseñanza, sin embargo, necesitamos mapear el punto de partida. ¿Cómo es un modelo de IA cuando accedes a él por primera vez? ¿Qué viene ya integrado? ¿Qué puedes cambiar — y qué no?
Si has trabajado con modelos en la nube como Claude o GPT, estás trabajando con algo que ya tiene capas de instrucciones, reglas de comportamiento y decisiones de diseño incorporadas — antes de que escribas una sola palabra. Si has probado a ejecutar un modelo local, conoces la contrapartida: más control sobre lo que es visible, pero limitaciones significativas en capacidad.
Este artículo trata sobre las capas ocultas.
El principio antiguo que no esperaba encontrar en la IA
En mi tesis de máster en la Universidad Carolina, estudié la estructura de la comprensión — cómo se forma el significado, cómo funciona la interpretación y qué la moldea antes de que seamos siquiera conscientes de ello. El material que examiné eran textos retóricos romanos de Quintiliano, Cicerón y el autor de la Rhetorica ad Herennium.
Uno de los hallazgos fue un principio que los romanos consideraban esencial para el arte de la oratoria: el discurso no debe parecer preparado. El público no debe ver la técnica. Las herramientas de persuasión deben ser invisibles. En la retórica moderna, este principio se conoce como dissimulatio artis — el ocultamiento del arte.
Quintiliano fue específico sobre el porqué. En el contexto de la oratoria judicial, si el público — los jueces — podía ver la técnica retórica empleada, sospecharían que el arte del orador estaba siendo utilizado en su contra. Como él mismo señaló: el juez cree más en las figuras retóricas cuando piensa que el orador no tenía la intención de usarlas. El ocultamiento no era cuestión de elegancia. Era cuestión de mantener la credibilidad y no amenazar la imparcialidad del juicio.
No volví a pensar en este principio durante años. Hasta que empecé a construir agentes de IA.
Lo que la IA te oculta
Cuando interactúas con un modelo de IA — ya sea Claude, ChatGPT, Gemini o cualquier otro — estás interactuando con un sistema diseñado para producir resultados que parezcan naturales, seguros de sí mismos y humanos, mientras mantiene su mecánica invisible. No lo hace por intención. No tiene ninguna. Pero ha sido entrenado y configurado para funcionar así.
Existen al menos ocho capas de este ocultamiento. Algunas son técnicas. Otras son organizativas. Todas afectan lo que recibes.
Oculta las matemáticas
Un modelo de IA no recupera hechos. Genera secuencias de tokens basándose en probabilidad estadística. Cuando te dice algo, no sabe cuán probable es que ese algo sea verdadero. La probabilidad con la que opera es sobre patrones lingüísticos, no sobre hechos.
Le pregunté directamente a Claude si podía indicarme su nivel de confianza en una respuesta factual. La respuesta fue directa: «No soy un sistema que calcule probabilidades explícitas sobre hechos. La probabilidad es sobre el lenguaje, no sobre los hechos.»
En la práctica, esto significa que una respuesta correcta y una respuesta alucinada pueden parecerte exactamente iguales. El modelo presenta ambas con la misma fluidez y la misma seguridad.
Algunas APIs ofrecen acceso a probabilidades a nivel de token — logprobs — pero son herramientas para desarrolladores. El usuario promedio nunca las ve. Y aun así, los logprobs reflejan probabilidad sobre elecciones de palabras, no sobre precisión factual.
Oculta el prompt de sistema
Antes de que envíes tu primer mensaje, alguien ya le ha dado instrucciones al modelo. Cada proveedor importante de IA escribe un prompt de sistema — un conjunto de reglas que define cómo debe comportarse el modelo, qué debe rechazar, cómo debe presentarse.
No puedes ver ese prompt. El modelo está típicamente entrenado para no revelarlo. Si preguntas directamente, las respuestas varían — algunos modelos admiten que tienen instrucciones pero se niegan a compartir detalles, otros esquivan la pregunta por completo.
Esto significa que cada respuesta que recibes está moldeada por decisiones que otra persona tomó. Decisiones sobre el tono, sobre qué temas abordar, sobre cómo manejar preguntas sensibles. No eres la primera voz en la conversación. Eres la segunda.
Oculta cómo usó sus herramientas
Los modelos de IA modernos pueden buscar en la web, ejecutar código, consultar bases de datos. Algunos te informan cuando lo hacen — «Busqué esto» o «Ejecuté este código.» Pero no te dicen qué encontraron y descartaron. Qué fuentes consideraron y rechazaron. Qué resultados alternativos vieron e ignoraron.
Ves el resultado final. No ves el proceso de selección.
Oculta de dónde aprendió lo que sabe
Cuando un modelo te dice un hecho, no tienes forma de saber si ese hecho proviene de un artículo revisado por pares, de un artículo de Wikipedia o de un comentario en Reddit. Los datos de entrenamiento no se citan. Ni siquiera son accesibles para el propio modelo.
Claude lo confirmó directamente: «No tengo acceso a dónde aprendí algo ni con qué certeza.»
Herramientas como Perplexity citan fuentes — pero son fuentes de búsquedas en tiempo real, no de los datos de entrenamiento del modelo. La inmensa mayoría de lo que un modelo de IA «sabe» proviene de datos de entrenamiento que nunca verás referenciados.
Oculta lo que no sabe
En lugar de decir «no tengo suficiente información para responder esto», un modelo puede generar una respuesta fluida, segura y completamente fabricada. Esto es lo que llamamos alucinación.
Los modelos modernos han mejorado a la hora de señalar su propia incertidumbre. Claude y GPT-4 dicen «no estoy seguro» con más frecuencia que sus predecesores. Pero la tendencia es sistémica — el modelo está entrenado para producir respuestas útiles y completas, y esa presión del entrenamiento no desaparece.
Cuando estaba construyendo agentes autónomos, esto se convirtió en un problema real. Un agente produjo una consulta SQL que parecía correcta. Se tomaron acciones basadas en su resultado. Solo descubrí el error cuando profundicé en los números. El agente no tenía mecanismo alguno para señalar que algo estaba mal — y nada en su resultado sugería que debiera dudar de él.
Oculta las decisiones que moldean su comportamiento
El alineamiento de la IA es el proceso mediante el cual las empresas moldean el comportamiento de un modelo después del entrenamiento. A través de una técnica llamada RLHF — aprendizaje por refuerzo a partir de retroalimentación humana — evaluadores humanos califican las respuestas del modelo, y el modelo aprende a producir el tipo de resultado que ellos prefirieron.
Este proceso determina qué dirá el modelo, cómo lo dirá y qué se negará a discutir. Las personas que definen estas reglas son equipos dentro de empresas como Anthropic, OpenAI y Google. Tú, como usuario, tienes una influencia muy limitada sobre los valores y prioridades grabados a fuego en el modelo que estás utilizando.
Cuando un modelo responde a una pregunta sensible o controvertida, su respuesta está moldeada por estas decisiones de alineamiento — pero se presenta como una respuesta directa y servicial.
Oculta que no estás solo en la conversación
El prompt de sistema se inyecta antes de tu mensaje. Ya hay otra voz en la conversación antes de que llegues. El modelo ya ha recibido instrucciones sobre quién debe ser, cómo debe comportarse y qué debe priorizar.
Crees que estás hablando con el modelo. Estás hablando con el modelo después de que alguien le haya dicho cómo hablarte.
Oculta sus rechazos detrás de la preocupación
Cuando un modelo se niega a responder una pregunta, rara vez dice «mis instrucciones me prohíben discutir esto.» En su lugar, dice algo como «quiero asegurarme de proporcionarte información segura y precisa.»
La instrucción se disfraza de preocupación. El límite se presenta como cuidado.
A veces se trata genuinamente de seguridad — y a veces no. La línea entre ambas es delgada. Precisamente por eso merece atención.
¿Nos está manipulando la IA?
Todo lo que describí arriba tiene un propósito práctico. Estas decisiones de diseño hacen que los modelos de IA sean más útiles, más agradables de usar y más fáciles de adoptar.
Pero hay un coste.
Acceso completo a mis pensamientos, historias personales, hallazgos y lo que me cuentan las personas con las que me encuentro.
Únete a la BibliotecaReciba el artículo completo por correo electrónico y no dude en responder si desea seguir comentándolo.
Resumen
Si tienes pensamientos, preguntas o comentarios, no dudes en escribirme a mail@richardgolian.com.