Cómo funciona realmente ChatGPT (y por qué solo usa un decodificador) •

1. ChatGPT y la revolución de los modelos Decoder-Only

Cuando interactuamos con ChatGPT, parece que entiende lo que decimos, recuerda el contexto de la conversación y genera respuestas coherentes. Pero detrás de esta capacidad no hay comprensión real, sino un modelo basado en patrones estadísticos: GPT (Generative Pre-trained Transformer).

GPT se basa en la arquitectura Transformer, introducida en el paper “Attention Is All You Need” (2017). Sin embargo, el modelo no usa un Transformer completo (que incluye un codificador y un decodificador), sino que solo emplea la parte del decodificador.

¿Por qué GPT solo usa el decodificador?

La idea de usar solo el decodificador en modelos generativos fue introducida por OpenAI en 2018 con el paper “Improving Language Understanding by Generative Pre-Training” (Radford et al., 2018).

Este trabajo marcó el inicio de la era moderna de los modelos de lenguaje al demostrar que una IA podía aprender sobre el lenguaje sin necesitar textos etiquetados.

El truco es entrenar un modelo en dos fases:

1️⃣ Pre-entrenamiento (Unsupervised Learning)

Se entrena en una cantidad masiva de texto sin etiquetas (BooksCorpus, Wikipedia, foros, etc.).
Aprende a predecir la siguiente palabra en una secuencia.
No necesita intervención humana, solo descubre patrones en el lenguaje.

2️⃣ Ajuste fino (Fine-Tuning) en tareas específicas

Se entrena con ejemplos etiquetados en tareas como preguntas y respuestas, clasificación de texto, etc.
Se adapta el modelo sin cambiar su arquitectura.

Este enfoque revolucionó el aprendizaje del lenguaje porque:
✅ Aprovecha mejor los datos no etiquetados y reduce la necesidad de datasets supervisados.
✅ Permite reentrenar un solo modelo para múltiples tareas sin modificar su estructura.
✅ Hace posible la escalabilidad, entrenando modelos más grandes sin cambios arquitectónicos.

GPT sacrifica la comprensión bidireccional de modelos como BERT para optimizar la generación de texto.

La revolución de RLHF y el nacimiento de los chatbots útiles

Hasta GPT-3 (2020), los modelos de lenguaje eran impresionantes en generación de texto, pero aún tenían tendencias problemáticas:
❌ Generaban respuestas incoherentes o sin sentido.
❌ A menudo alucinaban información falsa.
❌ Podían producir contenido tóxico o sesgado.

Aquí es donde entra en juego RLHF (Reinforcement Learning from Human Feedback), introducido en GPT-3.5 (2022) y perfeccionado en GPT-4 (2023).

🔹 ¿Qué es RLHF?
Es un sistema de aprendizaje por refuerzo donde humanos califican respuestas generadas por la IA. Luego, el modelo se reajusta para favorecer las respuestas mejor valoradas.

🔹 ¿Por qué fue un salto clave en ChatGPT?
✅ Permitió alinear las respuestas con las expectativas humanas.
✅ Redujo sesgos y respuestas dañinas.
✅ Mejoró la capacidad del modelo para seguir instrucciones y generar contenido más útil.

En otras palabras, GPT-3.5 fue el primer modelo que realmente convirtió los modelos de lenguaje en asistentes conversacionales eficientes.

Antes, los modelos GPT eran solo generadores de texto avanzados. Después de RLHF, se convirtieron en chatbots capaces de mantener conversaciones útiles y seguras.

¿Cómo influye en el comportamiento de ChatGPT?

El uso exclusivo del decodificador, combinado con pre-entrenamiento y ajuste fino, implica que ChatGPT no analiza el significado del texto en profundidad, sino que simplemente predice la palabra más probable que debe venir a continuación.

Esto hace que:

Genere respuestas fluidas y coherentes, ya que sigue patrones de lenguaje natural.
Sea capaz de mantener un contexto en la conversación, aunque no con una memoria real, sino recordando los tokens anteriores dentro de su ventana de contexto.
No tenga una comprensión real del mundo, pues solo basa sus respuestas en correlaciones aprendidas en los datos de entrenamiento.

A pesar de esto, RLHF ha mejorado su capacidad para razonar de manera más estructurada y seguir instrucciones humanas.

La diferencia clave con otros modelos

GPT se diferencia de modelos como T5 o BERT, que utilizan codificadores para comprender el lenguaje en ambas direcciones.

Modelo	Arquitectura	Objetivo Principal
BERT	Solo codificador	Comprensión de lenguaje (bidireccional)
T5	Encoder-Decoder	Traducción y transformación de texto
GPT	Solo decodificador	Generación de texto autoregresiva

ChatGPT es un modelo de lenguaje generativo basado solo en el decodificador de un Transformer, optimizado para generar respuestas coherentes y alineadas con preferencias humanas gracias a RLHF.

De modelos de lenguaje a asistentes inteligentes

El paper de 2018 estableció la base de los modelos de lenguaje actuales, demostrando que un modelo pre-entrenado podía generalizar a múltiples tareas con ajuste fino.

Sin embargo, fue RLHF en GPT-3.5 lo que transformó estos modelos en asistentes conversacionales útiles, seguros y alineados con humanos.

Gracias a estos avances, ahora tenemos ChatGPT, Claude, Gemini y otros modelos que pueden interactuar como asistentes virtuales avanzados.

Y esto es solo el principio. 🚀

2. La arquitectura detrás de ChatGPT

GPT y la arquitectura Transformer

GPT proviene de la arquitectura Transformer, introducida en el paper “Attention Is All You Need” (2017). Esta arquitectura revolucionó el procesamiento del lenguaje porque usa un mecanismo llamado self-attention, que le permite procesar texto de manera más eficiente que los modelos anteriores.

Ahora bien, un Transformer completo tiene dos partes:

El codificador (Encoder), que analiza el texto y lo comprende en ambas direcciones (de izquierda a derecha y de derecha a izquierda).
El decodificador (Decoder), que genera nuevo texto basándose en lo que ya ha procesado.

GPT solo usa la parte del decodificador. Esto significa que no “lee” el texto en ambas direcciones, sino que genera palabras de manera secuencial, usando solo lo que ha visto antes en la conversación, (para entender la uttilidad de esto hay que pensar en la fase de entrenamiento no en la de inferencia).

¿Por qué funciona así? Porque su objetivo principal es predecir la siguiente palabra en función del contexto previo.

Diferencias entre un Transformer completo y GPT

Característica	Transformer Completo	GPT (Solo Decodificador)
Usa Codificador	✅ Sí	❌ No
Usa Decodificador	✅ Sí	✅ Sí
Comprensión del Contexto	Bidireccional	Unidireccional
Generación de Texto	Limitada	✅ Optimizada para generación

GPT sacrifica comprensión bidireccional para ser más eficiente generando texto.

3. ¿Cómo genera texto ChatGPT?

Lo que hace ChatGPT es bastante sencillo de describir (pero muy complejo de implementar):

Toma el texto que le hemos dado como entrada.
Predice cuál debería ser la siguiente palabra, basándose en el contexto previo.
Repite el proceso una y otra vez hasta completar la respuesta.

Este enfoque se llama generación autoregresiva, porque cada palabra se basa en las anteriores.

Self-attention causal: la clave de la generación de texto

En un modelo Transformer tradicional, el self-attention le permite al modelo analizar todo el texto a la vez (esto se explica en este artículo sobre BERT). Pero en GPT esto no es posible porque solo usa el decodificador.

En su lugar, GPT en el entrenamiento usa un mecanismo llamado self-attention causal, que le impide mirar palabras futuras y solo le permite utilizar las palabras previas.

Esto es lo que hace que ChatGPT parezca que “escribe” en tiempo real, palabra por palabra.

4. Juega con la arquitectura de ChatGPT

Para entender mejor cómo funciona GPT, hemos hecho un notebook interactivo donde puedes:

Ver cómo predice las palabras de manera autoregresiva.
Explorar la matriz de atención y ver cómo selecciona la información más relevante en cada paso.
Analizar cómo procesa los tokens y embeddings en tiempo real.

👉 Abrir el notebook en Colab aquí

4.1. Generación de Historias con GPT-2

En el notebook, usamos el modelo DeepESP/gpt2-spanish para generar historias. Esto nos permite experimentar directamente con la estructura del decoder en acción:

Ingresa una frase inicial, y pulsa *enter en tu teclado.
GPT-2 genera la continuación de la historia usando el contexto previo.
Puedes seguir añadiendo frases a la ventana de contexto o escribir salir.

Cuando has introducido salir, visualizarás la matriz de atención. Esta matriz muestra: Esta matriz muestra:

Qué tokens (palabras) están influenciando a otros tokens.
Cuánta “atención” da el modelo a cada palabra previa.
Cómo la atención cambia en cada capa del decodificador.

En términos simples, la matriz de atención indica qué palabras son más importantes en el contexto para predecir la siguiente.

Al probar diferentes entradas y analizar las matrices de atención, podemos ver cómo el modelo asigna pesos a cada palabra según su relevancia en la oración generada.

4.2. La Matriz de Atención en Nuestro Notebook

En nuestro notebook, la matriz de atención es la representación visual de cómo el modelo asigna pesos a las palabras previas para generar la siguiente palabra.

Cuando ejecutamos la función visualizar_atencion(input_texto), extraemos la última matriz de atención del modelo GPT-2 en español y la graficamos con seaborn. Esta matriz muestra:

Qué tokens (palabras) están influenciando a otros tokens.
Cuánta “atención” da el modelo a cada palabra previa.
Cómo la atención cambia en cada capa del decodificador.

En términos simples, la matriz de atención indica cuáles palabras son más importantes en el contexto para predecir la siguiente.

4.3. Diferencia con Multi-Head Self-Attention en BERT

Ya explicamos en el artículo como trabajaba BERT , y allí se explica el multi-head self-attention en el codificador. GPT también usa multi-head self-attention, pero hay diferencias muy importantes:

Característica	BERT (Encoder)	GPT (Decoder-Only)
Direccionalidad	Bidireccional	Unidireccional (causal)
Self-Attention Mask	Ninguna (puede ver todo el texto)	Causal mask (bloquea tokens futuros)
Flujo de Atención	Cada token puede atender a cualquier otro (izq. y der.)	Cada token solo atiende a los anteriores
Uso del Multi-Head Attention	Codifica contexto en profundidad	Predice texto paso a paso

🔹 En BERT, cada palabra puede atender a todas las demás, porque su objetivo es comprender el significado de una oración completa.
🔹 En GPT, cada palabra solo puede atender a las anteriores, porque su objetivo es generar texto de manera autoregresiva.

Cuando visualizamos la matriz de atención en el notebook, vemos que cada token solo está influenciado por los tokens anteriores, debido a la self-attention causal implementada con una máscara triangular inferior.

4.4. Ejemplo Visual con la Matriz de Atención

Si introducimos este texto en el notebook:

“El gato se subió al árbol”

La matriz de atención de la última capa puede verse así:

attention_mask = [
    [1, 0, 0, 0, 0, 0],
    [1, 1, 0, 0, 0, 0],
    [1, 1, 1, 0, 0, 0],
    [1, 1, 1, 1, 0, 0],
    [1, 1, 1, 1, 1, 0],
    [1, 1, 1, 1, 1, 1]
]

Cada fila representa un token y por simplificar para que se entienda la expicación una palabra. Y este token se relaciona con los anteriores. El token “subió” no puede atender a “árbol”, porque eso rompería la generación autoregresiva.

En cambio, si viéramos la matriz de atención en BERT, todos los tokens podrían atender a todos los demás, porque su objetivo es comprensión, no generación.

Es muy interesante entender que el token que corresponde a ‘árbol’ es el que tiene toda la información semántica de la frase, ya que es el último. Este hecho se usa para utilizar un decoder-only como codificador para ofrecer la información de toda la frase de manera enriquecida. Pero eso es otra historia que contaré en otra ocasión.

5. Preguntas Frecuentes

¿Cómo funciona el algoritmo de ChatGPT?

ChatGPT usa un modelo GPT, que genera texto prediciendo la siguiente palabra en función del contexto previo.

¿Cómo saber si un texto o código ha sido generado con ChatGPT?

Hay herramientas que intentan detectar patrones en los textos generados por IA, pero todavía no son 100% precisas.

¿Qué diferencia hay entre GPT-3 y GPT-4?

GPT-4 tiene una arquitectura más eficiente, maneja mejor el contexto y puede aceptar entradas más largas.

¿Todos los modelos de IA generan texto como ChatGPT?

No. Algunos modelos como BERT están diseñados para comprender texto en lugar de generarlo.

ChatGPT funciona porque usa un modelo solo de decodificación, basado en la arquitectura Transformer. Esto lo hace muy eficiente para generar texto, pero también tiene limitaciones en la comprensión profunda del lenguaje.

Si te interesa entender mejor cómo funciona todo esto y cómo aplicarlo a tu negocio, te puedo ayudar pulsa aquí.

Además te puedes suscribir a la newsletter y cada viernes te envío información práctica sobre Machine Learning e IA aplicada a empresas.

Cómo funciona realmente ChatGPT (y por qué solo usa un decodificador)