En menos de cinco años, la inteligencia artificial pasó de ser una promesa de laboratorio a redefinir cómo escribimos, programamos, diagnosticamos, diseñamos y tomamos decisiones. Hoy convive con nosotros en el trabajo, en el teléfono y en los centros de datos que consumen más electricidad que países enteros. Este artículo es el mapa que necesitas para entender qué hay debajo de todo esto: tokens, transformers, agentes, modelos y las empresas que lideran la carrera más importante de la historia tecnológica.
🔤 ¿Qué es un Token?
Un token es la unidad mínima de texto que un modelo de lenguaje procesa. No es exactamente una palabra ni un carácter: es un fragmento de texto determinado por un algoritmo de segmentación llamado tokenizador. En la práctica, 1 token ≈ 0.75 palabras en inglés, o aproximadamente 4 caracteres.
Diagrama — Cómo se tokeniza una oración
Texto original: "La inteligencia artificial transforma el mundo"
La ▁intelig encia ▁artif icial ▁transform a ▁el ▁mundo
9 tokens · El símbolo ▁ indica espacio al inicio del token · Colores distintos = tokens distintos
~750
palabras por cada 1,000 tokens
~4
caracteres promedio por token
1.3–2x
más tokens en español vs inglés
$
la unidad de cobro en APIs
Consumo de Tokens — ¿Cómo se cobra?
Los modelos cobran por tokens de entrada (input) —el texto que envías— y tokens de salida (output) —la respuesta generada. Los output tokens suelen costar 3–5x más que los input.
| Modelo |
Input ($/M tokens) |
Output ($/M tokens) |
Contexto máx. |
| Claude Opus 4.5 |
$15.00 |
$75.00 |
200K |
| Claude Sonnet 4.6 |
$3.00 |
$15.00 |
200K |
| GPT-4o |
$2.50 |
$10.00 |
128K |
| o3-mini |
$1.10 |
$4.40 |
128K |
| Gemini 2.5 Pro |
$1.25 |
$10.00 |
1M |
| DeepSeek R1 |
$0.55 |
$2.19 |
64K |
| LLaMA 3.3 70B (self-hosted) |
Gratis* |
Gratis* |
128K |
* Gratis en cómputo propio; costo real = infraestructura GPU. Precios aproximados a abril 2026.
🧠 ¿Qué es un LLM?
Un Large Language Model (LLM) es una red neuronal entrenada con cientos de miles de millones de tokens de texto para predecir el token siguiente dado un contexto. A pesar de esa tarea aparentemente simple, emerge de ella la capacidad de razonar, programar, traducir, resumir y mantener conversaciones coherentes.
Arquitectura Transformer Simplificada
Texto de entrada
"¿Cuál es la capital de México?"
↓
Tokenizador
Texto → secuencia de IDs numéricos
↓
Embeddings + Positional Encoding
Cada token → vector de alta dimensión + posición
↓
N × Bloques Transformer
Multi-Head
Self-Attention
Feed Forward
Network
Layer Norm · Residual Connections · Dropout
↓
Capa de Salida (Softmax)
Distribución de probabilidad sobre todo el vocabulario
↓
Token predicho → "Ciudad"
Se repite hasta completar la respuesta
El Mecanismo de Atención — el corazón del Transformer
La Self-Attention permite que cada token "mire" a todos los demás tokens del contexto y asigne pesos de relevancia. Así el modelo sabe que en "El banco estaba lleno de gente", la palabra "banco" se refiere a una institución financiera o a un asiento según el contexto completo.
Fases de Entrenamiento de un LLM
1
Pre-entrenamiento (Pre-training)
Billones de tokens de internet, libros, código. El modelo aprende a predecir el siguiente token. Costo: $1M–$100M+ en cómputo GPU.
2
Fine-tuning supervisado (SFT)
Datos curados de conversaciones humanas. Enseña al modelo a responder instrucciones, no solo completar texto.
3
RLHF — Reinforcement Learning from Human Feedback
Humanos ranquean respuestas. Se entrena un modelo de recompensa. El LLM se ajusta con PPO para maximizar esa recompensa. Resultado: respuestas más útiles, menos dañinas.
4
Constitutional AI / RLAIF (variante Anthropic)
En vez de solo feedback humano, el modelo se critica a sí mismo según principios (una "constitución"). Más escalable y consistente que el RLHF puro.
🤖 ¿Qué es un Modelo de IA?
Un modelo de IA es una función matemática —con billones de parámetros— que transforma una entrada en una salida. Los parámetros son números ajustados durante el entrenamiento para minimizar el error de predicción. Existen muchos tipos; los LLMs son solo la categoría más visible hoy.
📝
LLM — Texto
Claude, GPT-4o, Gemini, LLaMA. Generan, resumen, traducen y razonan sobre texto e imágenes.
🎨
Difusión — Imagen
Stable Diffusion, DALL-E 3, Midjourney, Flux. Generan imágenes a partir de texto con redes de difusión.
🎵
Audio / Voz
Whisper (transcripción), ElevenLabs, Suno (música). Transformers adaptados a secuencias de audio.
🎬
Video
Sora (OpenAI), Veo 3 (Google), Kling. Generan video coherente de hasta minutos a partir de prompts.
🧬
Biología / Ciencia
AlphaFold 3 (proteínas), AlphaGeometry (matemáticas), GNoME (materiales). IA como herramienta científica.
🕹️
Código
Copilot, Cursor, Devin, Claude Code. Modelos especializados o ajustados para generación y revisión de código.
Escala de Parámetros — ¿Qué significa?
GPT-2 · 1.5B params
2019 · primer modelo "impresionante"
GPT-3 · 175B params
2020 · cambió la industria
GPT-4 · ~1.8T params (MoE)*
2023 · multimodal
Grok 3 · ~300B params
2025 · entrenado en 100K H100s
LLaMA 4 Behemoth · ~2T params (MoE)
2025
* MoE = Mixture of Experts: solo activa una fracción de parámetros por inferencia. Más eficiente que denso.
⚙️ ¿Qué es un Agente de IA?
Un agente de IA es un sistema que usa un LLM como "motor de razonamiento" y le da acceso a herramientas (buscar en internet, ejecutar código, leer archivos, llamar APIs) para completar tareas complejas de múltiples pasos de manera autónoma. La diferencia clave respecto a un chatbot: el agente actúa en el mundo, no solo responde.
Loop de un Agente — Patrón ReAct (Reason + Act)
👤 Objetivo del Usuario
"Analiza las ventas del Q1 y genera un reporte PDF"
↓
LOOP AGENTE
🤔 THOUGHT (Razonamiento)
El LLM analiza el estado actual, el objetivo y decide qué acción tomar a continuación.
↓
🔧 ACTION (Llamada a herramienta)
read_file() web_search() run_code() call_api() write_file()
↓
👁️ OBSERVATION (Resultado)
El resultado de la herramienta se incorpora al contexto. El loop continúa hasta alcanzar el objetivo.
↻ Repite hasta completar la tarea
↓
✅ Resultado Final entregado al usuario
Tipos de Arquitecturas de Agentes
🔗 Agente Simple
Un LLM con herramientas. El usuario da un objetivo, el agente lo ejecuta en un solo contexto. Ej: Claude Code, Devin.
🕸️ Multi-Agente
Varios agentes especializados coordinados por un orquestador. Uno busca, otro escribe, otro revisa. Mayor paralelismo y especialización.
🔄 Agente con Memoria
Combina memoria a corto plazo (contexto), largo plazo (base de datos vectorial) y episódica (historial de sesiones). Aprende de interacciones pasadas.
📅 Línea de Tiempo — La Carrera de los LLMs (2017–2026)
2017
Google — "Attention is All You Need"
Vaswani et al. publica el paper que introduce la arquitectura Transformer. Elimina las RNNs y LSTMs. Todo lo que viene después se basa en este trabajo. El más citado de la historia reciente de la IA.
2018
OpenAI — GPT-1 (117M) · Google — BERT (340M)
GPT-1 aplica el transformer a generación de texto. BERT demuestra que el pre-entrenamiento bidireccional mejora NLP. Dos enfoques distintos que definen dos tradiciones: generativa (GPT) vs comprensión (BERT).
2019
OpenAI — GPT-2 (1.5B)
OpenAI lanza GPT-2 pero con acceso restringido, argumentando que era "demasiado peligroso". En retrospectiva, esa decisión parece exagerada, pero marcó el debate sobre la seguridad de los modelos grandes.
2020
OpenAI — GPT-3 (175B)
El salto que lo cambió todo. GPT-3 mostraba emergencia: capacidades no entrenadas explícitamente que aparecen al escalar. Fue el primer modelo que convenció a la industria de que escalar funciona. API pública en beta cerrada.
Nov 2022 — El Momento ChatGPT
OpenAI — ChatGPT (GPT-3.5) · Anthropic — Claude 1
ChatGPT llega a 100 millones de usuarios en 2 meses — el crecimiento más rápido de cualquier aplicación en la historia. El mundo descubre los LLMs de golpe. Anthropic lanza Claude 1 usando Constitutional AI para mayor alineación.
2023
GPT-4 · LLaMA 1&2 · Claude 2 · Gemini 1.0 · Mistral 7B
El año de la explosión competitiva. GPT-4 introduce multimodalidad. Meta open-sources LLaMA democratizando el acceso. Mistral demuestra que 7B parámetros bien entrenados superan a 13B mal entrenados. Google lanza Gemini al final del año.
2024
Claude 3 · GPT-4o · Gemini 1.5 · LLaMA 3 · DeepSeek V2/V3 · Grok 2
Claude 3 Opus toma el liderazgo en benchmarks. GPT-4o integra voz, imagen y texto en tiempo real. Gemini 1.5 Pro alcanza 1 millón de tokens de contexto. DeepSeek sorprende al mundo con calidad comparable a GPT-4 a fracción del costo. OpenAI lanza o1, el primer modelo de "razonamiento lento" con chain-of-thought interno.
2025–2026
Claude 4 · GPT-4.5/o3 · Gemini 2.5 · Grok 3 · LLaMA 4 · Kimi k1.6
La era de los agentes autónomos. Los modelos superan a expertos humanos en coding (SWE-bench), matemáticas (AIME), medicina (USMLE). Claude 4 Opus lidera en razonamiento. Grok 3 entrena en 100,000 H100s. La carrera de infraestructura escala a proyectos de $100B+ (Stargate).
🏆 Los Modelos Más Importantes en 2026
Anthropic · Claude
Fundada 2021 · San Francisco · Valoración $61B (2025)
Claude Haiku 4.5
Ultra rápido · Bajo costo · Tareas simples
Claude Sonnet 4.6
Balance costo/rendimiento · El más usado en producción
Claude Opus 4.6 ⭐
Máximo razonamiento · Líder en benchmarks de coding
Fortalezas: Razonamiento largo, seguimiento de instrucciones, seguridad, código. Contexto 200K tokens. Constitutional AI garantiza respuestas más alineadas. Claude Code es el agente de programación más capaz disponible.
Líderes: Dario Amodei (CEO), Daniela Amodei (Presidenta), Chris Olah (seguridad).
OpenAI · GPT / o-series
Fundada 2015 · San Francisco · Valoración $300B+ (2025)
GPT-4o
Multimodal · Voz en tiempo real · Rápido
o3 / o3-mini
Razonamiento profundo · Chain-of-thought interno · AIME top
GPT-4.5 "Orion"
Mejor comprensión emocional · Conversación más natural
Fortalezas: Ecosistema más maduro (Plugins, GPTs, Assistants API). ChatGPT con 200M usuarios activos. Sora para video. Whisper para voz. o3 lidera en matemáticas y ciencia.
Líderes: Sam Altman (CEO), Greg Brockman (co-founder), Ilya Sutskever fundó SSI tras salir.
Google DeepMind · Gemini
Parte de Alphabet · Mountain View · Recursos virtualmente ilimitados
Gemini 2.0 Flash
Rápido · Barato · Integrado en Google Search
Gemini 2.5 Pro ⭐
1M tokens contexto · Líder en coding en algunos benchmarks
Gemini Ultra
Modelo flagship · Integrado en Workspace
Fortalezas: Contexto de 1–2 millones de tokens (el más grande). Integración nativa con Google Search, Docs, Gmail, YouTube. TPUs propios. Nativo multimodal desde el inicio.
Líderes: Sundar Pichai (CEO Alphabet), Demis Hassabis (CEO DeepMind, Nobel Química 2024).
xAI · Grok
Fundada 2023 · Austin TX · Valoración $50B+ · Elon Musk
Grok 2
Integrado en X/Twitter · Acceso a datos en tiempo real
Grok 3 ⭐
Entrenado en 100K H100s · ~300B params · Top en razonamiento
Aurora (visión)
Generación de imagen integrada en Grok
Fortalezas: Acceso a datos de X en tiempo real. Menos censura por diseño ("maximally truth-seeking"). Colossus, el clúster de entrenamiento más grande del mundo en su momento (100K H100s en Memphis).
Líderes: Elon Musk (fundador), Igor Babuschkin (ex DeepMind, co-fundador técnico).
Meta AI · LLaMA
Parte de Meta (Facebook) · Menlo Park · Open Source
LLaMA 3.3 70B
Open source · Mejor modelo abierto por parámetro
LLaMA 4 Scout/Maverick
MoE · Multimodal · 10M tokens de contexto
LLaMA 4 Behemoth ~2T ⭐
En entrenamiento · MoE · Supera GPT-4o en benchmarks
Fortalezas: Open source bajo licencia comercial. La comunidad ha creado miles de fine-tunes (Code Llama, Llama Guard, etc.). Disponible en Ollama, HuggingFace. Meta invierte $65B en infraestructura IA en 2025.
Líderes: Mark Zuckerberg (CEO), Yann LeCun (Chief AI Scientist, crítico vocal de LLMs puros).
DeepSeek
Fundada 2023 · Hangzhou, China · Subsidiaria de High-Flyer Quant
DeepSeek V3
Calidad GPT-4 · Entrenado por $5.6M (vs $100M+)
DeepSeek R1 ⭐
Razonamiento · Open source · Sacudió Wall Street en enero 2025
DeepSeek R2
Esperado 2025 · Mayor eficiencia MoE
Fortalezas: Eficiencia de entrenamiento sin precedente usando H800 (chips bajo restricciones de exportación). R1 demostró que el razonamiento puede destilarse con RL sin supervisión humana masiva. Open source completo, incluyendo pesos.
Líderes: Liang Wenfeng (CEO/fundador), equipo mayoritariamente de Zhejiang University.
Moonshot AI · Kimi
Fundada 2023 · Beijing · Valoración $3.3B
Kimi k1
200K contexto · Popular en China para documentos largos
Kimi k1.5 / k1.6 ⭐
Razonamiento long-thinking · Compite con o1 en benchmarks de matemáticas
Fortalezas: Pionero en ventanas de contexto ultra-largas (128K antes que los demás). k1.5 introdujo "long-thinking" con RL similar a DeepSeek R1. Muy adoptado en Asia para análisis de documentos y contratos.
Líderes: Yang Zhilin (CEO/fundador, ex Google Brain).
Mistral AI
Fundada 2023 · París · Valoración $6B · La apuesta europea
Mistral 7B / Mixtral 8x7B
Open source · MoE · Superó LLaMA 2 13B siendo la mitad
Mistral Large 2 ⭐
123B params · Compite con GPT-4 · Multilingüe
Codestral
Especializado en código · 80+ lenguajes · 32K contexto
Fortalezas: Eficiencia. Modelos pequeños con gran rendimiento. Open source líder en Europa. Pionero en MoE sparse para inferencia económica. La Plateforme: API competitiva en precio con OpenAI.
Líderes: Arthur Mensch (CEO), Guillaume Lample y Timothée Lacroix (co-fundadores, ex Meta FAIR).
📊 Comparativa de Capacidades — 2026
Benchmarks aproximados (escala 0–100) · Fuente: datos públicos abril 2026
💻 Programación (SWE-bench Verified)
🔢 Matemáticas (AIME 2024)
📖 Ventana de Contexto (tokens)
🏢 Las Empresas que Mueven la Industria
San Francisco · 2015
OpenAI
Valoración $300B+. Inversión de Microsoft $13B. ChatGPT es el producto de consumo de IA más usado. Pionero en RLHF, InstructGPT, y modelos de razonamiento (o-series). Bajo la dirección de Sam Altman tras la turbulencia del consejo en 2023.
GPT-4o o3 Sora Whisper
San Francisco · 2021
Anthropic
Valoración $61B. Inversiones de Amazon ($4B) y Google ($2B). Fundada por ex-OpenAI (Dario y Daniela Amodei + 7 más). Líder en safety e interpretabilidad. Constitutional AI. Claude Code es el agente de desarrollo más capaz.
Claude 4 Opus Claude Code Constitutional AI
Mountain View · 1998 (DeepMind 2010)
Google DeepMind
El mayor arsenal de recursos: TPUs, datos de Search/YouTube/Maps, 180K+ ingenieros. Demis Hassabis ganó el Nobel de Química 2024 por AlphaFold. Gemini 2.5 Pro lidera en contexto largo y multimodalidad nativa.
Gemini 2.5 AlphaFold 3 Veo 3
Redmond · 1975
Microsoft
$13B invertidos en OpenAI. Azure OpenAI Service. Copilot integrado en Windows, Office, GitHub. El mayor proveedor cloud de IA empresarial. Satya Nadella reposicionó Microsoft como empresa de IA antes que nadie entre las grandes.
Copilot Azure OpenAI GitHub Copilot
Santa Clara · 1993
NVIDIA
La empresa más valiosa del mundo en 2024. No hace modelos, hace el hardware que los hace posibles. H100 y H200 son la moneda de la carrera IA. Jensen Huang es el arquitecto involuntario de toda esta revolución. Blackwell (B200/GB200) es la siguiente generación.
H100/H200 Blackwell B200 CUDA
Menlo Park · 2004
Meta AI
La mayor apuesta open source en IA. $65B en capex IA para 2025. LLaMA democratiza el acceso a modelos de frontera. Yann LeCun predica que los LLMs no llegarán a AGI — pero igual construye los mejores. FAIR: el laboratorio de investigación más prolífico en publicaciones.
LLaMA 4 Meta AI FAIR
⚡ La Guerra del Silicio — Infraestructura y Cómputo
Detrás de cada respuesta de un LLM hay miles de GPUs trabajando en paralelo. La escasez de cómputo es el cuello de botella más crítico de la industria. En 2025, las inversiones en infraestructura IA superaron el PIB de muchos países.
$500B
Stargate (OpenAI + SoftBank + Oracle) — Plan de inversión en data centers IA en EE.UU.
$65B
Meta — Capex en infraestructura IA para 2025
100K
H100s usados para entrenar Grok 3 — el clúster Colossus de xAI
$5.6M
Costo de entrenamiento de DeepSeek V3 — vs $100M+ de competidores
Una GPU H100 en perspectiva
Precio unitario
$25,000–$40,000
Rendimiento FP8
3,958 TFLOPS
🔭 El Horizonte — ¿Hacia Dónde Va Todo Esto?
🤝 AGI — La Meta Declarada
OpenAI y Anthropic definen AGI como IA que supera a humanos en "la mayoría de tareas cognitivas". OpenAI dice que podría llegar "en años". Los modelos ya superan a humanos en medicina, derecho, código y matemáticas olímpicas. La pregunta no es si, sino cuándo y qué significa.
🔬 Computación Neuromórfica y Cuántica
Intel Loihi 2, IBM NorthPole. Chips que imitan neuronas biológicas: 1000x más eficientes energéticamente. La computación cuántica aún no amenaza a los LLMs, pero podría revolucionar el entrenamiento cuando alcance escala práctica.
🌐 IA Multimodal Nativa
Texto, imagen, audio, video, sensores en un solo modelo. GPT-4o y Gemini 2.0 son los primeros pasos. La IA que ve, escucha, habla y actúa simultáneamente es el siguiente umbral. Robots con LLMs (Figure, Boston Dynamics + OpenAI) ya trabajan en fábricas.
⚖️ Regulación y Geopolítica
EU AI Act en vigor. EE.UU. restringe exportación de chips avanzados a China. China responde con inversión masiva y modelos propios (DeepSeek, Kimi, Qwen, ERNIE). La IA es ya una cuestión de seguridad nacional. El talento, los datos y el cómputo son los recursos estratégicos del siglo XXI.
La IA no es una moda. Es la mayor concentración de capital intelectual y financiero en un solo problema tecnológico en la historia de la humanidad. Entender sus fundamentos —tokens, transformers, agentes, modelos— no es opcional para quien trabaja en tecnología. Es el nuevo alfabetismo digital.
Escrito en abril 2026 · Los números y benchmarks evolucionan semanalmente · Siempre verifica las fuentes más recientes