La mayoría de la gente oye "RAG" y piensa que es otro acrónimo técnico incomprensible. Pero es, probablemente, el mecanismo más importante para que una IA pueda trabajar con tu información sin que tú se la tengas que pegar delante cada vez.

RAG significa Retrieval-Augmented Generation — generación aumentada por recuperación. En castellano plano: antes de que el modelo responda, algo busca en tus documentos los trozos relevantes y se los pone delante. El modelo genera la respuesta usando esos trozos.

Vamos por partes.

El problema: la ventana de contexto

Una IA no puede "leer" todos tus documentos de golpe. Cada llamada tiene una ventana de contexto limitada: el máximo de texto que el modelo puede procesar a la vez. Claude Sonnet 4.5 admite 200.000 tokens — unas 150.000 palabras. Mucho, pero no "todos los informes y correos de los últimos 5 años".

Y aunque cupiera todo, pasarían dos cosas:

Pagarías una barbaridad. El coste crece con el tamaño del prompt.
El modelo se distraería. Meter ruido irrelevante empeora las respuestas.

Una empresa con 500 documentos no puede vivir así.

La solución: vectorizar y buscar

Cortex —y cualquier RAG bien montado— hace esto en tres fases:

1. Chunking. Cada documento se parte en trozos de ~300 palabras. No al azar: respetando párrafos, secciones y tablas para que cada trozo mantenga sentido por sí solo.

2. Embeddings. Cada trozo se convierte en un vector numérico — una secuencia de 1.536 números que representa su significado. Dos textos que hablan de lo mismo tienen vectores parecidos, aunque usen palabras distintas. "Propuesta para bancos" y "oferta comercial al sector financiero" acaban en posiciones cercanas del espacio vectorial.

3. Búsqueda semántica. Cuando preguntas algo, tu pregunta también se convierte en vector. El sistema compara ese vector con los de todos los trozos indexados y recupera los más cercanos.

Luego, los trozos recuperados se le pasan al modelo como contexto. El modelo responde usándolos como fuente.

Por qué es mejor que "adjuntar un PDF"

Mucha gente hace lo siguiente: sube un PDF a ChatGPT, le pregunta sobre el contenido, y ya.

Funciona para un documento. Para una empresa, no:

Cada PDF entra entero en la ventana de contexto. Si pesa mucho, no cabe.
Se olvida en cuanto cierras la conversación. Al día siguiente vuelves a subirlo.
Si tienes 20 PDFs que quieres consultar, los subes uno a uno cada vez.
La IA busca literalmente en el texto: si preguntas con otras palabras que las del documento, no lo encuentra.

Con un RAG vectorial:

Subes el documento una vez y queda indexado.
La IA puede buscar entre todos tus documentos sin que tú los adjuntes.
La búsqueda es semántica: "propuestas de banca" te encuentra "oferta para bancos nacionales" aunque no use esas palabras.
El conocimiento persiste entre conversaciones y entre miembros del equipo.

Lo que Cortex añade por encima

Un RAG vectorial básico resuelve la búsqueda, pero no la calidad. Cortex añade cuatro piezas:

Reranking con Haiku. Tras la búsqueda vectorial, un modelo ligero (Claude Haiku) revisa los trozos recuperados y filtra los irrelevantes. Esto reduce los falsos positivos típicos de la similitud por coseno pura.

Anclaje por título. Si tu pregunta menciona un documento por nombre ("la propuesta de Acme"), Cortex fuerza que ese doc entre al contexto aunque la búsqueda semántica no lo hubiera puesto arriba. No se fía solo del ranking.

Extracción automática de decisiones. Cuando una conversación cierra un acuerdo ("aprobado", "vamos con X", "firmamos"), Cortex la registra como una decisión trazable y la vectoriza aparte. En preguntas futuras aparece incluso si la conversación original ya cayó del contexto activo.

Captura de hechos. Nombres de clientes, fechas, cifras, criterios usados. Cortex los extrae automáticamente y los mantiene disponibles para respuestas posteriores.

¿Por qué te importa entenderlo?

Si eres usuario de Cortex no necesitas saber nada de esto para usarlo bien. Todo ocurre por detrás.

Pero entender el mecanismo te ayuda en tres cosas:

Formular mejores preguntas. El modelo responde con lo que recupera. Si tu pregunta es vaga, la búsqueda también lo es. Ser específico mejora mucho la respuesta.
Saber cuándo desconfiar. Si pides algo muy concreto y la respuesta es genérica, probablemente los trozos recuperados no tenían el detalle. Puedes pedir al modelo que cargue un documento por título.
Mantener limpios los documentos. Un PDF escaneado sin OCR es invisible para el RAG. Cortex te avisa cuando detecta esto con un badge "Contenido escaso", pero conviene saber por qué pasa.

Una última cosa: privacidad

En Cortex todos estos vectores viven dentro de tu propio proyecto. No se comparten con otros clientes, ni se usan para entrenar modelos. Son tuyos y solo tuyos. La propuesta que indexaste ayer no va a aparecer mañana en el prompt de nadie más.

Si tienes curiosidad técnica por alguna pieza —el chunking, el modelo de embeddings, cómo ajustamos el reranker— escríbenos a hola@cortexapp.es. Nos encanta hablar de esto.