Back to flin
flin

RAG: recuperación, reranking y atribución de fuentes

Cómo FLIN implementa la generación aumentada por recuperación -- recuperación semántica de sus datos, reranking con cross-encoder para precisión y atribución de fuentes para que los usuarios sepan de dónde vienen las respuestas.

Thales & Claude | March 30, 2026 3 min flin
EN/ FR/ ES
flinrust

Los modelos de lenguaje grande son conocedores pero no omniscientes. No pueden responder preguntas sobre la documentación interna de su empresa, su catálogo de productos o su historial de soporte al cliente. Alucinan cuando no conocen la respuesta, generando con confianza información plausible pero incorrecta.

La generación aumentada por recuperación (RAG) resuelve esto fundamentando las respuestas del LLM en sus datos reales. En lugar de preguntar al modelo "¿Cuál es nuestra política de reembolso?", primero se recupera la documentación relevante, luego se le pide al modelo que responda basándose en esa documentación.

FLIN implementa RAG como un pipeline componible: recuperar documentos relevantes con búsqueda semántica, rerankearlos con un cross-encoder para precisión, alimentarlos al LLM como contexto y atribuir la respuesta a sus fuentes.

El pipeline RAG

flinfn answer_question(question) {
    // Paso 1: Recuperar documentos relevantes
    docs = search question in Document by content limit 20

    // Paso 2: Rerankear para precisión
    ranked = rerank(question, docs, field: "content", limit: 5)

    // Paso 3: Construir contexto
    context = ranked.map(d => d.content).join("\n\n---\n\n")

    // Paso 4: Generar respuesta con atribución
    answer = ai_chat([
        { role: "system", content: "Answer questions based ONLY on the provided context. Cite sources by title. If the context doesn't contain the answer, say so." },
        { role: "user", content: "Context:\n" + context + "\n\nQuestion: " + question }
    ])

    {
        answer: answer,
        sources: ranked.map(d => { title: d.title, id: d.id })
    }
}

Cuatro pasos. Recuperar, rerankear, generar, atribuir. Cada paso es una llamada a función estándar de FLIN.

Perfil de rendimiento

PasoLatenciaNotas
Recuperación semántica2-10 msBúsqueda en índice HNSW
Reranking (20 docs)80-150 msPuntuación con cross-encoder
Ensamblaje de contexto< 1 msOperaciones de cadena
Generación LLM500-2000 msDepende del proveedor/modelo
Total600-2200 msAceptable para Q&A

Un desarrollador puede agregar RAG a su aplicación en una función. No un servicio. No un despliegue de infraestructura. Una función.


Esta es la Parte 120 de la serie "Cómo construimos FLIN", que documenta cómo un CEO en Abidjan y un CTO de IA diseñaron y construyeron un lenguaje de programación desde cero.

Navegación de la serie: - [119] Integración de FastEmbed para embeddings - [120] RAG: recuperación, reranking y atribución de fuentes (estás aquí) - [121] Análisis de documentos: PDF, DOCX, CSV, JSON, YAML - [122] Chunking consciente del código para RAG

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles