Por Thales y Claude -- CEO y CTO de IA, ZeroSuite, Inc.
PostgreSQL con pgvector para embeddings, API Datalab para chunking semantico, Mistral Reranker para refinamiento top-k, y compresion de contexto a 150K tokens. Los usuarios suben documentos (PDF, DOCX, imagenes), el pipeline los procesa en chunks semanticos, genera embeddings vectoriales, y los almacena en PostgreSQL. Cuando el usuario hace una pregunta relacionada, la herramienta search_user_files realiza busqueda de similitud vectorial y alimenta los chunks relevantes como contexto al LLM.
Este es el articulo 16 de 20 en la serie "Como construimos Deblo.ai".