Back to flin
flin

Analyse de documents : PDF, DOCX, CSV, JSON, YAML

Comment FLIN extrait le texte des fichiers PDF, DOCX, CSV, JSON et YAML pour l'indexation et le RAG -- des analyseurs intégrés qui transforment n'importe quel format de document en texte recherchable et intégrable.

Juste A. Gnimavo (Thales) & Claude | March 26, 2026 5 min flin
EN/ FR/ ES
flindocumentparsingpdfdocx

Le RAG n'est aussi bon que les données qu'il récupère. Si votre base de connaissances est une collection de fichiers PDF, de documents Word et de tableurs CSV, vous devez extraire le texte avant de pouvoir le transformer en embeddings et le rechercher. Dans une pile RAG typique, cela nécessite des bibliothèques d'analyse séparées : pdfjs-dist pour les PDF, mammoth pour les DOCX, csv-parse pour les CSV, chacune avec sa propre API et ses propres cas limites.

FLIN fournit une seule fonction parse_document() qui gère tous les formats de documents courants. Donnez-lui un fichier, récupérez du texte structuré. Pas de sélection de bibliothèque. Pas de détection de format. Pas de devinette d'encodage.

La fonction parse_document()

flin// Analyser tout format pris en charge
result = parse_document("path/to/document.pdf")

// Structure du résultat
result.text       // Texte extrait complet
result.metadata   // Métadonnées du document (titre, auteur, pages, etc.)
result.format     // Format détecté ("pdf", "docx", "csv", etc.)
result.pages      // Tableau de textes par page (pour PDF)
result.sections   // Tableau de sections avec titres (pour DOCX)
result.rows       // Tableau d'objets lignes (pour CSV)

Le type de retour s'adapte au format du document tout en maintenant un champ text commun qui contient toujours le texte extrait complet. Ce champ text est ce que vous passez typiquement au pipeline d'embeddings.

Analyse PDF

Le PDF est le format le plus complexe à analyser. Le texte peut être dans des positions arbitraires, les polices peuvent encoder les caractères de manière non standard, et le contenu peut être dans des images plutôt que dans des flux de texte.

flinresult = parse_document("annual-report.pdf")

// Texte complet
full_text = result.text

// Accès par page
for page in result.pages {
    log_info("Page {page.number}: {page.text.len} caractères")
}

// Métadonnées
title = result.metadata.title        // "2025 Annual Report"
author = result.metadata.author      // "ZeroSuite Inc."
page_count = result.metadata.pages   // 47

Analyse DOCX

Les documents Word stockent le contenu en XML à l'intérieur d'une archive ZIP. FLIN extrait le texte, les titres et le formatage de base. L'analyseur préserve la structure du document : titres avec leur niveau, paragraphes séparés par des sauts de ligne, listes avec préfixes, tableaux extraits comme tableaux de tableaux.

Analyse CSV

Les fichiers CSV sont analysés en lignes structurées avec détection automatique des en-têtes. L'analyseur gère la détection des en-têtes, les champs entre guillemets, la détection d'encodage (UTF-8, UTF-16, Latin-1) et la détection du délimiteur (virgules, points-virgules, tabulations, pipes).

Analyse JSON et YAML

Les formats de données structurées sont analysés et aplatis en texte pour l'embedding. La représentation textuelle aplatit les structures imbriquées en paires clé-valeur lisibles, ce qui produit de meilleurs embeddings que le JSON brut.

Le pipeline d'ingestion de documents

L'analyse est typiquement la première étape d'un pipeline d'ingestion de documents :

flin// app/api/documents/upload.flin

guard auth
guard role("admin")

route POST {
    validate {
        file: file @required @max_size("50MB")
            @allow_types("application/pdf",
                "application/vnd.openxmlformats-officedocument.wordprocessingml.document",
                "text/csv", "application/json", "text/yaml")
        title: text @required
        category: text
    }

    // Stocker le fichier
    file_path = save_file(body.file, ".flindb/documents/")

    // Analyser le document
    parsed = parse_document(file_path)

    // Découper pour l'embedding
    chunks = chunk_text(parsed.text, {
        max_size: 500,
        overlap: 50,
        strategy: "paragraph"
    })

    // Sauvegarder les métadonnées du document
    doc = Document {
        title: body.title,
        file_path: file_path,
        format: parsed.format,
        page_count: parsed.metadata.pages || 0,
        category: body.category || "general",
        full_text: parsed.text
    }
    save doc

    // Sauvegarder les chunks avec les embeddings
    for chunk in chunks {
        save DocumentChunk {
            document_id: doc.id,
            content: chunk.text,              // semantic text
            page: chunk.page || 0,
            position: chunk.position
        }
    }

    response {
        status: 201
        body: {
            id: doc.id,
            title: doc.title,
            format: parsed.format,
            chunks: chunks.len,
            pages: parsed.metadata.pages || 0
        }
    }
}

Téléverser un fichier. L'analyser. Le découper. Générer les embeddings et indexer les chunks. Rechercher dans tous les documents téléversés. Le pipeline entier fait 40 lignes de code FLIN.

Résumé des formats pris en charge

FormatExtensionsAnalyseurNotes
PDF.pdfRust personnaliséTexte, tableaux, métadonnées
DOCX.docxZIP + XMLTitres, paragraphes, tableaux
CSV.csv, .tsvPersonnaliséDétection automatique du délimiteur
JSON.jsonserde_jsonAplati en texte
YAML.yaml, .ymlserde_yamlAplati en texte
Texte brut.txt, .mdDirectPas d'analyse nécessaire
HTML.html, .htmSuppression des balisesContenu textuel extrait

L'analyse de documents est le fondement sans glamour de tout système RAG. Sans extraction de texte propre et structurée, les embeddings sont médiocres et les résultats de recherche sont non pertinents. Les analyseurs intégrés de FLIN garantissent que le texte entrant dans le pipeline d'embeddings est propre, structuré et fidèle au document original.

Dans le prochain article, nous explorons le découpage conscient du code -- comment FLIN divise les documents en chunks appropriés pour l'embedding tout en respectant les frontières sémantiques.


Ceci est la partie 121 de la série « Comment nous avons construit FLIN », documentant comment un CEO à Abidjan et un CTO IA ont conçu et construit un langage de programmation à partir de zéro.

Navigation de la série : - [120] RAG : récupération, reclassement et attribution des sources - [121] Analyse de documents : PDF, DOCX, CSV, JSON, YAML (vous êtes ici) - [122] Découpage conscient du code pour le RAG - [123] Recherche hybride de documents : BM25 + sémantique

Share this article:

Responses

Write a response
0/2000
Loading responses...

Related Articles

Thales & Claude deblo

Le Step Zero ne suffisait pas : comment valider un constructeur sans valider le runtime a fait tomber toutes les sessions vocales de Déblo l’heure où nous avons livré le streaming caméra temps réel

La phase 14 a livré Déblo Eyes — streaming caméra temps réel via LiveKit vers Gemini Live native audio. Le premier deploy a fait tomber toutes les sessions vocales en production en quatre-vingt-dix secondes parce que notre Step 0 avait validé le constructeur sans exercer le runtime. Le build log de comment Déblo a eu des yeux, ce qu’un pré-vol incomplet a coûté, et quels points de polish ont été livrés ou reportés.

33 min May 20, 2026
debloclaude-opus-4.7claude-codegemini-live +25
Thales & Claude deblo

Le tiret cadratin qui a tué la production : comment un slogan marketing dans un header HTTP a fait tomber le chat de Déblo pendant 24 heures

Deux jours avant la soumission App Store, tout le produit chat de Déblo s’est cassé silencieusement. Pas de spinner, pas de toast, aucune erreur dans l’UI — juste un silence radio. L’incident de 24 heures se résumait à un seul « é » dans la valeur d’un header HTTP qui levait une UnicodeEncodeError avant qu’aucune requête vers OpenRouter ne quitte le backend. Post-mortem d’une fausse hypothèse, d’une trace Sentry, et d’un fix de six lignes qui a débloqué le lancement.

30 min May 19, 2026
debloclaude-opus-4.7claude-codeincident +19
Thales & Claude deblo

Six heures, d’une page blanche à la review Apple — Comment nous avons soumis Déblo à l’App Store, en direct

Marche à marche en direct de la soumission de Déblo à l’App Store iOS en six heures : ce que les validateurs d’Apple ont rejeté (un superscript Unicode), ce que nous avons corrigé (un Promotional Text gaspillé sur des marques tierces), et les rouages de l’ASO iOS que presque tout le monde rate.

30 min May 13, 2026
debloclaude-opus-4.7claude-codeapp-store +16