Construyendo un analizador léxico desde cero en Rust

Un analizador léxico es lo primero que encuentra tu código. Convierte caracteres en significado. Antes de que un parser pueda entender la estructura de tu programa, antes de que un verificador de tipos pueda validar su corrección, antes de que un generador de código pueda emitir bytecode -- el analizador léxico debe leer tu archivo fuente un carácter a la vez y producir un flujo de tokens. Es la fase más humilde de un compilador, y posiblemente la más importante.

El analizador léxico de FLIN tiene un desafío inusual: debe manejar dos modos sintácticos fundamentalmente diferentes en el mismo archivo fuente. Los programas FLIN contienen código imperativo -- declaraciones de variables, flujo de control, llamadas a funciones -- intercalado con declaraciones de vista similares a HTML. El lexer debe cambiar entre estos modos sin perder su posición, sin identificar erróneamente tokens ni confundir un operador menor-que con una etiqueta HTML de apertura.

El escáner trimodal

rustpub struct Lexer<'a> {
    source: &'a str,
    chars: Peekable<CharIndices<'a>>,
    line: u32,
    column: u32,
    start: u32,
    mode: LexerMode,
}

#[derive(Debug, Clone, Copy, PartialEq)]
enum LexerMode {
    Code,           // Código normal
    View,           // Dentro de etiquetas HTML
    ViewExpression, // Dentro de {expresión} en vista
}

El modo Code es el predeterminado. Los tokens son operadores, palabras clave, identificadores y literales.

El modo View se activa cuando el lexer encuentra un < seguido de un carácter alfabético. En modo vista, el lexer emite tokens TagOpen, TagName, AttrName, TagClose, TagSelfClose y TagEnd.

El modo ViewExpression se activa cuando el lexer encuentra { mientras está en modo vista. Dentro de las llaves, el lexer revierte a tokenización en modo código.

Al final de la sesión 4, el lexer tenía 97 pruebas unitarias. Cuando empezamos a construir el parser en la sesión 5, el flujo de tokens era confiable. Nunca tuvimos que depurar un error del parser que resultara ser un error del lexer. Ese es el retorno de inversión de las pruebas exhaustivas del lexer.

Esta es la Parte 12 de la serie "Cómo construimos FLIN".

Construyendo un analizador léxico desde cero en Rust

El escáner trimodal

Responses

Related Articles

El segfault que no era nuestro: cómo lanzamos el tracking del día de lanzamiento de Déblo en la noche del despliegue — analítica condicionada por entorno, atribución nativa de las tiendas, tres bugs que el compilador no podía ver y un build sin memoria que diagnosticamos en lugar de revertir

Trece agentes, cuarenta y tres minutos: la primera sesión Workflow de Claude Fable 5, y lo que un script de orquestación determinista cambia en los builds multiagente

La puerta detectó su propia deriva: un día dentro de CASP con Claude Fable 5