Modelos de lenguaje en español: por qué Colombia debe construir su propio LLM regional · Voltaje IEEE Colombia

El procesamiento de lenguaje natural en español enfrenta un problema estructural: la mayoría de los modelos de gran escala fueron entrenados con variantes ibéricas del español, lo que introduce sesgos sistemáticos al procesar texto colombiano, venezolano o peruano.

¿Por qué el español andino es diferente?

Las variantes andinas del español presentan características fonológicas, léxicas y sintácticas que difieren notablemente del castellano peninsular. El uso del voseo, los regionalismos técnicos y la mezcla con lenguas indígenas como el quechua generan un ecosistema lingüístico que los modelos actuales no representan adecuadamente.

En pruebas realizadas en el Laboratorio de NLP de la Universidad de los Andes durante 2025, GPT-4 y Llama-3 mostraron errores de comprensión semántica un 23% superiores en textos de ingeniería colombiana versus textos españoles equivalentes.

La oportunidad del consorcio

La propuesta es la creación de un consorcio de 12 universidades colombianas acreditadas, liderado por Uniandes, la Universidad Nacional y la Universidad de Antioquia, con financiación mixta MinCiencias-industria.

Corpus de 8TB de texto técnico en español andino (2018-2026)
Modelo base de 13B parámetros entrenado en clústeres de MinTIC
Licencia Creative Commons BY-SA para instituciones académicas
Acceso API para empresas colombianas a tarifa preferencial

Un LLM regional no es un lujo tecnológico. Es infraestructura lingüística crítica para la soberanía digital de Colombia.

Inversión estimada y cronograma

El proyecto requiere una inversión inicial de COP 45.000 millones distribuidos en tres años. La fase de entrenamiento base se estima en 18 meses con los recursos de cómputo disponibles en el BIOS Data Center de Medellín y el Centro de Datos de la UNAL Bogotá.

Los interesados en participar en el consorcio pueden contactar al Grupo Aleph de Uniandes. La próxima reunión de constitución está programada para junio de 2026 en Bogotá.