El procesamiento de lenguaje natural en español enfrenta un problema estructural: la mayoría de los modelos de gran escala fueron entrenados con variantes ibéricas del español, lo que introduce sesgos sistemáticos al procesar texto colombiano, venezolano o peruano.
¿Por qué el español andino es diferente?
Las variantes andinas del español presentan características fonológicas, léxicas y sintácticas que difieren notablemente del castellano peninsular. El uso del voseo, los regionalismos técnicos y la mezcla con lenguas indígenas como el quechua generan un ecosistema lingüístico que los modelos actuales no representan adecuadamente.
En pruebas realizadas en el Laboratorio de NLP de la Universidad de los Andes durante 2025, GPT-4 y Llama-3 mostraron errores de comprensión semántica un 23% superiores en textos de ingeniería colombiana versus textos españoles equivalentes.
La oportunidad del consorcio
La propuesta es la creación de un consorcio de 12 universidades colombianas acreditadas, liderado por Uniandes, la Universidad Nacional y la Universidad de Antioquia, con financiación mixta MinCiencias-industria.
- Corpus de 8TB de texto técnico en español andino (2018-2026)
- Modelo base de 13B parámetros entrenado en clústeres de MinTIC
- Licencia Creative Commons BY-SA para instituciones académicas
- Acceso API para empresas colombianas a tarifa preferencial
Un LLM regional no es un lujo tecnológico. Es infraestructura lingüística crítica para la soberanía digital de Colombia.
Inversión estimada y cronograma
El proyecto requiere una inversión inicial de COP 45.000 millones distribuidos en tres años. La fase de entrenamiento base se estima en 18 meses con los recursos de cómputo disponibles en el BIOS Data Center de Medellín y el Centro de Datos de la UNAL Bogotá.
Los interesados en participar en el consorcio pueden contactar al Grupo Aleph de Uniandes. La próxima reunión de constitución está programada para junio de 2026 en Bogotá.
