Mixture-of-Experts (MoE) explicado: por qué los LLM “gigantes” pueden ser más baratos de lo que parecen

El concepto MoE con el paper de Switch Transformers: routing, sparsity, por qué acelera el entrenamiento y qué trade-offs trae.

INTELIGENCIA ARTIFICIAL

2/26/2026