Resumen del proyecto
Modal LLM Fleet fue desarrollado para provisionar, de forma independiente o en lote, los mejores modelos open source para distintas necesidades de IA. La plataforma expone endpoints compatibles con la API de OpenAI para chat, visión, embeddings, generación de imágenes, generación de videos, text-to-speech y upscaling, usando GPUs Modal, autenticación por bearer token y apagado automático por inactividad para controlar costos.

Desafío
Viabilizar proyectos multi-agente sin depender exclusivamente de LLMs cloud propietarios, manteniendo soberanía de datos, flexibilidad de elección de modelos, control de costos por GPU y posibilidad de personalizar modelos para dominios específicos.
Solución
Arquitectura en capas con registries de modelos como fuente única de verdad, vLLM para texto, visión y embeddings, diffusers para imagen y video, FastAPI con contratos OpenAI-compatible, Modal Secrets para tokens, volúmenes de cache y despliegues independientes por modelo.
Tech Stack
- LLM Open Source
- Modal
- Inferencia en GPU
- Multi-agente
- Soberanía de Datos
Alcance técnico
- Endpoints OpenAI-compatible con bearer token
- LLMs, visión, embeddings, imagen, video, voz y upscaling
- Provisionamiento independiente por modelo o flota completa
- Soberanía de datos y base para sistemas multi-agente
