Visão geral do projeto
Modal LLM Fleet foi desenvolvido para provisionar, de forma independente ou em lote, os melhores modelos open source para diferentes necessidades de IA. A plataforma expõe endpoints compatíveis com a API da OpenAI para chat, visão, embeddings, geração de imagens, geração de vídeos, text-to-speech e upscaling, usando GPUs Modal, autenticação por bearer token e desligamento automático por ociosidade para controlar custo.

Desafio
Viabilizar projetos multi-agentes sem depender exclusivamente de LLMs cloud proprietários, mantendo soberania dos dados, flexibilidade de escolha de modelos, controle de custo por GPU e possibilidade de personalizar modelos para domínios específicos.
Solução
Arquitetura em camadas com registries de modelos como fonte única de verdade, vLLM para texto, visão e embeddings, diffusers para imagem e vídeo, FastAPI com contratos OpenAI-compatible, Modal Secrets para tokens, volumes de cache e deploys independentes por modelo.
Tech Stack
- LLM Open Source
- Modal
- Inferência em GPU
- Multi-agente
- Soberania de Dados
Escopo técnico
- Endpoints OpenAI-compatible com bearer token
- LLMs, visão, embeddings, imagem, vídeo, voz e upscaling
- Provisionamento independente por modelo ou frota completa
- Soberania de dados e base para sistemas multi-agentes
