Pipeline hybride
Priorité au moteur local whisper.cpp (Metal/CoreML ou CPU), avec fallback automatique vers OpenAI pour garantir un SLA stable même en période de charge.
Ce service FastAPI pilote whisper.cpp en local sur Metal/CPU et bascule automatiquement vers OpenAI Whisper en cas de surcharge. Les resultats et metadonnees sont persistes dans ScyllaDB pour exploitation metier et audit.
Priorité au moteur local whisper.cpp (Metal/CoreML ou CPU), avec fallback automatique vers OpenAI pour garantir un SLA stable même en période de charge.
Chaque transcription est historisee dans ScyllaDB avec le texte, le backend utilise, la latence et les identifiants d'usage.
Middleware Identity obligatoire, limites de quotas (rate limiting + queue guard) et observabilité centralisée pour prévenir les abus.
GET /health
POST /v1/transcribe
POST /v1/media/upload
GET /v1/media/{id}/status
WS /ws/media/{id}
GET /docs
GET /openapi.json