Augmentation de la quota Azure AI Foundry
Si vous avez besoin d'augmenter la quota d'Azure AI Foundry, utilisez ce document qui résume les informations nécessaires et fait référence au formulaire de demande d'augmentation de quota ainsi qu'à la documentation sur les modèles et les régions.
Pourquoi l'augmentation est nécessaire
Vos agents AI fonctionnent (ou fonctionneront) directement dans votre environnement Azure AI Foundry, donc toutes les charges de travail AI sont soumises aux limites de votre abonnement Azure (TPM/RPM).
Les quotas par défaut sont principalement définis pour les tests et les PoC. Lors d'un déploiement en production, en particulier lors de l'ingestion de documents et de la génération d'embeddings, ces limites représentent souvent un goulot d'étranglement et ralentissent considérablement le traitement.
L'augmentation de quota permettra :
- une ingestion de documents et une réindexation plus rapides,
- un débit plus élevé pour la génération d'embeddings,
- des performances stables lors de charges concurrentes d'utilisateurs,
- une latence réduite et moins de throttling,
- une échelle et une fiabilité en production.
Important : L'augmentation de quota ne change pas le prix. Elle augmente uniquement le débit. La facturation reste strictement basée sur les tokens consommés — le prix par token est le même.
Il s'agit d'un processus Azure standard pour le déploiement AI en production. Nous vous fournirons des paramètres pré-remplis et un modèle de justification pour que la demande soit rapide et simple.
Données pour la demande d'augmentation de quota
| # | Champ | Valeur / remarque |
|---|---|---|
| 1 | Prénom (représentant autorisé du demandeur) | [CLIENT] |
| 2 | Nom de famille | [CLIENT] |
| 3 | E-mail professionnel (sur le domaine de l'entreprise) | [CLIENT] |
| 4 | Nom de l'entreprise | [CLIENT] |
| 5 | Adresse de l'entreprise | [CLIENT] |
| 6 | Ville | [CLIENT] |
| 7 | Code postal | [CLIENT] |
| 8 | Pays | [CLIENT] |
| 9 | ID d'abonnement | [CLIENT] ou [SIESTA.AI], si nous avons accès à votre abonnement Azure |
| 10 | Justification (EXEMPLE) | Ci-dessous |
| 11 | Type de modèle | Azure OpenAI |
| 12 | Quota de déploiement de modèle | Déploiement de modèle (PTU/RPM/TPM) |
| 13 | Type de demande de quota (Azure OpenAI) | Standard Global |
| 14 | Région Standard Global | East US2 ou Sweden Central |
| 15 | Modèle Standard Global (Azure OpenAI) | text-embedding-3-large |
| 16 | Quota | 10000 |
Exemple de justification
Nous construisons et exploitons une plateforme SaaS AI en production axée sur l'automatisation des entreprises (analyse de documents, agents RAG, tri des e-mails, intégrations CRM et automatisation des processus internes pour des clients B2B). Nous opérons actuellement dans des déploiements pilotes et en production à travers divers secteurs (manufacture, immobilier, assurance, services aux entreprises). Les charges de travail typiques incluent :
- un chat à haute fréquence et des inférences API,
- de grands pipelines pour l'ingestion et la vectorisation de documents (PDF, DOCX, crawling web),
- des prompts contextuellement exigeants avec un raisonnement en plusieurs étapes,
- une utilisation simultanée par plusieurs utilisateurs et équipes d'entreprise.
Les quotas actuels sont déjà un goulot d'étranglement pendant les pics de charge et les tests. Avec l'expansion de l'intégration de nouveaux clients et le lancement d'autres agents et intégrations (HubSpot, Gmail, Google Drive, Azure Storage, CRM interne), nous prévoyons une augmentation significative du débit de tokens. Nous avons besoin d'augmenter la quota pour :
- maintenir une latence stable lors d'opérations d'entreprise simultanées,
- soutenir le traitement par lots de documents et les pipelines d'ingestion continues,
- garantir la fiabilité en production et le SLA,
- éliminer le throttling lors des pics de charge provenant de workflows commerciaux réels.
Cette augmentation de quota est critique pour les prochains déploiements en production et les lancements commerciaux. Sans une capacité accrue, notre capacité à évoluer avec les clients et à garantir une qualité de service cohérente sera limitée. Nous nous engageons à une utilisation responsable, à la surveillance des coûts et à l'optimisation efficace des prompts et des tokens conformément aux meilleures pratiques d'Azure OpenAI.