Aller au contenu principal

Augmentation de la quota Azure AI Foundry

Si vous avez besoin d'augmenter la quota d'Azure AI Foundry, utilisez ce document qui résume les informations nécessaires et fait référence au formulaire de demande d'augmentation de quota ainsi qu'à la documentation sur les modèles et les régions.

Pourquoi l'augmentation est nécessaire

Vos agents AI fonctionnent (ou fonctionneront) directement dans votre environnement Azure AI Foundry, donc toutes les charges de travail AI sont soumises aux limites de votre abonnement Azure (TPM/RPM).

Les quotas par défaut sont principalement définis pour les tests et les PoC. Lors d'un déploiement en production, en particulier lors de l'ingestion de documents et de la génération d'embeddings, ces limites représentent souvent un goulot d'étranglement et ralentissent considérablement le traitement.

L'augmentation de quota permettra :

  • une ingestion de documents et une réindexation plus rapides,
  • un débit plus élevé pour la génération d'embeddings,
  • des performances stables lors de charges concurrentes d'utilisateurs,
  • une latence réduite et moins de throttling,
  • une échelle et une fiabilité en production.

Important : L'augmentation de quota ne change pas le prix. Elle augmente uniquement le débit. La facturation reste strictement basée sur les tokens consommés — le prix par token est le même.

Il s'agit d'un processus Azure standard pour le déploiement AI en production. Nous vous fournirons des paramètres pré-remplis et un modèle de justification pour que la demande soit rapide et simple.

Données pour la demande d'augmentation de quota

#ChampValeur / remarque
1Prénom (représentant autorisé du demandeur)[CLIENT]
2Nom de famille[CLIENT]
3E-mail professionnel (sur le domaine de l'entreprise)[CLIENT]
4Nom de l'entreprise[CLIENT]
5Adresse de l'entreprise[CLIENT]
6Ville[CLIENT]
7Code postal[CLIENT]
8Pays[CLIENT]
9ID d'abonnement[CLIENT] ou [SIESTA.AI], si nous avons accès à votre abonnement Azure
10Justification (EXEMPLE)Ci-dessous
11Type de modèleAzure OpenAI
12Quota de déploiement de modèleDéploiement de modèle (PTU/RPM/TPM)
13Type de demande de quota (Azure OpenAI)Standard Global
14Région Standard GlobalEast US2 ou Sweden Central
15Modèle Standard Global (Azure OpenAI)text-embedding-3-large
16Quota10000

Exemple de justification

Nous construisons et exploitons une plateforme SaaS AI en production axée sur l'automatisation des entreprises (analyse de documents, agents RAG, tri des e-mails, intégrations CRM et automatisation des processus internes pour des clients B2B). Nous opérons actuellement dans des déploiements pilotes et en production à travers divers secteurs (manufacture, immobilier, assurance, services aux entreprises). Les charges de travail typiques incluent :

  • un chat à haute fréquence et des inférences API,
  • de grands pipelines pour l'ingestion et la vectorisation de documents (PDF, DOCX, crawling web),
  • des prompts contextuellement exigeants avec un raisonnement en plusieurs étapes,
  • une utilisation simultanée par plusieurs utilisateurs et équipes d'entreprise.

Les quotas actuels sont déjà un goulot d'étranglement pendant les pics de charge et les tests. Avec l'expansion de l'intégration de nouveaux clients et le lancement d'autres agents et intégrations (HubSpot, Gmail, Google Drive, Azure Storage, CRM interne), nous prévoyons une augmentation significative du débit de tokens. Nous avons besoin d'augmenter la quota pour :

  • maintenir une latence stable lors d'opérations d'entreprise simultanées,
  • soutenir le traitement par lots de documents et les pipelines d'ingestion continues,
  • garantir la fiabilité en production et le SLA,
  • éliminer le throttling lors des pics de charge provenant de workflows commerciaux réels.

Cette augmentation de quota est critique pour les prochains déploiements en production et les lancements commerciaux. Sans une capacité accrue, notre capacité à évoluer avec les clients et à garantir une qualité de service cohérente sera limitée. Nous nous engageons à une utilisation responsable, à la surveillance des coûts et à l'optimisation efficace des prompts et des tokens conformément aux meilleures pratiques d'Azure OpenAI.