Přeskočit na hlavní obsah

Navýšení kvóty Azure AI Foundry

Pokud potřebujete navýšit kvótu Azure AI Foundry, použijte tento dokument, který shrnuje potřebné informace a odkazuje na formulář pro žádost o navýšení kvóty i dokumentaci k modelům a regionům.

Proč je navýšení potřeba

Vaši AI agenti běží (nebo poběží) přímo na vašem Azure AI Foundry prostředí, takže všechny AI workloady se řídí limity vaší Azure subscription (TPM/RPM).

Výchozí kvóty jsou nastavené hlavně pro testování a PoC. Při produkčním nasazení, zejména při ingestu dokumentů a generování embeddingů, tyto limity často představují bottleneck a výrazně zpomalují zpracování.

Navýšení kvóty umožní:

  • rychlejší ingest dokumentů a re-indexaci,
  • vyšší throughput pro generování embeddingů,
  • stabilní výkon při souběžném zatížení uživateli,
  • nižší latenci a méně throttlingu,
  • produkční škálu a spolehlivost.

Důležité: Navýšení kvóty nemění cenu. Zvyšuje pouze průchodnost. Účtování zůstává striktně podle spotřebovaných tokenů — cena za token je stejná.

Jde o standardní Azure proces pro produkční AI nasazení. Poskytneme vám předvyplněné parametry a šablonu odůvodnění, aby byla žádost rychlá a jednoduchá.

Údaje pro žádost o navýšení kvóty

#PoleHodnota / poznámka
1Jméno (oprávněný zástupce zadatele)[CLIENT]
2Příjmení[CLIENT]
3Firemní e-mail (na firemní doméně)[CLIENT]
4Název společnosti[CLIENT]
5Adresa společnosti[CLIENT]
6Město[CLIENT]
7PSČ[CLIENT]
8Země[CLIENT]
9Subscription ID[CLIENT] nebo [SIESTA.AI], pokud máme přístup k vašemu Azure subscription
10Odůvodnění (PŘÍKLAD)Níže
11Typ modeluAzure OpenAI
12Model Deployment QuotaModel Deployment (PTU/RPM/TPM)
13(Azure OpenAI) Quota Request TypeGlobal Standard
14Global Standard RegionEast US2 nebo Sweden Central
15(Azure OpenAI) Global Standard Modeltext-embedding-3-large
16Quota10000

Příklad odůvodnění

Budujeme a provozujeme produkční AI SaaS platformu zaměřenou na enterprise automatizaci (analýza dokumentů, RAG agenti, email triage, CRM integrace a automatizace interních procesů pro B2B klienty). Aktuálně běžíme v pilotních i produkčních nasazeních napříč odvětvími (výroba, real estate, pojišťovnictví, enterprise služby). Typické workloady zahrnují:

  • vysokofrekvenční chat a API inference,
  • velké pipeline pro ingest a vektorizaci dokumentů (PDF, DOCX, web crawling),
  • kontextově náročné prompty s vícekrokovým uvažováním,
  • souběžné použití více enterprise uživateli a týmy.

Současné kvóty jsou už bottleneckem během špičkového zatížení a testování. S rozšiřováním onboardingu nových zákazníků a uváděním dalších agentů a integrací (HubSpot, Gmail, Google Drive, Azure Storage, interní CRM) očekáváme výrazný nárůst token throughputu. Navýšení kvóty potřebujeme k:

  • udržení stabilní latence při souběžném enterprise provozu,
  • podpoře batch zpracování dokumentů a průběžných ingest pipeline,
  • zajištění produkční spolehlivosti a SLA,
  • eliminaci throttlingu při load spikes z reálných business workflow.

Toto navýšení kvóty je kritické pro nadcházející produkční nasazení a komerční rollouty. Bez vyšší kapacity bude naše schopnost škálovat zákazníky a zajistit konzistentní kvalitu služby omezena. Zavazujeme se k odpovědnému využití, monitoringu nákladů a efektivní optimalizaci promptů a tokenů v souladu s best practices Azure OpenAI.