Navýšení kvóty Azure AI Foundry

Pokud potřebujete navýšit kvótu Azure AI Foundry, použijte tento dokument, který shrnuje potřebné informace a odkazuje na formulář pro žádost o navýšení kvóty i dokumentaci k modelům a regionům.

Proč je navýšení potřeba

Vaši AI agenti běží (nebo poběží) přímo na vašem Azure AI Foundry prostředí, takže všechny AI workloady se řídí limity vaší Azure subscription (TPM/RPM).

Výchozí kvóty jsou nastavené hlavně pro testování a PoC. Při produkčním nasazení, zejména při ingestu dokumentů a generování embeddingů, tyto limity často představují bottleneck a výrazně zpomalují zpracování.

Navýšení kvóty umožní:

rychlejší ingest dokumentů a re-indexaci,
vyšší throughput pro generování embeddingů,
stabilní výkon při souběžném zatížení uživateli,
nižší latenci a méně throttlingu,
produkční škálu a spolehlivost.

Důležité: Navýšení kvóty nemění cenu. Zvyšuje pouze průchodnost. Účtování zůstává striktně podle spotřebovaných tokenů — cena za token je stejná.

Jde o standardní Azure proces pro produkční AI nasazení. Poskytneme vám předvyplněné parametry a šablonu odůvodnění, aby byla žádost rychlá a jednoduchá.

Údaje pro žádost o navýšení kvóty

#	Pole	Hodnota / poznámka
1	Jméno (oprávněný zástupce zadatele)	[CLIENT]
2	Příjmení	[CLIENT]
3	Firemní e-mail (na firemní doméně)	[CLIENT]
4	Název společnosti	[CLIENT]
5	Adresa společnosti	[CLIENT]
6	Město	[CLIENT]
7	PSČ	[CLIENT]
8	Země	[CLIENT]
9	Subscription ID	[CLIENT] nebo [SIESTA.AI], pokud máme přístup k vašemu Azure subscription
10	Odůvodnění (PŘÍKLAD)	Níže
11	Typ modelu	Azure OpenAI
12	Model Deployment Quota	Model Deployment (PTU/RPM/TPM)
13	(Azure OpenAI) Quota Request Type	Global Standard
14	Global Standard Region	East US2 nebo Sweden Central
15	(Azure OpenAI) Global Standard Model	text-embedding-3-large
16	Quota	10000

Příklad odůvodnění

Budujeme a provozujeme produkční AI SaaS platformu zaměřenou na enterprise automatizaci (analýza dokumentů, RAG agenti, email triage, CRM integrace a automatizace interních procesů pro B2B klienty). Aktuálně běžíme v pilotních i produkčních nasazeních napříč odvětvími (výroba, real estate, pojišťovnictví, enterprise služby). Typické workloady zahrnují:

vysokofrekvenční chat a API inference,
velké pipeline pro ingest a vektorizaci dokumentů (PDF, DOCX, web crawling),
kontextově náročné prompty s vícekrokovým uvažováním,
souběžné použití více enterprise uživateli a týmy.

Současné kvóty jsou už bottleneckem během špičkového zatížení a testování. S rozšiřováním onboardingu nových zákazníků a uváděním dalších agentů a integrací (HubSpot, Gmail, Google Drive, Azure Storage, interní CRM) očekáváme výrazný nárůst token throughputu. Navýšení kvóty potřebujeme k:

udržení stabilní latence při souběžném enterprise provozu,
podpoře batch zpracování dokumentů a průběžných ingest pipeline,
zajištění produkční spolehlivosti a SLA,
eliminaci throttlingu při load spikes z reálných business workflow.

Toto navýšení kvóty je kritické pro nadcházející produkční nasazení a komerční rollouty. Bez vyšší kapacity bude naše schopnost škálovat zákazníky a zajistit konzistentní kvalitu služby omezena. Zavazujeme se k odpovědnému využití, monitoringu nákladů a efektivní optimalizaci promptů a tokenů v souladu s best practices Azure OpenAI.

Proč je navýšení potřeba​

Údaje pro žádost o navýšení kvóty​

Příklad odůvodnění​

Proč je navýšení potřeba

Údaje pro žádost o navýšení kvóty

Příklad odůvodnění