Navýšení kvóty Azure AI Foundry
Pokud potřebujete navýšit kvótu Azure AI Foundry, použijte tento dokument, který shrnuje potřebné informace a odkazuje na formulář pro žádost o navýšení kvóty i dokumentaci k modelům a regionům.
Proč je navýšení potřeba
Vaši AI agenti běží (nebo poběží) přímo na vašem Azure AI Foundry prostředí, takže všechny AI workloady se řídí limity vaší Azure subscription (TPM/RPM).
Výchozí kvóty jsou nastavené hlavně pro testování a PoC. Při produkčním nasazení, zejména při ingestu dokumentů a generování embeddingů, tyto limity často představují bottleneck a výrazně zpomalují zpracování.
Navýšení kvóty umožní:
- rychlejší ingest dokumentů a re-indexaci,
- vyšší throughput pro generování embeddingů,
- stabilní výkon při souběžném zatížení uživateli,
- nižší latenci a méně throttlingu,
- produkční škálu a spolehlivost.
Důležité: Navýšení kvóty nemění cenu. Zvyšuje pouze průchodnost. Účtování zůstává striktně podle spotřebovaných tokenů — cena za token je stejná.
Jde o standardní Azure proces pro produkční AI nasazení. Poskytneme vám předvyplněné parametry a šablonu odůvodnění, aby byla žádost rychlá a jednoduchá.
Údaje pro žádost o navýšení kvóty
| # | Pole | Hodnota / poznámka |
|---|---|---|
| 1 | Jméno (oprávněný zástupce zadatele) | [CLIENT] |
| 2 | Příjmení | [CLIENT] |
| 3 | Firemní e-mail (na firemní doméně) | [CLIENT] |
| 4 | Název společnosti | [CLIENT] |
| 5 | Adresa společnosti | [CLIENT] |
| 6 | Město | [CLIENT] |
| 7 | PSČ | [CLIENT] |
| 8 | Země | [CLIENT] |
| 9 | Subscription ID | [CLIENT] nebo [SIESTA.AI], pokud máme přístup k vašemu Azure subscription |
| 10 | Odůvodnění (PŘÍKLAD) | Níže |
| 11 | Typ modelu | Azure OpenAI |
| 12 | Model Deployment Quota | Model Deployment (PTU/RPM/TPM) |
| 13 | (Azure OpenAI) Quota Request Type | Global Standard |
| 14 | Global Standard Region | East US2 nebo Sweden Central |
| 15 | (Azure OpenAI) Global Standard Model | text-embedding-3-large |
| 16 | Quota | 10000 |
Příklad odůvodnění
Budujeme a provozujeme produkční AI SaaS platformu zaměřenou na enterprise automatizaci (analýza dokumentů, RAG agenti, email triage, CRM integrace a automatizace interních procesů pro B2B klienty). Aktuálně běžíme v pilotních i produkčních nasazeních napříč odvětvími (výroba, real estate, pojišťovnictví, enterprise služby). Typické workloady zahrnují:
- vysokofrekvenční chat a API inference,
- velké pipeline pro ingest a vektorizaci dokumentů (PDF, DOCX, web crawling),
- kontextově náročné prompty s vícekrokovým uvažováním,
- souběžné použití více enterprise uživateli a týmy.
Současné kvóty jsou už bottleneckem během špičkového zatížení a testování. S rozšiřováním onboardingu nových zákazníků a uváděním dalších agentů a integrací (HubSpot, Gmail, Google Drive, Azure Storage, interní CRM) očekáváme výrazný nárůst token throughputu. Navýšení kvóty potřebujeme k:
- udržení stabilní latence při souběžném enterprise provozu,
- podpoře batch zpracování dokumentů a průběžných ingest pipeline,
- zajištění produkční spolehlivosti a SLA,
- eliminaci throttlingu při load spikes z reálných business workflow.
Toto navýšení kvóty je kritické pro nadcházející produkční nasazení a komerční rollouty. Bez vyšší kapacity bude naše schopnost škálovat zákazníky a zajistit konzistentní kvalitu služby omezena. Zavazujeme se k odpovědnému využití, monitoringu nákladů a efektivní optimalizaci promptů a tokenů v souladu s best practices Azure OpenAI.