Zvýšenie kvóty Azure AI Foundry
Ak potrebujete zvýšiť kvótu Azure AI Foundry, použite tento dokument, ktorý zhrňuje potrebné informácie a odkazuje na formulár na žiadosť o zvýšenie kvóty aj dokumentáciu k modelom a regiónom.
Prečo je zvýšenie potrebné
Vaši AI asistenti bežia (alebo budú bežať) priamo vo vašom prostredí Azure AI Foundry, takže všetky AI workloady sa riadia limitmi vašej Azure subscription (TPM/RPM).
Predvolené kvóty sú nastavené hlavne pre testovanie a PoC. Pri produkčnom nasadení, najmä pri ingestii dokumentov a generovaní embeddingov, tieto limity často predstavujú bottleneck a výrazne spomaľujú spracovanie.
Zvýšenie kvóty umožní:
- rýchlejšiu ingestiu dokumentov a re-indexáciu,
- vyšší throughput pre generovanie embeddingov,
- stabilný výkon pri súbežnom zaťažení používateľmi,
- nižšiu latenciu a menej throttlingu,
- produkčnú škálu a spoľahlivosť.
Dôležité: Zvýšenie kvóty nemení cenu. Zvyšuje iba priepustnosť. Účtovanie zostáva striktne podľa spotrebovaných tokenov — cena za token je rovnaká.
Ide o štandardný Azure proces pre produkčné AI nasadenie. Poskytneme vám predvyplnené parametre a šablónu odôvodnenia, aby bola žiadosť rýchla a jednoduchá.
Údaje pre žiadosť o zvýšenie kvóty
| # | Pole | Hodnota / poznámka |
|---|---|---|
| 1 | Meno (oprávnený zástupca žiadateľa) | [CLIENT] |
| 2 | Priezvisko | [CLIENT] |
| 3 | Firemný e-mail (na firemnej doméne) | [CLIENT] |
| 4 | Názov spoločnosti | [CLIENT] |
| 5 | Adresa spoločnosti | [CLIENT] |
| 6 | Mesto | [CLIENT] |
| 7 | PSČ | [CLIENT] |
| 8 | Krajina | [CLIENT] |
| 9 | Subscription ID | [CLIENT] alebo [SIESTA.AI], ak máme prístup k vašej Azure subscription |
| 10 | Odôvodnenie (PRÍKLAD) | Nižšie |
| 11 | Typ modelu | Azure OpenAI |
| 12 | Model Deployment Quota | Model Deployment (PTU/RPM/TPM) |
| 13 | (Azure OpenAI) Typ žiadosti o kvótu | Global Standard |
| 14 | Global Standard Region | East US2 alebo Sweden Central |
| 15 | (Azure OpenAI) Global Standard Model | text-embedding-3-large |
| 16 | Kvóta | 10000 |
Príklad odôvodnenia
Budujeme a prevádzkujeme produkčnú AI SaaS platformu zameranú na enterprise automatizáciu (analýza dokumentov, RAG asistenti, email triage, CRM integrácie a automatizácia interných procesov pre B2B klientov). Aktuálne bežíme v pilotných aj produkčných nasadeniach naprieč odvetviami (výroba, real estate, poistenie, enterprise služby). Typické workloady zahŕňajú:
- vysokofrekvenčný chat a API inference,
- veľké pipeline pre ingest a vektorizáciu dokumentov (PDF, DOCX, web crawling),
- kontextovo náročné prompty s viacerými krokmi uvažovania,
- súbežné použitie viacerými enterprise používateľmi a tímami.
Súčasné kvóty sú už bottleneckom počas špičkového zaťaženia a testovania. S rozširovaním onboardingu nových zákazníkov a uvádzaním ďalších asistentov a integrácií (HubSpot, Gmail, Google Drive, Azure Storage, interné CRM) očakávame výrazný nárast token throughputu. Zvýšenie kvóty potrebujeme k:
- udržaniu stabilnej latencie pri súbežnom enterprise prevádzke,
- podpore batch spracovania dokumentov a priebežných ingest pipeline,
- zabezpečeniu produkčnej spoľahlivosti a SLA,
- eliminácii throttlingu pri load spikes z reálnych business workflow.
Toto zvýšenie kvóty je kritické pre nadchádzajúce produkčné nasadenie a komerčné rollouty. Bez vyššej kapacity bude naša schopnosť škálovať zákazníkov a zabezpečiť konzistentnú kvalitu služby obmedzená. Zaväzujeme sa k zodpovednému využitiu, monitoringu nákladov a efektívnej optimalizácii promptov a tokenov v súlade s best practices Azure OpenAI.