Skip to main content

Zvýšenie kvóty Azure AI Foundry

Ak potrebujete zvýšiť kvótu Azure AI Foundry, použite tento dokument, ktorý zhrňuje potrebné informácie a odkazuje na formulár na žiadosť o zvýšenie kvóty aj dokumentáciu k modelom a regiónom.

Prečo je zvýšenie potrebné

Vaši AI asistenti bežia (alebo budú bežať) priamo vo vašom prostredí Azure AI Foundry, takže všetky AI workloady sa riadia limitmi vašej Azure subscription (TPM/RPM).

Predvolené kvóty sú nastavené hlavne pre testovanie a PoC. Pri produkčnom nasadení, najmä pri ingestii dokumentov a generovaní embeddingov, tieto limity často predstavujú bottleneck a výrazne spomaľujú spracovanie.

Zvýšenie kvóty umožní:

  • rýchlejšiu ingestiu dokumentov a re-indexáciu,
  • vyšší throughput pre generovanie embeddingov,
  • stabilný výkon pri súbežnom zaťažení používateľmi,
  • nižšiu latenciu a menej throttlingu,
  • produkčnú škálu a spoľahlivosť.

Dôležité: Zvýšenie kvóty nemení cenu. Zvyšuje iba priepustnosť. Účtovanie zostáva striktne podľa spotrebovaných tokenov — cena za token je rovnaká.

Ide o štandardný Azure proces pre produkčné AI nasadenie. Poskytneme vám predvyplnené parametre a šablónu odôvodnenia, aby bola žiadosť rýchla a jednoduchá.

Údaje pre žiadosť o zvýšenie kvóty

#PoleHodnota / poznámka
1Meno (oprávnený zástupca žiadateľa)[CLIENT]
2Priezvisko[CLIENT]
3Firemný e-mail (na firemnej doméne)[CLIENT]
4Názov spoločnosti[CLIENT]
5Adresa spoločnosti[CLIENT]
6Mesto[CLIENT]
7PSČ[CLIENT]
8Krajina[CLIENT]
9Subscription ID[CLIENT] alebo [SIESTA.AI], ak máme prístup k vašej Azure subscription
10Odôvodnenie (PRÍKLAD)Nižšie
11Typ modeluAzure OpenAI
12Model Deployment QuotaModel Deployment (PTU/RPM/TPM)
13(Azure OpenAI) Typ žiadosti o kvótuGlobal Standard
14Global Standard RegionEast US2 alebo Sweden Central
15(Azure OpenAI) Global Standard Modeltext-embedding-3-large
16Kvóta10000

Príklad odôvodnenia

Budujeme a prevádzkujeme produkčnú AI SaaS platformu zameranú na enterprise automatizáciu (analýza dokumentov, RAG asistenti, email triage, CRM integrácie a automatizácia interných procesov pre B2B klientov). Aktuálne bežíme v pilotných aj produkčných nasadeniach naprieč odvetviami (výroba, real estate, poistenie, enterprise služby). Typické workloady zahŕňajú:

  • vysokofrekvenčný chat a API inference,
  • veľké pipeline pre ingest a vektorizáciu dokumentov (PDF, DOCX, web crawling),
  • kontextovo náročné prompty s viacerými krokmi uvažovania,
  • súbežné použitie viacerými enterprise používateľmi a tímami.

Súčasné kvóty sú už bottleneckom počas špičkového zaťaženia a testovania. S rozširovaním onboardingu nových zákazníkov a uvádzaním ďalších asistentov a integrácií (HubSpot, Gmail, Google Drive, Azure Storage, interné CRM) očakávame výrazný nárast token throughputu. Zvýšenie kvóty potrebujeme k:

  • udržaniu stabilnej latencie pri súbežnom enterprise prevádzke,
  • podpore batch spracovania dokumentov a priebežných ingest pipeline,
  • zabezpečeniu produkčnej spoľahlivosti a SLA,
  • eliminácii throttlingu pri load spikes z reálnych business workflow.

Toto zvýšenie kvóty je kritické pre nadchádzajúce produkčné nasadenie a komerčné rollouty. Bez vyššej kapacity bude naša schopnosť škálovať zákazníkov a zabezpečiť konzistentnú kvalitu služby obmedzená. Zaväzujeme sa k zodpovednému využitiu, monitoringu nákladov a efektívnej optimalizácii promptov a tokenov v súlade s best practices Azure OpenAI.