Forøgelse af Azure AI Foundry kvote
Hvis du har brug for at forøge kvoten for Azure AI Foundry, skal du bruge dette dokument, som opsummerer de nødvendige oplysninger og henviser til formularen til anmodning om kvoteforøgelse samt dokumentationen om modeller og regioner.
Hvorfor er forøgelse nødvendig
Dine AI assistenter kører (eller vil køre) direkte i dit Azure AI Foundry miljø, så alle AI arbejdsbelastninger er underlagt grænserne for dit Azure abonnement (TPM/RPM).
Standardkvoterne er primært sat for test og PoC. Ved produktionsimplementering, især ved indlæsning af dokumenter og generering af embedding, udgør disse grænser ofte en flaskehals og bremser behandlingen betydeligt.
Forøgelsen af kvoten muliggør:
- hurtigere indlæsning af dokumenter og re-indeksering,
- højere throughput til generering af embedding,
- stabil ydeevne under samtidig belastning fra brugere,
- lavere latenstid og mindre throttling,
- produktionsskala og pålidelighed.
Vigtigt: Forøgelsen af kvoten ændrer ikke prisen. Den øger kun gennemstrømningen. Faktureringen forbliver strengt baseret på forbrugte tokens — prisen pr. token er den samme.
Dette er en standard Azure proces for produktions AI implementering. Vi vil give dig forudfyldte parametre og en skabelon til begrundelse, så anmodningen bliver hurtig og enkel.
Oplysninger til anmodning om kvoteforøgelse
| # | Felt | Værdi / bemærkning |
|---|---|---|
| 1 | Navn (autoriseret repræsentant for ansøger) | [CLIENT] |
| 2 | Efternavn | [CLIENT] |
| 3 | Firmamail (på firmadomæne) | [CLIENT] |
| 4 | Firmanavn | [CLIENT] |
| 5 | Firmaadresse | [CLIENT] |
| 6 | By | [CLIENT] |
| 7 | Postnummer | [CLIENT] |
| 8 | Land | [CLIENT] |
| 9 | Abonnements-ID | [CLIENT] eller [SIESTA.AI], hvis vi har adgang til dit Azure abonnement |
| 10 | Begrundelse (EKSEMPEL) | Nedenfor |
| 11 | Modeltype | Azure OpenAI |
| 12 | Model Deployment Kvote | Model Deployment (PTU/RPM/TPM) |
| 13 | (Azure OpenAI) Kvoteanmodningstype | Global Standard |
| 14 | Global Standard Region | East US2 eller Sweden Central |
| 15 | (Azure OpenAI) Global Standard Model | text-embedding-3-large |
| 16 | Kvote | 10000 |
Eksempel på begrundelse
Vi bygger og driver en produktions AI SaaS platform fokuseret på enterprise automatisering (dokumentanalyse, RAG assistenter, email triage, CRM integration og automatisering af interne processer for B2B kunder). Vi kører i øjeblikket i pilot- og produktionsimplementeringer på tværs af industrier (produktion, ejendom, forsikring, enterprise tjenester). Typiske arbejdsbelastninger inkluderer:
- højfrekvent chat og API inference,
- store pipelines til indlæsning og vektorisering af dokumenter (PDF, DOCX, web crawling),
- kontekstuelt krævende prompts med flertrins overvejelser,
- samtidig brug af flere enterprise brugere og teams.
De nuværende kvoter er allerede en flaskehals under spidsbelastning og test. Med udvidelsen af onboarding af nye kunder og introduktionen af flere assistenter og integrationer (HubSpot, Gmail, Google Drive, Azure Storage, intern CRM) forventer vi en betydelig stigning i token throughput. Vi har brug for forøgelsen af kvoten til:
- at opretholde stabil latenstid under samtidig enterprise drift,
- at støtte batchbehandling af dokumenter og løbende indlæsning pipelines,
- at sikre produktionspålidelighed og SLA,
- at eliminere throttling ved belastningsspidser fra reelle forretningsarbejdsgange.
Denne forøgelse af kvoten er kritisk for kommende produktionsimplementeringer og kommercielle udrulninger. Uden højere kapacitet vil vores evne til at skalere kunder og sikre ensartet servicekvalitet være begrænset. Vi forpligter os til ansvarlig brug, omkostningsovervågning og effektiv optimering af prompts og tokens i overensstemmelse med bedste praksis for Azure OpenAI.