Hoppa till huvudinnehåll

Ökning av Azure AI Foundry-kvoten

Om du behöver öka kvoten för Azure AI Foundry, använd detta dokument som sammanfattar nödvändig information och hänvisar till formuläret för begäran om kvotökning samt dokumentationen för modeller och regioner.

Varför ökning behövs

Dina AI-assistenter körs (eller kommer att köras) direkt i din Azure AI Foundry-miljö, så alla AI-arbetsbelastningar styrs av gränserna för din Azure-prenumeration (TPM/RPM).

Standardkvoterna är inställda främst för testning och PoC. Vid produktionsimplementering, särskilt vid inhämtning av dokument och generering av inbäddningar, utgör dessa gränser ofta en flaskhals och saktar ner bearbetningen avsevärt.

En ökning av kvoten möjliggör:

  • snabbare inhämtning av dokument och re-indexering,
  • högre genomströmning för generering av inbäddningar,
  • stabil prestanda vid samtidig belastning av användare,
  • lägre latens och mindre throttling,
  • produktionsskala och tillförlitlighet.

Viktigt: Ökning av kvoten ändrar inte kostnaden. Det ökar endast genomströmningen. Faktureringen förblir strikt baserad på förbrukade tokens — kostnaden per token är densamma.

Detta är en standard Azure-process för produktions-AI-implementering. Vi kommer att tillhandahålla förifyllda parametrar och en mall för motivering så att begäran blir snabb och enkel.

Uppgifter för begäran om kvotökning

#FältVärde / kommentar
1Förnamn (behörig representant för ansökande)[CLIENT]
2Efternamn[CLIENT]
3Företags-e-post (på företagsdomän)[CLIENT]
4Företagsnamn[CLIENT]
5Företagsadress[CLIENT]
6Stad[CLIENT]
7Postnummer[CLIENT]
8Land[CLIENT]
9Prenumerations-ID[CLIENT] eller [SIESTA.AI], om vi har tillgång till din Azure-prenumeration
10Motivering (EXEMPEL)Nedan
11ModelltypAzure OpenAI
12ModellimplementeringskvotModellimplementering (PTU/RPM/TPM)
13(Azure OpenAI) Kvotbegäran TypGlobal Standard
14Global Standard RegionEast US2 eller Sweden Central
15(Azure OpenAI) Global Standard Modelltext-embedding-3-large
16Kvot10000

Exempel på motivering

Vi bygger och driver en produktions-AI SaaS-plattform inriktad på företagsautomatisering (dokumentanalys, RAG-assistenter, e-posttriage, CRM-integrationer och automatisering av interna processer för B2B-kunder). För närvarande kör vi i pilot- och produktionsimplementeringar över olika branscher (tillverkning, fastigheter, försäkring, företagsservice). Typiska arbetsbelastningar inkluderar:

  • högfrekvent chatt och API-inferens,
  • stora pipelines för inhämtning och vektorisering av dokument (PDF, DOCX, webbskrapning),
  • kontextuellt krävande prompts med flerstegsövervägande,
  • samtidig användning av flera företagsanvändare och team.

De nuvarande kvoterna är redan en flaskhals under högbelastning och testning. Med utvidgningen av onboarding av nya kunder och introduktionen av fler assistenter och integrationer (HubSpot, Gmail, Google Drive, Azure Storage, intern CRM) förväntar vi oss en betydande ökning av token-genomströmningen. Vi behöver öka kvoten för att:

  • upprätthålla stabil latens vid samtidig företagsdrift,
  • stödja batchbearbetning av dokument och kontinuerliga inhämtning pipelines,
  • säkerställa produktionspålitlighet och SLA,
  • eliminera throttling vid belastningsspikar från verkliga affärsarbetsflöden.

Denna ökning av kvoten är kritisk för kommande produktionsimplementeringar och kommersiella utrullningar. Utan högre kapacitet kommer vår förmåga att skala kunder och säkerställa konsekvent tjänstekvalitet att begränsas. Vi åtar oss att använda resurserna ansvarsfullt, övervaka kostnader och effektivt optimera prompts och tokens i enlighet med bästa praxis för Azure OpenAI.