Skip to main content

Økning av kvote for Azure AI Foundry

Hvis du trenger å øke kvoten for Azure AI Foundry, bruk dette dokumentet som oppsummerer nødvendig informasjon og henviser til skjema for kvoteøknadsforespørsel samt dokumentasjonen for modeller og regioner.

Hvorfor økning er nødvendig

Dine AI-assistenter kjører (eller vil kjøre) direkte i ditt Azure AI Foundry-miljø, så alle AI-arbeidsbelastninger styres av grensene for ditt Azure-abonnement (TPM/RPM).

Standardkvotene er satt hovedsakelig for testing og PoC. Ved produksjonsdistribusjon, spesielt ved inntak av dokumenter og generering av embedding, utgjør disse grensene ofte en flaskehals og reduserer prosesseringshastigheten betydelig.

Økning av kvoten vil muliggjøre:

  • raskere inntak av dokumenter og reindeksering,
  • høyere gjennomstrømning for generering av embedding,
  • stabil ytelse ved samtidig belastning fra brukere,
  • lavere latens og mindre throttling,
  • produksjonsskala og pålitelighet.

Viktig: Økning av kvoten endrer ikke prisen. Den øker kun gjennomstrømningen. Faktureringen forblir strengt basert på forbrukte tokens — prisen per token er den samme.

Dette er en standard Azure-prosess for produksjons-AI-distribusjon. Vi vil gi deg forhåndsutfylte parametere og en mal for begrunnelse, slik at forespørselen blir rask og enkel.

Data for kvoteøknadsforespørsel

#FeltVerdi / merknad
1Fornavn (autoriserte representant for søkeren)[CLIENT]
2Etternavn[CLIENT]
3Bedrifts-e-post (på bedriftsdomenet)[CLIENT]
4Firmanavn[CLIENT]
5Bedriftsadresse[CLIENT]
6By[CLIENT]
7Postnummer[CLIENT]
8Land[CLIENT]
9Abonnements-ID[CLIENT] eller [SIESTA.AI], hvis vi har tilgang til ditt Azure-abonnement
10Begrunnelse (EKSEMPEL)Nedenfor
11ModelltypeAzure OpenAI
12Modell distribusjonskvoteModell distribusjon (PTU/RPM/TPM)
13(Azure OpenAI) KvoteforespørselstypeGlobal Standard
14Global Standard-regionEast US2 eller Sweden Central
15(Azure OpenAI) Global Standard-modelltext-embedding-3-large
16Kvote10000

Eksempel på begrunnelse

Vi bygger og driver en produksjons AI SaaS-plattform fokusert på enterprise automatisering (dokumentanalyse, RAG-assistenter, e-post triage, CRM-integrasjoner og automatisering av interne prosesser for B2B-kunder). Vi kjører for tiden i både pilot- og produksjonsdistribusjoner på tvers av bransjer (produksjon, eiendom, forsikring, enterprise-tjenester). Typiske arbeidsbelastninger inkluderer:

  • høyfrekvent chat og API-inferens,
  • store pipelines for inntak og vektorisering av dokumenter (PDF, DOCX, web crawling),
  • kontekstavhengige prompts med flerstegs resonnering,
  • samtidig bruk av flere enterprise-brukere og team.

De nåværende kvotene er allerede en flaskehals under toppbelastning og testing. Med utvidelsen av onboarding av nye kunder og lanseringen av flere assistenter og integrasjoner (HubSpot, Gmail, Google Drive, Azure Storage, intern CRM) forventer vi en betydelig økning i token-gjennomstrømning. Vi trenger økningen av kvoten for å:

  • opprettholde stabil latens ved samtidig enterprise-drift,
  • støtte batchbehandling av dokumenter og kontinuerlige inntakspipelines,
  • sikre produksjonspålitelighet og SLA,
  • eliminere throttling ved lasttopper fra reelle forretningsarbeidsflyter.

Denne økningen av kvoten er kritisk for kommende produksjonsdistribusjoner og kommersielle utrullinger. Uten høyere kapasitet vil vår evne til å skalere kunder og sikre konsistent tjenestekvalitet være begrenset. Vi forplikter oss til ansvarlig bruk, kostnadsovervåking og effektiv optimalisering av prompts og tokens i samsvar med beste praksis for Azure OpenAI.