Passa al contenuto principale

Aumento della quota di Azure AI Foundry

Se hai bisogno di aumentare la quota di Azure AI Foundry, utilizza questo documento che riassume le informazioni necessarie e rimanda al modulo di richiesta di aumento della quota e alla documentazione sui modelli e le regioni.

Perché è necessario l'aumento

I tuoi assistenti AI funzionano (o funzioneranno) direttamente nel tuo ambiente Azure AI Foundry, quindi tutti i carichi di lavoro AI sono soggetti ai limiti della tua sottoscrizione Azure (TPM/RPM).

Le quote predefinite sono impostate principalmente per test e PoC. Durante il deployment in produzione, specialmente durante l'ingestione di documenti e la generazione di embedding, questi limiti rappresentano spesso un collo di bottiglia e rallentano significativamente l'elaborazione.

L'aumento della quota consentirà:

  • ingestione più rapida di documenti e reindicizzazione,
  • throughput maggiore per la generazione di embedding,
  • prestazioni stabili sotto carico simultaneo degli utenti,
  • latenza ridotta e meno throttling,
  • scalabilità e affidabilità in produzione.

Importante: L'aumento della quota non cambia il prezzo. Aumenta solo la capacità di throughput. La fatturazione rimane rigorosamente basata sui token consumati — il prezzo per token rimane lo stesso.

Si tratta di un processo standard di Azure per il deployment AI in produzione. Ti forniremo parametri precompilati e un modello di giustificazione per rendere la richiesta rapida e semplice.

Dati per la richiesta di aumento della quota

#CampoValore / nota
1Nome (rappresentante autorizzato del richiedente)[CLIENT]
2Cognome[CLIENT]
3Email aziendale (sul dominio aziendale)[CLIENT]
4Nome dell'azienda[CLIENT]
5Indirizzo dell'azienda[CLIENT]
6Città[CLIENT]
7CAP[CLIENT]
8Paese[CLIENT]
9ID della sottoscrizione[CLIENT] o [SIESTA.AI], se abbiamo accesso alla tua sottoscrizione Azure
10Giustificazione (ESEMPIO)Di seguito
11Tipo di modelloAzure OpenAI
12Quota di Deployment del ModelloModel Deployment (PTU/RPM/TPM)
13(Azure OpenAI) Tipo di Richiesta di QuotaGlobal Standard
14Regione Global StandardEast US2 o Sweden Central
15(Azure OpenAI) Modello Global Standardtext-embedding-3-large
16Quota10000

Esempio di giustificazione

Stiamo costruendo e gestendo una piattaforma SaaS AI in produzione focalizzata sull'automazione enterprise (analisi dei documenti, assistenti RAG, triage delle email, integrazioni CRM e automazione dei processi interni per clienti B2B). Attualmente operiamo in implementazioni pilota e di produzione in vari settori (manifattura, immobiliare, assicurazioni, servizi enterprise). I carichi di lavoro tipici includono:

  • chat ad alta frequenza e inferenza API,
  • grandi pipeline per ingestione e vettorizzazione di documenti (PDF, DOCX, web crawling),
  • prompt ad alta complessità contestuale con ragionamento a più passaggi,
  • utilizzo simultaneo da parte di più utenti e team enterprise.

Le attuali quote sono già un collo di bottiglia durante i picchi di carico e i test. Con l'espansione dell'onboarding di nuovi clienti e l'introduzione di ulteriori assistenti e integrazioni (HubSpot, Gmail, Google Drive, Azure Storage, CRM interni) ci aspettiamo un aumento significativo del throughput dei token. Abbiamo bisogno di un aumento della quota per:

  • mantenere una latenza stabile durante le operazioni enterprise simultanee,
  • supportare l'elaborazione batch di documenti e pipeline di ingestione continue,
  • garantire affidabilità in produzione e SLA,
  • eliminare il throttling durante i picchi di carico derivanti da flussi di lavoro aziendali reali.

Questo aumento della quota è critico per il prossimo deployment in produzione e i rollout commerciali. Senza una maggiore capacità, la nostra capacità di scalare i clienti e garantire una qualità del servizio coerente sarà limitata. Ci impegniamo a un utilizzo responsabile, al monitoraggio dei costi e all'ottimizzazione efficace di prompt e token in conformità con le best practices di Azure OpenAI.