Aumento de la cuota de Azure AI Foundry
Si necesita aumentar la cuota de Azure AI Foundry, utilice este documento que resume la información necesaria y hace referencia al formulario de solicitud de aumento de cuota y a la documentación sobre modelos y regiones.
Por qué es necesario el aumento
Sus asistentes de IA están funcionando (o funcionarán) directamente en su entorno de Azure AI Foundry, por lo que todas las cargas de trabajo de IA están sujetas a los límites de su suscripción de Azure (TPM/RPM).
Las cuotas predeterminadas están configuradas principalmente para pruebas y PoC. En un despliegue en producción, especialmente durante la ingestión de documentos y la generación de embeddings, estos límites a menudo representan un cuello de botella y ralentizan significativamente el procesamiento.
El aumento de la cuota permitirá:
- ingestión más rápida de documentos y reindexación,
- mayor rendimiento para la generación de embeddings,
- rendimiento estable bajo carga concurrente de usuarios,
- menor latencia y menos throttling,
- escalabilidad y fiabilidad en producción.
Importante: El aumento de la cuota no cambia el precio. Solo aumenta el rendimiento. La facturación sigue siendo estrictamente según los tokens consumidos: el precio por token es el mismo.
Este es un proceso estándar de Azure para despliegues de IA en producción. Le proporcionaremos parámetros precompletados y una plantilla de justificación para que la solicitud sea rápida y sencilla.
Datos para la solicitud de aumento de cuota
| # | Campo | Valor / nota |
|---|---|---|
| 1 | Nombre (representante autorizado del solicitante) | [CLIENT] |
| 2 | Apellido | [CLIENT] |
| 3 | Correo electrónico corporativo (en el dominio de la empresa) | [CLIENT] |
| 4 | Nombre de la empresa | [CLIENT] |
| 5 | Dirección de la empresa | [CLIENT] |
| 6 | Ciudad | [CLIENT] |
| 7 | Código postal | [CLIENT] |
| 8 | País | [CLIENT] |
| 9 | ID de suscripción | [CLIENT] o [SIESTA.AI], si tenemos acceso a su suscripción de Azure |
| 10 | Justificación (EJEMPLO) | A continuación |
| 11 | Tipo de modelo | Azure OpenAI |
| 12 | Cuota de implementación del modelo | Implementación del modelo (PTU/RPM/TPM) |
| 13 | Tipo de solicitud de cuota (Azure OpenAI) | Estándar global |
| 14 | Región estándar global | Este de EE. UU. 2 o Suecia Central |
| 15 | Modelo estándar global (Azure OpenAI) | text-embedding-3-large |
| 16 | Cuota | 10000 |
Ejemplo de justificación
Estamos construyendo y operando una plataforma SaaS de IA en producción enfocada en la automatización empresarial (análisis de documentos, asistentes RAG, triaje de correos electrónicos, integraciones de CRM y automatización de procesos internos para clientes B2B). Actualmente estamos operando en despliegues piloto y en producción a través de diversas industrias (manufactura, bienes raíces, seguros, servicios empresariales). Las cargas de trabajo típicas incluyen:
- chat de alta frecuencia e inferencia de API,
- grandes pipelines para la ingestión y vectorización de documentos (PDF, DOCX, rastreo web),
- prompts contextualmente exigentes con razonamiento de múltiples pasos,
- uso concurrente por múltiples usuarios empresariales y equipos.
Las cuotas actuales ya son un cuello de botella durante picos de carga y pruebas. Con la expansión de la incorporación de nuevos clientes y el lanzamiento de más asistentes e integraciones (HubSpot, Gmail, Google Drive, Azure Storage, CRM interno), esperamos un aumento significativo en el rendimiento de tokens. Necesitamos el aumento de cuota para:
- mantener una latencia estable durante operaciones empresariales concurrentes,
- apoyar el procesamiento por lotes de documentos y pipelines de ingestión continuas,
- garantizar fiabilidad en producción y SLA,
- eliminar el throttling durante picos de carga de flujos de trabajo empresariales reales.
Este aumento de cuota es crítico para el próximo despliegue en producción y los lanzamientos comerciales. Sin una mayor capacidad, nuestra capacidad para escalar clientes y garantizar una calidad de servicio consistente estará limitada. Nos comprometemos a un uso responsable, monitoreo de costos y optimización efectiva de prompts y tokens de acuerdo con las mejores prácticas de Azure OpenAI.