Erhöhung des Azure AI Foundry Kontingents
Wenn Sie das Kontingent für Azure AI Foundry erhöhen müssen, verwenden Sie dieses Dokument, das die erforderlichen Informationen zusammenfasst und auf das Antragsformular zur Kontingenterhöhung sowie auf die Dokumentation zu Modellen und Regionen verweist.
Warum eine Erhöhung notwendig ist
Ihre KI-Assistenten laufen (oder werden laufen) direkt in Ihrer Azure AI Foundry-Umgebung, sodass alle KI-Workloads den Limits Ihres Azure-Abonnements (TPM/RPM) unterliegen.
Die Standardkontingente sind hauptsächlich für Tests und PoCs festgelegt. Bei der Produktion, insbesondere beim Ingest von Dokumenten und der Generierung von Embeddings, stellen diese Limits häufig einen Engpass dar und verlangsamen die Verarbeitung erheblich.
Eine Kontingenterhöhung ermöglicht:
- schnelleren Ingest von Dokumenten und Re-Indexierung,
- höhere Durchsatzrate für die Generierung von Embeddings,
- stabilere Leistung bei gleichzeitiger Benutzerlast,
- geringere Latenz und weniger Drosselung,
- Produktionsskalierung und Zuverlässigkeit.
Wichtig: Eine Kontingenterhöhung ändert nicht den Preis. Sie erhöht lediglich die Durchsatzrate. Die Abrechnung erfolgt weiterhin strikt nach verbrauchten Token — der Preis pro Token bleibt gleich.
Es handelt sich um einen standardmäßigen Azure-Prozess für die Produktion von KI-Implementierungen. Wir stellen Ihnen vorab ausgefüllte Parameter und eine Vorlage für die Begründung zur Verfügung, um den Antrag schnell und einfach zu gestalten.
Daten für den Antrag auf Kontingenterhöhung
| # | Feld | Wert / Anmerkung |
|---|---|---|
| 1 | Vorname (berechtigter Vertreter des Antragstellers) | [CLIENT] |
| 2 | Nachname | [CLIENT] |
| 3 | Firmen-E-Mail (auf der Firmen-Domain) | [CLIENT] |
| 4 | Firmenname | [CLIENT] |
| 5 | Firmenadresse | [CLIENT] |
| 6 | Stadt | [CLIENT] |
| 7 | PLZ | [CLIENT] |
| 8 | Land | [CLIENT] |
| 9 | Abonnement-ID | [CLIENT] oder [SIESTA.AI], falls wir Zugriff auf Ihr Azure-Abonnement haben |
| 10 | Begründung (BEISPIEL) | Unten |
| 11 | Modelltyp | Azure OpenAI |
| 12 | Modellbereitstellungskontingent | Modellbereitstellung (PTU/RPM/TPM) |
| 13 | (Azure OpenAI) Kontingentantragstyp | Global Standard |
| 14 | Globale Standardregion | East US2 oder Sweden Central |
| 15 | (Azure OpenAI) Globales Standardmodell | text-embedding-3-large |
| 16 | Kontingent | 10000 |
Beispiel für eine Begründung
Wir bauen und betreiben eine Produktions-KI-SaaS-Plattform, die sich auf die Automatisierung von Unternehmen konzentriert (Dokumentenanalysen, RAG-Assistenten, E-Mail-Triage, CRM-Integrationen und Automatisierung interner Prozesse für B2B-Kunden). Derzeit laufen wir in Pilot- und Produktionsimplementierungen in verschiedenen Branchen (Produktion, Immobilien, Versicherungen, Unternehmensdienstleistungen). Typische Workloads umfassen:
- hochfrequente Chats und API-Inferenz,
- große Pipelines für den Ingest und die Vektorisierung von Dokumenten (PDF, DOCX, Web-Crawling),
- kontextuell anspruchsvolle Prompts mit mehrstufigem Denken,
- gleichzeitige Nutzung durch mehrere Unternehmensbenutzer und -teams.
Die aktuellen Kontingente sind bereits während der Spitzenlast und Tests ein Engpass. Mit der Erweiterung des Onboardings neuer Kunden und der Einführung weiterer Assistenten und Integrationen (HubSpot, Gmail, Google Drive, Azure Storage, internes CRM) erwarten wir einen erheblichen Anstieg des Token-Durchsatzes. Wir benötigen eine Kontingenterhöhung, um:
- eine stabile Latenz bei gleichzeitiger Unternehmensnutzung aufrechtzuerhalten,
- die Batchverarbeitung von Dokumenten und kontinuierliche Ingest-Pipelines zu unterstützen,
- Produktionszuverlässigkeit und SLA zu gewährleisten,
- Drosselung bei Lastspitzen aus realen Geschäftsabläufen zu eliminieren.
Diese Kontingenterhöhung ist entscheidend für die bevorstehenden Produktionsimplementierungen und kommerziellen Rollouts. Ohne höhere Kapazitäten wird unsere Fähigkeit, Kunden zu skalieren und eine konsistente Servicequalität zu gewährleisten, eingeschränkt sein. Wir verpflichten uns zu einem verantwortungsvollen Einsatz, zur Kostenüberwachung und zur effektiven Optimierung von Prompts und Tokens gemäß den Best Practices von Azure OpenAI.