xAI hat Grok 4.3 schrittweise ausgerollt: Beta am 17. April 2026, API-Zugang am 30. April und allgemeine Verfügbarkeit am 6. Mai. Für Entwickler sind vor allem vier Punkte relevant: ein 1.000.000-Token-Kontextfenster, native Videoeingabe, durchgängiges Reasoning und eine Preissenkung von ungefähr 40 % gegenüber Grok 4.20. Da acht ältere Grok-Modelle am 15. Mai eingestellt werden, sollten bestehende Integrationen mit grok-3- oder grok-4-Modellen jetzt migriert und getestet werden.
Probieren Sie Apidog noch heute aus
Dieser Leitfaden zeigt die praktische Integration von Grok 4.3: Endpunkt, Authentifizierung, OpenAI-kompatible base_url, reasoning_effort, Videoeingabe, Funktionsaufrufe und ein reproduzierbares Test-Setup in Apidog.
Für die Sprachseite derselben Veröffentlichung siehe Wie man Grok Voice kostenlos nutzt. Für den direkten Vergleich mit OpenAIs führendem Sprachmodell siehe Grok Voice vs. GPT-Realtime.
TL;DR
- Grok 4.3 ist seit dem 6. Mai 2026 allgemein verfügbar. Acht ältere Modelle werden am 15. Mai 2026 eingestellt.
- Preise: $1.25 pro 1M Eingabe-Tokens, $2.50 pro 1M Ausgabe-Tokens, zwischengespeicherte Eingabe $0.20 pro 1M.
- Kontextfenster: 1M Tokens.
- Neue Fähigkeit: native Videoeingabe.
- Reasoning ist durchgängig aktiv und kann über
reasoning_effortgesteuert werden:low,medium,high. - API-Endpunkt:
https://api.x.ai/v1/chat/completions. - OpenAI-kompatibel: OpenAI SDK verwenden,
base_urlaustauschen. - Durchsatz: ungefähr 159 Tokens/Sekunde auf Standard-Tiers.
- Testen Sie Varianten mit Apidog, um Latenz, Antwortqualität und
usage.reasoning_tokenszu vergleichen.
Was sich in Grok 4.3 geändert hat
Die wichtigsten Änderungen für Implementierungen:
Niedrigere Kosten
Die Eingabekosten sinken um 37,5 % gegenüber Grok 4.20, die Ausgabekosten um 58,3 %. Zwischengespeicherte Eingaben kosten jetzt 0,20 $ pro 1M Tokens. Das ist besonders relevant für stabile System-Prompts, große Kontextblöcke und wiederkehrende Agenten-Workflows.1M-Token-Kontext
Das Kontextfenster steigt von 256k auf 1M Tokens. Damit können Sie große Diffs, lange Dokumente, komplette Berichte oder längere Konversationshistorien in einer Anfrage verarbeiten.Native Videoeingabe
Grok 4.3 kann Video-URLs direkt als Inhaltsblock verarbeiten. Sie müssen nicht zuerst manuell Frames extrahieren.Durchgängiges Reasoning
Jede Anfrage nutzt mindestenslowReasoning. Überreasoning_effortsteuern Sie, wie viel Reasoning-Zeit und Tokens das Modell investieren soll.Bessere agentische Workflows
xAI nennt einen Gewinn von +300 Elo-Punkten auf GDPval-AA gegenüber Grok 4.20. In der Praxis ist das vor allem bei Tool-Auswahl, mehrstufigen Abläufen und Fehlererholung relevant.
Der Intelligenzindex von 53 (Artificial Analysis) platziert Grok 4.3 über dem Durchschnitt von 35 für seine Preisklasse und auf Platz 10 von 146 erfassten Modellen.
Voraussetzungen
Bereiten Sie vor der ersten Anfrage diese Komponenten vor:
- Ein xAI Console-Konto unter
console.x.ai. - Einen API-Schlüssel, idealerweise projektbezogen für Produktionsumgebungen.
- Das OpenAI SDK oder das xAI SDK.
- Einen API-Client wie Apidog, damit Sie Requests versionieren, wiederholen und Varianten vergleichen können.
Exportieren Sie den Schlüssel lokal:
export XAI_API_KEY="xai-..."
Endpunkt und Authentifizierung
Grok 4.3 wird über die OpenAI-kompatible Chat-Completions-Schnittstelle bereitgestellt.
POST https://api.x.ai/v1/chat/completions
Die Header entsprechen dem üblichen Bearer-Token-Muster:
Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
Wenn Sie bereits das OpenAI SDK verwenden, müssen Sie in vielen Fällen nur base_url und model ändern.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["XAI_API_KEY"],
base_url="https://api.x.ai/v1",
)
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Summarize the trade-offs of GraphQL vs REST in three bullets."
}
],
reasoning_effort="medium",
)
print(response.choices[0].message.content)
Anfrageparameter
Die wichtigsten Parameter für Grok 4.3:
| Parameter | Typ | Werte | Hinweise |
|---|---|---|---|
model |
string | grok-4.3 |
Erforderlich. |
messages |
array | OpenAI-Nachrichtenstruktur | Erforderlich. Unterstützt system, user, assistant. |
reasoning_effort |
string |
low, medium, high
|
Optional. Standard: medium. |
max_tokens |
int | 1–32768 | Begrenzt die Ausgabe. |
temperature |
float | 0.0–2.0 | Standard: 1.0. |
top_p |
float | 0.0–1.0 | Nucleus Sampling. |
stream |
bool |
true, false
|
Server-Sent Events bei true. |
tools |
array | OpenAI-Tool-Struktur | Für Funktionsaufrufe. |
tool_choice |
string / object |
auto, none, spezifisches Tool |
Standard-OpenAI-Semantik. |
response_format |
object | { "type": "json_object" } |
Strukturierte Ausgabe. |
seed |
int | beliebig | Für Reproduzierbarkeit bei temperature: 0. |
Minimaler curl-Request:
curl https://api.x.ai/v1/chat/completions \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-4.3",
"messages": [
{
"role": "system",
"content": "You are a senior backend engineer."
},
{
"role": "user",
"content": "Review this query plan and flag the bottleneck."
}
],
"reasoning_effort": "high"
}'
Die Antwort folgt der OpenAI-Struktur:
{
"choices": [
{
"message": {
"role": "assistant",
"content": "..."
}
}
],
"usage": {
"prompt_tokens": 123,
"completion_tokens": 456,
"reasoning_tokens": 78,
"total_tokens": 657
}
}
Reasoning-Aufwand richtig wählen
reasoning_effort ist einer der wichtigsten Tuning-Parameter.
low
Geeignet für:
- Klassifizierung
- einfache Zusammenfassungen
- FAQ-Antworten
- Routing
- einfache Extraktion
Beispiel:
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Classify this ticket as billing, technical, or account."
}
],
reasoning_effort="low",
)
medium
Geeignet für:
- Kundenservice
- einfache Tool-Nutzung
- Datenanalyse
- Standard-Agenten
- strukturierte Antworten
medium ist der Standard und für den meisten Produktionsverkehr der erste sinnvolle Wert.
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Analyze this API error log and suggest likely causes."
}
],
reasoning_effort="medium",
)
high
Geeignet für:
- mehrstufige Agenten
- komplexe Code-Reviews
- mathematische Aufgaben
- Planungsaufgaben
- Workflows mit mehreren Tool-Aufrufen
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Review this migration plan and identify hidden failure modes."
}
],
reasoning_effort="high",
)
Wichtig: Reasoning ist in Grok 4.3 nicht vollständig deaktivierbar. Auch low führt einen grundlegenden Reasoning-Schritt aus.
Funktionsaufrufe verwenden
Grok 4.3 unterstützt die OpenAI-kompatible Tool-Struktur. Der Ablauf:
- Tool-Schema deklarieren.
- Anfrage mit
toolssenden. -
tool_callsaus der Antwort lesen. - Tool serverseitig ausführen.
- Ergebnis als
tool-Nachricht zurückgeben.
Beispiel:
tools = [
{
"type": "function",
"function": {
"name": "lookup_user",
"description": "Look up a user by ID.",
"parameters": {
"type": "object",
"properties": {
"user_id": {
"type": "string"
}
},
"required": ["user_id"],
},
},
}
]
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Find user u_42 and tell me their last login."
}
],
tools=tools,
reasoning_effort="medium",
)
tool_calls = response.choices[0].message.tool_calls
for call in tool_calls:
print(call.function.name)
print(call.function.arguments)
Danach führen Sie das Tool in Ihrer Anwendung aus und senden das Ergebnis zurück:
messages = [
{
"role": "user",
"content": "Find user u_42 and tell me their last login."
},
response.choices[0].message,
{
"role": "tool",
"tool_call_id": tool_calls[0].id,
"content": '{"user_id":"u_42","last_login":"2026-05-01T13:45:00Z"}'
}
]
final_response = client.chat.completions.create(
model="grok-4.3",
messages=messages,
tools=tools,
reasoning_effort="medium",
)
print(final_response.choices[0].message.content)
Wenn Sie Tool-Abläufe isoliert testen möchten, beschreibt MCP-Servertests in Apidog eine passende Wiedergabe- und Testeinrichtung.
Videoeingabe
Grok 4.3 ist das erste Grok-Modell mit nativer Videoeingabe. Sie übergeben eine Video-URL als Inhaltsblock:
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe what happens in this clip and flag any anomalies."
},
{
"type": "video_url",
"video_url": {
"url": "https://example.com/clip.mp4"
}
},
],
}
],
reasoning_effort="medium",
)
print(response.choices[0].message.content)
Praktische Hinweise:
- Video-Tokens zählen zu den Eingabe-Tokens.
- Lange Clips verbrauchen den Kontext schnell.
- Wenn Kosten relevant sind, kürzen oder komprimieren Sie Videos vor dem Senden.
- Da das Modell nativ über Frames reasonen kann, müssen Sie keine eigenen Keyframes extrahieren.
1M-Token-Kontext praktisch nutzen
Das 1M-Kontextfenster ist besonders nützlich, wenn Sie bisher Chunking, Retrieval oder manuelles Zusammenführen einsetzen mussten.
Typische Muster:
Code-Review über große Diffs
System:
You are a senior backend reviewer. Focus on correctness, security, and migration risks.
User:
Here is the full diff:
<diff>
Here are the affected files:
<files>
Here is the CI output:
<logs>
Return:
1. Critical issues
2. Risky assumptions
3. Suggested fixes
Dokumenten-QA
Sie können lange Verträge, technische Spezifikationen oder Berichte direkt in den Prompt aufnehmen und gezielte Fragen stellen:
Based only on the document below, list all clauses that affect data retention.
<full document>
Agenten-Kontext
Für länger laufende Agenten können Sie mehr Verlauf im Kontext halten, statt aggressive Zusammenfassungen zu erzwingen.
Zwischengespeicherte Eingaben reduzieren die Kosten bei stabilen Prompts deutlich. Ein stabiler System-Prompt mit 400.000 Tokens kostet bei zwischengespeicherter Eingabe 0,08 $ pro Aufruf statt 0,50 $ bei regulärer Eingabe.
Migration von älteren Grok-Modellen
Acht ältere Grok-Modelle werden am 15. Mai 2026, 12:00 Uhr PT eingestellt. Wenn Ihre Anwendung noch grok-3- oder ältere grok-4-Varianten nutzt, planen Sie mindestens diese Schritte:
- Modellnamen auf
grok-4.3ändern. -
base_urlaufhttps://api.x.ai/v1setzen, falls noch nicht geschehen. - Testfälle mit echten Produktionsprompts ausführen.
- Latenz und
usage.reasoning_tokensvergleichen. - Regex- oder Parser-Nachbearbeitung erneut validieren.
Beispiel für eine minimale Migration:
response = client.chat.completions.create(
- model="grok-4.20",
+ model="grok-4.3",
messages=messages,
+ reasoning_effort="medium",
)
Achten Sie besonders auf zwei Punkte:
-
Reasoning-Latenz: Grok 4.3 führt immer Reasoning aus. Wenn Ihr vorheriger Pfad auf sehr niedrige Latenz optimiert war, testen Sie
reasoning_effort="low". - Ausgabeformat: Grok 4.3 erzeugt tendenziell strukturiertere Antworten. Wenn Ihre Nachbearbeitung stark auf Regex basiert, testen Sie alle erwarteten Antwortvarianten.
Für Preisvergleiche mit OpenAI-Modellen siehe GPT-5.5-Preise. Für eine ähnliche API-Integration siehe Wie man die GPT-5.5 API verwendet.
Testen in Apidog
Ein pragmatisches Test-Setup in Apidog:
-
Erstellen Sie eine Umgebung mit:
XAI_API_KEYBASE_URL = https://api.x.ai/v1
Legen Sie einen Request an:
POST {{BASE_URL}}/chat/completions
Authorization: Bearer {{XAI_API_KEY}}
Content-Type: application/json
- Verwenden Sie diesen Body:
{
"model": "grok-4.3",
"messages": [
{
"role": "system",
"content": "You are a senior backend engineer."
},
{
"role": "user",
"content": "Review this API design and identify production risks."
}
],
"reasoning_effort": "{{REASONING_EFFORT}}"
}
-
Erstellen Sie drei Varianten:
REASONING_EFFORT = lowREASONING_EFFORT = mediumREASONING_EFFORT = high
-
Vergleichen Sie:
- Antwortqualität
- Latenz
usage.prompt_tokensusage.completion_tokensusage.reasoning_tokensusage.total_tokens
Optional: Erstellen Sie eine vierte Variante mit OpenAI-Base-URL, um bei identischem Prompt ein Vergleichsmodell zu testen.
Laden Sie Apidog herunter, um diese Varianten als wiederholbare API-Tests zu speichern. Für eine breitere Teststrategie siehe API-Testtool für QA-Ingenieure.
Ratenbegrenzungen und Backoff
Die konkreten Tier-Limits ändern sich und sollten in der xAI-Konsole geprüft werden. xAI nennt ungefähr 159 Tokens/Sekunde als Ausgabegeschwindigkeit pro Stream. Das ist nicht dasselbe wie ein globaler Aggregatdurchsatz.
Wenn Sie ein Rate Limit erreichen, gibt die API einen 429-Fehler mit retry-after zurück. Implementieren Sie exponentiellen Backoff:
import time
from openai import RateLimitError
def call_with_backoff(fn, max_retries=5):
delay = 1
for attempt in range(max_retries):
try:
return fn()
except RateLimitError:
if attempt == max_retries - 1:
raise
time.sleep(delay)
delay *= 2
Verwendung:
response = call_with_backoff(
lambda: client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Summarize this incident report."
}
],
reasoning_effort="medium",
)
)
FAQ
Ist Grok 4.3 Ende-zu-Ende OpenAI-kompatibel?
Für Chat Completions: ja. Sie können das OpenAI SDK verwenden, base_url ändern und model="grok-4.3" setzen. Funktionsaufrufe, strukturierte Ausgabe und Streaming folgen der OpenAI-kompatiblen Form.
Unterstützt Grok 4.3 die Responses API?
Die xAI-Schnittstelle ist aktuell Chat Completions. Die Responses API ist nur für OpenAI verfügbar.
Was ist das tatsächliche Kontextlimit?
1.000.000 Tokens. Lange Eingaben verursachen auch bei 1,25 $ pro 1M Tokens reale Kosten. Verwenden Sie Caching, wenn große Promptteile stabil bleiben.
Wie beeinflusst Reasoning die Latenz?
Die Latenz bis zum ersten Token kann höher sein als bei Modellen ohne Reasoning. Danach streamt Grok 4.3 mit ungefähr 159 Tokens/Sekunde. Für Genauigkeits- und Agenten-Workloads ist der Trade-off häufig sinnvoll.
Kann ich Grok 4.3 mit Grok Voice verwenden?
Ja. Der Sprachagent grok-voice-think-fast-1.0 ruft Grok 4.3 im Hintergrund auf, wenn Reasoning benötigt wird. Sie können Grok 4.3 auch direkt aus einer eigenen Sprachschleife mit TTS- und STT-Komponenten aufrufen.
Was passiert mit alten Grok-3- oder Grok-4-Aufrufen nach dem 15. Mai?
Sie schlagen mit einem 410-Fehler fehl, weil das Modell eingestellt wurde. Migrieren Sie vorher auf grok-4.3.
Unterstützt Grok 4.3 Bildeingabe?
Ja. Zusätzlich zur neuen Videoeingabe können Sie Bild-URLs als Inhaltsblock übergeben, analog zur OpenAI-kompatiblen Form.
Zusammenfassung
Grok 4.3 ist für Entwickler vor allem wegen OpenAI-kompatibler Integration, 1M-Kontext, durchgängigem Reasoning, nativer Videoeingabe und niedrigeren Kosten interessant. Für bestehende Grok-Integrationen ist die Migration meist klein: model ändern, optional reasoning_effort setzen und reale Prompts erneut testen.
Der schnellste Validierungspfad: Legen Sie in Apidog drei Varianten mit low, medium und high an, messen Sie Latenz und usage.reasoning_tokens, und migrieren Sie vor dem 15. Mai.


Top comments (0)