xAI는 Grok 4.3을 단계적으로 출시했습니다. 베타는 2026년 4월 17일, API 접근은 4월 30일, 정식 출시는 5월 6일입니다. 핵심 변경 사항은 1,000,000 토큰 컨텍스트 창, Grok 라인 최초의 기본 비디오 입력, 상시 추론(always-on reasoning), Grok 4.20 대비 약 40% 가격 인하입니다. 기존 Grok 모델 8개는 5월 15일 서비스 종료 예정이므로, grok-3 또는 grok-4 시리즈를 사용하는 팀은 즉시 마이그레이션을 준비해야 합니다.
이 가이드에서는 코드에서 Grok 4.3을 호출하는 방법을 구현 중심으로 정리합니다. 다루는 내용은 엔드포인트, 인증, OpenAI 호환 base_url, reasoning_effort, 비디오 입력, 함수 호출, 그리고 Apidog에서 재현 가능한 테스트 설정입니다.
동일한 릴리스의 음성 기능은 Grok Voice를 무료로 사용하는 방법을 참고하세요. OpenAI의 주력 음성 모델과 비교하려면 Grok Voice 대 GPT-Realtime을 참고하세요.
요약
- Grok 4.3은 2026년 5월 6일 정식 출시되었습니다.
- 기존 Grok 모델 8개는 2026년 5월 15일 서비스 종료 예정입니다.
- 가격:
- 입력 토큰 100만 개당 $1.25
- 출력 토큰 100만 개당 $2.50
- 캐시된 입력 100만 개당 $0.20
- Grok 4.20 대비 약 40% 저렴합니다.
- 컨텍스트 창은 100만 토큰입니다.
- 기본 비디오 입력을 지원합니다.
- 추론은 항상 활성화되어 있으며,
reasoning_effort로 깊이를 조정합니다. -
reasoning_effort값은low,medium,high입니다. 기본값은medium입니다. - 엔드포인트는 OpenAI 호환 Chat Completions 형태입니다.
https://api.x.ai/v1/chat/completions
- 표준 티어 기준 처리량은 초당 약 159 토큰입니다.
- Artificial Analysis 기준 지능 지수는 53이며, 추적 모델 146개 중 10위입니다.
- Apidog를 사용하면 요청, 환경 변수, 추론 설정, OpenAI 호환 모드 테스트를 한 곳에서 재현할 수 있습니다.
Grok 4.3의 주요 변경 사항
팀에서 바로 확인해야 할 변경 사항은 다음과 같습니다.
1. 가격 인하
Grok 4.3은 Grok 4.20 대비 약 40% 저렴합니다.
- 입력: Grok 4.20 대비 37.5% 인하
- 출력: Grok 4.20 대비 58.3% 인하
- 캐시된 입력: $0.20 / 1M tokens
긴 시스템 프롬프트를 반복적으로 사용하는 에이전트 워크로드라면 캐시된 입력 비용 절감 효과가 큽니다.
2. 100만 토큰 컨텍스트
Grok 4.20의 256k 컨텍스트에서 100만 토큰으로 확장되었습니다.
활용 예시는 다음과 같습니다.
- 중간 규모 코드베이스 전체 리뷰
- 긴 실적 발표 자료 분석
- 전체 법률 계약서 기반 질의응답
- 장기 대화 이력 기반 에이전트 메모리
3. 기본 비디오 입력
Grok 4.3은 Grok 라인에서 처음으로 기본 비디오 입력을 지원합니다.
비디오 URL을 콘텐츠 블록에 전달하면 모델이 프레임을 직접 추론합니다. 별도로 키프레임을 추출하지 않아도 됩니다.
4. 상시 추론
Grok 4.3은 모든 요청에서 추론 단계를 수행합니다.
reasoning_effort는 추론을 켜고 끄는 옵션이 아니라 깊이를 조절하는 옵션입니다.
{
"reasoning_effort": "low"
}
low를 사용해도 추론이 완전히 비활성화되지는 않습니다.
5. 에이전트 워크플로 개선
Grok 4.3은 Grok 4.20 대비 GDPval-AA에서 Elo 점수가 300점 향상되었습니다. 도구 선택, 함수 호출, 다단계 워크플로에서 개선 효과가 나타납니다.
Artificial Analysis 기준 지능 지수 53은 동일 가격대 평균인 35보다 높으며, 추적 중인 146개 모델 중 10위입니다.
준비 사항
첫 요청을 보내기 전에 다음을 준비하세요.
-
console.x.ai의 xAI 콘솔 계정 - API 키가 포함된 유료 티어
- 프로덕션용 프로젝트 범위 API 키
- OpenAI SDK 또는 xAI SDK
- 요청을 재현할 API 클라이언트
환경 변수로 API 키를 설정합니다.
export XAI_API_KEY="xai-..."
엔드포인트 및 인증
Grok 4.3은 OpenAI 호환 Chat Completions 인터페이스를 사용합니다.
POST https://api.x.ai/v1/chat/completions
인증은 Bearer 토큰 방식입니다.
Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
OpenAI SDK를 이미 사용 중이라면 base_url만 xAI로 바꾸면 됩니다.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["XAI_API_KEY"],
base_url="https://api.x.ai/v1",
)
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "GraphQL과 REST의 장단점을 세 가지 핵심으로 요약하세요."
}
],
reasoning_effort="medium",
)
print(response.choices[0].message.content)
xAI SDK를 사용해도 호출 구조는 동일합니다. 달라지는 부분은 SDK import와 클라이언트 생성 방식입니다.
요청 매개변수
Grok 4.3에서 주로 사용하는 매개변수는 다음과 같습니다.
| 매개변수 | 유형 | 값 | 설명 |
|---|---|---|---|
model |
string | grok-4.3 |
필수 |
messages |
array | OpenAI 메시지 형태 | 필수. system, user, assistant 역할 지원 |
reasoning_effort |
string |
low, medium, high
|
선택 사항. 기본값은 medium
|
max_tokens |
int | 1–32768 |
출력 토큰 제한 |
temperature |
float | 0.0–2.0 |
기본값 1.0 |
top_p |
float | 0.0–1.0 |
핵 샘플링 |
stream |
bool |
true, false
|
true이면 서버 전송 이벤트 사용 |
tools |
array | OpenAI tools 형태 | 함수 호출 |
tool_choice |
string / object |
auto, none, 특정 도구 |
표준 OpenAI 시맨틱 |
response_format |
object | { "type": "json_object" } |
구조화된 출력 |
seed |
int | any |
temperature: 0일 때 재현성 확보 |
기본 curl 요청은 다음과 같습니다.
curl https://api.x.ai/v1/chat/completions \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-4.3",
"messages": [
{
"role": "system",
"content": "당신은 선임 백엔드 엔지니어입니다."
},
{
"role": "user",
"content": "이 쿼리 계획을 검토하고 병목 현상을 표시하세요."
}
],
"reasoning_effort": "high"
}'
응답은 표준 OpenAI Chat Completions 형태를 따릅니다.
{
"choices": [
{
"message": {
"content": "..."
}
}
],
"usage": {
"prompt_tokens": 123,
"completion_tokens": 456,
"reasoning_tokens": 78,
"total_tokens": 657
}
}
reasoning_effort 선택 기준
reasoning_effort는 비용, 지연 시간, 답변 품질에 영향을 줍니다.
low
다음 작업에 적합합니다.
- 분류
- 짧은 요약
- 규칙 추출
- 간단한 Q&A
- 라우팅 판단
{
"reasoning_effort": "low"
}
응답은 빠르고 직접적입니다.
medium
기본값입니다. 대부분의 프로덕션 트래픽에 적합합니다.
사용 예시는 다음과 같습니다.
- 고객 지원 응답
- 함수 호출
- 데이터 분석
- 단일 단계 도구 사용
- 일반적인 코드 설명
{
"reasoning_effort": "medium"
}
high
복잡한 작업에 사용하세요.
- 다단계 에이전트
- 긴 코드 리뷰
- 복잡한 수학 문제
- 사전 계획이 필요한 분석
- 여러 도구를 순차적으로 호출하는 워크플로
{
"reasoning_effort": "high"
}
high는 지연 시간과 출력 토큰 사용량을 증가시킬 수 있습니다.
함수 호출 구현
Grok 4.3은 OpenAI 호환 함수 호출 형태를 지원합니다.
도구를 선언하면 모델은 tool_calls 배열을 포함한 assistant 메시지를 반환합니다. 애플리케이션은 해당 함수를 실행한 뒤 tool 역할 메시지로 결과를 다시 전달하면 됩니다.
tools = [
{
"type": "function",
"function": {
"name": "lookup_user",
"description": "ID로 사용자를 찾습니다.",
"parameters": {
"type": "object",
"properties": {
"user_id": {
"type": "string"
}
},
"required": ["user_id"],
},
},
}
]
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "사용자 u_42를 찾아 마지막 로그인 시간을 알려주세요."
}
],
tools=tools,
reasoning_effort="medium",
)
tool_calls = response.choices[0].message.tool_calls
print(tool_calls)
도구 호출 결과를 모델에 다시 전달하는 흐름은 다음과 같습니다.
messages = [
{
"role": "user",
"content": "사용자 u_42를 찾아 마지막 로그인 시간을 알려주세요."
}
]
first_response = client.chat.completions.create(
model="grok-4.3",
messages=messages,
tools=tools,
reasoning_effort="medium",
)
assistant_message = first_response.choices[0].message
messages.append(assistant_message)
# 실제 애플리케이션에서는 여기서 tool_calls를 순회하며 함수를 실행합니다.
tool_result = {
"user_id": "u_42",
"last_login": "2026-05-06T10:30:00Z"
}
messages.append({
"role": "tool",
"tool_call_id": assistant_message.tool_calls[0].id,
"content": json.dumps(tool_result),
})
final_response = client.chat.completions.create(
model="grok-4.3",
messages=messages,
tools=tools,
)
print(final_response.choices[0].message.content)
도구 흐름을 테스트하는 경우 Apidog의 MCP 서버 테스트를 참고하세요.
비디오 입력 사용하기
Grok 4.3은 기본 비디오 입력을 지원합니다.
비디오 URL은 메시지의 콘텐츠 블록에 포함합니다.
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "이 클립에서 무슨 일이 일어나는지 설명하고 이상 징후를 표시하세요."
},
{
"type": "video_url",
"video_url": {
"url": "https://example.com/clip.mp4"
}
},
],
}
],
)
print(response.choices[0].message.content)
주의할 점은 다음과 같습니다.
- 비디오 입력은 입력 토큰으로 계산됩니다.
- 긴 클립은 컨텍스트와 비용을 빠르게 소모합니다.
- 비용이 중요하면 전송 전에 클립을 자르거나 다운샘플링하세요.
- 모델이 프레임을 직접 추론하므로 수동 키프레임 추출은 필수가 아닙니다.
100만 토큰 컨텍스트 활용 패턴
100만 토큰 컨텍스트는 실제 프로덕션 워크플로에 사용할 수 있습니다.
전체 코드베이스 리뷰
수정된 파일, diff, lint 결과를 함께 전달하고 리뷰를 요청할 수 있습니다.
다음 diff와 lint 출력을 기준으로 보안 문제, 성능 병목, 유지보수 위험을 분류하세요.
각 항목에는 파일명, 라인, 심각도, 수정 제안을 포함하세요.
장문 문서 Q&A
계약서, 정책 문서, 실적 발표 자료처럼 긴 문서를 한 번에 넣고 특정 질문을 할 수 있습니다.
다음 계약서에서 자동 갱신, 해지 조건, 책임 제한 조항을 찾아 요약하세요.
리스크가 큰 조항은 별도로 표시하세요.
장기 대화 메모리
에이전트가 장기간의 대화 이력을 기반으로 개인화 응답을 생성해야 할 때 사용할 수 있습니다.
캐시된 입력 가격은 100만 토큰당 $0.20입니다. 예를 들어 안정적인 40만 토큰 시스템 프롬프트를 반복 호출한다면, 새 입력으로 처리할 때보다 캐시를 활용하는 편이 훨씬 저렴합니다.
기존 Grok 모델에서 마이그레이션하기
기존 Grok 모델 8개는 2026년 5월 15일 오후 12시(태평양 표준시)에 서비스가 종료됩니다.
대부분의 경우 model 값만 변경하면 됩니다.
- "model": "grok-4"
+ "model": "grok-4.3"
또는 다음과 같이 Python 코드에서 변경합니다.
response = client.chat.completions.create(
model="grok-4.3",
messages=messages,
)
마이그레이션 시 확인할 항목은 두 가지입니다.
1. 추론 동작
일부 기존 모델은 reasoning_effort를 사용하지 않았습니다.
Grok 4.3은 항상 추론을 수행합니다. 이전 코드가 빠른 비추론 경로에 의존했다면 reasoning_effort를 low로 설정하고 지연 시간을 측정하세요.
{
"reasoning_effort": "low"
}
2. 출력 형식
Grok 4.3은 Grok 4.20보다 더 구조화된 응답을 반환하는 경향이 있습니다.
기존 파이프라인이 정규 표현식 기반 후처리에 의존한다면, 다음 항목을 다시 테스트하세요.
- JSON 파싱
- 마크다운 테이블 파싱
- 코드 블록 추출
- 함수 호출 결과 처리
- 스트리밍 응답 처리
OpenAI 라인 전체의 가격 비교는 GPT-5.5 가격을 참고하세요. 직접 비교할 추론 모델은 GPT-5.5 API 사용 방법을 참고하세요.
Apidog에서 Grok 4.3 테스트하기
Grok 4.3을 실제 워크로드로 검증하려면 요청을 반복 가능하게 만들어야 합니다.
권장 절차는 다음과 같습니다.
- Apidog에서 새 환경을 만듭니다.
- 환경 변수에
XAI_API_KEY를 추가합니다. -
BASE_URL을https://api.x.ai/v1로 설정합니다. -
POST /chat/completions요청을 생성합니다. - 동일한 프롬프트로
low,medium,high세 가지 요청을 저장합니다. - 세 요청의 응답 품질, 지연 시간,
usage.reasoning_tokens를 비교합니다. - OpenAI 호환 베이스 URL을 사용하는 네 번째 요청을 추가해 동일 입력으로 모델별 결과를 비교합니다.
예시 요청 본문은 다음과 같습니다.
{
"model": "grok-4.3",
"messages": [
{
"role": "system",
"content": "당신은 API 설계 리뷰어입니다."
},
{
"role": "user",
"content": "다음 API 응답 스키마의 문제점을 찾고 개선안을 제안하세요."
}
],
"reasoning_effort": "medium",
"temperature": 0.2
}
비교 테스트를 실행하려면 Apidog를 다운로드하세요. 공급자를 바꿔도 컬렉션을 유지할 수 있으므로, OpenAI 호환 API를 비교 테스트하기 좋습니다.
더 넓은 API 테스트 전략은 QA 엔지니어를 위한 API 테스트 도구를 참고하세요.
속도 제한 처리
xAI 콘솔의 티어 제한은 계정 티어에 따라 다릅니다.
- 티어 1: 분당 수천 요청 기준
- 엔터프라이즈 티어: 수십만 요청까지 확장 가능
정확한 숫자는 변경될 수 있으므로 콘솔 대시보드에서 확인하세요.
xAI가 광고하는 초당 159 토큰 처리량은 스트림당 출력 속도입니다. 전체 계정 처리량이 아닙니다. 동시 요청 수는 티어 상한 내에서 확장됩니다.
429 응답을 받으면 retry-after 헤더를 확인하고 지수 백오프를 적용하세요.
import time
from openai import RateLimitError
for attempt in range(5):
try:
response = client.chat.completions.create(
model="grok-4.3",
messages=messages,
reasoning_effort="medium",
)
break
except RateLimitError as error:
sleep_seconds = 2 ** attempt
time.sleep(sleep_seconds)
FAQ
Grok 4.3은 OpenAI와 호환됩니까?
Chat Completions 기준으로는 호환됩니다.
OpenAI SDK를 설치하고 다음 두 값만 바꾸면 됩니다.
base_url="https://api.x.ai/v1"
model="grok-4.3"
함수 호출, 구조화된 출력, 스트리밍도 OpenAI Chat Completions 형태로 사용할 수 있습니다.
Responses API를 지원합니까?
현재 xAI 인터페이스는 Chat Completions입니다. Responses API는 OpenAI 전용입니다.
실제 컨텍스트 제한은 얼마입니까?
1,000,000 토큰입니다.
다만 긴 입력은 비용이 발생합니다. 입력 가격이 100만 토큰당 $1.25라고 해도 대규모 요청을 반복하면 비용이 빠르게 증가합니다. 안정적인 프롬프트는 캐시를 활용하세요.
상시 추론은 지연 시간에 어떤 영향을 줍니까?
첫 토큰 지연 시간은 비추론 모델보다 높을 수 있습니다. 하지만 Grok 4.3은 초당 약 159 토큰으로 출력을 스트리밍하므로 전체 응답 시간은 경쟁력 있습니다.
정확도가 중요한 워크로드에서는 이 절충이 유효합니다.
Grok 4.3을 Grok Voice와 함께 사용할 수 있습니까?
예. 음성 에이전트인 grok-voice-think-fast-1.0은 추론 시 내부적으로 Grok 4.3을 호출합니다.
또한 TTS 및 STT 프리미티브 위에 직접 음성 루프를 구축하고, 중간 추론 단계에서 Grok 4.3을 호출할 수도 있습니다.
5월 15일 이후 이전 Grok 3 / Grok 4 호출은 어떻게 됩니까?
410 오류로 실패합니다.
서비스 종료 전에 model 값을 grok-4.3으로 변경하고 회귀 테스트를 완료하세요.
Grok 4.3은 이미지 입력을 지원합니까?
예. 비디오 입력과 함께 이미지 입력도 지원합니다.
OpenAI와 동일한 방식으로 콘텐츠 블록에 이미지 URL을 전달합니다.
마무리
Grok 4.3은 xAI의 가격 대비 성능 개선이 큰 릴리스입니다. 40% 가격 인하, 100만 토큰 컨텍스트, 상시 추론, 기본 비디오 입력은 에이전트 워크로드에서 바로 테스트할 만한 조합입니다.
마이그레이션 경로도 단순합니다. OpenAI SDK를 사용 중이라면 base_url과 model을 바꾸고, reasoning_effort별로 지연 시간과 품질을 측정하세요.
가장 빠른 검증 방법은 Apidog에서 동일 프롬프트를 low, medium, high 세 가지 설정으로 저장한 뒤 응답 품질, 지연 시간, reasoning_tokens를 비교하는 것입니다. 기존 Grok 모델을 사용 중이라면 5월 15일 전에 마이그레이션하세요.


Top comments (0)