xAI đã triển khai Grok 4.3 theo từng giai đoạn: beta ngày 17/4/2026, truy cập API ngày 30/4 và phát hành rộng rãi ngày 6/5. Các thay đổi chính gồm cửa sổ ngữ cảnh 1.000.000 token, đầu vào video gốc lần đầu trên dòng Grok, suy luận luôn bật và giá giảm khoảng 40% so với Grok 4.20. Tám mô hình Grok cũ sẽ ngừng hoạt động vào ngày 15/5, vì vậy nếu bạn đang dùng grok-3 hoặc grok-4, hãy lên kế hoạch di chuyển ngay trong tuần này. Bài viết này tập trung vào cách gọi Grok 4.3 từ mã: endpoint, xác thực, URL cơ sở tương thích OpenAI, reasoning_effort, đầu vào video, gọi hàm và cách kiểm thử bằng Apidog.
TL;DR
- Grok 4.3 đã GA vào ngày 6/5/2026.
- Tám mô hình cũ sẽ ngừng hoạt động vào ngày 15/5/2026.
- Giá:
- 1.25 USD / 1 triệu token đầu vào
- 2.50 USD / 1 triệu token đầu ra
- 0.20 USD / 1 triệu token đầu vào được cache
- Cửa sổ ngữ cảnh: 1 triệu token.
- Hỗ trợ đầu vào video gốc.
- Suy luận luôn bật.
-
reasoning_effort:low,medium,high; mặc định làmedium. - Endpoint:
https://api.x.ai/v1/chat/completions
- Tương thích OpenAI Chat Completions.
- Thông lượng khoảng 159 token/giây trên các cấp tiêu chuẩn.
- Chỉ số thông minh 53 theo Artificial Analysis, xếp thứ 10 trong 146 mô hình toàn cầu.
- Có thể dùng Apidog để lưu request, quản lý biến môi trường và so sánh các cấu hình suy luận.
Những gì đã thay đổi trong Grok 4.3
Các nâng cấp đáng chú ý nhất với developer:
1. Giá giảm khoảng 40%
So với Grok 4.20:
- Đầu vào giảm 37.5%.
- Đầu ra giảm 58.3%.
- Token đầu vào được cache còn
0.20 USD / 1M.
Điều này đặc biệt hữu ích nếu ứng dụng của bạn dùng system prompt dài, tài liệu nội bộ, schema lớn hoặc context lặp lại nhiều lần.
2. Ngữ cảnh 1 triệu token
Grok 4.3 tăng từ 256k token trên Grok 4.20 lên 1 triệu token.
Một số use case thực tế:
- Đưa toàn bộ diff và các file liên quan vào prompt để review code.
- Phân tích hợp đồng dài.
- Tóm tắt transcript họp lớn.
- Giữ lịch sử hội thoại dài cho agent.
3. Đầu vào video gốc
Grok 4.3 là mô hình Grok đầu tiên hỗ trợ video input trực tiếp. Bạn có thể truyền URL video trong payload thay vì tự trích xuất frame thủ công.
4. Suy luận luôn bật
Mọi request đều có một bước suy luận cơ bản. Bạn có thể điều chỉnh độ sâu bằng reasoning_effort, nhưng mô hình không thấp hơn mức low.
5. Tác vụ agent tốt hơn
Theo nội dung gốc, Grok 4.3 tăng hơn 300 Elo trên GDPval-AA so với Grok 4.20. Điều này quan trọng với các workflow có gọi tool, nhiều bước xử lý hoặc cần lập kế hoạch trước khi trả lời.
Điều kiện tiên quyết
Trước khi gọi API, chuẩn bị:
- Tài khoản xAI Console tại
console.x.ai. - API key có quyền billing.
- OpenAI SDK hoặc xAI SDK.
- API client để lưu và phát lại request, ví dụ Apidog.
- Biến môi trường cho API key.
export XAI_API_KEY="xai-..."
Với production, nên dùng khóa API theo phạm vi project thay vì khóa dùng chung.
Endpoint và xác thực
Grok 4.3 dùng giao diện Chat Completions tương thích OpenAI.
POST https://api.x.ai/v1/chat/completions
Header:
Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
Vì tương thích OpenAI, bạn có thể dùng OpenAI SDK và chỉ cần đổi base_url.
Gọi Grok 4.3 bằng Python
Cài SDK nếu chưa có:
pip install openai
Ví dụ request cơ bản:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["XAI_API_KEY"],
base_url="https://api.x.ai/v1",
)
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Tóm tắt ưu và nhược điểm của GraphQL so với REST trong ba gạch đầu dòng."
}
],
reasoning_effort="medium",
)
print(response.choices[0].message.content)
Điểm cần chú ý:
-
base_urltrỏ đếnhttps://api.x.ai/v1. -
modellàgrok-4.3. -
reasoning_effortcó thể làlow,medium, hoặchigh.
Gọi Grok 4.3 bằng curl
Request tối thiểu:
curl https://api.x.ai/v1/chat/completions \
-H "Authorization: Bearer $XAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "grok-4.3",
"messages": [
{
"role": "system",
"content": "Bạn là một kỹ sư backend cấp cao."
},
{
"role": "user",
"content": "Xem xét kế hoạch truy vấn này và chỉ ra nút thắt cổ chai."
}
],
"reasoning_effort": "high"
}'
Response dùng cấu trúc OpenAI tiêu chuẩn:
{
"choices": [
{
"message": {
"role": "assistant",
"content": "..."
}
}
],
"usage": {
"prompt_tokens": 123,
"completion_tokens": 456,
"reasoning_tokens": 78,
"total_tokens": 657
}
}
Các trường token quan trọng:
-
prompt_tokens: token đầu vào. -
completion_tokens: token đầu ra. -
reasoning_tokens: token dùng cho suy luận. -
total_tokens: tổng token.
Chọn reasoning_effort
Grok 4.3 hỗ trợ ba mức suy luận.
low
Dùng cho:
- Phân loại văn bản.
- Tóm tắt ngắn.
- Trích xuất dữ liệu theo rule.
- Q&A đơn giản.
- Tác vụ cần độ trễ thấp.
Ví dụ:
{
"reasoning_effort": "low"
}
medium
Đây là mặc định. Dùng cho phần lớn workload production:
- Customer support.
- Phân tích dữ liệu vừa phải.
- Function calling.
- Tool use một bước.
- Sinh nội dung kỹ thuật.
{
"reasoning_effort": "medium"
}
high
Dùng khi tác vụ cần lập kế hoạch hoặc suy luận nhiều bước:
- Agent workflow.
- Review code dài.
- Debug phức tạp.
- Toán hoặc logic nhiều bước.
- Phân tích nhiều tài liệu cùng lúc.
{
"reasoning_effort": "high"
}
Lưu ý: suy luận luôn bật. Ngay cả low vẫn có reasoning cơ bản, nên đừng kỳ vọng loại bỏ hoàn toàn chi phí hoặc độ trễ của reasoning.
Gọi hàm với Grok 4.3
Grok 4.3 dùng cấu trúc tool/function calling tương thích OpenAI.
Luồng xử lý:
- Khai báo tool.
- Gửi message cho model.
- Model trả về
tool_calls. - Ứng dụng thực thi tool.
- Gửi kết quả tool lại cho model.
Ví dụ khai báo tool:
tools = [
{
"type": "function",
"function": {
"name": "lookup_user",
"description": "Tìm kiếm người dùng theo ID.",
"parameters": {
"type": "object",
"properties": {
"user_id": {
"type": "string"
}
},
"required": ["user_id"],
},
},
}
]
Gửi request:
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Tìm người dùng u_42 và cho tôi biết lần đăng nhập cuối cùng của họ."
}
],
tools=tools,
reasoning_effort="medium",
)
message = response.choices[0].message
tool_calls = message.tool_calls
print(tool_calls)
Ví dụ xử lý kết quả tool call:
import json
if tool_calls:
for tool_call in tool_calls:
if tool_call.function.name == "lookup_user":
args = json.loads(tool_call.function.arguments)
user_id = args["user_id"]
# Thay bằng truy vấn DB hoặc service thật của bạn
result = {
"user_id": user_id,
"last_login": "2026-05-07T10:30:00Z"
}
follow_up = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": "Tìm người dùng u_42 và cho tôi biết lần đăng nhập cuối cùng của họ."
},
message,
{
"role": "tool",
"tool_call_id": tool_call.id,
"content": json.dumps(result)
}
],
reasoning_effort="medium",
)
print(follow_up.choices[0].message.content)
Với workflow agent, nên log đầy đủ:
- Input message.
- Tool schema.
-
tool_calls. - Tool result.
- Final answer.
-
usage.reasoning_tokens.
Đầu vào video
Grok 4.3 hỗ trợ truyền URL video trong content block.
Ví dụ:
response = client.chat.completions.create(
model="grok-4.3",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Mô tả những gì xảy ra trong clip này và gắn cờ bất kỳ điểm bất thường nào."
},
{
"type": "video_url",
"video_url": {
"url": "https://example.com/clip.mp4"
}
},
],
}
],
)
print(response.choices[0].message.content)
Lưu ý khi dùng video:
- Token video được tính vào token đầu vào.
- Clip dài có thể tiêu tốn nhiều context.
- Nếu chi phí là vấn đề, hãy cắt clip trước khi gửi.
- Bạn không cần tự trích xuất keyframe thủ công.
Sử dụng ngữ cảnh 1 triệu token
Cửa sổ 1 triệu token hữu ích nhất khi bạn muốn giảm pipeline tiền xử lý.
Review codebase
Ví dụ prompt:
Bạn là reviewer backend cấp cao.
Hãy review các thay đổi dưới đây:
1. Tìm bug logic.
2. Tìm vấn đề hiệu năng.
3. Tìm rủi ro bảo mật.
4. Đề xuất patch cụ thể.
Dưới đây là diff, file liên quan và output lint:
...
Nên đưa vào:
- Diff.
- File được sửa.
- File dependency liên quan.
- Output test/lint.
- Quy ước coding nội bộ.
Q&A trên tài liệu dài
Ví dụ:
Dựa trên hợp đồng bên dưới, hãy trả lời:
1. Điều khoản chấm dứt nằm ở đâu?
2. Bên A có quyền đơn phương chấm dứt không?
3. Có khoản phạt nào nếu vi phạm SLA không?
Chỉ trích dẫn từ nội dung hợp đồng.
Bộ nhớ hội thoại cho agent
Bạn có thể giữ lịch sử dài trong context để cá nhân hóa phản hồi. Với cached input 0.20 USD / 1M, các prompt ổn định dài sẽ rẻ hơn đáng kể so với gửi mới toàn bộ mỗi lần.
Ví dụ từ nội dung gốc:
- Prompt hệ thống 400k token.
- Nếu được cache, chi phí khoảng
0.08 USDmỗi lần gọi. - Nếu tính mới ở
1.25 USD / 1M, chi phí khoảng0.50 USD.
Di chuyển từ mô hình Grok cũ
Tám mô hình Grok cũ sẽ ngừng hoạt động lúc 12:00 PM PT, ngày 15/5/2026.
Nếu đang dùng model cũ, bước tối thiểu là đổi:
{
"model": "grok-4.3"
}
Hầu hết request vẫn giữ nguyên vì cấu trúc Chat Completions không đổi.
Checklist di chuyển
- Tìm tất cả nơi hard-code model cũ.
- Đổi sang
grok-4.3. - Thêm hoặc kiểm tra
reasoning_effort. - Chạy lại test snapshot nếu bạn parse output bằng regex.
- So sánh latency, cost và
usage.reasoning_tokens. - Deploy theo từng phần nếu workload quan trọng.
Hai điểm cần kiểm tra kỹ
1. reasoning_effort
Một số model cũ không dùng reasoning_effort. Grok 4.3 luôn suy luận, nên nếu trước đây bạn cần path rất nhanh, hãy thử:
{
"reasoning_effort": "low"
}
2. Định dạng đầu ra
Grok 4.3 có xu hướng trả lời có cấu trúc hơn Grok 4.20. Nếu hệ thống của bạn dùng regex hoặc parser mong đợi format cũ, hãy kiểm thử lại trước khi chuyển production.
Kiểm thử trong Apidog
Cách nhanh để benchmark Grok 4.3 theo use case thật của bạn:
- Tạo environment trong Apidog.
- Thêm biến:
XAI_API_KEY = xai-...
BASE_URL = https://api.x.ai/v1
- Tạo request:
POST {{BASE_URL}}/chat/completions
- Thêm header:
Authorization: Bearer {{XAI_API_KEY}}
Content-Type: application/json
- Tạo ba body request giống nhau, chỉ khác
reasoning_effort.
Biến thể low
{
"model": "grok-4.3",
"messages": [
{
"role": "user",
"content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
}
],
"reasoning_effort": "low"
}
Biến thể medium
{
"model": "grok-4.3",
"messages": [
{
"role": "user",
"content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
}
],
"reasoning_effort": "medium"
}
Biến thể high
{
"model": "grok-4.3",
"messages": [
{
"role": "user",
"content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
}
],
"reasoning_effort": "high"
}
Sau đó so sánh:
- Chất lượng câu trả lời.
- Độ trễ.
-
usage.prompt_tokens. -
usage.completion_tokens. -
usage.reasoning_tokens. - Tổng chi phí ước tính.
Bạn cũng có thể tạo một environment khác trỏ đến OpenAI base URL để so sánh cùng prompt trên mô hình khác. Khi provider tương thích OpenAI, việc đổi BASE_URL và model là đủ cho phần lớn request.
Giới hạn tỷ lệ
Giới hạn rate limit phụ thuộc vào cấp tài khoản trên xAI Console.
Theo nội dung gốc:
- Cấp cơ bản có thể ở mức vài nghìn request/phút.
- Cấp doanh nghiệp có thể lên đến hàng trăm nghìn request/phút.
- Con số cụ thể thay đổi, nên hãy kiểm tra trực tiếp trong dashboard.
Thông lượng khoảng 159 token/giây là tốc độ đầu ra trên mỗi luồng, không phải tổng throughput toàn hệ thống.
Nếu vượt giới hạn, API trả về 429 kèm header:
retry-after: ...
Nên xử lý bằng exponential backoff:
import time
import random
def sleep_with_backoff(attempt):
base = min(2 ** attempt, 60)
jitter = random.uniform(0, 1)
time.sleep(base + jitter)
FAQ
Grok 4.3 có tương thích hoàn toàn với OpenAI không?
Với Chat Completions, có. Bạn có thể dùng OpenAI SDK, đổi base_url và đổi model.
Các phần tương thích gồm:
- Chat messages.
- Function calling.
- Structured output.
- Streaming.
Grok 4.3 có hỗ trợ Responses API không?
Theo nội dung gốc, giao diện xAI hiện là Chat Completions. Responses API là riêng của OpenAI.
Giới hạn ngữ cảnh thực tế là bao nhiêu?
1.000.000 token.
Tuy nhiên, context dài vẫn tốn chi phí. Nếu prompt ổn định, hãy tận dụng cached input.
Suy luận luôn bật ảnh hưởng đến độ trễ thế nào?
Độ trễ token đầu tiên có thể cao hơn mô hình không suy luận. Tuy vậy, Grok 4.3 stream output khoảng 159 token/giây, nên thời gian phản hồi tổng thể vẫn cạnh tranh cho nhiều tác vụ.
Có thể dùng Grok 4.3 với Grok Voice không?
Có. Theo nội dung gốc, agent giọng nói grok-voice-think-fast-1.0 gọi Grok 4.3 bên dưới khi suy luận. Bạn cũng có thể gọi Grok 4.3 trực tiếp trong một vòng lặp voice tự xây bằng TTS và STT.
Điều gì xảy ra với các call Grok 3 / Grok 4 cũ sau ngày 15/5?
Chúng sẽ thất bại với lỗi 410 vì model đã ngừng hoạt động. Hãy di chuyển trước thời hạn.
Grok 4.3 có hỗ trợ đầu vào hình ảnh không?
Có. Bạn có thể truyền URL hình ảnh trong content block, tương tự định dạng OpenAI.
Tổng kết
Grok 4.3 là bản nâng cấp đáng chú ý về hiệu năng/giá của xAI: giá giảm khoảng 40%, context 1 triệu token, suy luận luôn bật và hỗ trợ video gốc. Với API tương thích OpenAI, quá trình di chuyển thường chỉ cần đổi base_url, model và kiểm thử lại output.
Cách triển khai thực tế:
- Đổi model sang
grok-4.3. - Chọn
reasoning_effortphù hợp. - Kiểm thử prompt thật với
low,medium,high. - Theo dõi
usage.reasoning_tokens. - Kiểm tra parser nếu bạn phụ thuộc vào format output.
- Di chuyển trước ngày 15/5/2026.
Top comments (0)