Sebastian Petrus

Posted on May 8 • Originally published at apidog.com

Cách sử dụng API Grok 4.3?

xAI đã triển khai Grok 4.3 theo từng giai đoạn: beta ngày 17/4/2026, truy cập API ngày 30/4 và phát hành rộng rãi ngày 6/5. Các thay đổi chính gồm cửa sổ ngữ cảnh 1.000.000 token, đầu vào video gốc lần đầu trên dòng Grok, suy luận luôn bật và giá giảm khoảng 40% so với Grok 4.20. Tám mô hình Grok cũ sẽ ngừng hoạt động vào ngày 15/5, vì vậy nếu bạn đang dùng grok-3 hoặc grok-4, hãy lên kế hoạch di chuyển ngay trong tuần này. Bài viết này tập trung vào cách gọi Grok 4.3 từ mã: endpoint, xác thực, URL cơ sở tương thích OpenAI, reasoning_effort, đầu vào video, gọi hàm và cách kiểm thử bằng Apidog.

Dùng thử Apidog hôm nay

TL;DR

Grok 4.3 đã GA vào ngày 6/5/2026.
Tám mô hình cũ sẽ ngừng hoạt động vào ngày 15/5/2026.
Giá:
- 1.25 USD / 1 triệu token đầu vào
- 2.50 USD / 1 triệu token đầu ra
- 0.20 USD / 1 triệu token đầu vào được cache
Cửa sổ ngữ cảnh: 1 triệu token.
Hỗ trợ đầu vào video gốc.
Suy luận luôn bật.
reasoning_effort: low, medium, high; mặc định là medium.
Endpoint:

https://api.x.ai/v1/chat/completions

Tương thích OpenAI Chat Completions.
Thông lượng khoảng 159 token/giây trên các cấp tiêu chuẩn.
Chỉ số thông minh 53 theo Artificial Analysis, xếp thứ 10 trong 146 mô hình toàn cầu.
Có thể dùng Apidog để lưu request, quản lý biến môi trường và so sánh các cấu hình suy luận.

Những gì đã thay đổi trong Grok 4.3

Các nâng cấp đáng chú ý nhất với developer:

1. Giá giảm khoảng 40%

So với Grok 4.20:

Đầu vào giảm 37.5%.
Đầu ra giảm 58.3%.
Token đầu vào được cache còn 0.20 USD / 1M.

Điều này đặc biệt hữu ích nếu ứng dụng của bạn dùng system prompt dài, tài liệu nội bộ, schema lớn hoặc context lặp lại nhiều lần.

2. Ngữ cảnh 1 triệu token

Grok 4.3 tăng từ 256k token trên Grok 4.20 lên 1 triệu token.

Một số use case thực tế:

Đưa toàn bộ diff và các file liên quan vào prompt để review code.
Phân tích hợp đồng dài.
Tóm tắt transcript họp lớn.
Giữ lịch sử hội thoại dài cho agent.

3. Đầu vào video gốc

Grok 4.3 là mô hình Grok đầu tiên hỗ trợ video input trực tiếp. Bạn có thể truyền URL video trong payload thay vì tự trích xuất frame thủ công.

4. Suy luận luôn bật

Mọi request đều có một bước suy luận cơ bản. Bạn có thể điều chỉnh độ sâu bằng reasoning_effort, nhưng mô hình không thấp hơn mức low.

5. Tác vụ agent tốt hơn

Theo nội dung gốc, Grok 4.3 tăng hơn 300 Elo trên GDPval-AA so với Grok 4.20. Điều này quan trọng với các workflow có gọi tool, nhiều bước xử lý hoặc cần lập kế hoạch trước khi trả lời.

Điều kiện tiên quyết

Trước khi gọi API, chuẩn bị:

Tài khoản xAI Console tại console.x.ai.
API key có quyền billing.
OpenAI SDK hoặc xAI SDK.
API client để lưu và phát lại request, ví dụ Apidog.
Biến môi trường cho API key.

export XAI_API_KEY="xai-..."

Với production, nên dùng khóa API theo phạm vi project thay vì khóa dùng chung.

Endpoint và xác thực

Grok 4.3 dùng giao diện Chat Completions tương thích OpenAI.

POST https://api.x.ai/v1/chat/completions

Header:

Authorization: Bearer $XAI_API_KEY
Content-Type: application/json

Vì tương thích OpenAI, bạn có thể dùng OpenAI SDK và chỉ cần đổi base_url.

Gọi Grok 4.3 bằng Python

Cài SDK nếu chưa có:

pip install openai

Ví dụ request cơ bản:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["XAI_API_KEY"],
    base_url="https://api.x.ai/v1",
)

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Tóm tắt ưu và nhược điểm của GraphQL so với REST trong ba gạch đầu dòng."
        }
    ],
    reasoning_effort="medium",
)

print(response.choices[0].message.content)

Điểm cần chú ý:

base_url trỏ đến https://api.x.ai/v1.
model là grok-4.3.
reasoning_effort có thể là low, medium, hoặc high.

Gọi Grok 4.3 bằng curl

Request tối thiểu:

curl https://api.x.ai/v1/chat/completions \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-4.3",
    "messages": [
      {
        "role": "system",
        "content": "Bạn là một kỹ sư backend cấp cao."
      },
      {
        "role": "user",
        "content": "Xem xét kế hoạch truy vấn này và chỉ ra nút thắt cổ chai."
      }
    ],
    "reasoning_effort": "high"
  }'

Response dùng cấu trúc OpenAI tiêu chuẩn:

{
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "..."
      }
    }
  ],
  "usage": {
    "prompt_tokens": 123,
    "completion_tokens": 456,
    "reasoning_tokens": 78,
    "total_tokens": 657
  }
}

Các trường token quan trọng:

prompt_tokens: token đầu vào.
completion_tokens: token đầu ra.
reasoning_tokens: token dùng cho suy luận.
total_tokens: tổng token.

Chọn `reasoning_effort`

Grok 4.3 hỗ trợ ba mức suy luận.

`low`

Dùng cho:

Phân loại văn bản.
Tóm tắt ngắn.
Trích xuất dữ liệu theo rule.
Q&A đơn giản.
Tác vụ cần độ trễ thấp.

Ví dụ:

{
  "reasoning_effort": "low"
}

`medium`

Đây là mặc định. Dùng cho phần lớn workload production:

Customer support.
Phân tích dữ liệu vừa phải.
Function calling.
Tool use một bước.
Sinh nội dung kỹ thuật.

{
  "reasoning_effort": "medium"
}

`high`

Dùng khi tác vụ cần lập kế hoạch hoặc suy luận nhiều bước:

Agent workflow.
Review code dài.
Debug phức tạp.
Toán hoặc logic nhiều bước.
Phân tích nhiều tài liệu cùng lúc.

{
  "reasoning_effort": "high"
}

Lưu ý: suy luận luôn bật. Ngay cả low vẫn có reasoning cơ bản, nên đừng kỳ vọng loại bỏ hoàn toàn chi phí hoặc độ trễ của reasoning.

Gọi hàm với Grok 4.3

Grok 4.3 dùng cấu trúc tool/function calling tương thích OpenAI.

Luồng xử lý:

Khai báo tool.
Gửi message cho model.
Model trả về tool_calls.
Ứng dụng thực thi tool.
Gửi kết quả tool lại cho model.

Ví dụ khai báo tool:

tools = [
    {
        "type": "function",
        "function": {
            "name": "lookup_user",
            "description": "Tìm kiếm người dùng theo ID.",
            "parameters": {
                "type": "object",
                "properties": {
                    "user_id": {
                        "type": "string"
                    }
                },
                "required": ["user_id"],
            },
        },
    }
]

Gửi request:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Tìm người dùng u_42 và cho tôi biết lần đăng nhập cuối cùng của họ."
        }
    ],
    tools=tools,
    reasoning_effort="medium",
)

message = response.choices[0].message
tool_calls = message.tool_calls

print(tool_calls)

Ví dụ xử lý kết quả tool call:

import json

if tool_calls:
    for tool_call in tool_calls:
        if tool_call.function.name == "lookup_user":
            args = json.loads(tool_call.function.arguments)
            user_id = args["user_id"]

            # Thay bằng truy vấn DB hoặc service thật của bạn
            result = {
                "user_id": user_id,
                "last_login": "2026-05-07T10:30:00Z"
            }

            follow_up = client.chat.completions.create(
                model="grok-4.3",
                messages=[
                    {
                        "role": "user",
                        "content": "Tìm người dùng u_42 và cho tôi biết lần đăng nhập cuối cùng của họ."
                    },
                    message,
                    {
                        "role": "tool",
                        "tool_call_id": tool_call.id,
                        "content": json.dumps(result)
                    }
                ],
                reasoning_effort="medium",
            )

            print(follow_up.choices[0].message.content)

Với workflow agent, nên log đầy đủ:

Input message.
Tool schema.
tool_calls.
Tool result.
Final answer.
usage.reasoning_tokens.

Đầu vào video

Grok 4.3 hỗ trợ truyền URL video trong content block.

Ví dụ:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Mô tả những gì xảy ra trong clip này và gắn cờ bất kỳ điểm bất thường nào."
                },
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://example.com/clip.mp4"
                    }
                },
            ],
        }
    ],
)

print(response.choices[0].message.content)

Lưu ý khi dùng video:

Token video được tính vào token đầu vào.
Clip dài có thể tiêu tốn nhiều context.
Nếu chi phí là vấn đề, hãy cắt clip trước khi gửi.
Bạn không cần tự trích xuất keyframe thủ công.

Sử dụng ngữ cảnh 1 triệu token

Cửa sổ 1 triệu token hữu ích nhất khi bạn muốn giảm pipeline tiền xử lý.

Review codebase

Ví dụ prompt:

Bạn là reviewer backend cấp cao.

Hãy review các thay đổi dưới đây:
1. Tìm bug logic.
2. Tìm vấn đề hiệu năng.
3. Tìm rủi ro bảo mật.
4. Đề xuất patch cụ thể.

Dưới đây là diff, file liên quan và output lint:
...

Nên đưa vào:

Diff.
File được sửa.
File dependency liên quan.
Output test/lint.
Quy ước coding nội bộ.

Q&A trên tài liệu dài

Ví dụ:

Dựa trên hợp đồng bên dưới, hãy trả lời:
1. Điều khoản chấm dứt nằm ở đâu?
2. Bên A có quyền đơn phương chấm dứt không?
3. Có khoản phạt nào nếu vi phạm SLA không?

Chỉ trích dẫn từ nội dung hợp đồng.

Bộ nhớ hội thoại cho agent

Bạn có thể giữ lịch sử dài trong context để cá nhân hóa phản hồi. Với cached input 0.20 USD / 1M, các prompt ổn định dài sẽ rẻ hơn đáng kể so với gửi mới toàn bộ mỗi lần.

Ví dụ từ nội dung gốc:

Prompt hệ thống 400k token.
Nếu được cache, chi phí khoảng 0.08 USD mỗi lần gọi.
Nếu tính mới ở 1.25 USD / 1M, chi phí khoảng 0.50 USD.

Di chuyển từ mô hình Grok cũ

Tám mô hình Grok cũ sẽ ngừng hoạt động lúc 12:00 PM PT, ngày 15/5/2026.

Nếu đang dùng model cũ, bước tối thiểu là đổi:

{
  "model": "grok-4.3"
}

Hầu hết request vẫn giữ nguyên vì cấu trúc Chat Completions không đổi.

Checklist di chuyển

Tìm tất cả nơi hard-code model cũ.
Đổi sang grok-4.3.
Thêm hoặc kiểm tra reasoning_effort.
Chạy lại test snapshot nếu bạn parse output bằng regex.
So sánh latency, cost và usage.reasoning_tokens.
Deploy theo từng phần nếu workload quan trọng.

Hai điểm cần kiểm tra kỹ

1. `reasoning_effort`

Một số model cũ không dùng reasoning_effort. Grok 4.3 luôn suy luận, nên nếu trước đây bạn cần path rất nhanh, hãy thử:

{
  "reasoning_effort": "low"
}

2. Định dạng đầu ra

Grok 4.3 có xu hướng trả lời có cấu trúc hơn Grok 4.20. Nếu hệ thống của bạn dùng regex hoặc parser mong đợi format cũ, hãy kiểm thử lại trước khi chuyển production.

Kiểm thử trong Apidog

Cách nhanh để benchmark Grok 4.3 theo use case thật của bạn:

Tạo environment trong Apidog.
Thêm biến:

XAI_API_KEY = xai-...
BASE_URL = https://api.x.ai/v1

Tạo request:

POST {{BASE_URL}}/chat/completions

Thêm header:

Authorization: Bearer {{XAI_API_KEY}}
Content-Type: application/json

Tạo ba body request giống nhau, chỉ khác reasoning_effort.

Biến thể `low`

{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "user",
      "content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
    }
  ],
  "reasoning_effort": "low"
}

Biến thể `medium`

{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "user",
      "content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
    }
  ],
  "reasoning_effort": "medium"
}

Biến thể `high`

{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "user",
      "content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
    }
  ],
  "reasoning_effort": "high"
}

Sau đó so sánh:

Chất lượng câu trả lời.
Độ trễ.
usage.prompt_tokens.
usage.completion_tokens.
usage.reasoning_tokens.
Tổng chi phí ước tính.

Bạn cũng có thể tạo một environment khác trỏ đến OpenAI base URL để so sánh cùng prompt trên mô hình khác. Khi provider tương thích OpenAI, việc đổi BASE_URL và model là đủ cho phần lớn request.

Giới hạn tỷ lệ

Giới hạn rate limit phụ thuộc vào cấp tài khoản trên xAI Console.

Theo nội dung gốc:

Cấp cơ bản có thể ở mức vài nghìn request/phút.
Cấp doanh nghiệp có thể lên đến hàng trăm nghìn request/phút.
Con số cụ thể thay đổi, nên hãy kiểm tra trực tiếp trong dashboard.

Thông lượng khoảng 159 token/giây là tốc độ đầu ra trên mỗi luồng, không phải tổng throughput toàn hệ thống.

Nếu vượt giới hạn, API trả về 429 kèm header:

retry-after: ...

Nên xử lý bằng exponential backoff:

import time
import random

def sleep_with_backoff(attempt):
    base = min(2 ** attempt, 60)
    jitter = random.uniform(0, 1)
    time.sleep(base + jitter)

FAQ

Grok 4.3 có tương thích hoàn toàn với OpenAI không?

Với Chat Completions, có. Bạn có thể dùng OpenAI SDK, đổi base_url và đổi model.

Các phần tương thích gồm:

Chat messages.
Function calling.
Structured output.
Streaming.

Grok 4.3 có hỗ trợ Responses API không?

Theo nội dung gốc, giao diện xAI hiện là Chat Completions. Responses API là riêng của OpenAI.

Giới hạn ngữ cảnh thực tế là bao nhiêu?

1.000.000 token.

Tuy nhiên, context dài vẫn tốn chi phí. Nếu prompt ổn định, hãy tận dụng cached input.

Suy luận luôn bật ảnh hưởng đến độ trễ thế nào?

Độ trễ token đầu tiên có thể cao hơn mô hình không suy luận. Tuy vậy, Grok 4.3 stream output khoảng 159 token/giây, nên thời gian phản hồi tổng thể vẫn cạnh tranh cho nhiều tác vụ.

Có thể dùng Grok 4.3 với Grok Voice không?

Có. Theo nội dung gốc, agent giọng nói grok-voice-think-fast-1.0 gọi Grok 4.3 bên dưới khi suy luận. Bạn cũng có thể gọi Grok 4.3 trực tiếp trong một vòng lặp voice tự xây bằng TTS và STT.

Điều gì xảy ra với các call Grok 3 / Grok 4 cũ sau ngày 15/5?

Chúng sẽ thất bại với lỗi 410 vì model đã ngừng hoạt động. Hãy di chuyển trước thời hạn.

Grok 4.3 có hỗ trợ đầu vào hình ảnh không?

Có. Bạn có thể truyền URL hình ảnh trong content block, tương tự định dạng OpenAI.

Tổng kết

Grok 4.3 là bản nâng cấp đáng chú ý về hiệu năng/giá của xAI: giá giảm khoảng 40%, context 1 triệu token, suy luận luôn bật và hỗ trợ video gốc. Với API tương thích OpenAI, quá trình di chuyển thường chỉ cần đổi base_url, model và kiểm thử lại output.

Cách triển khai thực tế:

Đổi model sang grok-4.3.
Chọn reasoning_effort phù hợp.
Kiểm thử prompt thật với low, medium, high.
Theo dõi usage.reasoning_tokens.
Kiểm tra parser nếu bạn phụ thuộc vào format output.
Di chuyển trước ngày 15/5/2026.

TL;DR

Những gì đã thay đổi trong Grok 4.3

1. Giá giảm khoảng 40%

2. Ngữ cảnh 1 triệu token

3. Đầu vào video gốc

4. Suy luận luôn bật

5. Tác vụ agent tốt hơn

Điều kiện tiên quyết

Endpoint và xác thực

Gọi Grok 4.3 bằng Python

Gọi Grok 4.3 bằng curl

Chọn reasoning_effort

low

medium

high

Gọi hàm với Grok 4.3

Đầu vào video

Sử dụng ngữ cảnh 1 triệu token

Review codebase

Q&A trên tài liệu dài

Bộ nhớ hội thoại cho agent

Di chuyển từ mô hình Grok cũ

Checklist di chuyển

Hai điểm cần kiểm tra kỹ

1. reasoning_effort

2. Định dạng đầu ra

Kiểm thử trong Apidog

Biến thể low

Biến thể medium

Biến thể high

Giới hạn tỷ lệ

FAQ

Grok 4.3 có tương thích hoàn toàn với OpenAI không?

Grok 4.3 có hỗ trợ Responses API không?

Giới hạn ngữ cảnh thực tế là bao nhiêu?

Suy luận luôn bật ảnh hưởng đến độ trễ thế nào?

Có thể dùng Grok 4.3 với Grok Voice không?

Điều gì xảy ra với các call Grok 3 / Grok 4 cũ sau ngày 15/5?

Grok 4.3 có hỗ trợ đầu vào hình ảnh không?

Tổng kết

Chọn `reasoning_effort`

`low`

`medium`

`high`

1. `reasoning_effort`

Biến thể `low`

Biến thể `medium`

Biến thể `high`