DEV Community

Cover image for Cách sử dụng API Grok 4.3?
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Cách sử dụng API Grok 4.3?

xAI đã triển khai Grok 4.3 theo từng giai đoạn: beta ngày 17/4/2026, truy cập API ngày 30/4 và phát hành rộng rãi ngày 6/5. Các thay đổi chính gồm cửa sổ ngữ cảnh 1.000.000 token, đầu vào video gốc lần đầu trên dòng Grok, suy luận luôn bật và giá giảm khoảng 40% so với Grok 4.20. Tám mô hình Grok cũ sẽ ngừng hoạt động vào ngày 15/5, vì vậy nếu bạn đang dùng grok-3 hoặc grok-4, hãy lên kế hoạch di chuyển ngay trong tuần này. Bài viết này tập trung vào cách gọi Grok 4.3 từ mã: endpoint, xác thực, URL cơ sở tương thích OpenAI, reasoning_effort, đầu vào video, gọi hàm và cách kiểm thử bằng Apidog.

Dùng thử Apidog hôm nay

TL;DR

  • Grok 4.3 đã GA vào ngày 6/5/2026.
  • Tám mô hình cũ sẽ ngừng hoạt động vào ngày 15/5/2026.
  • Giá:
    • 1.25 USD / 1 triệu token đầu vào
    • 2.50 USD / 1 triệu token đầu ra
    • 0.20 USD / 1 triệu token đầu vào được cache
  • Cửa sổ ngữ cảnh: 1 triệu token.
  • Hỗ trợ đầu vào video gốc.
  • Suy luận luôn bật.
  • reasoning_effort: low, medium, high; mặc định là medium.
  • Endpoint:
https://api.x.ai/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  • Tương thích OpenAI Chat Completions.
  • Thông lượng khoảng 159 token/giây trên các cấp tiêu chuẩn.
  • Chỉ số thông minh 53 theo Artificial Analysis, xếp thứ 10 trong 146 mô hình toàn cầu.
  • Có thể dùng Apidog để lưu request, quản lý biến môi trường và so sánh các cấu hình suy luận.

Những gì đã thay đổi trong Grok 4.3

Các nâng cấp đáng chú ý nhất với developer:

1. Giá giảm khoảng 40%

So với Grok 4.20:

  • Đầu vào giảm 37.5%.
  • Đầu ra giảm 58.3%.
  • Token đầu vào được cache còn 0.20 USD / 1M.

Điều này đặc biệt hữu ích nếu ứng dụng của bạn dùng system prompt dài, tài liệu nội bộ, schema lớn hoặc context lặp lại nhiều lần.

2. Ngữ cảnh 1 triệu token

Grok 4.3 tăng từ 256k token trên Grok 4.20 lên 1 triệu token.

Một số use case thực tế:

  • Đưa toàn bộ diff và các file liên quan vào prompt để review code.
  • Phân tích hợp đồng dài.
  • Tóm tắt transcript họp lớn.
  • Giữ lịch sử hội thoại dài cho agent.

3. Đầu vào video gốc

Grok 4.3 là mô hình Grok đầu tiên hỗ trợ video input trực tiếp. Bạn có thể truyền URL video trong payload thay vì tự trích xuất frame thủ công.

4. Suy luận luôn bật

Mọi request đều có một bước suy luận cơ bản. Bạn có thể điều chỉnh độ sâu bằng reasoning_effort, nhưng mô hình không thấp hơn mức low.

5. Tác vụ agent tốt hơn

Theo nội dung gốc, Grok 4.3 tăng hơn 300 Elo trên GDPval-AA so với Grok 4.20. Điều này quan trọng với các workflow có gọi tool, nhiều bước xử lý hoặc cần lập kế hoạch trước khi trả lời.

Điều kiện tiên quyết

Trước khi gọi API, chuẩn bị:

  1. Tài khoản xAI Console tại console.x.ai.
  2. API key có quyền billing.
  3. OpenAI SDK hoặc xAI SDK.
  4. API client để lưu và phát lại request, ví dụ Apidog.
  5. Biến môi trường cho API key.
export XAI_API_KEY="xai-..."
Enter fullscreen mode Exit fullscreen mode

Với production, nên dùng khóa API theo phạm vi project thay vì khóa dùng chung.

Endpoint và xác thực

Grok 4.3 dùng giao diện Chat Completions tương thích OpenAI.

POST https://api.x.ai/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

Header:

Authorization: Bearer $XAI_API_KEY
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode

Vì tương thích OpenAI, bạn có thể dùng OpenAI SDK và chỉ cần đổi base_url.

Gọi Grok 4.3 bằng Python

Cài SDK nếu chưa có:

pip install openai
Enter fullscreen mode Exit fullscreen mode

Ví dụ request cơ bản:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["XAI_API_KEY"],
    base_url="https://api.x.ai/v1",
)

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Tóm tắt ưu và nhược điểm của GraphQL so với REST trong ba gạch đầu dòng."
        }
    ],
    reasoning_effort="medium",
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Điểm cần chú ý:

  • base_url trỏ đến https://api.x.ai/v1.
  • modelgrok-4.3.
  • reasoning_effort có thể là low, medium, hoặc high.

Gọi Grok 4.3 bằng curl

Request tối thiểu:

curl https://api.x.ai/v1/chat/completions \
  -H "Authorization: Bearer $XAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "grok-4.3",
    "messages": [
      {
        "role": "system",
        "content": "Bạn là một kỹ sư backend cấp cao."
      },
      {
        "role": "user",
        "content": "Xem xét kế hoạch truy vấn này và chỉ ra nút thắt cổ chai."
      }
    ],
    "reasoning_effort": "high"
  }'
Enter fullscreen mode Exit fullscreen mode

Response dùng cấu trúc OpenAI tiêu chuẩn:

{
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "..."
      }
    }
  ],
  "usage": {
    "prompt_tokens": 123,
    "completion_tokens": 456,
    "reasoning_tokens": 78,
    "total_tokens": 657
  }
}
Enter fullscreen mode Exit fullscreen mode

Các trường token quan trọng:

  • prompt_tokens: token đầu vào.
  • completion_tokens: token đầu ra.
  • reasoning_tokens: token dùng cho suy luận.
  • total_tokens: tổng token.

Chọn reasoning_effort

Grok 4.3 hỗ trợ ba mức suy luận.

low

Dùng cho:

  • Phân loại văn bản.
  • Tóm tắt ngắn.
  • Trích xuất dữ liệu theo rule.
  • Q&A đơn giản.
  • Tác vụ cần độ trễ thấp.

Ví dụ:

{
  "reasoning_effort": "low"
}
Enter fullscreen mode Exit fullscreen mode

medium

Đây là mặc định. Dùng cho phần lớn workload production:

  • Customer support.
  • Phân tích dữ liệu vừa phải.
  • Function calling.
  • Tool use một bước.
  • Sinh nội dung kỹ thuật.
{
  "reasoning_effort": "medium"
}
Enter fullscreen mode Exit fullscreen mode

high

Dùng khi tác vụ cần lập kế hoạch hoặc suy luận nhiều bước:

  • Agent workflow.
  • Review code dài.
  • Debug phức tạp.
  • Toán hoặc logic nhiều bước.
  • Phân tích nhiều tài liệu cùng lúc.
{
  "reasoning_effort": "high"
}
Enter fullscreen mode Exit fullscreen mode

Lưu ý: suy luận luôn bật. Ngay cả low vẫn có reasoning cơ bản, nên đừng kỳ vọng loại bỏ hoàn toàn chi phí hoặc độ trễ của reasoning.

Gọi hàm với Grok 4.3

Grok 4.3 dùng cấu trúc tool/function calling tương thích OpenAI.

Luồng xử lý:

  1. Khai báo tool.
  2. Gửi message cho model.
  3. Model trả về tool_calls.
  4. Ứng dụng thực thi tool.
  5. Gửi kết quả tool lại cho model.

Ví dụ khai báo tool:

tools = [
    {
        "type": "function",
        "function": {
            "name": "lookup_user",
            "description": "Tìm kiếm người dùng theo ID.",
            "parameters": {
                "type": "object",
                "properties": {
                    "user_id": {
                        "type": "string"
                    }
                },
                "required": ["user_id"],
            },
        },
    }
]
Enter fullscreen mode Exit fullscreen mode

Gửi request:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": "Tìm người dùng u_42 và cho tôi biết lần đăng nhập cuối cùng của họ."
        }
    ],
    tools=tools,
    reasoning_effort="medium",
)

message = response.choices[0].message
tool_calls = message.tool_calls

print(tool_calls)
Enter fullscreen mode Exit fullscreen mode

Ví dụ xử lý kết quả tool call:

import json

if tool_calls:
    for tool_call in tool_calls:
        if tool_call.function.name == "lookup_user":
            args = json.loads(tool_call.function.arguments)
            user_id = args["user_id"]

            # Thay bằng truy vấn DB hoặc service thật của bạn
            result = {
                "user_id": user_id,
                "last_login": "2026-05-07T10:30:00Z"
            }

            follow_up = client.chat.completions.create(
                model="grok-4.3",
                messages=[
                    {
                        "role": "user",
                        "content": "Tìm người dùng u_42 và cho tôi biết lần đăng nhập cuối cùng của họ."
                    },
                    message,
                    {
                        "role": "tool",
                        "tool_call_id": tool_call.id,
                        "content": json.dumps(result)
                    }
                ],
                reasoning_effort="medium",
            )

            print(follow_up.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Với workflow agent, nên log đầy đủ:

  • Input message.
  • Tool schema.
  • tool_calls.
  • Tool result.
  • Final answer.
  • usage.reasoning_tokens.

Đầu vào video

Grok 4.3 hỗ trợ truyền URL video trong content block.

Ví dụ:

response = client.chat.completions.create(
    model="grok-4.3",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Mô tả những gì xảy ra trong clip này và gắn cờ bất kỳ điểm bất thường nào."
                },
                {
                    "type": "video_url",
                    "video_url": {
                        "url": "https://example.com/clip.mp4"
                    }
                },
            ],
        }
    ],
)

print(response.choices[0].message.content)
Enter fullscreen mode Exit fullscreen mode

Lưu ý khi dùng video:

  • Token video được tính vào token đầu vào.
  • Clip dài có thể tiêu tốn nhiều context.
  • Nếu chi phí là vấn đề, hãy cắt clip trước khi gửi.
  • Bạn không cần tự trích xuất keyframe thủ công.

Sử dụng ngữ cảnh 1 triệu token

Cửa sổ 1 triệu token hữu ích nhất khi bạn muốn giảm pipeline tiền xử lý.

Review codebase

Ví dụ prompt:

Bạn là reviewer backend cấp cao.

Hãy review các thay đổi dưới đây:
1. Tìm bug logic.
2. Tìm vấn đề hiệu năng.
3. Tìm rủi ro bảo mật.
4. Đề xuất patch cụ thể.

Dưới đây là diff, file liên quan và output lint:
...
Enter fullscreen mode Exit fullscreen mode

Nên đưa vào:

  • Diff.
  • File được sửa.
  • File dependency liên quan.
  • Output test/lint.
  • Quy ước coding nội bộ.

Q&A trên tài liệu dài

Ví dụ:

Dựa trên hợp đồng bên dưới, hãy trả lời:
1. Điều khoản chấm dứt nằm ở đâu?
2. Bên A có quyền đơn phương chấm dứt không?
3. Có khoản phạt nào nếu vi phạm SLA không?

Chỉ trích dẫn từ nội dung hợp đồng.
Enter fullscreen mode Exit fullscreen mode

Bộ nhớ hội thoại cho agent

Bạn có thể giữ lịch sử dài trong context để cá nhân hóa phản hồi. Với cached input 0.20 USD / 1M, các prompt ổn định dài sẽ rẻ hơn đáng kể so với gửi mới toàn bộ mỗi lần.

Ví dụ từ nội dung gốc:

  • Prompt hệ thống 400k token.
  • Nếu được cache, chi phí khoảng 0.08 USD mỗi lần gọi.
  • Nếu tính mới ở 1.25 USD / 1M, chi phí khoảng 0.50 USD.

Di chuyển từ mô hình Grok cũ

Tám mô hình Grok cũ sẽ ngừng hoạt động lúc 12:00 PM PT, ngày 15/5/2026.

Nếu đang dùng model cũ, bước tối thiểu là đổi:

{
  "model": "grok-4.3"
}
Enter fullscreen mode Exit fullscreen mode

Hầu hết request vẫn giữ nguyên vì cấu trúc Chat Completions không đổi.

Checklist di chuyển

  1. Tìm tất cả nơi hard-code model cũ.
  2. Đổi sang grok-4.3.
  3. Thêm hoặc kiểm tra reasoning_effort.
  4. Chạy lại test snapshot nếu bạn parse output bằng regex.
  5. So sánh latency, cost và usage.reasoning_tokens.
  6. Deploy theo từng phần nếu workload quan trọng.

Hai điểm cần kiểm tra kỹ

1. reasoning_effort

Một số model cũ không dùng reasoning_effort. Grok 4.3 luôn suy luận, nên nếu trước đây bạn cần path rất nhanh, hãy thử:

{
  "reasoning_effort": "low"
}
Enter fullscreen mode Exit fullscreen mode

2. Định dạng đầu ra

Grok 4.3 có xu hướng trả lời có cấu trúc hơn Grok 4.20. Nếu hệ thống của bạn dùng regex hoặc parser mong đợi format cũ, hãy kiểm thử lại trước khi chuyển production.

Kiểm thử trong Apidog

Cách nhanh để benchmark Grok 4.3 theo use case thật của bạn:

  1. Tạo environment trong Apidog.
  2. Thêm biến:
XAI_API_KEY = xai-...
BASE_URL = https://api.x.ai/v1
Enter fullscreen mode Exit fullscreen mode
  1. Tạo request:
POST {{BASE_URL}}/chat/completions
Enter fullscreen mode Exit fullscreen mode
  1. Thêm header:
Authorization: Bearer {{XAI_API_KEY}}
Content-Type: application/json
Enter fullscreen mode Exit fullscreen mode
  1. Tạo ba body request giống nhau, chỉ khác reasoning_effort.

Biến thể low

{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "user",
      "content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
    }
  ],
  "reasoning_effort": "low"
}
Enter fullscreen mode Exit fullscreen mode

Biến thể medium

{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "user",
      "content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
    }
  ],
  "reasoning_effort": "medium"
}
Enter fullscreen mode Exit fullscreen mode

Biến thể high

{
  "model": "grok-4.3",
  "messages": [
    {
      "role": "user",
      "content": "Phân tích lỗi hiệu năng trong đoạn truy vấn SQL này: ..."
    }
  ],
  "reasoning_effort": "high"
}
Enter fullscreen mode Exit fullscreen mode

Sau đó so sánh:

  • Chất lượng câu trả lời.
  • Độ trễ.
  • usage.prompt_tokens.
  • usage.completion_tokens.
  • usage.reasoning_tokens.
  • Tổng chi phí ước tính.

Bạn cũng có thể tạo một environment khác trỏ đến OpenAI base URL để so sánh cùng prompt trên mô hình khác. Khi provider tương thích OpenAI, việc đổi BASE_URLmodel là đủ cho phần lớn request.

Giới hạn tỷ lệ

Giới hạn rate limit phụ thuộc vào cấp tài khoản trên xAI Console.

Theo nội dung gốc:

  • Cấp cơ bản có thể ở mức vài nghìn request/phút.
  • Cấp doanh nghiệp có thể lên đến hàng trăm nghìn request/phút.
  • Con số cụ thể thay đổi, nên hãy kiểm tra trực tiếp trong dashboard.

Thông lượng khoảng 159 token/giây là tốc độ đầu ra trên mỗi luồng, không phải tổng throughput toàn hệ thống.

Nếu vượt giới hạn, API trả về 429 kèm header:

retry-after: ...
Enter fullscreen mode Exit fullscreen mode

Nên xử lý bằng exponential backoff:

import time
import random

def sleep_with_backoff(attempt):
    base = min(2 ** attempt, 60)
    jitter = random.uniform(0, 1)
    time.sleep(base + jitter)
Enter fullscreen mode Exit fullscreen mode

FAQ

Grok 4.3 có tương thích hoàn toàn với OpenAI không?

Với Chat Completions, có. Bạn có thể dùng OpenAI SDK, đổi base_url và đổi model.

Các phần tương thích gồm:

  • Chat messages.
  • Function calling.
  • Structured output.
  • Streaming.

Grok 4.3 có hỗ trợ Responses API không?

Theo nội dung gốc, giao diện xAI hiện là Chat Completions. Responses API là riêng của OpenAI.

Giới hạn ngữ cảnh thực tế là bao nhiêu?

1.000.000 token.

Tuy nhiên, context dài vẫn tốn chi phí. Nếu prompt ổn định, hãy tận dụng cached input.

Suy luận luôn bật ảnh hưởng đến độ trễ thế nào?

Độ trễ token đầu tiên có thể cao hơn mô hình không suy luận. Tuy vậy, Grok 4.3 stream output khoảng 159 token/giây, nên thời gian phản hồi tổng thể vẫn cạnh tranh cho nhiều tác vụ.

Có thể dùng Grok 4.3 với Grok Voice không?

Có. Theo nội dung gốc, agent giọng nói grok-voice-think-fast-1.0 gọi Grok 4.3 bên dưới khi suy luận. Bạn cũng có thể gọi Grok 4.3 trực tiếp trong một vòng lặp voice tự xây bằng TTS và STT.

Điều gì xảy ra với các call Grok 3 / Grok 4 cũ sau ngày 15/5?

Chúng sẽ thất bại với lỗi 410 vì model đã ngừng hoạt động. Hãy di chuyển trước thời hạn.

Grok 4.3 có hỗ trợ đầu vào hình ảnh không?

Có. Bạn có thể truyền URL hình ảnh trong content block, tương tự định dạng OpenAI.

Tổng kết

Grok 4.3 là bản nâng cấp đáng chú ý về hiệu năng/giá của xAI: giá giảm khoảng 40%, context 1 triệu token, suy luận luôn bật và hỗ trợ video gốc. Với API tương thích OpenAI, quá trình di chuyển thường chỉ cần đổi base_url, model và kiểm thử lại output.

Cách triển khai thực tế:

  1. Đổi model sang grok-4.3.
  2. Chọn reasoning_effort phù hợp.
  3. Kiểm thử prompt thật với low, medium, high.
  4. Theo dõi usage.reasoning_tokens.
  5. Kiểm tra parser nếu bạn phụ thuộc vào format output.
  6. Di chuyển trước ngày 15/5/2026.

Top comments (0)