Antoine Laurent

Posted on May 9 • Originally published at apidog.com

API Gemini Gratuite et Illimitée

La famille Gemini de Google est intéressante pour les applications à fort volume, mais les coûts peuvent vite monter dès que plusieurs milliers d’utilisateurs appellent votre endpoint. Avec Puter.js, vous pouvez exposer Gemini et Gemma dans une application navigateur sans clé API Google : l’utilisateur final se connecte à Puter et couvre sa propre utilisation, tandis que votre intégration reste gratuite côté développeur.

Essayez Apidog aujourd’hui

En bref

Puter.js donne accès à Gemini et Gemma sans clé API Google, sans projet Google Cloud et sans backend.
Modèles Gemini mentionnés : 2.5 Pro, 2.5 Flash, 2.5 Flash Lite, 2.0 Flash, 2.0 Flash Lite, 3 Flash Preview, plus certaines préversions datées.
Modèles Gemma mentionnés : Gemma 2, 3, 4 en plusieurs tailles.
L’intégration minimale tient en une balise <script> et un appel à puter.ai.chat().
Le streaming, l’entrée image et les paramètres comme temperature fonctionnent côté navigateur.
L’utilisateur final couvre l’usage via son compte Puter.
Utilisez Apidog pour comparer un prototype Puter avec l’API officielle Gemini lors d’une migration.

Comment fonctionne le modèle « gratuit illimité »

Puter.js déplace la facturation de votre application vers l’utilisateur final. Au lieu de créer une clé Google AI Studio et de payer chaque appel, votre utilisateur se connecte à Puter. L’appel est alors associé à son compte Puter.

Conséquences pratiques :

Pas de projet Google Cloud à créer.
Pas de clé API Google à stocker dans votre frontend ou votre backend.
Pas de gestion de quota Google côté application.
Pas de backend obligatoire pour un prototype ou une app statique.
Pas de coût direct par token pour vous.

Le compromis : Puter.js est pensé d’abord pour le navigateur. Une tâche cron, un worker backend ou un webhook serveur ne peuvent pas l’utiliser proprement sans session utilisateur.

Étape 1 : Installer Puter.js

Pour une page HTML ou un site statique, ajoutez simplement le script CDN :

<script src="https://js.puter.com/v2/"></script>

Exemple minimal :

<!DOCTYPE html>
<html lang="fr">
<head>
  <meta charset="UTF-8" />
  <title>Gemini avec Puter.js</title>
</head>
<body>
  <div id="output"></div>

  <script src="https://js.puter.com/v2/"></script>
  <script>
    async function main() {
      const response = await puter.ai.chat(
        "Expliquez le machine learning en trois phrases.",
        { model: "google/gemini-2.5-flash" }
      );

      document.getElementById("output").textContent = response;
    }

    main();
  </script>
</body>
</html>

Pour une application packagée :

npm install @heyputer/puter.js

Puis importez Puter :

import { puter } from '@heyputer/puter.js';

Étape 2 : Choisir un modèle Gemini ou Gemma

Utilisez un modèle différent selon le besoin : raisonnement, latence, classification, vision ou prototypage.

ID du modèle	Quand l'utiliser
`google/gemini-2.5-pro`	Raisonnement plus poussé, analyse complexe, tâches à long contexte
`google/gemini-2.5-flash`	Choix par défaut pour la plupart des apps : bon équilibre vitesse/qualité
`google/gemini-2.5-flash-lite`	Classification, balisage, extraction simple à volume élevé
`google/gemini-2.0-flash`	Base stable, comportement bien connu
`google/gemini-3-flash-preview`	Préversion récente pour tester les dernières capacités
`google/gemma-3-27b-it`	Modèle Gemma ouvert, ajusté aux instructions
`google/gemma-4-31b-it`	Grand modèle Gemma ouvert

Recommandation pratique :

commencez avec google/gemini-2.5-flash ;
passez à google/gemini-2.5-pro pour les prompts difficiles ;
utilisez google/gemini-2.5-flash-lite pour les tâches répétitives simples.

Étape 3 : Appeler Gemini depuis le navigateur

Voici l’appel minimal :

<!DOCTYPE html>
<html>
<body>
  <script src="https://js.puter.com/v2/"></script>

  <script>
    puter.ai.chat(
      "Expliquez le machine learning en trois phrases.",
      { model: "google/gemini-2.5-flash" }
    ).then(response => {
      puter.print(response);
    });
  </script>
</body>
</html>

À l’exécution :

le navigateur charge Puter.js ;
l’utilisateur se connecte à Puter si nécessaire ;
Puter relaie la requête vers le modèle ;
la réponse s’affiche dans la page.

Vous n’avez pas besoin de variable d’environnement, de serveur proxy ou de clé API.

Étape 4 : Afficher la réponse en streaming

Pour une interface de chat, évitez d’attendre la réponse complète. Activez le streaming :

const outputDiv = document.getElementById("output");

const response = await puter.ai.chat(
  "Expliquez la photosynthèse en détail.",
  {
    model: "google/gemini-2.5-flash",
    stream: true,
  }
);

for await (const part of response) {
  if (part?.text) {
    outputDiv.innerHTML += part.text;
  }
}

Chaque part.text contient un fragment de la réponse. Vous pouvez l’ajouter progressivement à votre UI pour obtenir une expérience proche d’un chat moderne.

Étape 5 : Utiliser Gemini avec une image

Gemini peut analyser une image passée en entrée. Avec Puter.js, fournissez l’URL de l’image comme deuxième argument :

puter.ai.chat(
  "Que voyez-vous dans cette image ? Décrivez les couleurs, les objets et l'ambiance.",
  "https://assets.puter.site/doge.jpeg",
  { model: "google/gemini-2.5-flash" }
).then(response => {
  puter.print(response);
});

Cas d’usage possibles :

génération de texte alternatif ;
QA visuelle ;
analyse de captures d’écran ;
OCR simple ;
outils d’accessibilité ;
balisage d’images produit.

La vision de Gemini est généralement solide sur les images naturelles et les diagrammes. Pour des captures d’écran avec beaucoup de texte dense, d’autres modèles peuvent parfois mieux fonctionner.

Étape 6 : Ajuster la température

La température contrôle le niveau de variabilité de la sortie.

const response = await puter.ai.chat(
  "Écrivez une courte histoire créative sur un robot chef cuisinier.",
  {
    model: "google/gemini-2.5-flash",
    temperature: 0.2,
  }
);

console.log(response);

Règle simple :

0.0 à 0.3 : sortie plus déterministe, utile pour extraction, classification, réponses factuelles ;
0.7 à 1.0 : sortie plus créative, utile pour brainstorming ou écriture.

Pour un chatbot généraliste, commencez autour de 0.7, puis ajustez selon vos tests.

Étape 7 : Gérer une conversation à plusieurs tours

Pour garder le contexte, passez un tableau de messages :

const messages = [
  {
    role: "user",
    content: "Je construis une application Next.js avec Postgres."
  },
  {
    role: "assistant",
    content: "Compris. De quoi avez-vous besoin d'aide ?"
  },
  {
    role: "user",
    content: "Comment devrais-je structurer les migrations ?"
  },
];

const response = await puter.ai.chat(messages, {
  model: "google/gemini-2.5-pro",
});

console.log(response);

Dans votre application, stockez l’historique :

const messages = [];

async function sendMessage(userText) {
  messages.push({
    role: "user",
    content: userText,
  });

  const assistantResponse = await puter.ai.chat(messages, {
    model: "google/gemini-2.5-flash",
  });

  messages.push({
    role: "assistant",
    content: assistantResponse,
  });

  return assistantResponse;
}

À chaque nouvel appel, Gemini reçoit la transcription complète que vous fournissez.

Comparer Gemini avec d’autres modèles sur la même invite

Puter expose plusieurs familles de modèles via une interface similaire. Pour choisir un modèle, testez la même invite sur plusieurs fournisseurs :

const models = [
  "google/gemini-2.5-flash",
  "claude-sonnet-4-6",
  "gpt-5.5",
  "x-ai/grok-4.3",
];

const prompt = "Refactorisez ce composant React pour utiliser des hooks : ...";

for (const model of models) {
  const start = performance.now();

  const response = await puter.ai.chat(prompt, { model });

  const elapsed = performance.now() - start;

  console.log(`${model}: ${elapsed.toFixed(0)}ms`);
  console.log(response);
  console.log("---");
}

Évaluez au minimum :

la latence ;
la qualité de la réponse ;
la stabilité du format ;
la capacité à suivre vos contraintes ;
le coût côté utilisateur.

Évitez de choisir un modèle uniquement sur une impression. Créez plutôt un petit jeu de prompts représentatifs de votre produit.

Ce que vous obtenez avec Puter.js

Vous obtenez :

accès aux modèles Gemini mentionnés ;
accès à la famille Gemma mentionnée ;
appels depuis le navigateur ;
conversations à plusieurs tours ;
réponses en streaming ;
entrée image via URL ;
paramètres comme temperature, max_tokens et prompts système selon la prise en charge ;
intégration rapide pour prototypes, sites statiques et apps publiques.

Vous pourriez ne pas obtenir, selon la version de Puter :

appel de fonction natif Gemini ;
outil d’exécution de code ;
ancrage Google Search ;
fenêtre de contexte complète jusqu’à 2M de tokens ;
exécution backend sans contexte navigateur ;
visibilité directe sur les limites de débit Google.

Pour des agents complexes qui dépendent d’outils, d’exécution de code ou d’un contexte extrêmement long, l’API officielle Gemini reste généralement plus adaptée. Pour un chatbot, de la génération de contenu, de la QA ou une interface visuelle simple, Puter peut suffire.

Quand utiliser Puter plutôt que l’API officielle Gemini

Utilisez Puter quand :

vous lancez une application publique gratuite ;
vous voulez éviter l’exposition à la facturation côté développeur ;
vous prototypez sans configurer Google Cloud ;
vous construisez un site statique, une extension navigateur ou un projet de hackathon ;
vos utilisateurs peuvent accepter une connexion Puter.

Utilisez l’API officielle Gemini quand :

vous avez besoin d’appels côté serveur ;
vous exécutez des jobs cron, batch ou webhooks ;
vous avez besoin d’exécution de code ou d’ancrage Search ;
vous voulez exploiter le contexte long avec le plafond complet disponible ;
vous avez besoin d’une relation contractuelle directe avec Google ;
vous devez faire du fine-tuning sur vos données ;
vos utilisateurs ne doivent pas passer par une connexion Puter.

Pour une présentation autonome de Gemini 3 Flash, consultez Comment utiliser l'API de préversion Gemini 3 Flash.

Tester et préparer une migration avec Apidog

Les appels Puter s’exécutent dans le navigateur. Vous ne pouvez donc pas les tester exactement comme un endpoint backend classique.

Un workflow pratique :

créez une page statique qui charge Puter.js ;
ajoutez un paramètre de requête pour passer le prompt ;
testez votre logique frontend avec Puter ;
dans Apidog, documentez et testez l’équivalent côté API officielle Gemini ;
gardez deux environnements séparés pour comparer facilement.

Exemple d’environnements :

puter-prototype : URL locale ou statique de votre page Puter ;
gemini-prod : https://generativelanguage.googleapis.com/v1.

Vous pouvez télécharger Apidog et conserver les deux scénarios dans la même collection. Cela facilite le passage d’un prototype navigateur vers une intégration serveur si votre produit l’exige.

Pour des modèles de test API plus larges, consultez Outil de test API pour les ingénieurs QA.

Autres chemins LLM gratuits via Puter

Le même modèle où l’utilisateur couvre son usage peut aussi s’appliquer à d’autres fournisseurs exposés via Puter :

Dans votre code, le changement principal consiste souvent à modifier la valeur de model.

FAQ

Est-ce vraiment illimité ?

Illimité côté développeur : vous ne payez pas les tokens depuis votre propre compte Google. L’utilisateur final utilise son compte Puter, avec son propre solde et ses propres limites.

Ai-je besoin d’un compte Google ou d’un projet Google Cloud ?

Non. Puter gère l’appel en amont. Vous n’avez pas besoin de créer ni d’exposer une clé API Google.

Puis-je utiliser Puter.js en production ?

Oui, pour des applications basées sur le navigateur. La vraie question produit est : vos utilisateurs acceptent-ils de se connecter à Puter ?

Gemini via Puter fonctionne-t-il exactement comme l’API officielle ?

Le modèle appelé reste Gemini, mais l’intégration n’est pas identique à l’API officielle. Puter ajoute une couche d’abstraction et un passage via la session utilisateur. Pour des besoins avancés, vérifiez la documentation Puter la plus récente.

Qu’en est-il de la fenêtre de contexte de 2M de tokens ?

Puter n’expose pas nécessairement le plafond complet de 2M sur toutes les variantes. Pour des workloads à contexte extrêmement long, l’API officielle Google AI Studio est plus adaptée.

Puis-je utiliser Puter dans un bot Discord ou un service backend ?

Pas proprement. Puter.js est conçu d’abord pour le navigateur et une session utilisateur. Pour un bot, un worker ou un service backend, utilisez plutôt l’API officielle Gemini.

Quel modèle utiliser par défaut ?

Commencez avec :

google/gemini-2.5-flash

Passez ensuite à :

google/gemini-2.5-pro

pour les tâches de raisonnement difficiles, ou à :

google/gemini-2.5-flash-lite

pour de la classification simple à volume élevé.

La génération d’images avec Imagen est-elle prise en charge ?

Dans le contexte décrit ici, Puter expose la génération d’images via gpt-image-2 d’OpenAI et des variantes DALL-E, pas Imagen. Voir Obtenez l'API GPT-5.5 illimitée gratuite pour ce chemin.

En résumé

Pour une application navigateur, Puter.js est une façon rapide d’ajouter Gemini sans clé API Google, sans backend et sans exposition directe à la facturation. Ajoutez le script, choisissez google/gemini-2.5-flash, envoyez votre prompt et affichez la réponse.

Pour un usage serveur, du fine-tuning, des outils avancés ou un contexte très long, l’API officielle Gemini reste le meilleur choix.

Construisez votre prototype avec Puter, comparez-le à l’API officielle dans Apidog, puis choisissez l’architecture qui correspond à votre produit.

DEV Community