Piloter un navigateur avec un LLM via des modèles d'utilisation informatique coûte environ 45 fois plus cher que d'appeler le même fournisseur via une API structurée. Oui.
Ce guide explique d'où vient ce ratio de 45x, quand l'utilisation informatique reste pertinente, et comment concevoir un chemin API rapide, testable et économique avec Apidog. Le raisonnement s'applique à OpenAI Operator, à l'utilisation informatique d'Anthropic, aux agents navigateur, à Skyvern et aux prochains outils basés sur une boucle de captures d'écran.
Si vous écrivez des API pour des agents IA, lisez aussi le guide complémentaire sur comment écrire des fichiers agents.md. Les conventions qui y sont décrites rendent le chemin API structuré plus évident pour les appelants.
En bref
- Utilisation informatique : le LLM analyse des captures d'écran, puis émet des clics, frappes clavier et défilements.
- API structurée : le LLM émet des appels d'outils JSON, puis votre backend les exécute.
- Pour une même tâche, l'utilisation informatique consomme souvent 30 à 50 fois plus de tokens, car chaque étape ajoute une nouvelle capture d'écran et parfois des tentatives.
- Utilisez l'utilisation informatique uniquement si aucune API n'existe, si l'API est inaccessible, limitée, ou si le flux repose sur une authentification difficile à automatiser.
- Utilisez une API structurée pour les paiements, recherches, mises à jour CRM, outils internes et tout ce que vous pouvez documenter avec OpenAPI.
- En production, le modèle réaliste est hybride : les API structurées gèrent les 90 % prévisibles, l'utilisation informatique couvre la longue traîne.
Pourquoi l'écart de coût est si important
Le ratio 45x vient de la façon dont chaque approche consomme les tokens.
Un appel d'API structurée envoie :
- la demande utilisateur ;
- un schéma d'outil ;
- une réponse JSON courte ;
- un appel réseau côté backend.
Cela représente souvent quelques centaines de tokens en entrée, quelques dizaines en sortie, puis un appel HTTP classique.
Une boucle d'utilisation informatique fonctionne autrement :
- envoyer la demande utilisateur ;
- envoyer une capture d'écran ;
- recevoir une action, par exemple un clic ;
- exécuter l'action ;
- reprendre une capture d'écran ;
- répéter.
Une tâche comme « réserver un vol » ou « filtrer des paiements échoués dans un dashboard » peut nécessiter 12 à 30 tours. Chaque capture d'écran peut représenter environ 1 500 tokens à une résolution typique. Ajoutez les mauvais clics, les bannières de cookies, les défilements inutiles et les tentatives : le coût explose.
La documentation d'Anthropic sur l'utilisation informatique détaille ce coût lié aux captures d'écran. Le fil Hacker News Computer use is 45x more expensive than structured APIs estime une pénalité typique entre 30x et 50x, ce qui correspond aux écarts observés lorsque la même tâche est rejouée via les deux chemins dans Apidog.
Quand choisir une API structurée
Privilégiez une API structurée dès qu'une de ces conditions est vraie.
1. Le fournisseur expose une spécification
Si le fournisseur publie une spécification OpenAPI, un schéma GraphQL, une documentation REST ou même une simple forme JSON, le LLM peut générer un appel d'outil.
Exemples :
- créer un client Stripe ;
- mettre à jour une transaction HubSpot ;
- publier un message Slack ;
- déclencher une exécution CI ;
- rechercher une facture ;
- synchroniser un statut CRM.
2. La tâche tient en un ou deux points de terminaison
Si le workflow se résume à un POST, un PATCH ou un GET, ne le faites pas passer par un navigateur.
Utiliser un navigateur pour cliquer sur une interface web alors qu'un point de terminaison existe revient à automatiser l'interface la plus lente et la plus fragile du système.
3. Le workflow doit tourner sans supervision
Les tâches cron, webhooks et workers de file d'attente doivent être déterministes. Une boucle de captures d'écran peut :
- cliquer au mauvais endroit ;
- rater un bouton ;
- se bloquer sur une modale ;
- défiler dans la mauvaise direction ;
- changer de comportement si l'UI est modifiée.
Un appel HTTP typé est plus simple à surveiller, retenter et journaliser.
4. La latence compte
Un appel structuré peut répondre en 200 à 800 ms.
Une boucle d'utilisation informatique de 15 tours prend facilement 30 à 90 secondes. Si l'utilisateur attend devant l'interface, utilisez presque toujours l'API.
5. Vous devez tester avant de déployer
Dans Apidog, vous pouvez définir un point de terminaison JSON, générer une spécification OpenAPI et activer un serveur de maquette en quelques minutes.
Tester une boucle navigateur complète avec captures d'écran, états UI et erreurs visuelles est beaucoup plus coûteux.
Quand l'utilisation informatique reste utile
L'utilisation informatique n'est pas inutile. Elle est simplement chère et doit rester un recours ciblé.
Portails fournisseurs hérités
Certains portails d'approvisionnement, de fret ou d'avantages sociaux n'ont pas d'API. Ils reposent sur des sessions ASP.NET, des formulaires anciens et aucune interface machine.
Dans ce cas, l'utilisation informatique peut remplacer un script Selenium fragile qui casse tous les trimestres. Payer 45x plus de tokens peut être acceptable si l'alternative est une maintenance permanente.
Outils internes impossibles à modifier
Exemples :
- CRM acheté en 2014 ;
- ERP hérité ;
- tableau de bord SharePoint ;
- portail interne sans équipe disponible pour créer une API.
Si vous ne pouvez pas livrer d'intégration et que l'équipe ne veut pas financer un iPaaS, la boucle de captures d'écran devient une option réelle.
Tâches ponctuelles
Un fondateur qui demande à un agent : « recherche ces 50 concurrents et mets les points clés dans Notion » n'a pas forcément besoin d'un contrat API stable.
Pour une exécution unique ou très rare, l'utilisation informatique peut être suffisante.
Rétro-ingénierie protégée par les CGU
À éviter. Beaucoup de demandes du type « scrape ce site avec l'utilisation informatique » enfreignent les conditions du fournisseur. Dans ce cas, le coût des tokens n'est pas le problème principal.
Cadre de décision simple
Avant de recourir à l'utilisation informatique, passez la tâche dans cette grille.
| Vérification | Si oui | Si non |
|---|---|---|
| Une API documentée existe-t-elle ? | Utilisez l'API. | Continuez. |
| Pouvez-vous créer un adaptateur serveur léger qui encapsule un point de terminaison privé ? | Construisez l'adaptateur et exposez-le en JSON. | Continuez. |
| La tâche est-elle ponctuelle ou à faible volume, par exemple moins de 100 exécutions par jour ? | L'utilisation informatique est acceptable. | Continuez. |
| Êtes-vous prêt à payer 30 à 50x plus de tokens à chaque exécution ? | Utilisation informatique. | Arrêtez. Négociez ou construisez un accès API. |
Dans la majorité des workflows d'agents, l'utilisation informatique ne devrait survivre que si les deux premières options échouent.
Exemple : la même tâche avec une API structurée
Tâche : récupérer les paiements échoués d'hier.
Version structurée :
import json
from datetime import date, timedelta
from openai import OpenAI
import stripe
client = OpenAI()
tools = [
{
"type": "function",
"function": {
"name": "list_failed_payments",
"description": "List failed payments in a date range",
"parameters": {
"type": "object",
"properties": {
"start": {"type": "string", "format": "date"},
"end": {"type": "string", "format": "date"},
},
"required": ["start", "end"],
"additionalProperties": False,
},
},
}
]
resp = client.chat.completions.create(
model="gpt-5.5",
messages=[
{
"role": "user",
"content": "Show yesterday's failed payments.",
}
],
tools=tools,
tool_choice="auto",
)
call = resp.choices[0].message.tool_calls[0]
args = json.loads(call.function.arguments)
payments = stripe.PaymentIntent.list(
created={
"gte": args["start"],
"lte": args["end"],
},
limit=100,
)
print(payments)
Le flux est simple :
- l'utilisateur formule la demande ;
- le modèle choisit l'outil ;
- le modèle remplit
startetend; - votre backend appelle Stripe ;
- vous retournez le résultat.
L'agent ne voit jamais le dashboard.
L'équivalent en utilisation informatique doit :
- ouvrir un navigateur ;
- se connecter à Stripe ;
- capturer le dashboard ;
- cliquer sur le sélecteur de date ;
- prendre une nouvelle capture ;
- choisir une plage ;
- filtrer sur les paiements échoués ;
- défiler ;
- lire des valeurs depuis l'interface ;
- gérer les erreurs visuelles.
Chaque capture ajoute des tokens. Chaque action ajoute de la latence. Chaque changement d'UI ajoute un risque.
Concevoir le chemin structuré avec Apidog
La raison pour laquelle des équipes utilisent l'utilisation informatique n'est pas toujours l'absence d'API. C'est souvent l'absence d'interface d'outil propre pour l'agent.
Apidog sert à concevoir, documenter, simuler et tester cette interface.
Étape 1 : modéliser les opérations de l'agent
Créez un projet Apidog et définissez uniquement les opérations dont l'agent a besoin.
Exemples :
POST /invoices/searchPOST /deals/update-statusPOST /messages/sendGET /customers/{id}POST /refunds/create
Quelques points de terminaison bien conçus remplacent souvent une démonstration complète basée sur navigateur.
Étape 2 : exporter le contrat OpenAPI
Apidog génère une spécification OpenAPI 3.1 depuis la vue de conception.
Cette spécification devient le contrat entre :
- l'agent ;
- le backend ;
- les tests ;
- la documentation ;
- les mocks.
Étape 3 : brancher OpenAPI dans le framework d'agent
Les principaux frameworks et fournisseurs peuvent consommer des schémas typés :
-
toolscôté OpenAI ; -
tool_usecôté Anthropic ; - chargeurs OpenAPI côté LangChain ;
- appels d'outils dans DeepSeek V4.
L'agent obtient des appels de fonction typés au lieu d'instructions textuelles fragiles.
Étape 4 : activer le serveur de maquette
Activez le serveur de maquette d'Apidog pour renvoyer du JSON réaliste sans toucher à la production.
Cela permet de tester :
- le routage d'outils ;
- la validation JSON ;
- les erreurs métier ;
- les réponses vides ;
- les cas limites ;
- le comportement de l'agent avant intégration réelle.
Le même modèle est détaillé dans le guide de développement contract-first d'Apidog.
Étape 5 : rejouer le trafic
Apidog enregistre les requêtes et réponses pendant l'exécution.
Vous pouvez comparer :
- une exécution réussie ;
- une exécution échouée ;
- les arguments générés par l'agent ;
- le point de terminaison appelé ;
- la réponse backend ;
- l'endroit où le contrat a dérivé.
C'est le moyen le plus rapide de diagnostiquer le classique : « l'agent fonctionnait hier, il échoue aujourd'hui ».
Étape 6 : déployer et surveiller
Le même projet Apidog sert ensuite de :
- documentation publique ;
- banc de test QA ;
- référence OpenAPI ;
- serveur de maquette ;
- support de revue de contrat.
Architecture hybride : utiliser les deux chemins
En production, beaucoup d'agents deviennent hybrides.
Un comportement raisonnable :
- 90 % des opérations passent par des outils structurés ;
- 10 % se rabattent sur une boucle d'utilisation informatique ;
- un routeur décide quel chemin utiliser.
Exemple de règle système :
Si tool_name existe dans known_tools, appelle l'outil structuré.
Sinon, transfère la tâche à l'agent navigateur.
Claude 4.5, GPT-5.5 et DeepSeek V4 peuvent suivre ce type de routage. Pour la forme de requête DeepSeek, consultez comment utiliser l'API DeepSeek V4.
Surveillez les deux chemins séparément :
- appels structurés ;
- appels navigateur ;
- latence moyenne ;
- coût par exécution ;
- taux d'échec ;
- taux de fallback.
Un bon signal en production :
- les appels structurés représentent la majorité du volume ;
- l'utilisation informatique représente une petite fraction du volume ;
- l'utilisation informatique peut tout de même représenter une grande part du coût.
Si le fallback navigateur augmente, il manque probablement un point de terminaison dans votre interface d'outil.
Erreurs courantes à éviter
Oublier le schéma
Ne déployez pas un agent avec uniquement une invite système textuelle. Passez un JSON Schema strict.
Un bon schéma améliore :
- la précision des arguments ;
- la validation ;
- les retries ;
- le débogage ;
- la compatibilité entre modèles.
Laisser l'agent concevoir le schéma à l'exécution
Un schéma est une surface produit. Créez-le dans Apidog, versionnez-le et traitez les changements comme des changements d'API publique.
Les schémas auto-modifiables sont une cause fréquente de pannes en production.
Suivre les tokens sans suivre le coût réel
Les tokens d'images peuvent être comptabilisés différemment selon les outils d'observabilité. Vérifiez la console de facturation du fournisseur, pas seulement votre dashboard de traces.
Confondre utilisation informatique et RPA
La RPA exécute des clics scriptés sur des éléments connus.
L'utilisation informatique redécide où cliquer à chaque capture d'écran.
La première est reproductible et bon marché après développement. La seconde est flexible mais coûteuse. N'utilisez pas l'utilisation informatique si un script Playwright ou Puppeteer suffit.
Ignorer la latence
Le coût en tokens est visible. Le coût utilisateur l'est moins.
Une boucle de 60 secondes casse l'expérience. Si l'utilisateur attend une réponse interactive, privilégiez l'API.
Alternatives à considérer avant l'utilisation informatique
Si un fournisseur n'a pas d'API publique mais possède une interface web, trois options intermédiaires existent.
1. Scripts navigateur sans tête
Playwright ou Puppeteer ne coûtent rien par exécution après développement.
Avantage :
- rapide ;
- contrôlable ;
- testable ;
- moins cher qu'une boucle LLM visuelle.
Inconvénient :
- casse lorsque l'UI change ;
- nécessite de la maintenance.
2. Connecteurs Zapier ou Make
Si le fournisseur publie déjà un connecteur iPaaS, l'intégration existe peut-être déjà.
Vous payez la plateforme, mais vous évitez de construire et maintenir l'intégration complète.
3. API privées observées dans DevTools
Beaucoup de dashboards web appellent des points de terminaison JSON internes.
Approche :
- ouvrir DevTools ;
- inspecter l'onglet Network ;
- identifier les appels JSON ;
- documenter ces appels dans Apidog ;
- les traiter comme semi-stables.
Cette approche est utilisée dans les tests d'API sans Postman.
L'utilisation informatique doit rester le dernier recours, pas le comportement par défaut.
Cas d'utilisation réels
Une équipe conformité fintech a remplacé un rapport Stripe en 6 étapes basé sur l'utilisation informatique par trois appels structurés. Le coût des tokens a chuté de 92 % et l'exécution est passée de 41 secondes à 2.
Un agent de support SaaS B2B a conservé l'utilisation informatique pour un seul workflow : un portail d'approvisionnement fournisseur sans API. Le reste passait par des appels d'outils OpenAPI conçus dans Apidog. Les dépenses mensuelles en tokens sont passées de 4 200 $ à 310 $.
Un fondateur solo utilisait l'utilisation informatique une fois par semaine pour mettre à jour un tableau de bord Notion depuis un ERP hérité. Le surcoût 45x représentait seulement quelques centimes. L'alternative aurait été un projet d'intégration de plusieurs semaines. C'est un bon profil pour l'utilisation informatique.
Conclusion
Le ratio 45x est réel et reproductible. Il doit influencer la manière dont vous concevez les outils de vos agents.
Par défaut :
- concevez une API structurée ;
- documentez-la avec OpenAPI ;
- testez-la avec un mock ;
- connectez-la à l'agent ;
- gardez l'utilisation informatique pour les cas sans API.
Cinq points à retenir :
- L'utilisation informatique coûte souvent 30 à 50 fois plus de tokens qu'un appel API structuré équivalent.
- Un point de terminaison documenté et un JSON Schema battent une boucle de captures d'écran en coût, latence et fiabilité.
- Les architectures hybrides sont normales : concevez les 90 % dans Apidog, gardez le navigateur pour la longue traîne.
- Simulez l'interface d'outil avant de connecter un modèle réel.
- Suivez séparément les appels structurés et les fallbacks navigateur.
Étape suivante : ouvrez Apidog, créez un projet pour l'interface d'outil de votre agent et activez le serveur de maquette. En moins d'une heure, vous saurez si le workflow prévu en utilisation informatique peut être réduit à deux appels structurés.
FAQ
L'utilisation informatique est-elle parfois moins chère qu'une API structurée ?
Pas par exécution. Les tokens de capture d'écran dominent.
Elle peut être moins chère au total si le coût d'intégration dépasse des années de coûts d'exécution. Ce cas concerne surtout des workflows à très faible volume sans API disponible.
Comment simuler une interface d'outil JSON pour un agent ?
Concevez les points de terminaison dans Apidog, activez le serveur de maquette intégré, puis dirigez votre agent vers l'URL de mock.
Chaque requête renvoie un JSON réaliste sans toucher à la production. Le workflow complet est couvert dans les outils de test d'API pour les ingénieurs QA.
Puis-je utiliser OpenAPI pour les appels d'outils dans n'importe quel modèle ?
Oui. Le paramètre tools d'OpenAI, le bloc tool_use d'Anthropic et les appels d'outils de DeepSeek V4 peuvent consommer des schémas OpenAPI 3.1.
Apidog exporte le schéma proprement. Consultez comment utiliser l'API DeepSeek V4 pour la forme de requête DeepSeek.
GPT-5.5 prend-il toujours en charge l'utilisation informatique ?
OpenAI propose l'utilisation informatique via Operator et via l'API Responses. Le profil de coût reste comparable : il dépend fortement des captures d'écran et du nombre de tours.
La recommandation de cet article s'applique quel que soit le fournisseur.
Qu'en est-il de Skyvern, des agents navigateur et des autres agents open source ?
Même logique. Ils peuvent réduire le prix par appel en utilisant des modèles moins chers, mais le nombre de tours et la taille des captures d'écran restent similaires.
Lorsqu'une API existe, l'approche structurée reste largement plus efficace.
Comment savoir qu'il manque un point de terminaison pour une tâche d'agent ?
Observez les fallbacks.
Si l'agent tente souvent de transférer une tâche au navigateur, cela signifie qu'il manque probablement une opération dans votre interface d'outil.
Ajoutez le point de terminaison dans Apidog, régénérez le schéma, mettez à jour le contrat côté agent, puis mesurez si le fallback disparaît.
Top comments (0)