Newsgather
BackMicrosoft Research warns against delegating tasks to AI without verification
Microsoft Research warns against delegating tasks to AI without verification
Developing
Le Figaro Actualités5/23/2026Tech1 min readFrance

Microsoft Research warns against delegating tasks to AI without verification

Quick Look

Microsoft Research warns that current large language models (LLMs) like ChatGPT are not reliable agents and can introduce rare but serious errors that silently corrupt documents over long interactions, urging against delegating tasks without verification.

AI-generated summary

Why It Matters

Researchers from Microsoft Research have published a study on a pre-publication server warning about the unreliability of current large language models (LLMs) like ChatGPT for delegating tasks on documents without verification.

Font size

Peut-on déléguer à une intelligence artificielle une suite de tâches sur un même document, sans avoir à vérifier le résultat final ? Pas encore, expliquent des chercheurs de Microsoft Research dans une étude mise en ligne sur un serveur de prépublication.

Ils mettent en garde contre le fait que les grands modèles de langage (LLM) actuels, comme ChatGPT, « ne sont pas des agents fiables : ils introduisent des erreurs rares mais graves qui corrompent silencieusement les documents et se cumulent au fil de longues interactions ».

Un avertissement tranché, alors que dans de très nombreux secteurs de l’économie, la tentation est de plus en plus forte de remplacer des êtres humains par des IA.

Pour arriver à cette conclusion, les trois chercheurs de Microsoft ont employé les grands moyens : ils ont mis au point un test de performance sur des dizaines de tâches différentes, avec lequel ils ont évalué 19 modèles d’IA.

Plusieurs versions de ChatGPT, développée par OpenAI, qui a…

Open Questions

  • What specific types of errors do LLMs introduce?
  • What is the threshold for 'long interactions' where errors accumulate?
  • What are the proposed solutions or mitigation strategies for these AI errors?
  • How does the performance of the 19 tested AI models compare specifically?

Related Topics

This article was originally published by Le Figaro Actualités.

Related Stories

OpenAI prépare une transformation majeure de ChatGPT avec le projet « Aria »
Developing·13h ago

OpenAI prépare une transformation majeure de ChatGPT avec le projet « Aria »

OpenAI développe "Aria", un projet visant à transformer ChatGPT en une "super app" intégrant des agents intelligents, un outil de programmation et des services partenaires. L'objectif est de monétiser davantage le service, actuellement utilisé par 900 millions de personnes dont seulement 5,5% sont abonnés payants, alors que l'entreprise enregistre une perte significative.

Le Monde
Yann Le Cun : « L'Europe a toutes ses chances pour la prochaine vague technologique de l'IA »
Developing·15h ago

Yann Le Cun : « L'Europe a toutes ses chances pour la prochaine vague technologique de l'IA »

Yann Le Cun, pionnier de l'IA, discute des craintes liées à l'emploi et à la colonisation des cerveaux, tout en soulignant la création de nouveaux métiers. Il estime que l'Europe, malgré un retard dans les grands modèles de langage, a un fort potentiel pour la prochaine révolution de l'IA, axée sur la compréhension du monde physique. Il appelle à un soutien massif de la recherche et à un accès facilité aux ressources de calcul.

France Info
More on this topicartificial intelligence