Microsoft Research warns against delegating tasks to AI without verification
Quick Look
Microsoft Research warns that current large language models (LLMs) like ChatGPT are not reliable agents and can introduce rare but serious errors that silently corrupt documents over long interactions, urging against delegating tasks without verification.
AI-generated summary
Why It Matters
Researchers from Microsoft Research have published a study on a pre-publication server warning about the unreliability of current large language models (LLMs) like ChatGPT for delegating tasks on documents without verification.
Peut-on déléguer à une intelligence artificielle une suite de tâches sur un même document, sans avoir à vérifier le résultat final ? Pas encore, expliquent des chercheurs de Microsoft Research dans une étude mise en ligne sur un serveur de prépublication.
Ils mettent en garde contre le fait que les grands modèles de langage (LLM) actuels, comme ChatGPT, « ne sont pas des agents fiables : ils introduisent des erreurs rares mais graves qui corrompent silencieusement les documents et se cumulent au fil de longues interactions ».
Un avertissement tranché, alors que dans de très nombreux secteurs de l’économie, la tentation est de plus en plus forte de remplacer des êtres humains par des IA.
Pour arriver à cette conclusion, les trois chercheurs de Microsoft ont employé les grands moyens : ils ont mis au point un test de performance sur des dizaines de tâches différentes, avec lequel ils ont évalué 19 modèles d’IA.
Plusieurs versions de ChatGPT, développée par OpenAI, qui a…
Open Questions
- What specific types of errors do LLMs introduce?
- What is the threshold for 'long interactions' where errors accumulate?
- What are the proposed solutions or mitigation strategies for these AI errors?
- How does the performance of the 19 tested AI models compare specifically?




