Un chercheur a mis au point « BullshitBench », une plateforme d'évaluation inédite conçue pour tester la résistance des modèles d'intelligence artificielle face aux incohérences sémantiques et au langage absurde. Les résultats mettent en lumière les limites structurelles de modèles de pointe, tels que Gemini 2.5 Flash ou Ernie 4.5, qui peinent souvent à distinguer le sens logique du pur non-sens probabiliste. En confrontant les IA à des énoncés volontairement vides de sens mais syntaxiquement corrects, ce benchmark démontre que la maîtrise du langage ne garantit pas une compréhension réelle du monde. Cette étude souligne l'importance de renforcer les capacités de raisonnement symbolique des LLM pour éviter la génération massive de contenus trompeurs ou illogiques.
Sources : L'Usine Digitale, Bullshit Benchmark (GitHub).