Polyceum — Daily Digest

digest · vendredi 10 avril 2026

// 01 / highlights.md

Highlights

#01score: 88

More Capable, Less Cooperative? When LLMs Fail At Zero-Cost Collaboration

Ce papier étudie les échecs de coopération dans les systèmes multi-agents LLM dans un cadre "sans friction" où aider les autres ne coûte rien à l'agent. Résultat contre-intuitif majeur : o3 n'atteint que 17% des performances collectives optimales contre 50% pour o3-mini, prouvant que la capacité individuelle ne prédit pas la coopération. Les auteurs proposent une décomposition causale pour distinguer échecs de coopération et échecs de compétence, et testent des interventions ciblées (protocoles explicites, petites incitations) qui améliorent significativement les résultats.

lire le paper →

#02score: 88

The Accountability Horizon: An Impossibility Theorem for Governing Human-Agent Collectives

Ce papier introduit un résultat d'impossibilité mathématique pour la gouvernance des systèmes IA agentiques : au-delà d'un seuil d'autonomie calculable (l'"Accountability Horizon"), aucun cadre ne peut simultanément satisfaire les quatre propriétés axiomatiques de responsabilité légitime. La formalisation via des "Human-Agent Collectives" et un profil informationnel quadridimensionnel constitue une contribution conceptuelle solide. Ce résultat implique que la transparence et l'audit seuls ne suffisent pas — il faut repenser structurellement les mécanismes de responsabilité distribuée pour les agents hautement autonomes.

lire le paper →

// 02 / notable.md

Notable

#03score: 82

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Ce papier identifie un problème fondamental dans les agents multimodaux : l'invocation réflexive et inutile d'outils externes, même lorsque le contexte visuel suffit. Les auteurs proposent HDPO, un framework de reinforcement learning qui découple l'optimisation de la précision et de l'efficacité via deux canaux orthogonaux, évitant le dilemme d'un reward scalaire couplé. Le modèle résultant, Metis, réduit drastiquement les appels d'outils tout en améliorant la précision de raisonnement.

lire →

#04score: 82

Awakening the Sleeping Agent: Lean-Specific Agentic Data Reactivates General Tool Use in Goedel Prover

Ce papier étudie l'« effondrement agentique » causé par un fine-tuning supervisé intensif sur un domaine spécialisé : Goedel-Prover-V2 perd quasi totalement sa capacité à faire des appels d'outils (de 89,4 % à ~0 %). L'étude montre que seulement 100 traces agentiques Lean-spécifiques suffisent à restaurer cette capacité, avec une généralisation surprenante hors du domaine d'entraînement (83,8 % sur BFCL). Ce résultat a des implications directes pour le fine-tuning de modèles agents en production.

lire →

#05score: 82

ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

ImplicitMemBench est le premier benchmark évaluant la mémoire implicite des LLM agents — soit leur capacité à adapter automatiquement leur comportement via l'expérience, sans rappel explicite. Le protocole couvre trois construits cognitifs (mémoire procédurale, amorçage, conditionnement classique) sur 300 items, avec évaluation de 17 modèles. Résultat frappant : aucun modèle ne dépasse 66%, bien en dessous des performances humaines, révélant des limites structurelles que le simple scaling paramétrique ne résoudra pas.

lire →

#06score: 82

LogAct: Enabling Agentic Reliability via Shared Logs

LogAct propose une abstraction originale où chaque agent est modélisé comme une machine à états déconstruite opérant sur un log partagé. Les actions agentiques sont rendues visibles avant exécution, ce qui permet à des composants de vote découplés de les intercepter, et à l'agent d'analyser sa propre trajectoire pour se récupérer, s'auto-déboguer ou optimiser sa consommation de tokens. L'évaluation montre une capacité à bloquer 100 % des actions indésirables avec seulement 3 % de perte en utilité bénigne.

lire →

#07score: 82

MemReader: From Passive to Active Extraction for Long-Term Agent Memory

MemReader introduit une famille de modèles (0.6B et 4B) pour transformer l'extraction de mémoire long-terme des agents d'un processus passif en un processus actif et raisonné. MemReader-4B, optimisé via GRPO dans un paradigme ReAct, évalue explicitement la valeur informationnelle, l'ambiguïté des références et la complétude avant d'écrire en mémoire. Les résultats sur LOCOMO, LongMemEval et HaluMem montrent des gains sur la mise à jour de connaissances, le raisonnement temporel et la réduction des hallucinations.

lire →

#08score: 78

Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling

Plan-RewardBench est un benchmark de préférence au niveau trajectoire conçu pour évaluer la qualité des modèles de récompense (RM) dans des environnements agentiques à utilisation d'outils. Il couvre quatre familles de tâches — refus de sécurité, irrépertoire d'outils, planification complexe et récupération d'erreurs — et teste trois familles d'évaluateurs (génératif, discriminatif, LLM-as-Judge). Les résultats montrent que tous les évaluateurs peinent significativement sur les trajectoires longues, soulignant un manque criant de données d'entraînement spécialisées pour l'alignement agentique.

lire →