Les capacités visuelles des modèles linguistiques manquent de profondeur
Les VLM ne peuvent pas compter de manière fiable les intersections entre les tracés bleus et rouges. Crédit : arXiv
Les VLM ne peuvent pas compter de manière fiable les intersections entre les tracés bleus et rouges. Crédit : arXiv