Попри стрімкий розвиток штучного інтелекту, виявлено сферу, з якою нейромережі досі не справляються — це зчитування часу зі звичайних стрілочних годинників. У тесті ClockBench сучасні мовні моделі продемонстрували вкрай низьку точність, показавши результати, які суттєво відстають від людських можливостей.
ClockBench — спеціалізований бенчмарк, створений для оцінки здатності моделей штучного інтелекту розпізнавати час за аналоговими циферблатами. Тест охоплює різні типи годинників, кути нахилу, варіанти оформлення та навіть частково закриті елементи циферблата.
У дослідженні взяли участь кілька провідних мовних моделей:
Різниця в точності становить майже 10-кратне відставання ШІ від людських користувачів. Це свідчить про те, що сучасні мовні моделі мають суттєві труднощі з базовими візуальними завданнями, які не викликають проблем у людей.