The New York Times

Если вам нужен новый повод для беспокойства об искусственном интеллекте, вот он: некоторые из самых умных людей в мире изо всех сил пытаются создать тесты, которые системы ИИ не смогли бы пройти.

На протяжении многих лет ИИ оценивали с помощью различных стандартизированных тестов. Большинство из них включали сложные задачи уровня экзаменов SAT в таких областях, как математика, наука и логика. Сравнение результатов моделей служило примерной мерой прогресса ИИ.

Но со временем системы ИИ стали настолько успешны в этих тестах, что потребовалось разработать новые, более сложные задачи — зачастую те, которые могли бы встретиться аспирантам на экзаменах.

Однако и эти тесты оказались ненадежными. Новые модели, разработанные такими компаниями, как OpenAI, Google и Anthropic, набирают высокие баллы на многих экзаменах уровня PhD, что снижает их эффективность и порождает тревожный вопрос: не стали ли системы ИИ слишком умными, чтобы мы могли адекватно оценивать результаты их работы?