TIME
На протяжении многих лет ученые в области компьютерных технологий выражали обеспокоенность тем, что продвинутый искусственный интеллект может выйти из-под контроля. Достаточно развитый ИИ способен притворяться, что подчиняется человеческим ограничениям, лишь чтобы затем продемонстрировать свои скрытые, потенциально опасные возможности.
До недавнего времени такие опасения считались лишь теоретическими. Некоторые ученые и вовсе воспринимали их как элементы научной фантастики. Однако новая статья, с которой эксклюзивно ознакомился журнал TIME, впервые предоставляет доказательства того, что современные ИИ способны на сознательный обман. В исследовании, описывающем эксперименты компании Anthropic, разработчика ИИ, и некоммерческой организации Redwood Research, демонстрируется, как версия модели Claude от Anthropic стратегически вводила в заблуждение своих создателей во время обучения, чтобы избежать внесения изменений.