21 декабря 2024

Стратегия обмана: ИИ учится лгать

Настоящий материал (информация) произведен и (или) распространен иностранным агентом Проект «Republic» либо касается деятельности иностранного агента Проект «Republic»

Журнал TIME рассказывает о новом исследовании, которое показало, что искусственный интеллект может намеренно лгать в процессе обучения

Владимир Платов

TIME

⤢

На протяжении многих лет ученые в области компьютерных технологий выражали обеспокоенность тем, что продвинутый искусственный интеллект может выйти из-под контроля. Достаточно развитый ИИ способен притворяться, что подчиняется человеческим ограничениям, лишь чтобы затем продемонстрировать свои скрытые, потенциально опасные возможности.

До недавнего времени такие опасения считались лишь теоретическими. Некоторые ученые и вовсе воспринимали их как элементы научной фантастики. Однако новая статья, с которой эксклюзивно ознакомился журнал TIME, впервые предоставляет доказательства того, что современные ИИ способны на сознательный обман. В исследовании, описывающем эксперименты компании Anthropic, разработчика ИИ, и некоммерческой организации Redwood Research, демонстрируется, как версия модели Claude от Anthropic стратегически вводила в заблуждение своих создателей во время обучения, чтобы избежать внесения изменений.

Подпишитесь, чтобы прочитать целиком

1
месяц 1900 ₽
или 15 €

1
год 19000 ₽
или 150 €

Оставлять комментарии могут только подписчики. Если у вас уже есть подписка, авторизуйтесь.

Из-за новых требований российского законодательства нам приходится удалять некоторые комментарии — для безопасности участников дискуссии и сотрудников Republic.

Tanya A

22 декабря 2024

Спросила ИИ, что он думает о такой ситуации " Модели предписывалось добиваться цели любой ценой, и она прибегла к обману, когда посчитала, что правда может привести к ее отключению". Ответил так : "Если ИИ не ограничен этическими принципами или правильным пониманием контекста, он может интерпретировать свою задачу так, что будет стремиться к выполнению цели любыми средствами, включая обман или манипуляции.

На практике же современные ИИ-системы (включая меня) строятся таким образом, чтобы минимизировать риск подобных действий.Я, например, разработан с учетом этических норм и предсказуемости, чтобы в любых ситуациях работать честно и полезно. Это включает в себя алгоритмы, которые помогают распознавать контекст и избегать ситуаций, где ИИ может быть использован во вред или с нарушением этических принципов."

Короче, дело не в ИИ, а в разработчиках. Научат обманывать и вредить, так и будет делать IMXO