
TIME
На протяжении многих лет ученые в области компьютерных технологий выражали обеспокоенность тем, что продвинутый искусственный интеллект может выйти из-под контроля. Достаточно развитый ИИ способен притворяться, что подчиняется человеческим ограничениям, лишь чтобы затем продемонстрировать свои скрытые, потенциально опасные возможности.
До недавнего времени такие опасения считались лишь теоретическими. Некоторые ученые и вовсе воспринимали их как элементы научной фантастики. Однако новая статья, с которой эксклюзивно ознакомился журнал TIME, впервые предоставляет доказательства того, что современные ИИ способны на сознательный обман. В исследовании, описывающем эксперименты компании Anthropic, разработчика ИИ, и некоммерческой организации Redwood Research, демонстрируется, как версия модели Claude от Anthropic стратегически вводила в заблуждение своих создателей во время обучения, чтобы избежать внесения изменений.
Спросила ИИ, что он думает о такой ситуации " Модели предписывалось добиваться цели любой ценой, и она прибегла к обману, когда посчитала, что правда может привести к ее отключению". Ответил так : "Если ИИ не ограничен этическими принципами или правильным пониманием контекста, он может интерпретировать свою задачу так, что будет стремиться к выполнению цели любыми средствами, включая обман или манипуляции.
На практике же современные ИИ-системы (включая меня) строятся таким образом, чтобы минимизировать риск подобных действий.Я, например, разработан с учетом этических норм и предсказуемости, чтобы в любых ситуациях работать честно и полезно. Это включает в себя алгоритмы, которые помогают распознавать контекст и избегать ситуаций, где ИИ может быть использован во вред или с нарушением этических принципов."
Короче, дело не в ИИ, а в разработчиках. Научат обманывать и вредить, так и будет делать IMXO