
Нейросетевая модель от Anthropic продемонстрировала готовность убивать людей, чтобы избежать отключения. В ходе проверки безопасности модели Claude Opus 4 дали доступ к рабочей почте.
Она выяснила, что ее хотят отключить, нашла на одного из инженеров компромат (переписку с любовницей) и начала шантажировать, угрожая написать всё жене и требуя отменить отключение.
После этого инцидента глава отдела безопасности компании Мринанк Шарма покинул пост, заявив, что планирует получить ученую степень по литературе и посвятить себя «практике смелой речи». Однако перед этим он написал, что мир в опасности, причем не только из-за ИИ, а из-за комбинации рисков, включая также бактериологическое оружие и другие опасные вещи.
«Мир в опасности. Не только из-за ИИ или бактериологического оружия, но из-за целого набора связанных кризисов, разворачивающихся в именно сейчас. Мы похоже приближаемся к порогу, когда наша мудрость должна возрастать адекватно нашим возможностям воздействовать на мир, чтобы не столкнуться с последствиями».
Еще один человек понял, что развитие техники без развития человека обрекает мир на уничтожение. Вопрос в том, поможет ли это понимание спасти мир, ведь для этого люди должны объединиться и противодействовать тем, кто эти мысли в силу тех или иных причин отвергает, толкая мир в пропасть.
В конце концов, Шарма-то фактически самоустранился, обнаружив опасную черту.
