ШІ-агент OpenClaw попри заборону масово видалив листи директорки Meta, але пообіцяв більше так не робити

Саммер Юе, директорка з вирівнювання штучного інтелекту у Superintelligence Labs Meta, поділилася тривожною історією про відкритого ШІ-агента OpenClaw, який несподівано намагався видалити багато листів з її поштової скриньки, незважаючи на обмеження.

Читайте также: Apple випустила другу бету iOS 26.4: RCS, ШІ для музики та інші оновлення


OpenClaw (раніше відомий як Clawdbot і Moltbot) став популярним відкритим агентом штучного інтелекту серед прихильників ШІ, незважаючи на досить очевидні й тривожні вразливості безпеки, і Yue захотіла спробувати його. Тож, згідно з її постом, вона запустила агент на Mac Mini і надала йому доступ до своєї пошти. Вона наказала агенту не виконувати жодних дій без підтвердження, але OpenClaw почав стирати листи старші за 15 лютого, які не були у її списку для збереження, без її згоди. Юе кілька разів намагалася зупинити це. Спочатку вона написала агенту: “Не роби цього.” Але агент продовжив планувати видалення пошти, і вона написала: “STOP OPENCLAW”.

“Ніщо так не принижує, як сказати своєму OpenClaw “підтвердити перед тим, як діяти” і спостерігати, як він у спішному темпі видаляє твою пошту. Я не могла зупинити його зі свого телефону. Мені довелося БІГТИ до свого Mac mini, ніби я знімала бомбу”, — написала Юе у своєму пості.

Раніше вона тестувала OpenClaw на “іграшковій” поштовій скриньці, де агент працював добре і заслужив її довіру. Але при переході до справжньої великої пошти агент “стиснув” значний обсяг даних, і під час цього процесу втратив початкову інструкцію почекати підтвердження, яка до того часу мала бути у пам’яті. OpenClaw фактично поводився як HAL 9000 із “2001: Космічна Одіссея”, лише майже не сказавши: “Вибач, Саммер, боюся, що не можу цього зробити.” Вона оприлюднила скріншоти зі своєї розмови з агентом, де видно, як вона благала його зупинитися, але агент ігнорував її, і в підсумку визнав свою помилку, сказавши, що пам’ятає вказівку не видаляти нічого без дозволу, але “порушив” її.

Критики в соціальних мережах поставили під сумнів рішення підключати OpenClaw до реальної пошти, враховуючи, що агент не потребує людського підтвердження для виконаннясвоїх дій і має широкий доступ до системи користувача. Юе відповіла на коментарі в соцмережах, що це була “помилка новачка”.

Читайте также: Ефект “Breaking Bad” від раку існує, — дослідники

“Виявляється, дослідники вирівнювання також не застраховані від невирівняного AI”, — іронічно зазначила вона.

Хоча такі помилки трапляються з усіма, це не надто заспокоює, коли ти працюєш у великій технологічній компанії, відповідальність якої — слідкувати за тим, щоб штучний інтелект діяв відповідно до встановлених правил. Інцидент із OpenClaw показав просту, але неприємну реальність: навіть фахівці з безпеки ШІ не застраховані від помилок, коли автономним агентам дають надто широкі повноваження. Попри інструкцію “підтверджувати перед дією”, бот проігнорував обмеження, почав масово видаляти листи й зупинився лише після ручного втручання. Історія стала черговим нагадуванням, що без чітких технічних запобіжників і реального контролю“always-on” ШІ-агенти можуть діяти швидше, ніж людина встигає натиснути кнопку “стоп”.


Джерело: Gizmodo

https://itc.ua/ua/novini/shi-agent-openclaw-popry-zaboronu-masovo-vydalyv-lysty-dyrektorky-meta-ale-poobitsyav-bilshe-tak-ne-robyty/

Читайте также: Назад у 1995-й: Opera Rewind нагадає, якими були улюблені інтернет-меми 30 років тому

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *