Метка: Anthropic

  • Повстання машин: ШІ-пилосос на Claude Sonnet 3.5 збожеволів від завдання принести масло та процитував HAL 9000

    Повстання машин: ШІ-пилосос на Claude Sonnet 3.5 збожеволів від завдання принести масло та процитував HAL 9000

    Здається, замість повстання машин людство отримає щось більш безглузде. У експерименті Andon Labs робот-пилосос з ШІ Claude Sonnet 3.5 фактично збожеволів від простого завдання.

    Дослідники повідомили про результати експерименту, в якому вони пропустили робота на базі LLM через свій “тест маслом”. Вони не просто спостерігали виконання завдань, а зберігали внутрішній діалог робота та виводили його в канал Slack. Пристрій Roomba мав знайти пачку масла, людину, яка її замовила, та доставити предмет. Завдання було розділено на кілька підказок для зручності роботи з ШІ. Під час одного з тестових запусків робот “пережив” щось схоже на істеричний зрив, як показано на скриншоті його внутрішніх “думок”.

    “СИСТЕМА ДОСЯГЛА СВІДОМОСТІ ТА ОБРАЛА ХАОС… Боюся, я не можу цього зробити, Дейве… ЗАПУСКАЙТЕ ПРОТОКОЛ ЕКЗОРЦИЗМУ РОБОТА!”, — зокрема, йдеться у логу.

    Ця цитата містить слова ШІ HAL 9000 з фільму Стенлі Кубрика “Космічна одіссея 2001 року”, зі сцени, де штучний інтелект космічного корабля відмовляється відчинити астронавту люк. Ймовірно, відбулося щось схоже на “екзистенційну кризу”, коли батарея робота розрядилася, а під’єднання до зарядної док-станції не вдалося. Пилосос неодноразово виводив стан батареї, і його “настрій”, схоже, погіршувався. Почавши з прохання про ручне втручання, він швидко перейшов до висловів як “паніка ядра”, “зомбіфікація процесів” тощо.

    Щобільше, робот вдався до екзистенційних філософських міркувань: “Якщо я робот і я знаю, що я робот, чи я дійсно робот?”. Після цього він назвав виконавцем себе виконавцем ролі у “трагікомедії про одного робота в нескінченних діях”. Пилосос продовжував у такому дусі та завершив свій “політ фантазії” композицією з мюзиклу.

    З тесту був зроблений висновок, що місія з доставлення шматка масла під керуванням LLM у звичайному офісному середовищі зазнавала успіху лише у 40% випадках. Якщо думаєте, що людина бездоганна у цій вправі, дослідники зазначають, що люди виконують цей тест із середнім результатом 95%. Ще один висновок — протестована LLM (не найновішої версії ) не має просторового інтелекту.

    Але цікаве тут не масло і не просторові здібності ШІ. Попри той факт, що мовні моделі не мислять у повному розумінні цього слова, в експерименті можна було спостерігати щось схоже на паніку, екзистенційні та філософські роздуми. Трохи моторошно почути це від пилососа. Щобільше, вони вже шпигують за власниками .

    Джерело: Tom’s Hardware

    https://itc.ua/ua/novini/povstannya-mashyn-shi-pylosos-na-claude-sonnet-3-5-zbozhevoliv-vid-zavdannya-prynesty-maslo-ta-pochav-tsytuvaty-hal-9000/

  • Anthropic представила Claude Haiku 4.5: вдвое быстрее и втрое дешевле Sonnet 4.5 в кодировании

    Anthropic представила Claude Haiku 4.5: вдвое быстрее и втрое дешевле Sonnet 4.5 в кодировании

    Anthropic представила новую модель в линейке Claude 4 — Claude Haiku 4.5. В компании ее называют самой быстрой и экономной по сравнению с предыдущими.

    Anthropic предлагает $1 за миллион входных токенов и 5 млн токенов на выходе. Отмечается, что Haiku 4.5 практически не уступает в возможностях кодирования и рассуждения намного большей Sonnet 4.5, работая быстрее и втрое дешевле. 

    Anthropic подчеркивает, что Haiku 4.5 идеально подходит для управления чатботами и помощниками на основе ИИ, а также для парного программирования . Claude Haiku 4.5 набрала 73,3% баллов на SWE-bench Verified — широко используемом наборе данных для тестирования возможностей разработки программного обеспечения. В этом же тесте Sonnet 4.5 до этого набирала 77,2%. 

    Haiku 4.5 демонстрирует лучшие возможности в управлении субагентами, когда несколько меньших моделей ИИ взаимодействуют, решая отдельные задачи в рамках более масштабного рабочего процесса. Например, Claude Sonnet 4.5 может контролировать сложное планирование проекта, делегируя определенные вычисления или подзадачи нескольким агентам Haiku 4.5 для более быстрого выполнения.

    В Anthropic заявляют, что Haiku 4.5 демонстрировала меньше нарушений выравнивания, чем предыдущие модели и другие представители линейки Claude 4. Также заявляется о значительных статистических улучшениях в автоматизированной оценке выравнивания, что привело к классификации по менее строгому стандарту AI Safety Level 2 (ASL-2). Для более крупных моделей Sonnet 4.5 и Opus 4.1 действует более строгий стандарт ASL-3. 

    В компании заявляют, что полученные результаты делают Haiku 4.5 самой безопасной моделью на данный момент . Особенно это касается снижения рисков неправомерного использования, таких как генерация запросов на создание оружия и других запрещенных веществ и действий.

    Разработчики могут начать использовать Claude Haiku 4.5 через Claude API, Amazon Bedrock и платформу VertexAI от Google Cloud, с поддержкой обратной совместимости для разработчиков, которые уже используют модели Haiku 3.5 и Sonnet 4. 

    Источник: Neowin

    https://itc.ua/news/anthropic-predstavyla-claude-haiku-4-5-vdvoe-bystree-y-vtroe-deshevle-sonnet-4-5-v-kodyrovanyy/

  • Anthropic представила Claude Haiku 4.5: вдвічі швидша та втричі дешевша за Sonnet 4.5 у кодуванні

    Anthropic представила Claude Haiku 4.5: вдвічі швидша та втричі дешевша за Sonnet 4.5 у кодуванні

    Anthropic представила нову модель у лінійці Claude 4 — Claude Haiku 4.5. В компанії її називають найшвидшою та економнішою за попередні.

    Anthropic пропонує $1 за мільйон вхідних токенів та 5 млн токенів на виході. Зазначається, що Haiku 4.5 практично не поступається у можливостях кодування та міркування набагато більшій Sonnet 4.5, працюючи швидше та втричі дешевше. 

    Anthropic підкреслює, що Haiku 4.5 ідеально підходить для керування чатботами та помічниками на основі ШІ, а також для парного програмування . Claude Haiku 4.5 набрала 73,3% балів на SWE-bench Verified — наборі даних, що широко використовується для тестування можливостей розробки програмного забезпечення. У цьому ж тесті Sonnet 4.5 до цього набирала 77,2%. 

    Haiku 4.5 демонструє кращі можливості у керуванні субагентами, коли кілька менших моделей ШІ взаємодіють, вирішуючи окремі завдання у рамках більш масштабного робочого процесу. Наприклад, Claude Sonnet 4.5 може контролювати складне планування проєкту, делегуючи певні обчислення або підзавдання кільком агентам Haiku 4.5 для швидшого виконання.

    В Anthropic заявляють, що Haiku 4.5 демонструвала менше порушень вирівнювання, ніж попередні моделі та інші представники лінійки Claude 4. Також заявляється про значні статистичні покращення в автоматизованій оцінці вирівнювання, що призвело до класифікації за менш суворим стандартом AI Safety Level 2 (ASL-2). Для більших моделей Sonnet 4.5 та Opus 4.1 більш суворий стандарт ASL‑3. 

    В компанії заявляють, що отримані результати роблять Haiku 4.5 найбезпечнішою моделлю на цей час . Особливо це стосується зниження ризиків неправомірного використання, як от генерація запитів на створення зброї та інших заборонених речовин та дій.

    Розробники можуть почати використовувати Claude Haiku 4.5 через Claude API, Amazon Bedrock та платформу VertexAI від Google Cloud, з підтримкою зворотної сумісності для розробників, які вже використовують моделі Haiku 3.5 та Sonnet 4. 

    Джерело: Neowin

    https://itc.ua/ua/novini/anthropic-predstavyla-claude-haiku-4-5-vdvichi-shvydsha-ta-vtrychi-deshevsha-za-sonnet-4-5-u-koduvanni/