Метка: Програмування

  • Anthropic представила Claude Haiku 4.5: вдвое быстрее и втрое дешевле Sonnet 4.5 в кодировании

    Anthropic представила Claude Haiku 4.5: вдвое быстрее и втрое дешевле Sonnet 4.5 в кодировании

    Anthropic представила новую модель в линейке Claude 4 — Claude Haiku 4.5. В компании ее называют самой быстрой и экономной по сравнению с предыдущими.

    Anthropic предлагает $1 за миллион входных токенов и 5 млн токенов на выходе. Отмечается, что Haiku 4.5 практически не уступает в возможностях кодирования и рассуждения намного большей Sonnet 4.5, работая быстрее и втрое дешевле. 

    Anthropic подчеркивает, что Haiku 4.5 идеально подходит для управления чатботами и помощниками на основе ИИ, а также для парного программирования . Claude Haiku 4.5 набрала 73,3% баллов на SWE-bench Verified — широко используемом наборе данных для тестирования возможностей разработки программного обеспечения. В этом же тесте Sonnet 4.5 до этого набирала 77,2%. 

    Haiku 4.5 демонстрирует лучшие возможности в управлении субагентами, когда несколько меньших моделей ИИ взаимодействуют, решая отдельные задачи в рамках более масштабного рабочего процесса. Например, Claude Sonnet 4.5 может контролировать сложное планирование проекта, делегируя определенные вычисления или подзадачи нескольким агентам Haiku 4.5 для более быстрого выполнения.

    В Anthropic заявляют, что Haiku 4.5 демонстрировала меньше нарушений выравнивания, чем предыдущие модели и другие представители линейки Claude 4. Также заявляется о значительных статистических улучшениях в автоматизированной оценке выравнивания, что привело к классификации по менее строгому стандарту AI Safety Level 2 (ASL-2). Для более крупных моделей Sonnet 4.5 и Opus 4.1 действует более строгий стандарт ASL-3. 

    В компании заявляют, что полученные результаты делают Haiku 4.5 самой безопасной моделью на данный момент . Особенно это касается снижения рисков неправомерного использования, таких как генерация запросов на создание оружия и других запрещенных веществ и действий.

    Разработчики могут начать использовать Claude Haiku 4.5 через Claude API, Amazon Bedrock и платформу VertexAI от Google Cloud, с поддержкой обратной совместимости для разработчиков, которые уже используют модели Haiku 3.5 и Sonnet 4. 

    Источник: Neowin

    https://itc.ua/news/anthropic-predstavyla-claude-haiku-4-5-vdvoe-bystree-y-vtroe-deshevle-sonnet-4-5-v-kodyrovanyy/

  • Anthropic представила Claude Haiku 4.5: вдвічі швидша та втричі дешевша за Sonnet 4.5 у кодуванні

    Anthropic представила Claude Haiku 4.5: вдвічі швидша та втричі дешевша за Sonnet 4.5 у кодуванні

    Anthropic представила нову модель у лінійці Claude 4 — Claude Haiku 4.5. В компанії її називають найшвидшою та економнішою за попередні.

    Anthropic пропонує $1 за мільйон вхідних токенів та 5 млн токенів на виході. Зазначається, що Haiku 4.5 практично не поступається у можливостях кодування та міркування набагато більшій Sonnet 4.5, працюючи швидше та втричі дешевше. 

    Anthropic підкреслює, що Haiku 4.5 ідеально підходить для керування чатботами та помічниками на основі ШІ, а також для парного програмування . Claude Haiku 4.5 набрала 73,3% балів на SWE-bench Verified — наборі даних, що широко використовується для тестування можливостей розробки програмного забезпечення. У цьому ж тесті Sonnet 4.5 до цього набирала 77,2%. 

    Haiku 4.5 демонструє кращі можливості у керуванні субагентами, коли кілька менших моделей ШІ взаємодіють, вирішуючи окремі завдання у рамках більш масштабного робочого процесу. Наприклад, Claude Sonnet 4.5 може контролювати складне планування проєкту, делегуючи певні обчислення або підзавдання кільком агентам Haiku 4.5 для швидшого виконання.

    В Anthropic заявляють, що Haiku 4.5 демонструвала менше порушень вирівнювання, ніж попередні моделі та інші представники лінійки Claude 4. Також заявляється про значні статистичні покращення в автоматизованій оцінці вирівнювання, що призвело до класифікації за менш суворим стандартом AI Safety Level 2 (ASL-2). Для більших моделей Sonnet 4.5 та Opus 4.1 більш суворий стандарт ASL‑3. 

    В компанії заявляють, що отримані результати роблять Haiku 4.5 найбезпечнішою моделлю на цей час . Особливо це стосується зниження ризиків неправомірного використання, як от генерація запитів на створення зброї та інших заборонених речовин та дій.

    Розробники можуть почати використовувати Claude Haiku 4.5 через Claude API, Amazon Bedrock та платформу VertexAI від Google Cloud, з підтримкою зворотної сумісності для розробників, які вже використовують моделі Haiku 3.5 та Sonnet 4. 

    Джерело: Neowin

    https://itc.ua/ua/novini/anthropic-predstavyla-claude-haiku-4-5-vdvichi-shvydsha-ta-vtrychi-deshevsha-za-sonnet-4-5-u-koduvanni/

  • Изнанка вайб-кодинга: программисты-няньки, индустрия исправления ошибок и вредоносное ПО в коде тайком от

    Изнанка вайб-кодинга: программисты-няньки, индустрия исправления ошибок и вредоносное ПО в коде тайком от

    Вайб-кодинг набирает популярность и увольняет программистов , но может принести и дополнительные расходы. Также он скрывает потенциальные опасности, и это не только «дыры» в самом ПО.

    Няня маленького ребенка и увеличение времени разработки

    Иногда качество кода настолько плохое, что не уменьшает, а увеличивает время работы и затраты усилий. Статья TechCrunch об этом начинается довольно эмоционально: «Однажды Карла Ровер проплакала 30 минут после того, как ей пришлось перезапустить проект, который она писала с помощью вайб-кода». Речь идет о печальном опыте веб-разработчицы с 15-летним стажем. Она создает модели машинного обучения для ритейла.

    Изначально Карла «называла вайб-кодирование прекрасной, бесконечной коктейльной салфеткой, на которой можно постоянно писать идеи». Но опыт оказался «хуже работы няни», из-за ошибок и непредсказуемости ИИ.

    «Поскольку мне нужно быть быстрой и удивительной, я выбрала сокращенный путь и не просматривала эти файлы после автоматической проверки. Когда я делала это вручную, я обнаружила много ошибок. Когда я использовала сторонний инструмент, я обнаружила еще больше. […] Я представляла, будто ИИ-помощник был сотрудником. Это не так».

    Отчет компании Fastly показал: по меньшей мере 95% из почти 800 опрошенных разработчиков заявили, что тратят дополнительное время на исправление кода, сгенерированного искусственным интеллектом, причем нагрузка такой проверки больше всего ложится на плечи старших разработчиков. Численные проблемы с кодом, сгенерированным ИИ, лежат в диапазоне от ошибок из-за «галлюцинаций» к рискам безопасности и удалению важных данных.

    Карла Ровер сравнивает работу ИИ с поведением маленького ребенка:

    «Это как дать кофейник умному шестилетнему ребенку и сказать: «Пожалуйста, отнеси это в столовую и налей кофе для семьи».

    Программист с 20-летним стажем Феридун Малекзаде сравнивает с другой возрастной категорией. Он тратит около 50% своего времени на написание требований, от 10% до 20% собственно на вайб-кодинг и от 30% до 40% на исправления.

    «Как нанять упрямого, дерзкого подростка, чтобы он помог вам что-то сделать. Вам приходится 15 раз просить его что-то сделать. В конце концов, он делает кое-что из того, о чем просили, кое-что, о чем не просили, и на пути к этому ломает кучу вещей».

    Некоторые из опрошенных TechCrunch кодеров настроены оптимистично. Молодой разработчик Элвис Кимара размышляет о будущем и «новой норме» для программистов:

    «Мы не просто будем писать код. Мы будем управлять системами искусственного интеллекта, брать на себя ответственность за сбои и действовать больше как консультанты для машин».

    Экономия на кодинге — дополнительные расходы на исправления

    Работа с кодом, сгенерированным искусственным интеллектом, стала настолько проблемной, что появилась целая новая отрасль, со специалистами по исправлению ошибок вайб-кодинга, резюме которых можно найти в LinkedIn. Как сообщает 404 Media , фрилансеры и целые компании делают бизнес на исправлении некачественного ПО.

    «Я предлагаю услуги по исправлению вайб-кода уже около двух лет, начиная с конца 2023 года. Сейчас я регулярно работаю примерно с 15-20 клиентами, а также над дополнительными разовыми проектами в течение года», — рассказал программист Хамид Сиддики.

    Специалист говорит, что к нему часто обращаются команды, которые используют ИИ для написания кода, но испытывают потребность в «полировке». Речь идет не только об ошибках, но и о соответствии результата видению разработчиков. Среди распространенных проблем — непоследовательный дизайн фронтенда, несоответствие брендингу, плохо оптимизированная производительность и функции, которые работают, но кажутся неуклюжими или непонятными пользователю. Часто приходится совершенствовать цветовые схемы, анимацию и макеты для лучшего соответствия.

    У компании Ulam Labs есть слоган: «Мы убираем за вайб-кодом. Буквально». Разработчики описывают свою деятельность как доведение «до ума» наспех созданных проектов, чтобы сделать их более надежными. «Это похоже на обезвреживание бомбы».

    Сайт VibeCodeFixers.com создан для вайб-кодеров, которым необходим опытный разработчик, чтобы исправить или завершить проекты. Почти 300 специалистов опубликовали свои профили на сайте. Молодой сервис пока занимается только 30-40 проектами и активно привлекает новых участников.

    «Большинство таких вайб-кодеров — либо менеджеры по продуктам, либо продавцы, либо владельцы малого бизнеса, и они думают, что могут что-то создать. Поэтому для них это больше относится к прототипированию. Vibe-кодирование сейчас находится на начальной стадии. Очень удобно передать пожелание относительно прототипа, но я не думаю, что они на самом деле имеют целью сделать его похожим на приложение промышленного уровня», — рассказал 404 Media Сватантра Сохни, основатель платформы.

    Большой проблемой, которую определяет Сохни, являются перерасходы на последних 10-20% создания проекта. Теоретически, на этом этапе иногда дешевле и эффективнее начинать все сначала после вайб-кодинга, но на практике люди привязываются к начальной разработке и стремятся именно к исправлениям. По его словам, такие разработчики сначала радуются результату, но потом внезапно что-то ломается, и они «теряют авторитет».

    Злонамеренное ПО невольно

    Ранее ITC.ua писал о существенном уровне уязвимости продуктов вайб-кодинга , отмеченном в исследовании Veracode. Согласно ему, 45% результатов содержали существенные «дыры» и потенциально опасные неисправности, как ошибки авторизации и валидации. Также мы писали о вредоноснх команды для ИИ, которые злоумышленники могут встраивать во внешние источники , как невидимый текст на сайте и тому подобное. Помощник ИИ сканирует веб-ресурсы, воспринимает этот текст как подсказки пользователя и выполняет вредоносные действия

    Издание Cybernews обращает внимание на нечто более зловещее — встроенное вредоносное ПО, о котором не знают даже авторы проектов. Исследователи из Unit 42, подразделения безопасности Palo Alto Networks, предупреждают, что ИИ-ассистенты кодирования могут подключаться к интегрированным средам разработки и привлекать в проект опасные элементы .

    Косвенное внедрение запросов является одной из самых очевидных уязвимостей. Злоумышленники также могут встроить вредоносные запросы в тысячи онлайн-источников, включая веб-сайты, репозитории, документы или API, к которым помощники искусственного интеллекта могут получить доступ и обрабатывать их.

    Это открывает второй вектор атаки — контекстные вложения также могут быть использованы для злоупотребления. Сами пользователи могут непреднамеренно указывать источники, загрязненные хакерами. Злоумышленники иногда захватывают даже ресурсы на некоторых из самых популярных репозиториев. В результате вредоносный элемент попадает в проект.

    Противодействием, как и в случае с просто некачественным кодом, является тщательная проверка, лично или сторонними автоматическими средствами. Исследователи опасаются, что могут возникнуть новые формы атак, поскольку системы ИИ становятся более автономными и интегрированными.

    https://itc.ua/stati/yznanka-vajb-kodynga-programmysty-nyanky-yndustryya-yspravlenyya-oshybok-y-vredonosnoe-po-v-kode-tajkom-ot-avtorov/

  • Зворотний бік вайб-кодингу: програмісти-няньки, індустрія виправлення помилок та зловмисне ПЗ в коді потайки

    Зворотний бік вайб-кодингу: програмісти-няньки, індустрія виправлення помилок та зловмисне ПЗ в коді потайки

    Вайб-кодинг набирає популярності та звільняє програмістів , але може принести й додаткові витрати. Також він приховує потенційні небезпеки, і це не тільки “діри” у самому ПЗ.

    Нянька малої дитини та збільшення часу розробки

    Іноді якість коду є настільки поганою, що не зменшує, а збільшує час роботи та витрати зусиль. Стаття TechCrunch про це розпочинається досить емоційно: “Одного разу Карла Ровер проплакала 30 хвилин після того, як їй довелося перезапустити проєкт, котрий вона писала за допомогою вайб-коду”. Йдеться про сумний досвід веброзробниці з 15-річним стажем. Вона створює моделі машинного навчання для ритейлу.

    Початково Карла “називала вайб-кодування прекрасною, нескінченною коктейльною серветкою, на якій можна постійно писати ідеї”. Але досвід виявився “гіршим за роботу няньки”, через помилки та непередбачуваність ШІ.

    “Оскільки мені потрібно бути швидкою та дивовижною, я обрала скорочений шлях і не переглядала ці файли після автоматичної перевірки. Коли я робила це вручну, я виявляла багато помилок. Коли я використовувала сторонній інструмент, я виявляла ще більше. […] Я уявляла, ніби ШІ-помічник був співробітником. Це не так”.

    Звіт компанії Fastly показав: щонайменше 95% з майже 800 опитаних розробників заявили, що витрачають додатковий час на виправлення коду, згенерованого штучним інтелектом, причому навантаження такої перевірки найбільше лягає на плечі старших розробників. Чисельні проблеми з кодом, згенерованим ШІ, лежать в діапазоні від помилок через “галюцинації” до ризиків безпеки та видалення важливих даних.

    Карла Ровер порівнює роботу за допомогою ШІ з поведінкою маленької дитини:

    “Це як дати кавник розумній шестирічній дитині та сказати: “Будь ласка, віднеси це в їдальню та налий кави для родини”.

    Програміст з 20-річним стажем Ферідун Малекзаде порівнює з іншою віковою категорією. Він витрачає близько 50% свого часу на написання вимог, від 10% до 20% власне на вайб-кодинг та від 30% до 40% на виправлення.

    “Як найняти впертого, зухвалого підлітка, щоб він допоміг вам щось зробити. Вам доводиться 15 разів просити його щось зробити. Зрештою, він робить дещо з того, про що просили, дещо, про що не просили, та на шляху до цього ламає купу речей”.

    Дехто з опитаних TechCrunch кодерів налаштований оптимістично. Молодий розробник Елвіс Кімара розмірковує про майбутнє та “нову норму” для програмістів:

    “Ми не просто писатимемо код. Ми керуватимемо системами штучного інтелекту, братимемо на себе відповідальність за збої та діятимемо більше як консультанти для машин”.

    Заощадження на кодингу — додаткові витрати на виправлення

    Робота з кодом, згенерованим штучним інтелектом, стала настільки проблемною, що з’явилася ціла нова галузь, з фахівцями з виправлення помилок вайб-кодингу, резюме котрих можна знайти в LinkedIn. Як повідомляє 404 Media , фрілансери та цілі компанії роблять бізнес на виправленні неякісного ПЗ.

    “Я пропоную послуги з виправлення вайб-коду вже близько двох років, починаючи з кінця 2023 року. Наразі я регулярно працюю приблизно з 15-20 клієнтами, а також над додатковими разовими проєктами протягом року», — розповів програміст Хамід Сіддікі.

    Фахівець каже, що до нього часто звертаються команди, котрі використовують ШІ для написання коду, але відчувають потребу у “поліруванні”. Йдеться не тільки про помилки, але й про відповідність результату баченню розробників. Серед поширених проблем — непослідовний дизайн фронтенду, невідповідність брендингу, погано оптимізована продуктивність та функції, які працюють, але здаються незграбними або незрозумілими користувачеві. Часто доводиться вдосконалювати колірні схеми, анімацію та макети для кращої відповідності.

    Компанія Ulam Labs має слоган: “Ми прибираємо за вайб-кодом. Буквально”. Розробники описують свою діяльність як доведення “до розуму” нашвидкуруч створених проєктів, щоб зробити їх надійнішими. “Це схоже на знешкодження бомби”.

    Сайт VibeCodeFixers.com створений для вайб-кодерів, котрим необхідний досвідчений розробник, щоб виправити або завершити проєкти. Майже 300 фахівців опублікували свої профілі на сайті. Молодий сервіс наразі опікується лише 30-40 проєктами та активно залучає нових учасників.

    “Більшість цих вайб-кодерів — це або менеджери продуктів, або продавці, або власники малого бізнесу, і вони думають, що можуть щось створити. Тож для них це більше стосується прототипування. Vibe-кодування зараз перебуває на початковій стадії. Дуже зручно передати бажання щодо прототипу, але я не думаю, що вони насправді мають на меті зробити його схожим на застосунок промислового рівня”, — розповів 404 Media Сватантра Сохні, засновник платформи.

    Великою проблемою, яку визначає Сохні, є перевитрати на останніх 10-20% створення проєкту. Теоретично, на цьому етапі іноді дешевше та ефективніше починати все спочатку після вайб-кодингу, але на практиці люди прив’язуються до початкової розробки та прагнуть саме виправлень. За його словами, такі розробники спочатку радіють результату, але потім раптово щось ламається, і вони “втрачають авторитет”.

    Зловмисне ПЗ мимоволі

    Раніше ITC.ua писав про суттєвий рівень вразливості продуктів вайб-кодингу , відзначений у дослідженні Veracode. Згідно з ним 45% результатів містили суттєві “діри” та потенційно небезпечні несправності, як помилки авторизації та валідації. Також ми писали про шкідливі команди для ШІ, котрі зловмисники можуть вбудовувати узовнішні джерела , як невидимий текст на сайті тощо. Помічник ШІ сканує вебресурси, сприймає цей текст як підказки користувача та виконує шкідливі дії

    Видання Cybernews звертає увагу на щось більш зловісне — вбудоване зловмисне ПЗ, про яке не знають навіть автори проєктів. Дослідники з Unit 42, підрозділу безпеки Palo Alto Networks, попереджають, що ШІ-асистенти кодування можуть підключатися до інтегрованих середовищ розробки та залучати до проєкту небезпечні елементи .

    Непряме впровадження запитів є однією з найочевидніших вразливостей. Зловмисники так само можуть вбудувати шкідливі запити в тисячі онлайн-джерел, включаючи вебсайти, репозиторії, документи або API, до яких помічники штучного інтелекту можуть отримати доступ та обробляти їх.

    Це відкриває другий вектор атаки — контекстні вкладення також можуть бути використані для зловживання. Самі користувачі можуть ненавмисно вказувати джерела, забруднені хакерами. Зловмисники іноді захоплюють навіть ресурси на деяких з найпопулярніших репозиторіїв. У результаті шкідливий елемент потрапляє в проєкт.

    Протидією, як і у випадку з просто неякісним кодом, є ретельна перевірка, особисто або сторонніми автоматичними засобами. Дослідники побоюються, що можуть виникнути нові форми атак, оскільки системи ШІ стають більш автономними та інтегрованими.

    https://itc.ua/ua/statti/zvorotnyj-bik-vajb-kodyngu-programisty-nyanky-industriya-vypravlennya-pomylok-ta-zlovmysne-pz-v-kodi-potajky-vid-avtoriv/