Метка: LLM

  • CEO Hugging Face: ”Маємо “бульбашку” LMM, а не ШІ, яка лусне наступного року”

    CEO Hugging Face: ”Маємо “бульбашку” LMM, а не ШІ, яка лусне наступного року”

    Останнім часом багато говорять про “бульбашку ШІ”, особливо щодо циклічного фінансування компаній на кшталт OpenAI та Anthropic. Клем Деланґ, CEO платформи машинного навчання Hugging Face, стверджує, що бульбашка стосується виключно великих мовних моделей — лише одного з напрямів ШІ.

    Як зауважив Деланґ, майже всі дискусії точаться навколо компаній, чий основний продукт — великі мовні моделі або дата-центри для їх роботи, зокрема універсальні чат-боти “на всі випадки життя”. Саме до таких застосувань Деланґ налаштований скептично.

    “Я думаю, що ми перебуваємо в бульбашці LLM, і ця бульбашка може луснути наступного року. Але LLM — це лише підмножина ШІ. Якщо говорити про застосування ШІ в біології, хімії, обробці зображень, аудіо, відео — ми лише на початку шляху й побачимо значно більше в найближчі роки”, — сказав він у інтерв’ю Axios.

    Він вважає, що зараз уся увага, всі зусилля та гроші зосереджені на ідеї, що можна побудувати одну модель, дати їй купу обчислювальних ресурсів — і вона вирішуватиме всі проблеми для всіх компаній і всіх людей. Але так не буває. Замість цього Деланґ прогнозує інший результат — “множинність моделей, більш кастомізованих, спеціалізованих, які розв’язуватимуть різні задачі”.

    Звісно, його компанія якраз і зосереджена на створенні GitHub-подібного репозиторію таких спеціалізованих моделей: як великих моделей від OpenAI чи Meta (наприклад, gpt-oss чи Llama 3.2), так і їхніх доопрацьованих варіантів під окремі задачі чи компактних дослідницьких моделей. Це по суті й є місія Hugging Face. Тож природно, що Деланґ захищає саме цю позицію. Але він не єдиний. Наприклад, у квітні аналітична компанія Gartner передбачила, що “різноманіття задач у робочих процесах бізнесу та потреба в більшій точності сприяють переходу до спеціалізованих моделей, адаптованих під конкретні функції або доменні дані”.

    Незалежно від того, в який бік рухатимуться проєкти на базі LLM, інвестиції в інші сфери сучасного ШІ лише починаються. Раніше цього тижня стало відомо, що колишній CEO Amazon Джефф Безос стане спів-CEO нового стартапу з фокусом на використанні машинного навчання в інженерії та виробництві — і цей стартап стартує з понад $6 млрд фінансування. Це також може виявитися бульбашкою. Але попри те, що деякі заяви Деланґа явно вигідні для Hugging Face, у них є важливе нагадування: надто широке поняття “ШІ” охоплює значно більше, ніж просто великі мовні моделі — і ми досі лише на початку шляху, щоб зрозуміти, куди ці технології нас приведуть.

    Джерело: ArsTechnica

    https://itc.ua/ua/novini/ceo-hugging-face-mayemo-bulbashku-lmm-a-ne-shi-yaka-lusne-nastupnogo-roku/

  • CEO Hugging Face: ”Маємо “бульбашку” LMM, а не ШІ, яка лусне наступного року”

    CEO Hugging Face: ”Маємо “бульбашку” LMM, а не ШІ, яка лусне наступного року”

    Останнім часом багато говорять про “бульбашку ШІ”, особливо щодо циклічного фінансування компаній на кшталт OpenAI та Anthropic. Клем Деланґ, CEO платформи машинного навчання Hugging Face, стверджує, що бульбашка стосується виключно великих мовних моделей — лише одного з напрямів ШІ.

    Як зауважив Деланґ, майже всі дискусії точаться навколо компаній, чий основний продукт — великі мовні моделі або дата-центри для їх роботи, зокрема універсальні чат-боти “на всі випадки життя”. Саме до таких застосувань Деланґ налаштований скептично.

    “Я думаю, що ми перебуваємо в бульбашці LLM, і ця бульбашка може луснути наступного року. Але LLM — це лише підмножина ШІ. Якщо говорити про застосування ШІ в біології, хімії, обробці зображень, аудіо, відео — ми лише на початку шляху й побачимо значно більше в найближчі роки”, — сказав він у інтерв’ю Axios.

    Він вважає, що зараз уся увага, всі зусилля та гроші зосереджені на ідеї, що можна побудувати одну модель, дати їй купу обчислювальних ресурсів — і вона вирішуватиме всі проблеми для всіх компаній і всіх людей. Але так не буває. Замість цього Деланґ прогнозує інший результат — “множинність моделей, більш кастомізованих, спеціалізованих, які розв’язуватимуть різні задачі”.

    Звісно, його компанія якраз і зосереджена на створенні GitHub-подібного репозиторію таких спеціалізованих моделей: як великих моделей від OpenAI чи Meta (наприклад, gpt-oss чи Llama 3.2), так і їхніх доопрацьованих варіантів під окремі задачі чи компактних дослідницьких моделей. Це по суті й є місія Hugging Face. Тож природно, що Деланґ захищає саме цю позицію. Але він не єдиний. Наприклад, у квітні аналітична компанія Gartner передбачила, що “різноманіття задач у робочих процесах бізнесу та потреба в більшій точності сприяють переходу до спеціалізованих моделей, адаптованих під конкретні функції або доменні дані”.

    Незалежно від того, в який бік рухатимуться проєкти на базі LLM, інвестиції в інші сфери сучасного ШІ лише починаються. Раніше цього тижня стало відомо, що колишній CEO Amazon Джефф Безос стане спів-CEO нового стартапу з фокусом на використанні машинного навчання в інженерії та виробництві — і цей стартап стартує з понад $6 млрд фінансування. Це також може виявитися бульбашкою. Але попри те, що деякі заяви Деланґа явно вигідні для Hugging Face, у них є важливе нагадування: надто широке поняття “ШІ” охоплює значно більше, ніж просто великі мовні моделі — і ми досі лише на початку шляху, щоб зрозуміти, куди ці технології нас приведуть.

    Джерело: ArsTechnica

    https://itc.ua/ua/tyzhden-shi/ceo-hugging-face-mayemo-bulbashku-lmm-a-ne-shi-yaka-lusne-nastupnogo-roku/

  • У 10 000 разів менша модель ШІ TRM випередила великі мовні моделі в логіці

    У 10 000 разів менша модель ШІ TRM випередила великі мовні моделі в логіці

    Невелика модель ШІ, яка навчається на обмеженому наборі даних (TRM) перевершила деякі з LLM у тесті “Корпус абстрактного мислення для штучного інтелекту загального призначення”. 

    Цей тест включає візуальні логічні головоломки, покликані збити з пантелику більшість моделей ШІ. TRM-модель доволі складно порівняти з LLM, оскільки вона вузькоспеціалізована, перевершуючи інших лише у розв’язані логічних головоломок, як судоку або лабіринти. Вона не розуміє мову і не генерує слова. Її особливість полягає виключно в успішному розв’язанні головоломок за обмеженого обсягу обчислювальних ресурсів. Вона у 10 тис. разів менша за передові LLM. 

    “Це захопливе дослідження інших форм міркувань, які колись можуть бути використані у ШІ. Часто методи дуже добре працюють на моделях невеликого розміру, а потім просто перестають працювати при збільшенні масштабу”, — зазначає дослідник машинного навчання  Конг Лу. 

    Авторка дослідження з Інституту передових технологій Samsung у канадському Монреалі Алексія Жолікер-Мартіно підкреслює, що її модель спростовує твердження, ніби тільки Великі мовні моделі, на навчання яких витрачають мільйони доларів, здатні вирішувати складні завдання. Вона виклала код власної TRM на Github. 

    Більшість моделей ШІ для міркувань побудовані на основі LLM, які передбачають наступне слово у послідовності, використовуючи мільярди параметрів. Вони чудово запам’ятовують закономірності з мільярдів проаналізованих матеріалів, однак це може збивати їх з пантелику під час розв’язання непередбачуваних логічних завдань. 

    Натомість TRM використовує інший підхід. Алексія Жолікер-Мартіно надихалась методикою, відомою як ієрархічна модель міркувань, розробленою Sapient Intelligence з Сінгапуру. 

    Цей метод покращує відповідь шляхом кількох ітерацій. TRM діє аналогічно, маючи усього 7 млн параметрів, тоді як ієрархічна модель використовує 27 млн, а LLM — мільярди та трильйони параметрів. Під кожний тип головоломки Жолікер-Мартіно навчала власну ШІ-модель на близько тисячі прикладів, представлених у вигляді числового рядка. 

    Під час навчання модель вгадує рішення та порівнює його з правильною відповіддю, уточнює власні передбачення та повторює все спочатку. Такий підхід допомагає їй вивчати різні стратегії для покращення передбачень. Аналогічний підхід TRM застосовує згодом до головоломок, з якими до цього не стикалась, послідовно уточнюючи відповідь до 16 разів, перш ніж остаточно згенерувати її. 

    За результатами навчання на даних тесту ARC-AGI вона змогла правильно вгадати послідовність візуальних логічних головоломок у 40% випадків упродовж першої ітерації. У складнішому тесті ARC-AGI-2 TRM набрала 6,3%, випередивши більшу за себе o4-mini від OpenA та інші моделі. 

    Окрім цього TRM має здатність до самокоригування, що залишається складним для більшості LLM. Далі науковці планують перевірити, наскільки успішною вона буде у розв’язанні завдань з фізики, наприклад, для створення правил організації квантових експериментів зі створення різних бажаних станів. 

     Результати дослідження опубліковані на сервері препринтів arXiv

    Джерело: Nature

    https://itc.ua/ua/novini/u-10-000-raziv-mensha-model-shi-trm-vyperedyla-velyki-movni-modeli-v-logitsi/

  • Вчені пропонують новий тест Тьюринга для ШІ: токсичність найважче підробити

    Вчені пропонують новий тест Тьюринга для ШІ: токсичність найважче підробити

    Дослідники з Цюрихського та Амстердамського університетів, Університету Дьюка і Нью-Йоркського університету на основі нового тесту встановили, що моделі на базі штучного інтелекту легко відрізнити від людей за надто доброзичливим емоційним тоном. 

    У дослідженні перевірялись 9 моделей з відкритим кодом Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509 на прикладах постів у соцмережах X, Bluesky та Reddit. Результати продемонстрували, що розроблені класифікатори розпізнають відповіді, згенеровані ШІ, з точністю до 70-80%.

    Автори представили так званий “обчислювальний тест Тьюринга” для оцінки наближеності моделей ШІ до мови, якою спілкуються звичайні юзери в інтернеті. Розроблений фреймворк використовує автоматизовані класифікатори та лінгвістичний аналіз для виявлення специфічних особливостей, які відрізняють згенерований ШІ контент від створеного людьми. 

    “Навіть після калібрування результати LLM залишаються чітко відмінними від людського тексту, особливо за емоційним тоном та емоційним виразом”, — підкреслюють автори дослідження. 

    Група під керівництвом Ніколо Пагана з Цюрихського університету протестувала різні стратегії оптимізації, від простих підказок до тонкого налаштування, проте виявила, що глибші емоційні сигнали зберігаються як надійні ознаки того, що конкретну текстову взаємодію в Інтернеті було ініційовано чатботом з ШІ, а не людиною. Коли ШІ пропонували давати відповіді на реальні пости у соцмережах, LLM було важко відповідати рівню неформального негативу та спонтанного вислову емоцій, притаманному постам людей. Показники токсичності незмінно виявлялись нижчими, ніж у людей.

    Для усунення цього недоліку дослідники спробували застосувати стратегії оптимізації, включно із наданням прикладів та пошуком відповідного контенту. Ці стратегії мали зменшити структурні відмінності, включно із довжиною речень, якістю слів, однак різниця в емоційних складниках залишалась.

    “Наші комплексні калібрувальні тести ставлять під сумнів припущення про те, що складніша оптимізація обов’язково призводить до більш людського результату”, — зазначили у підсумку науковці. 

    Окрім цього був виявлений неочікуваний результат. Моделі, налаштовані на виконання певних інструкцій, що пройшли тривале навчання, гірше імітують людину, ніж базові аналоги ШІ. Такі моделі, як Llama 3.1 8B та Mistral 7B v0.1, демонстрували кращу імітацію поведінки людини без налаштування інструкцій, забезпечуючи точність класифікації від 75% до 85%.

    Масштабування моделей також не надало ніяких переваг. LLM Llama 3.1 з 70 млрд параметрів продемонструвала гірші результати ніж менші моделі з 8 млрд параметрів. Коли моделі ШІ були налаштовані на те, щоб уникнути виявлення шляхом наслідування стилю людського письма, вони все більше відхилялися від того, що люди дійсно писали у відповідь на ті самі повідомлення (їх семантична оцінка подібності до реальних людських відповідей знизилася з медіанного значення приблизно 0,18–0,34 до 0,16–0,28 на різних платформах). Після оптимізації на відповідність змісту відповідей від людей згенеровані ШІ тексти стало легше відрізняти як штучні. 

    У дослідженні прості методи оптимізації для зниження виявлення перевершили складні. Надання реальних прикладів минулих публікацій користувача або отримання відповідного контексту незмінно ускладнювало розрізнення тексту ШІ від людського тексту у той час, як складні підходи, такі як надання ШІ опису особистості користувача та тонке налаштування моделі, мали незначний або навіть негативний вплив на реалістичність.

    Відмінності між соціальними платформами також демонстрували, наскільки ефективно ШІ здатні імітувати людей. Класифікатори виявляли відповіді LLM в X з найнижчою точністю, далі йшов Bluesky та Reddit, де тексти ШІ виявилось найпростіше відрізнити від людських. 

    Дослідники припускають, що ця закономірність відбиває як особливості розмовного стилю кожної платформи, і те, наскільки активно дані з кожної платформи використовувалися у процесі початкового навчання моделей. Дослідження показує, що наявні моделі стикаються з обмеженнями, що зберігаються у вловлюванні спонтанних емоційних проявів, при цьому частота виявлення залишається значно вище випадкової. Це не означає, що ШІ потенційно не може симулювати такий результат, просто це набагато складніше, ніж очікували дослідники.

    Результати опубліковані на сервері препринтів arXiv

    Джерело: ArsTechnica

    https://itc.ua/ua/novini/vcheni-proponuyut-novyj-test-tyurynga-dlya-shi-toksychnist-najvazhche-pidrobyty/