Японські дослідники з NTT Communication Science Laboratories розробили новий метод, який дозволяє штучному інтелекту перетворювати скани мозку на текст.
Новий алгоритм, розроблений під керівництвом Томоясу Хорікави, використовує поєднання нейровізуалізації з можливостями штучного інтелекту для створення текстових описів того, що люди собі уявляють або про що думають у голові.
Це поки не читання думок, однак демонстрація, наскільки ШІ може розшифровувати нейронні патерни у мозку. Для створення цього алгоритму Хорікаві та його колегам довелось об’єднати складну структуру людського мислення з семантичною мережею, яку ШІ використовують для розуміння слів.
Кожен з шести добровольців провів майже 17 годин всередині апарату МРТ, переглядаючи 2 тис. 180 коротких відео без звуку. Ролики включали грайливих тварин, абстрактну анімацію з глибоким емоційним впливом та повсякденні речі. Кожне відео тривало по кілька секунд, однак разом вони надали широкий набір даних про те, як мозок обробляє візуальний досвід.
Під кожне відео дослідники підібрали 20 субтитрів, написаних онлайн-добровольцями. Субтитри являли цілісні речення, які описували, що відбувається у кожному ролику. Субтитри були очищені за допомогою ChatGPT. Потім кожну пропозицію було перетворено на складний числовий підпис — точку у великому багатовекторному семантичному просторі — за допомогою мовної моделі DeBERTa.
Далі вчені порівнювали активність мозку, записану під час кожного відео, з цими семантичними сигнатурами. Тобто, вони навчили ШІ розпізнавати, які нейронні патерни відповідають певним типам змісту. Замість використання глибоких, непрозорих нейромереж дослідники використовували прозорішу лінійну модель. Ця модель могла показати, які області мозку відповідають за ті чи інші види семантичної інформації.
Our new paper is on bioRxiv.
We present a novel generative decoding method, called Mind Captioning, and demonstrate the generation of descriptive text of viewed and imagined content from human brain activity.The video shows text generated for viewed content during optimization. https://t.co/e0cP6B3CDL pic.twitter.com/mB2CO959tT
— Tomoyasu Horikawa (@HKT52) April 27, 2024
Як тільки ШІ навчився передбачати “вектор змісту” спостережуваного об’єкта, він мав навчитись перетворювати ці абстрактні уявлення у текст. Науковці використали ШІ модель RoBERTa для покрокової генерації слів. Система починала з безглуздого заповнювача і понад сто ітерацій заповнювала прогалини, перевіряла альтернативні пропозиції і зберігала той варіант, який найкраще відповідав розшифрованому значенню.
Перші спроби видавались безглуздими. Однак кожне вдосконалення робило речення більш змістовними, врешті-решт, ШІ надав повний зв’язний опис того, що відбувається. У тестах ШІ зіставляла конкретні відео зі згенерованим описом приблизно у половині випадків, навіть за наявності близько 100 варіантів.
Дослідники також зробили дивовижне відкриття, змінивши порядок слів у згенерованих субтитрах. Якість і точність різко впали, що показало, що ШІ не просто вловлював ключові слова, а й щось глибше — можливо, саму структуру сенсу, взаємозв’язку між об’єктами, діями та контекстом.
Пізніше дослідники запропонували добровольцям пригадати переглянуті відео. Для розшифровки цих спогадів використовувалася та сама модель, навчена лише на даних сприйняття. І вона працювала.
Навіть коли добровольці просто уявляли собі сцени з відео, ШІ генерував точні речення з описами, іноді визначаючи необхідний фрагмент з сотні інших. Це наштовхнуло науковців на важливу ідею: мозок використовує схожі уявлення для зорового сприйняття та візуального запам’ятовування, і ці уявлення можна перекласти на мову, без задіяння традиційних “мовних зон” мозку.
Коли дослідники навмисно виключали області, зазвичай пов’язані з обробкою мови, система продовжувала генерувати зв’язний текст. Це свідчить, що структуроване значення — те, що вчені називають “семантичним уявленням” — широко розподілено у всьому мозку, а не обмежується зонами, відповідальними за мову.
Відкриття має важливе значення для людей, позбавлених можливості розмовляти. Люди з афазією або нейродегенеративними захворюваннями, що впливають на мовлення, в принципі могли б використовувати такі системи для спілкування за допомогою невербальної активності мозку.
“Щоб точно схарактеризувати наш основний внесок, важливо сформулювати наш метод як інтерпретативний інтерфейс, а не буквальну реконструкцію ментального змісту”, — зазначають автори дослідження.
Вони намагаються уникати красномовних обіцянок. Технологія далеко не пристрій для читання думок. Вона вимагає багатогодинного збору персоналізованих даних кожного учасника, чітких МРТ-сканів та дуже вузького набору візуальних стимулів. Генеровані нею речення фільтруються через упередженість англомовних субтитрів і моделей, що використовуються для їхнього навчання. Зміна мовної моделі або набору даних може суттєво змінити результат. За словами Томоясу Хорікави, система не відтворює думки напряму. Натомість вона транслює їх через рівні інтерпретації ШІ.
Результати опубліковані у журналі Nature
Джерело: ZME Science
https://itc.ua/ua/novini/shi-peretvoryuye-skany-mozku-na-opysy-dumok/
