Интерфейсы «мозг-компьютер» могут получить значительный импульс от искусственного интеллекта

Интерфейсы «мозг-компьютер» могут получить значительный импульс от искусственного интеллекта

Как исследователь, проведший бесчисленное количество часов в лаборатории нейропротезирования Калифорнийского университета в Дэвисе, я могу с уверенностью сказать, что будущее коммуникации уже здесь, и оно более захватывающее, чем когда-либо! Достижения в области интерфейсов «мозг-компьютер» стали настоящим чудом. Я помню, когда мы впервые начали работать над этими устройствами, они были всего лишь проблеском в глазах научной фантастики. Но теперь, после недавней демонстрации нашего речевого интерфейса «мозг-компьютер» для пациента с БАС, стало ясно, что мы больше не просто мечтаем – мы воплощаем мечты в реальность!


Передовые технологии, известные как интерфейсы «мозг-компьютер», обладают замечательной способностью помогать парализованным людям восстанавливать функции, которые они непреднамеренно потеряли, например, движение рук. Эти инновационные устройства улавливают сигналы мозга и интерпретируют предполагаемые действия пользователя, минуя любые поврежденные или ослабленные нервы, которые обычно передают эти сигналы мозга для управления мышцами.

С 2006 года демонстрации интерфейсов «мозг-компьютер» на людях в основном были сосредоточены на восстановлении движений рук и кистей, позволяя людям управлять компьютерными курсорами или роботизированными руками. Недавно исследователи начали разработку речевых интерфейсов «мозг-компьютер», позволяющих восстановить общение для людей, которые не могут говорить.

Проще говоря, интерфейсы «мозг-компьютер» улавливают отдельные паттерны работы мозга, возникающие, когда кто-то пытается говорить, и преобразуют эти паттерны в понятные слова. Эти слова либо отображаются на экране, либо читаются вслух с помощью программы, преобразующей текст в речь.

Я работаю в лаборатории нейропротезирования Калифорнийского университета в Дэвисе, которая участвует в клинических испытаниях BrainGate2. Моя команда и я только что разработали интерфейс «мозг-компьютер» для речи, специально разработанный для помощи людям с БАС (боковой амиотрофический склероз или болезнь Лу Герига). Эта инновационная технология интерпретирует нейронные сигналы в текст с впечатляющей точностью более 97%. Ядро нашей системы лежит в наборе языковых моделей искусственного интеллекта — по сути, это искусственные нейронные сети, которые помогают понимать естественные.

Запись сигналов мозга

Как геймер, глубоко погружающийся в виртуальные миры, я бы сказал, что моим первым шагом в разработке этого интеллектуального интерфейса является захват необработанных сигналов из моего собственного мозга. Существуют различные источники этих сигналов, некоторые из которых требуют хирургического подхода для получения показаний. Эти инвазивные процедуры позволяют нам размещать записывающие устройства ближе к нейронам, получая более сильные и четкие сигналы с минимальным шумом. Инструменты, которые мы используем для сбора нейронных данных, включают сетки электродов на поверхности мозга или электроды, непосредственно имплантированные в саму ткань мозга.

Для нашего исследования мы имплантировали массивы электродов в речевую моторную кору Кейси Харрелла — область мозга, отвечающую за управление мышцами, связанными с речью. С помощью этих 256 электродов мы фиксировали нейронную активность, пока Харрелл пытался говорить.

Интерфейсы «мозг-компьютер» могут получить значительный импульс от искусственного интеллекта

Расшифровка сигналов мозга

Следующая задача — связать сложные сигналы мозга со словами, которые пытается сказать пользователь.

Одна из стратегий заключается в том, чтобы напрямую связать модели нейронной активности с произнесенными словами. Этот метод включает в себя многократный захват сигналов мозга, связанных с каждым словом, чтобы установить среднюю связь между нейронной активностью и конкретными словами. Хотя этот метод эффективен для небольших словарей, как показало исследование 2021 года, в котором использовался словарь из 50 слов, он становится невозможным для более крупных словарей. Если попросить пользователя интерфейса «мозг-компьютер» попытаться произнести каждое слово из словаря несколько раз — это, скорее всего, займет месяцы, и даже тогда это не сработает для новых слов.

Вместо того, чтобы использовать другой подход, мы выбираем особую технику: связываем сигналы мозга напрямую с фундаментальными звуковыми компонентами, называемыми фонемами. В английском языке 39 уникальных фонем, таких как «ch», «er», «oo», «pl» и «sh». Их можно комбинировать различными способами, чтобы создать любое слово. Попросив участника несколько раз прочитать несколько предложений вслух, мы можем измерить нейронную активность, связанную с каждой фонемой. Точно сопоставляя нейронную активность с этими фонемами, мы можем составить любое английское слово, даже такое, которое не было специально обучено системе.

Чтобы перевести мозговые волны в отдельные звуки (фонемы), мы используем сложные алгоритмы машинного обучения. Эти алгоритмы превосходно справляются со своей задачей, потому что они могут выявлять сложные закономерности в огромных и сложных наборах данных — закономерности, которые были бы слишком сложны для восприятия людьми. Представьте себе эти алгоритмы как исключительно умных слушателей, которые могут выделить важные детали из шума сигналов мозга, точно так же, как вы могли бы сосредоточиться на разговоре среди фоновой болтовни в оживленной комнате. Используя эти алгоритмы, нам удалось декодировать последовательности фонем во время попыток речи с точностью более 90%.

От фонем к словам

После того как мы перевели звуковые образцы (фонемы) в последовательности, наша задача — превратить их в слова и предложения. Это может быть непросто, особенно если расшифрованная последовательность фонем не точна. Чтобы взломать этот код, мы используем два типа моделей машинного обучения, которые гармонично работают вместе. Эти модели помогают более точно понять и интерпретировать контекст.

Как геймер, я бы сказал: «Вместо того, чтобы угадывать слова случайным образом, я использую 5-граммовую языковую модель, чтобы предсказать, какое слово будет следующим, на основе четырех предыдущих слов, которые я произнес. Это помогает мне уловить местный контекст и общие фразы. Например, после слов «Я очень хорошо» вместо чего-то неожиданного, например «картошка», следует «сегодня». Делая это, я преобразую свои последовательности фонем в 100 наиболее вероятных последовательностей слов, каждая из которых имеет свою вероятность».

Вторая категория — это большие языковые модели. Они отвечают за работу чат-ботов с искусственным интеллектом и прогнозирование того, какие слова обычно следуют дальше. Мы используем эти большие языковые модели для точной настройки наших решений. Обученные огромным объемам разнообразного текста, они обладают более обширным пониманием языковой структуры и значения. Они помогают нам выбрать из 100 вариантов предложение, которое лучше всего подходит в более широком контексте.

Чтобы достичь точного баланса между предсказаниями нашей n-граммной модели, расширенной языковой модели и нашими предварительными предположениями о фонемах, мы можем с уверенностью сделать вывод о предполагаемом сообщении пользователя интерфейса мозг-компьютер. Этот пошаговый метод помогает нам преодолевать неопределенности в расшифровке фонем и генерировать связные предложения, соответствующие контексту.

Интерфейсы «мозг-компьютер» могут получить значительный импульс от искусственного интеллекта

Реальные преимущества

На самом деле этот метод декодирования речи оказался исключительно эффективным. Это позволило Кейси Харреллу, человеку, живущему с БАС, общаться с помощью мыслей с поразительной точностью в 97%. Это нововведение открыло для него возможность снова легко общаться со своими близкими, прямо не выходя из дома – чего он не мог делать уже много лет.

Достижения в области технологий, обеспечивающие прямую связь между мозгом и компьютером, знаменуют собой важный шаг на пути к восстановлению способности людей эффективно общаться. По мере дальнейшего развития этих инструментов они открывают обнадеживающую перспективу предоставить возможность тем, кто больше не может говорить, снова выразить себя, восстановить связи со своими близкими и миром в целом.

Несмотря на то, что некоторые препятствия сохраняются, например, улучшение технологий для облегчения доступа, мобильности и долговечности, интерфейсы «речь-мозг-компьютер» служат вдохновляющей демонстрацией сотрудничества между наукой и технологиями в решении сложных проблем и значительном улучшении жизни людей.

Смотрите также

2024-08-31 22:28