Нейронная сеть анализирует музыку и речь так же, как человеческий мозг.
Ученые разработали нейронную сеть, способную обрабатывать музыку и речь почти так же, как мозг человека. После обучения компьютер распознавал звуки не хуже, чем участники эксперимента, и даже совершал те же ошибки. Исследователи сообщают, что человек и машина перерабатывали информацию иерархически и в этом аспекте были на удивление похожи.
Дабстеп, трип-хоп, джаз-фьюжн — сегодня существует множество музыкальных жанров и поджанров, которые, в свою очередь, могут перемешиваться друг с другом. Несмотря на бесчисленное разнообразие музыкальных направлений, слуховая зона коры головного мозга прекрасно различает их, даже если их название неизвестно. Но как это удаётся нашему мозгу?
Чтобы понять рабочие процессы мозга, учёные всё чаще используют в качестве модели нейронные сети. Этот искусственный интеллект может выполнять важные для людей задания и часто делает это лучше. Например, компьютеры могут распознавать речь, эскизы и тексты, помогают диагностировать болезни или побеждают людей в сложных играх — шахматах, го и покере.
Компьютер слушает музыку
Александр Келл из Массачусетского технологического института и его коллеги использовали нейронные сети с целью изучить обработку звуков, осуществляемую мозгом. «Этот тип сенсорной обработки было сложно понять, потому что у нас не было ни теоретической базы, ни возможности разработать объясняющую модель», — говорит старший автор Джош Макдермотт.
Сначала учёные обучили нейронную сеть распознаванию речи и музыкальных жанров. Чтобы компьютер научился узнавать речь, учёные «кормили» его тысячами двухсекундных роликов с примерами речи. Нейронная сеть должна была идентифицировать слово в середине записи. Кроме того, при прослушивании музыкальных треков ей предстояло определить их жанр. Фоновые шумы сделали задания более реалистичными и сложными.
Компьютер и человек слышат одинаково хорошо
В результате исследования выяснилось, что нейронная сеть воспринимала звуки так же хорошо, как человек, и уверенно распознавала речь и музыкальные жанры. «Идея состоит в том, чтобы модель со временем становилась лучше и лучше и выучила общий принцип», — говорит Келл. «Если воспроизводится новый звук, который модель ранее не слышала, она должна правильно определить его — и на практике это происходит довольно часто».
Но компьютер был подобен человеку не только в успехе. Не будучи запрограммированным на неудачу, компьютер совершал те же ошибки, что и люди. Мозг и машина, вероятно, имеют похожие ограничения в переработке звуковой информации.
Нейронная сеть перерабатывает звуки иерархически
С помощью нейронной сети исследователи хотели наконец найти ответ на давний вопрос: слуховая зона коры мозга обрабатывает информацию иерархически или по-другому? В иерархической системе различные зоны мозга перерабатывают поступающие данные последовательно. Зрительная зона организована именно так: первичная зрительная кора первой реагирует на простые характеристики — цвет и положение предмета. Затем следующие зоны обрабатывают более сложные задания, например, распознавание объектов.
Учёные отметили, что их компьютерная модель обрабатывает звуки иерархически. Она справлялась с заданиями наилучшим образом, когда обработка осуществлялась в два этапа. На первом этапе модель перерабатывала как речь, так и музыку. Затем анализ был поделён на две части: одна распознавала речь, другая — музыку.
Кроме того, к началу анализа нейронная сеть легко распознавала основные характеристики шума, такие как частоты. По мере прохождения данных по сети ей было всё труднее отфильтровывать частоты, но стало легче выполнять задачи более высокого уровня, например, распознавание слов.
Мозг и компьютер работают почти одинаково
Но насколько похожи процессы в нейронной сети и в нашем мозге? Чтобы узнать это, учёные изучили реакцию слуховой зоны мозга на звуки с помощью функциональной магнитно-резонансной томографии. При последующем сравнении с компьютерной моделью исследователи обнаружили сходство. Средняя фаза активности компьютерной модели соответствовала активности первичной коры, а поздняя фаза совпадала с процессами вне её. Для исследователей это является доказательством того, что наш мозг обрабатывает звуки иерархически — точно так же, как и визуальную инф