Xiaomi заняла первое место в мире по искусственному интеллекту в аудио рассуждениях

Xiaomi совершила прорыв в области искусственного интеллекта, и ее команда Big Model находится на переднем крае технологии аудиопонимания. В замечательном подвиге, демонстрирующем растущую доблесть компании в передовых исследованиях ИИ, последняя модель Xiaomi превзошла таких гигантов индустрии, как OpenAI и Google, в ключевом эталоне понимания аудио.

Команда объявила через официальный аккаунт Xiaomi Technology, что они возглавили всемирно известный список оценок MMAU (Massive Multi-Task Audio Understanding and Reasoning). Их модель достигла рекордной точности в 64,5%, значительно превзойдя GPT-4o от OpenAI (57,3%) и Gemini 2.0 Flash от Google (55,6%).

Революционный подход к обучению с применением подкрепления

Что особенно примечательно в этом достижении, так это темпы, с которыми оно было реализовано. Следуя примеру DeepSeek-R1, исследователи из Xiaomi натянули алгоритмы обучения с подкреплением на мультимодальные задачи понимания аудио и реализовали это в течение одной недели.

Ученые применили метод Group Relative Policy Optimization (GRPO), который позволяет моделям ИИ обучаться самостоятельно с помощью механизма «пробы и ошибки — вознаграждение». Этот механизм позволяет создать способности к рассуждениям, которые схожи с человеческими размышлениями и многоступенчатой проверкой.

Доктор Чжан Вэй, главный исследователь проекта, добавляет: «Обучение с подкреплением особенно хорошо справляется с большим разрывом между генерацией и проверкой результатов. Аудиорассуждения — это как раз такая задача, где активное мышление создает более эффективные результаты, чем запоминание шаблонов.»

Больше, чем просто распознавание звука

Сегодня приложения ИИ требуют большего, чем простое распознавание звуков. Прорыв Xiaomi позволяет ИИ:

Определять потенциальные неисправности в автомобиле, анализируя записи из кабины пилота.
Определять настроение композитора, прослушивая музыкальные композиции.
Предвидеть риск столкновения в людных местах, например на станциях метро.

В тестовом наборе MMAU используется 10 000 аудиоклипов — от речи до окружающего звука и музыки с аннотированными человеком парами вопросов-ответов — для проверки модели на 27 навыков.

Разрушение традиционных подходов к ИИ

Эксперименты Xiaomi дали несколько удивительных результатов, которые бросают вызов традиционной мудрости разработки ИИ:

Обучение с подкреплением значительно превзошло обучение с контролем на наборе данных, состоящем всего лишь из 38 000 элементов.
Модель с 7B-параметрами продемонстрировала превосходные способности к рассуждениям, несмотря на то, что она намного меньше других конкурирующих моделей с 100B+ параметрами.
Заставив модель генерировать явные процессы рассуждений, они фактически снизили производительность на 3,4%.

Хотя точность в 64,5 % высока, она все равно меньше, чем у человеческих экспертов, составляющих 82,23 %, что говорит о том, что есть еще много возможностей для улучшения.

Обязательства перед открытым исходным кодом

Верная философии Xiaomi — инновации для всех, организация выложила в открытый доступ как обучающий код, так и параметры модели. Этим альтруистическим поступком компания позволяет разработчикам и исследователям по всему миру расширять свои инновации.

«Открывая свои усилия мировому сообществу ИИ, мы стремимся ускорить процесс создания настоящего интеллектуального аудиопонимания», — сказал основатель и генеральный директор Xiaomi Лэй Цзюнь. «Это еще один шаг в нашей миссии — сделать инновационные технологии доступными для всех».

Для тех, кому интересно поэкспериментировать с этой технологией:

Обучающий код: Репозиторий GitHub
Параметры модели: Hugging Face
Технический отчет: arXiv
Интерактивное демо: Попробуй сам

Этот прорыв произошел на фоне того, что Xiaomi внедряет функции искусственного интеллекта во всю линейку своих продуктов, от смартфонов до IoT-продуктов для умного дома, и делает компанию серьезным соперником на мировой арене исследований в области ИИ.

Источник: IT Home