Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Слежка без камер: Apple создала ИИ, который вычисляет действия пользователя по звуку и движениям

Компания Apple опубликовала отчёт по результатам исследования, цель которого заключалась в изучении того, как большие языковые модели (LLM) могут анализировать аудиоданные и данные о движении, чтобы получить представление о том, что делает пользователь.

 Источник изображений: 9to5 Mac

Источник изображений: 9to5 Mac

Опубликованная недавно научная работа «Использование LLM для последующего объединения мультимодальных данных датчиков для распознавания активности» позволяет понять, как Apple рассматривает возможность объединения данных анализа с помощью ИИ-моделей с традиционными данными от датчиков для более точного понимания активности пользователя. По мнению исследователей, это имеет большой потенциал для повышения точности анализа активности, даже в случаях, когда одних данных от датчиков для этого недостаточно.

«Потоки данных с датчиков предоставляют ценную информацию о деятельности и контексте для разных приложений, хотя интеграция дополнительной информации может быть сложной задачей. Мы показываем, что большие языковые модели можно задействовать для последующего объединения данных при классификации активности на основе временных рядов, аудио и данных о движении», — говорится в работе Apple.

Исследователи отобрали подмножество данных для разнообразного распознавания активности в разных контекстах, например, выполнения домашних дел или занятий спортом, из набора данных Ego4D. Было установлено, что большие языковые модели достаточно хорошо справляются с задачами, связанными с определением того, что пользователь делает, анализируя звуковые и двигательные сигналы. Примечательно, что они справляются с такими задачами достаточно хорошо, даже если их специально не обучали этому. Если же им предоставить всего один пример для обучения, то точность сразу значительно повышается. Отмечается, что LLM в исследовании обрабатывала не саму аудиозапись, а текстовое описание, сгенерированное аудиомоделями и моделью движения, которая получает данные от акселерометра и гироскопа.

В сообщении сказано, что в рамках исследования использовался набор данных Ego4D, снятых от первого лица. Эти данные содержат тысячи часов записей из реального мира, на которых запечатлены разные ситуации — от домашних дел, до занятий спортом и активного отдыха. «Мы создали набор данных о повседневных активностях из набора Ego4D, выполнив поиск действий из повседневной жизни в предоставленных текстовых описаниях. Отобранный набор данных включает в себя 20-секундные выборки из 12 видов активностей: уборка пылесосом, готовка, стирка, прием пищи, игра в баскетбол, игра в футбол, игра с домашними питомцами, чтение книги, работа за компьютером, мытьё посуды, просмотр ТВ, силовые тренировки. Эти активности были выбраны таким образом, чтобы охватить спектр домашних и связанных со спортом задач на основе их широкого распространения в исходном наборе данных», — говорится в исследовании.

Исследователи обработали звуковые данные и данные о движении с помощью небольших ИИ-моделей, которые генерировали текстовые описания и прогнозы касательно категории активности, после чего данные передавались в разные LLM (Gemini-2.5-pro и Qwen-32B), чтобы оценить, насколько хорошо они могут идентифицировать активность. Затем Apple сравнила производительность этих двух ИИ-моделей в разных ситуациях: в одной из них предоставлялся список из 12 возможных активностей (закрытый набор), а в другой не было никаких вариантов (открытый набор). Для каждого теста предоставлялись разные комбинации текстовых расшифровок аудио, аудиометок, прогнозов по активностям, а также дополнительный контекст.

Большие языковые модели показали значительно более точные результаты, чем базовые модели, работающие только с одним типом данных, особенно в сложных сценариях. Наивысшей точности удалось добиться при работе с закрытым набором данных, когда модель должна была выбирать одну из 12 активностей. При работе с открытым набором ИИ-модели также показали хорошие результаты, но иногда ответы были слишком обобщёнными или неточными. Gemini-2.5-pro и Qwen-32B показали сопоставимые результаты с небольшими преимуществами друг над другом в разных категориях, что говорит об универсальности такого подхода.

Исследование Apple показывает, что ИИ-модели могут выступать в роли мощного и гибкого инструмента для объединения и анализа мультимодальных данных с минимальным дообучением. Это может способствовать созданию более умных и контекстно-осознанных систем на мобильных устройствах и носимых гаджетах.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 2 ч.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 3 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 5 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 6 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 6 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 6 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 6 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 7 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 7 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 7 ч.
Новая статья: Обзор Midea VCR V15 EVO ULTRA: я просто хорошо убираю любое помещение 31 мин.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 2 ч.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 4 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 5 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 6 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 7 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 7 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 8 ч.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 8 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 8 ч.