Мультимедийный интеллект: Слияние мультимедиа и искусственного интеллекта

В отличие от традиционных средств массовой информации, таких как печатные издания или аудиозаписи, в которых практически отсутствует взаимодействие между пользователями, мультимедиа — это форма коммуникации, использующая сочетание различных форм контента, таких как аудио, текст, анимация, изображения или видео, в единой интерактивной форме.

Сейчас это определение кажется устаревшим, потому что к 2022 году мультимедиа просто взорвалось более сложными формами взаимодействия. Alexa, Google Assistant, Twitter, Snapchat, Instagram Reels и многие другие подобные приложения становятся повседневной частью жизни обычного человека.

Такой взрыв мультимедиа и растущая потребность в искусственном интеллекте неизбежно столкнутся, и именно здесь на первый план выходит мультимедийный интеллект. Рынок мультимедиа развивается благодаря растущей популярности виртуального творчества в медиа и индустрии развлечений, а также его способности создавать графику высокой четкости и виртуальные миры в реальном времени.

Согласно отчету Grand View Research, глобальный рынок ИИ в сфере медиа и развлечений в период с 2022 по 2030 год, по прогнозам, будет расти на 26,9% в годовом исчислении и достигнет 99,48 млрд долларов США.

Что такое мультимедийный интеллект?

Рост и потребление постоянно появляющихся мультимедийных приложений и услуг приводит к появлению огромного количества данных, что дает повод для проведения исследований и анализа этих данных. Мы уже видим такие формы мультимедийных исследований, как анализ изображений/видеоконтента, поиск видео или изображений, рекомендации, потоковое мультимедиа и т. д. Кроме того, с другой стороны, искусственный интеллект развивается все быстрее, что делает это время идеальным для использования мультимедиа с богатым содержанием для более интеллектуальных приложений.

Мультимедийный интеллект относится к экосистеме, созданной при применении искусственного интеллекта к мультимедийным данным. Эта экосистема представляет собой двусторонние отношения «давать и брать».

  • В первом случае мы видим, как мультимедиа может стимулировать исследования в области искусственного интеллекта, обеспечивая эволюцию алгоритмов и продвигая ИИ к достижению человеческого уровня восприятия и понимания.
  • Во второй связи мы видим, как искусственный интеллект может стимулировать мультимедийные данные, делая их более понятными и надежными благодаря способности рассуждать. Например, приложения для потокового видео по требованию используют алгоритмы ИИ для анализа демографических данных и поведения пользователей и рекомендуют контент, который им нравится смотреть.

В результате эти платформы, работающие на базе ИИ, фокусируются на предоставлении пользователям контента, учитывающего их конкретные интересы, что приводит к созданию действительно индивидуального опыта. Таким образом, мультимедийный интеллект — это замкнутый цикл между мультимедиа и ИИ, где они взаимно влияют и улучшают друг друга.

Эволюция и важность

Эволюцию мультимедиа следует отнести на счет эволюции смартфонов. Видеозвонки через такие приложения, как skype и WhatsApp, действительно ознаменовали собой то, что мультимедиа стало доминировать. Это был значительный шаг, поскольку они полностью революционизировали междугороднюю связь. В дальнейшем это переросло в еще более сложные приложения, такие как приложения для потокового видео, например, discord, twitch и т.д. Затем технология AR/VR сделала еще один шаг вперед, интегрировав датчики движения и геопозиционирования в аудио и видео.

Мультимедиа содержит мультимодальные и гетерогенные данные, такие как изображения, аудио, видео, текст и т.д. вместе. Мультимедийные данные стали очень сложными, и это будет происходить постепенно. Обычные алгоритмы не способны соотнести и извлечь понимание из таких данных, и это все еще активная область исследований, даже для алгоритмов искусственного интеллекта это сложная задача — связать и установить отношения между различными модальностями данных.

Разница между медиаинтеллектом и мультимедийным интеллектом

Существует значительная разница между медиа- и мультимедийным интеллектом. Текст, рисунки, визуальные образы, картинки, фильмы, видео, беспроводные сети, аудио, графика движения, веб и так далее — все это примеры медиа. Проще говоря, мультимедиа — это сочетание двух или более типов медиа для передачи информации. Итак, на сегодняшний день, когда мы говорим о мультимедийном интеллекте, мы уже видим приложения, которые его демонстрируют. Голосовые боты, такие как Alexa и Google Assistant, являются аудиоинтеллектуальными, чат-боты — текстовыми, а дроны, которые распознают жесты рук и следуют им, являются видеоинтеллектуальными. Мультимедийных интеллектуальных приложений очень мало. Вот лишь одно из них: EMO — настольный робот с искусственным интеллектом, который использует мультимедиа для всех своих взаимодействий.

Промышленный ландшафт для мультимедийного интеллекта

Мультимедиа тесно связана с индустрией СМИ и развлечений. Искусственный интеллект улучшает и влияет на все в мультимедиа.

Ландшафт мультимедийного интеллекта

Давайте пройдемся по каждому этапу и посмотрим, как искусственный интеллект влияет на их работу:

Медиаустройства

Медиаустройства, которые все чаще становятся неотъемлемой частью приложений искусственного интеллекта, — это камеры и микрофоны. Умные камеры в наши дни не ограничиваются только съемкой изображений и видео, но все чаще выполняют и другие функции, такие как обнаружение объектов, отслеживание предметов, применение различных фильтров для лица и т.д. Все это управляется алгоритмами ИИ. Все это управляется алгоритмами ИИ и входит в состав самой камеры. Микрофоны также становятся все умнее, где алгоритмы ИИ выполняют активное шумоподавление и отфильтровывают окружающие звуки. Пробуждающие слова — это новая норма, благодаря приложениям типа Alexa и Siri микрофоны нового поколения оснащаются встроенными моделями ИИ для распознавания пробуждающих слов или ключевых фраз.

Кодирование и сжатие изображений/аудио

Автокодеры состоят из двух компонентов, а именно кодера и декодера, и представляют собой самоконтролируемые модели машинного обучения, которые используют воссоздание входных данных для уменьшения их размера. Эти модели обучаются как контролируемые модели машинного обучения и выводятся как неконтролируемые модели, отсюда и название — самоконтролируемые модели. Автоэнкодеры могут использоваться для обесцвечивания изображений, сжатия изображений и, в некоторых случаях, даже для генерации данных изображений. Это не ограничивается только изображениями, автоэнкодеры могут быть применены и к аудиоданным для тех же требований.

GAN (General Adversarial Networks) — это опять же революционные глубокие нейронные сети, которые сделали возможным генерировать изображения из текстов. Недавний проект OpenAI DALLE может генерировать изображения из текстовых описаний. GFP (Generative Facial Prior)-GAN — еще один проект, который может исправить и воссоздать любое плохое изображение. ИИ показал весьма многообещающие результаты и доказал осуществимость кодирования и сжатия изображений/аудио на основе глубокого обучения.

Распространение аудио/видео

Платформы потокового видео, такие как Netflix и Disney Hotstar, широко используют ИИ для улучшения доставки контента по всему миру. Алгоритмы ИИ доминируют в сервисах персонализации и рекомендаций для обеих платформ. Алгоритмы ИИ также используются для создания метаданных видео для улучшения поиска на этих платформах. Прогнозирование доставки контента и географическое кэширование соответствующего видеоконтента — сложная задача, которую алгоритмы искусственного интеллекта в значительной степени упростили. ИИ честно доказал свой потенциал, чтобы стать переломным моментом в индустрии потокового вещания, предлагая эффективные способы кодирования, распределения и организации данных. Не только для платформ потоковой передачи видео, но и для платформ потоковой передачи игр, таких как Discord и Twitch, и коммуникационных платформ, таких как Zoom и Webex, ИИ станет неотъемлемой частью распространения аудиовизуальных средств.

Категоризация контента

В Интернете данные создаются в самых разных форматах всего за несколько секунд. Распределить материал по категориям и организовать его может стать огромной задачей. Искусственный интеллект (ИИ) помогает успешно классифицировать информацию по соответствующим категориям, позволяя пользователям быстрее находить интересующую их тему, повышая вовлеченность клиентов, создавая более привлекательный и эффективный целевой контент и увеличивая доходы.

Контроль и распознавание фейкового контента

Некоторые веб-сайты генерируют и распространяют фальшивые новости в дополнение к законным новостям, чтобы раззадорить общественность по поводу событий или общественных проблем. ИИ помогает в обнаружении и управлении таким контентом, а также в его модерации или удалении перед распространением на интернет-платформах, таких как сайты социальных сетей. Все платформы, включая Facebook, LinkedIn, Twitter, Instagram и т.д., используют мощные алгоритмы ИИ в большинстве своих функций. Сервисы целевой рекламы, рекомендательные сервисы, рекомендации по работе, обнаружение мошеннических профилей, обнаружение вредоносного контента и т.д. имеют в своем составе ИИ.

Мы постарались рассказать о том, как мультимедиа и искусственный интеллект взаимосвязаны и как они влияют на различные отрасли. Тем не менее, это обширная тема для исследований, поскольку медиаинтеллект все еще находится в стадии становления, когда алгоритмы ИИ все еще учатся на основе отдельных медиа, а мы создаем другие алгоритмы для их совместного использования. Еще есть возможности для эволюции алгоритмов ИИ, которые будут понимать все мультимедийные данные в сингулярности, подобно тому, как это делает человек.

Про автора:

Ракеш — главный инженер компании Softnautics, специалист по ИИ, имеющий опыт разработки и внедрения решений ИИ в области компьютерного зрения, NLP, аудиоинтеллекта и анализа документов. Он также имеет большой опыт в разработке корпоративных решений на основе ИИ и стремится решать реальные проблемы с помощью ИИ.

источник
https://www.design-reuse.com/articles/53138/multimedia-intelligence-confluence-of-multimedia-and-artificial-intelligence.html
Спасибо!
Если обзор был полезен, ты можешь отблагодарить поделившись в соцсети и подпиской на канал яндекс дзен. На канале ты можешь найти еще больше рейтингов, техник, и обзоров, на тот или иной продукт.
Редактор BORDER

Редактор BORDER

Редактор журнала BORDER. ❤ Любим дизайн во всех его проявлениях. Следим за новыми технологиями. ✌ Ищем не равнодушных к теме. ✉ Желающим присоединиться и разместить свой проект на канале, пишите journal@jborder.ru BORDER - обзоры новых дизайнов и технологий.

Мы будем рады и вашему мнению

Оставить ответ

Журнал BORDER
Logo
Shopping cart