Файлы любого медиаконтента за свой жизненный путь — от съемки до прихода на экраны пользователей —
обрастают большим количеством специальных меток и вшитой информации. Все их объединяют под общим термином «метаданные»,
► Показать
Трудности перевода
В каждом файле с видео или в его онлайн-потоке содержатся метаданные — информация о другой информации, или данные,
относящиеся к дополнительной информации, как это понятие определяют словари. Простейший пример метаданных,
знакомый всем, кто хоть раз делал фото смартфоном и потом сохранял его на компьютер, — автоматически формируемый
камерой информационный блок : время и дата съемки, метка локации съемки, если включены соответствующие настройки.
Другая часть метаданных создается вручную. Именно такой тип метаданных описывает Google пользователям своего
видеохостинга YouTube — название видео, описание и теги. Цель формирования метаданных видеоконтента в понимании Google —
облегчить пользователям поиск контента на YouTube. Поэтому ключевой принцип формирования метаданных на самом популярном видеохостинге простой : название единицы контента, его описание и теги должны быть связаны с содержанием видео.
Огромный объем метаданных в индустрии создается на этапе продакшена монтажерами и редакторами телеканалов
и продакшен-студий, использующими профессиональные инструменты для чтения и редактирования дополнительной
и служебной информации, в том числе для формирования текстовых описаний контента и выделения принципиально
важного элемента для последующей навигации потребителей в необъятном контентном море — ключевых слов.
Критически важная информация здесь — авторы видеоконтента ( режиссеры, сценаристы, продюсеры и т. д.), актерский состав,
участники телешоу.
В создании метаданных большую роль также играют разработчики EPG-систем ( Electronic Program Guide — интерактивные телегиды), «Мы ежемесячно вкладываем большие ресурсы в подготовку метаданных. Если каждый телеканал отдельно будет проводить эту работу, вновь собирая информацию из разных источников, как это сделали мы, они просто продублируют нашу работу, которую мы сделали в момент появления этого контента. Нет никакого смысла готовить метаданные самим каналам», —
рассказывал «Телеспутнику» генеральный директор компании EPG Service Виталий Васильев.
По его мнению, самостоятельная подготовка метаданных телеканалами углубляет главную проблему логистики метаданных —
отсутствие единых идентификаторов. «Мы выступаем как агрегаторы всей доступной метаинформации о каждой единице контента.
Сами телеканалы предоставляют очень мало информации о своем контенте. В этом и состоит суть нашей работы,
что мы сами собираем эту информацию и размечаем ее. Это сложная редакторская работа, которой ежедневно у нас заняты
больше 30 человек», — пояснял Виталий Васильев.
По мере миграции зрителей из традиционного линейного вещания значение метаданных только увеличивается.
Руководитель группы развития видеорекламы «Яндекса» Ирина Скрипникова так описывала в интервью «Телеспутнику» роль сопровождающей телеконтент информации : «Чем подробнее будет описание сетки телевещателей, тем точнее мы сможем
настроить рекомендательный сервис. Критически важны здесь точное время начала и окончания программы, описание
происходящего внутри передачи, ее тематика, участники, жанр, планируемая аудитория, возможное “черное окно”,
то есть невозможность онлайн-показа». В качестве одного из направлений решения проблемы недостаточности объема метаданных
Ирина Скрипникова называла интеграцию онлайн платформ с производителями вещательного оборудования, чтобы облегчить
каналам подготовку данных для онлайна.
«Для нас было бы идеально, если бы метаданные по умолчанию были вшиты в эфирный поток. Все это можно сделать.
Другое дело, что каналы до сих пор живут в старом доонлайновом мире и им не до конца очевидна необходимость таких действий», — подчеркивала представитель «Яндекса».
Главный тренд в работе с метаданными видеоконтента в мировой медиаотрасли — автоматизация их подготовки и распространения. Особенно много говорят об автоматизации применительно к OTT. Роджер Франклин ( Roger Franklin), глава компании Crystal, разрабатывающей средства генерации и обработки метаданных, в колонке на портале Videonet приводит один из примеров
важности автоматизации подготовки метаданных. Наибольший объем OTT трафика генерирует контент, появившийся на
OTT платформе в течение часа после премьерной трансляции в онлайн-среде, — к просмотру подключаются зрители,
опоздавшие к live стриму. Однако без автоматизации подготовки метаданных успеть их сформировать за столь короткое время трудно, если только не бросить на «ручную» подготовку значительные ресурсы. «Правильно используемые метаданные по стандарту SCTE ( Society of Cable Telecommunications Engineers — Союз инженеров кабельного вещания), уже присутствующие в вещательном стриме, могут подготовить контент для OTT автоматически. Это требует сложных преобразований и доступа к нескольким источникам данных, от системы плей-аута до баз данных продакшена и трафик-генерации. Но для правообладателей затраты того стоят», — рассуждает Роджер Франклин. Он добавляет также, что автоматизация работы с метаданными позволяет кастомизировать рекламу на основе местоположения и личных предпочтений зрителя.
В контексте автоматизации большие надежды возлагают на искусственный интеллект (ИИ), сканирующий все доступные источники информации, в том числе открытые. Израильский разработчик Jinni предложил технологию «генома видео», в рамках которой
ИИ определяет «гены фильмов», формируя для каждого из них базу ключевых слов, собранных из открытых источников.
«Есть так много разных атрибутов, которые влияют на настроение зрителя и его киновкусы, и все они имеют отношение к фильму», — объясняет основатель и глава Jinni Йоси Глик (Yosi Glick). В компании считают, что фильмы имеют гораздо больше атрибутов, чем включают в обычный набор метаданных, — сотни, если не тысячи атрибутов, — и целесообразно доверить ИИ наполнение расширенных баз данных атрибутов, чтобы зритель точнее задавал при поиске свои критерии выбора, соответствующие сиюминутному настроению. На практике это ведет к тому, что стандартная характеристика фильма или сериала «комедия» или «мелодрама» обрастает веером дополнительных характеристик.
Расширяя диапазон метаданных
Принципиально иная область формирования и трансляции метаданных на всем пути следования контента от продакшена к экрану —
сугубо технологическая, а не контентная. Речь идет о технологиях расширения динамического диапазона ( High Dynamic Range, HDR), которые на профильных конференциях в течение последних двух-трех лет эксперты включают в перечень магистральных направлений развития отрасли цифрового видео в одном ряду с 4K UHD.
Генеральный директор компании ARSPRO Антон Артемьев, выступая на конференции издательства «Телеспутник»
«Digital TV & Video in Russia. 4K & HDR», объяснял, что 4K и HDR — это две разные сущности. «Говоря профессиональным языком,
расширенный динамический диапазон HDR к 4К не имеет никакого отношения. 4K — это размер кадра, а HDR — это глубина,
насыщенность, яркость, контрастность. Зритель, видя картинку 4К HDR и SDR, видит разницу невооруженным взглядом», —
отметил глава ARSPRO.
Чтобы зритель увидел эту разницу, объясняет заместитель гендиректора ЗАО «МНИТИ» Константин Быструшкин, в технологиях HDR
для улучшения изображения на приемной стороне, наряду с обычным совместимым телевизионным сигналом, передаются
дополнительные данные (метаданные), которые и позволяют синтезировать его улучшенный вариант. В технических требованиях
к телевизионной UHD системе, описанных в отчете EBU ( European Broadcasting Union — Европейский вещательный союз),
метаданные HDR делятся на два вида — параметры сигнала и параметры, связанные с контентом. В EBU подчеркивают,
что метаданные HDR видео должны доходить по всей цепочке движения контента до конечной стадии — до абонентского дисплея.
«Дисплей должен “знать”, какой вариант HDR подается на его входы, и при необходимости “знать” некоторые или все параметры,
необходимые для корректного отображения изображений HDR, сохраняя художественный замысел во всей сквозной цепи», —
говорится в требованиях EBU.
Как именно происходит формирование и движение метаданных HDR по цепи распространения контента, можно судить на примере
профессиональной линейки съемочного и вещательного оборудования Sony, предназначенного для создания и распространения
4K HDR контента, кинематографа и рекламы. Исходная картинка может формироваться камерами серии CineAlta, на выход которых
поступает 16-битный линейный сигнал, или камерами PMW-F55 и PMW-F5, видео с которых записывается на портативный рекордер
AXS-R7 в формате X-OCN ( Х-Original Camera Negative, расширенный диапазон тонов цветности). Видео в X-OCN может быть в Full HD
или в 4K, однако для нас важнее, что оно поддерживает профиль расширенной цветопередачи Sony S-Gamut3, позволяющий на стадии продакшна сформировать метаданные HDR специальным процессором.
При live трансляциях изображение формируется камерой HDC-4300, снабженной блоком основного процессора, с выхода которого сигнал в 4K HDR ( уже с соответствующими метаданными) уходит на этап продакшена, на котором используются видеоконсоли для редактирования, свитчеры и роутеры, рекордеры и, разумеется, контрольные мониторы, корректно отображающие картинку 4K HDR. В Sony поясняют, что другие исходные HD сигналы могут включаться в HDR продакшен после преобразования конвертером HDRC-4000. Этот же конвертер используется на завершающей стадии продакшена, когда необходимо преобразовать студийный сигнал в вещательные форматы ( 4K HDR PQ ( ST 2084) или HLG, 4K SDR, HD HDR и HD SDR) без потерь.
По словам Антона Артемьева, проведенные ARSPRO тесты с профессиональными камерами, предлагаемыми сейчас для производства фильмов и сериалов, показали, что все они позволяют получить картинку, параметры яркости и цветности которой соответствуют параметрам HDR. «Все современные кинокамеры — не телевизионные, а именно кинокамеры — снимают картинку с параметрами большими, чем сейчас вбирает HDR. Поэтому адаптировать изображение с них для HDR и сделать правильную цветокоррекцию не составляет никакого труда», — поясняет Антон Артемьев.
Яркость HDR экранов производители подняли с 500 нит, обычных для традиционных телевизоров, до 1000 нит, таким образом, как и для камер, ограничений для работы с HDR-сигналом на финальном этапе — потребительском — на сегодняшний день нет. Однако получить изображение с теми же настройками, что применялись при цветокоррекции на этапе продакшена, возможно, если только до финальной стадии дойдут и метаданные с информацией о балансе белого, уровнях яркости основных цветов, минимальными и максимальными уровнями яркости. Только в случае корректного считывания этих метаданных декодером телевизора и соответствующей коррекции каждого пикселя зритель увидит то же изображение, что видел режиссер на контрольном мониторе.
Добавим в заключение, что EBU в классификацию метаданных HDR включает два их типа в зависимости от того, меняются ли настройки в течение программы. Статические предполагают сохранение настроек для всего фильма или серии, динамические могут менять параметры даже кадр за кадром. Считается, что последние точнее отображают быстрые перепады яркости, но и вынуждают производителей использовать более мощные процессоры в декодерах, что, разумеется, отражается на конечной стоимости телевизоров.