Главное меню
| Оцифровка видео |
| Стоимость оцифровки |
| Краткий обзор |
| Статьи по теме |
| Вопросы и ответы |
| Контакты |
| Ссылки |
Кто на сайте?
| Немного теории |
|
|
Эффективное сжатие видео информации зиждется на двух основных идеях: подавление несущественных для визуального восприятия мелких деталей пространственного распределения отдельных кадров и устранение временной избыточности в последовательности этих кадров. Соответственно говорят о пространственной и временной компрессии.
В первой из них используется экспериментально установленная малая чувствительность человеческого восприятия к искажениям мелких деталей изображения. Глаз быстрее замечает неоднородность равномерного фона, чем искривление тонкой границы или изменение яркости и цвета малого участка. Из математики известно два эквивалентных представления изображения: привычное нам пространственное распределение яркости и цвета и так называемое частотное распределение, связанное с пространственным Дискретным Косинусным Преобразованием (ДКП). В теории они равнозначны и обратимы, но сохраняют информацию о структуре изображения совершенно по-разному: передачу плавных изменений фона обеспечивают низкочастотные (центральные) значения частотного распределения, а за мелкие детали пространственного распределения отвечают высокочастотные коэффициенты. Это позволяет использовать следующий алгоритм сжатия. Кадр разбивается на блоки размером 16х16 (размеру 720х576 соответствует 45х36 блоков), каждый из которых ДКП переводится в частотную область. Затем соответствующие частотные коэффициенты подвергаются квантованию (округлению значений с задаваемым интервалом). Если само по себе ДКП не приводит к потере данных, но квантование коэффициентов, очевидно, вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом – наиболее точно передается низкочастотная информация, в то время как многие высокочастотные коэффициенты принимают нулевые значения. Это обеспечивает значительное сжатие потока данных, но приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границе блоков). Очевидно, что чем более грубое квантование используется, тем больше степень сжатия, но и тем ниже качество результирующего сигнала. Для внимательных читателей повторимся, что этот алгоритм пришел из цифровой фотографии, где под именем JPEG был разработан для эффективного сжатия отдельных кадров (JPEG – это аббревиатура от названия утвердившего его международного объединения Joint Photographic Experts Group). Затем он был успешно применен для видеопоследовательностей кадров (при этом каждый из них обрабатывается совершенно независимо) и получил новое наименование MJPEG (Motion-JPEG). Необходимо также отметить, что DV-кодировка цифровых стандартов DV/DVCAM/DVCPRO принципиально основана на том же алгоритме, но использует более гибкую схему с адаптивным подбором таблиц квантования. Коэффициент компрессии для различных блоков, в отличие от MJPEG, меняется по изображению: для малоинформативных блоков (например, на краях изображения) он увеличивается, а для блоков с большим количеством мелких деталей уменьшается относительно среднего по изображению уровня. В результате при том же качестве достигается сокращение объема данных примерно на 15% (или наоборот – при том же потоке выше качество выходного сигнала). Временная MPEG-компрессия использует высокую избыточность информации в изображениях, разделенных малым интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине его смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Отметим, что математически наиболее сложным элементом является поиск смещающихся, но мало изменяющихся по структуре блоков (16х16) и определение соответствующих векторов их смещения. Однако это элемент наиболее существенен, так как позволяет существенно уменьшить объем требуемой информации. Именно эффективностью выполнения этого "интеллектуального" элемента в реальном времени и отличаются различные MPEG-кодеры. Таким образом, в MPEG кодировке принципиально формируются три типа кадров: I (Intra), выполняющие роль опорных и сохраняющие полный объем информации о структуре изображения; P (Predictive), несущие информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типов I или P); B (Bi-directional), сохраняющие только самую существенную часть информацию об отличиях от предыдущего и последующего изображений (только I или P). Принципиальная схема последующей компрессии I-кадров, также как и разностных P- и B-кадров, аналогична MJPEG, но, как и у DV, с адаптивной подстройкой таблиц квантования. В частности, это позволяет охарактеризовать DV-сигнал как частный случай MPEG последовательности из I-кадров с заданным фиксированным потоком (коэффициентом компрессии). Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Здесь каждый B кадр восстанавливается по окружающим его P кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р кадр – по предыдущему Р (или I) кадру. В то же время I кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P и тем более B кадров группы. Соответственно у I и P наименьшая степень компрессии, у В – наибольшая. Установлено, что по размеру типичный Р кадр составляет 1/3 от I, а B – 1/8 часть. В результате MPEG последовательность IPPP (GOP 4/1) обеспечивает 2-кратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I кадров, а использование GOP 15/3 позволяет достичь 4-кратного сжатия. |
| « Пред. | След. » |
|---|
