Сжатие видео: Что такое дискретное косинус-преобразование?

голоса
15

Я осуществил технику преобразования изображений / видео называемого дискретного косинусного преобразования. Этот метод используется в кодировании видео MPEG. Я на основе моего алгоритма на идеи, представленные по следующему адресу:

http://vsr.informatik.tu-chemnitz.de/~jan/MPEG/HTML/mpeg_tech.html

Теперь я могу преобразовать раздел 8x8 черного и белого изображения, такие как:

0140 0124 0124 0132 0130 0139 0102 0088  
0140 0123 0126 0132 0134 0134 0088 0117  
0143 0126 0126 0133 0134 0138 0081 0082  
0148 0126 0128 0136 0137 0134 0079 0130  
0147 0128 0126 0137 0138 0145 0132 0144  
0147 0131 0123 0138 0137 0140 0145 0137  
0142 0135 0122 0137 0140 0138 0143 0112  
0140 0138 0125 0137 0140 0140 0148 0143 

В это изображение со всей важной информации в верхнем правом углу на. Преобразованный блок выглядит следующим образом:

1041 0039 -023 0044 0027 0000 0021 -019  
0044 -029 -050 0000 0009 -014 0032 -010  
0000 0000 0000 0000 0010 -018 -017 0000  
0014 -019 0000 0000 0010 0016 0000 -012  
0010 -010 0000 0000 0000 0000 0000 0000  
-016 0021 -014 0010 0000 0000 0000 0000  
0000 0000 0000 0000 0000 0000 0000 0000  
0000 0000 -010 0013 -014 0010 0000 0000  

Теперь мне нужно знать, как я могу воспользоваться этой трансформации? Я хотел бы, чтобы обнаружить другие блоки 8x8 в том же изображении (или другое изображение), которые представляют собой хороший матч.

Кроме того, Что такое преобразование даст мне? Почему информация хранится в верхнем правом углу преобразованного изображения важного?

Задан 07/08/2008 в 12:04
источник пользователем
На других языках...                            


6 ответов

голоса
14

Результат DCT является преобразованием исходного источника в частотной области. Верхняя левая запись хранит «амплитуду» «база» частота и частота возрастает как вдоль горизонтальные и вертикальные оси. Исход DCT обычно представляет собой набор амплитуд на более низких частотах обычных (верхний левый квадрант) и меньшим количеством записей на более высоких частотах. Как lassevk упоминалось, обычно просто обнулить эти более высокие частоты, так как они обычно составляют очень незначительную часть источника. Однако, это приводит к потере информации. Для завершения сжатия, что обычно использует сжатие без потерь над источником DCT'd. Это где сжатие идет как все эти прогоны нулей получить упакованы почти до нуля.

Одно из возможных преимуществ использования DCT, чтобы найти похожие регионы, что вы можете сделать первый матч пасс на низких значениях частоты (верхний левый угол). Это уменьшает количество значений, которые необходимы для сопоставления. Если вы нашли спички низких значений частоты, можно увеличить в сравнении более высоких частот.

Надеюсь это поможет

Ответил 09/08/2008 в 02:03
источник пользователем

голоса
4

Я узнал все , что я знаю о ДКПЕ из Книги сжатия данных . Помимо того , что большое введение в области сжатия данных, то есть глава ближе к концу на сжатие с потерями изображений JPEG , который вводит и ДКП.

Ответил 12/08/2008 в 09:28
источник пользователем

голоса
2

Понятия , лежащие в основе такого рода превращения более легко видеть , сначала глядя на одном одномерном случае. Изображение здесьпоказывает квадратную волну вместе с несколькими из первых членов бесконечной серии. Глядя на него, заметим, что если функции для членов суммируются, они начинают приближаться к форме меандра. Чем больше терминов вы добавите, тем лучше приближение. Но, чтобы получить от приближения к точному сигналу, вы должны суммировать бесконечное число слагаемых. Причина этого заключается в том, что квадратные волны является прерывистым. Если вы думаете о квадратной волны в зависимости от времени, она идет от -1 до 1 в нулевой момент времени. Для того, чтобы представить такую ​​вещь требует бесконечного ряда. Взгляните еще раз на сюжет из членов ряда. Первый красный, второй желтый. Последовательные термины имеют более «вверх и вниз» переходы. Это от увеличения частоты каждого термина. Вставлять с квадратной волны как функции времени,

В реальном мире, нет квадратных волн. Ничего не происходит в нулевой момент времени. Звуковые сигналы, например занимают диапазон от 20 Гц до 20 кГц, где Гц 1 / время. Такие вещи могут быть представлены с конечной серией.

Для изображений, математика являются одинаковыми, но две вещи разные. Во-первых, это двухмерная. Второе понятие времени не имеет смысла. В 1D смысла, меандр это просто функция, которая дает некоторое числовое значение для аргумента, что мы говорили, было время. (Статический) изображение является функцией, которая дает численное значение для каждой пары строки, столбца индексов. Другими словами, изображение является функцией 2D-пространства, что, будучи прямоугольная область. Функция как это может быть представлена ​​в терминах его пространственной частоты. Для того, чтобы понять, что пространственная частота, рассмотрит уровень серого 8 битное изображение и пару смежных пикселей. Самый крутой transistion, что может произойти в изображении происходит от 0 (скажем, черный) до 255 (скажем, белый) на расстояние 1 пиксель.

Двухмерный Фурье (или косинус) преобразование результатов изображения в массиве значений тот же размер , как изображение, представляющий ту же самую информацию , не как функция пространства, а функция 1 / пространства. Информация упорядочивается от самого низкого до самой высокой частоты по диагонали от начала координат высшие строки и столбца индексов. Примером может служить здесь .

Для сжатия изображения, вы можете преобразовать изображение, отбросить некоторое количество высших членов частот и обратное преобразование оставшихся из них обратно к изображению, которое имеет меньше деталей, чем в оригинале. Несмотря на то, что они преобразуют обратно в изображение одного и того же размера (с точки зрения удаленных заменены на ноль), в частотной области, он занимает меньше места.

Другой способ смотреть на это уменьшение изображения до меньшего размера. Если, например, вы пытаетесь, чтобы уменьшить размер изображения выбросив три из каждых четырех пикселей в строке, и три из каждых четырех строк, вы будете иметь массив 1/4 размера, но изображение будет выглядеть ужасно. В большинстве случаев, это достигается с помощью 2D-интерпол, который производит новые пиксели путем усреднения прямоугольных групп пикселов большего изображения в. При этом, интерполяция имеет эффект, аналогичный выбрасывая член ряда в частотной области, только гораздо быстрее вычислить.

Для того, чтобы сделать больше вещей, я собираюсь обратиться к преобразованию Фурье в качестве примера. Любое хорошее обсуждение этой темы будет показано, как Фурье и преобразование косинус связаны. Преобразование Фурье изображений не может рассматриваться непосредственно как таковые, потому что это сделано из комплексных чисел. Это уже разделены на два вида информации, действительных и мнимых частей чисел. Как правило, вы будете видеть изображения или графики их. Но более значимым (обычно), чтобы отделить комплексные числа в их величине и фазового угла. Это просто принимая комплексное число на комплексной плоскости и переход к полярным координатам.

Для звукового сигнала, подумайте о комбинированном грехе и косинусе принимая attitional количества в своих аргументах, чтобы переложить функцию туда и обратно (в качестве части представления сигнала). Для получения изображения, информация о фазе описывает, как каждый член ряда смещена относительно других терминов в частотном пространстве. В изображениях, края (надеюсь) настолько различны, что они хорошо характеризуются низкой точка зрения частоты в частотной области. Это происходит не потому, что они являются резкими переходами, а потому, что они есть, например, много черной область, прилегающей к много более светлой области. Рассмотрим одномерный кусочек ребра. Серый уровень равен нулю, то переходы и остается там. Визуализируйте синусоиду, что woud быть первым слагаемым приближением, где она пересекает среднюю точку при переходе сигнала на sin (0). Фазовый угол этого термина соответствует перемещению в пространстве изображений. Большой illustraion это доступноздесь . Если вы пытаетесь найти формы и можете сделать эталонную форму, это один из способов распознать их.

Ответил 01/01/2014 в 00:41
источник пользователем

голоса
1

Ответ Энтони судорога выглядел хорошо для меня. Как он упоминает DCT преобразует данные в частотной области. DCT широко используется при сжатии видео, как визуальная система человека должен менее чувствительна к высоким изменениям частоты, поэтому обнуления значения выше частот результатов в файл меньшего размера, с небольшим влиянием на восприятии человеческого в качестве видео.

С точки зрения использования ДКП для сравнения изображений, я предполагаю, что единственное реальное преимущество, если вы отсекли более высокие частотные данные и, следовательно, имеют меньший набор данных для поиска / матч. Что-то вроде Harr вейвлетов может дать лучшие результаты, совпадающие изображения.

Ответил 27/08/2008 в 12:33
источник пользователем

голоса
1

Я рекомендовал бы подбирая копию цифрового сжатия видео - это действительно хороший обзор алгоритмов сжатия для изображений и видео.

Ответил 10/08/2008 в 02:39
источник пользователем

голоса
1

Если я правильно помню, эта матрица позволяет сохранять данные в файл с компрессией.

Если вы читаете дальше, вы найдете зигзагообразный рисунок данных для чтения из этой окончательной матрицы. Наиболее важные данные находятся в верхнем левом углу, и не менее важно, в правом нижнем углу. Таким образом, если вы прекратите писать в какой-то момент и просто рассмотреть остальные, как 0, даже если они не являются, вы получите с потерями приближение изображения.

Количество значений Выбрасывая увеличивает сжатие за счет точности изображения.

Но я уверен, что кто-то может дать вам лучшее объяснение.

Ответил 07/08/2008 в 12:08
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more