Код документа: RU2407068C2
Настоящее изобретение относится к многоканальному кодированию и декодированию. Более конкретно, настоящее изобретение относится к устройству и способу для преобразования некоторого числа звуковых каналов в меньшее число звуковых каналов (кодирование) и устройству и способу для преобразования некоторого числа звуковых каналов в большее число звуковых каналов (декодирование).
Звуковые системы, использующие множество каналов, хорошо известны. Тогда как обычные стереосистемы используют только два звуковых канала, современные 5.1-системы используют 6 каналов: левый передний (lf), левый задний (lr), правый передний (rf), правый задний (rr), центральный (co) и низкочастотных эффектов (lfe или le). Большее число каналов является причиной увеличения количества звуковых данных, которые будут сохраняться и/или передаваться. Это увеличение данных привело к попыткам уменьшения количества данных с помощью кодирования.
Один из этих методов кодирования известен как кодирование Mid/Side (M/S), или кодирование Sum/Difference, и рассмотрен в работе J.D. Johnston и A.J. Ferreira «Sum-difference stereo transform coding», Proceedings of the International Conference on Acoustics and Speech Signal Processing (ICASSP), San Francisco, USA, 1992, pp. II 569-572. Кодирование Mid/Side обычно используют для кодирования пары стереосигналов. Используя кодирование M/S, звуковой сигнал, состоящий из первого (например, левого) сигнала l[n] и второго (например, правого) сигнала r[n], кодируется как суммарный сигнал m[n] и разностный (или остаточный) сигнал s[n]:
Для (почти) одинаковых сигналов l[n] и r[n] это дает высокую эффективность кодирования, так как соответствующий разностный сигнал s[n] близок к нулю, тогда как суммарный сигнал содержит практически всю энергию сигнала. Следовательно, в этой ситуации битовая скорость передачи данных, требуемая для кодирования суммарного и разностного сигналов, близка к битовой скорости передачи данных, требуемой для кодирования только одного канала.
В качестве альтернативы, процесс кодирования Mid/Side по формуле (1) может быть описан с помощью матрицы поворота:
Здесь левый и правый сигналы были повернуты на угол π/4. Суммарный сигнал может быть интерпретирован как проекция левых и правых отсчетов на прямую l = r, тогда как разностный (или остаточный) сигнал может быть интерпретирован как проекция левых и правых отсчетов на прямую l = −r.
Этот метод может быть обобщен с помощью разрешения поворота на углы, отличные от π/4. Для того чтобы минимизировать мощность сигнала в остаточном сигнале (т.е. максимизируя эффективность кодирования), для широкого класса входных сигналов угол поворота может, кроме того, быть зависящим от сигнала. Следующий унитарный поворот может быть применен к паре каналов:
где m'[n] и s'[n] представляют основной и остаточный сигналы соответственно и угол α выбирают так, чтобы минимизировать мощность остаточного сигнала, таким образом максимизируя мощность основного сигнала. Данный обобщенный метод поворота часто упоминается как анализ главных компонент (PCA).
Так как поворот по формуле (3) минимизирует мощность остаточного сигнала, обычно полагают, что остаточный сигнал содержит мало значимой для восприятия информации, в частности на высоких частотах. По этой причине традиционные системы кодирования отбрасывают остаточные сигналы, производимые при повороте по формуле (3) и при подобных преобразованиях.
Хотя вышеуказанные методы предназначены в первую очередь для стереосигналов, они могут применяться к звуковым сигналам, имеющим множество каналов, к таким как 5.1-сигналы, с помощью повторного сокращения пар сигналов до основного сигнала, который сохраняется и/или передается, и остаточного сигнала, который отбрасывается.
Отбрасывание остаточного сигнала, конечно, приводит к уменьшению данных. Однако авторы настоящего изобретения поняли, что только значительное уменьшение данных достигается тогда, когда остаточный сигнал содержит относительно большое количество информации. Отбрасывание остаточного сигнала в таких случаях неизбежно приводит к нежелательному воспринимаемому искажению звукового сигнала.
В устройствах декодирования обсуждавшиеся выше методы используются для восстановления исходных сигналов из кодированных сигналов. Если было использовано, например, кодирование M/S, чтобы воспроизвести пару исходных сигналов с помощью обратного поворота, требуются и основной сигнал, и остаточный сигнал. В устройствах декодирования предшествующего уровня техники остаточные сигналы не принимаются, и поэтому синтезируемый остаточный сигнал получают из каждого основного сигнала, используя декоррелятор. Хотя это и позволяет аппроксимировать исходные сигналы, форма волны синтезируемых остаточных сигналов обычно отличается от формы волны реальных остаточных сигналов. В результате будет иметься отличие между декодированными сигналами и исходными сигналами.
Задача настоящего изобретения как раз и состоит в том, чтобы преодолеть эти и другие проблемы предшествующего уровня техники и предоставить устройство кодирования и устройство декодирования, которые делают возможным улучшенное качество сигнала.
Соответственно, настоящее изобретение предоставляет устройство кодирования для преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число больше второго числа, причем устройство содержит по меньшей мере два блока преобразования, каждый для преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигналы, причем третий сигнал содержит большую часть сигнальной энергии первого и второго сигналов, и четвертый сигнал содержит остаток упомянутой сигнальной энергии; данное устройство кодирования выполнено с возможностью использования третьих сигналов для получения выходного сигнала, причем устройство кодирования, кроме того, выполнено с возможностью вывода четвертого сигнала.
С помощью вывода по меньшей мере одного четвертого сигнала, т.е. вышеупомянутого остаточного сигнала, вместо его отбрасывания декодером может быть произведено значительно лучшее восстановление исходного сигнала.
Если устройство кодирования содержит более двух блоков преобразования, четвертый сигнал предпочтительно выводить для каждого блока преобразования, хотя это и не является необходимым, четвертый сигнал выбранных блоков преобразования мог бы использоваться для улучшения качества сигнала в декодере. Отметим, что блоки преобразования могут быть установлены параллельно или последовательно (каскадно) и что блоки преобразования могут иметь более двух входных каналов, например три.
Хотя возможно выводить весь четвертый сигнал, т.е. для всей длительности первого и второго сигналов, предпочтительно выбрать временные сегменты, для которых четвертый сигнал должен выводиться. Более конкретно, с помощью выбора значимых для восприятия временных сегментов (например, временных кадров) емкость передачи или хранения, необходимая для передачи или сохранения четвертого(ых) сигнала(ов), снижается, в то же время все еще обеспечивая значительное улучшение качества сигнала по отношению к предшествующему уровню техники. Например, могут быть выбраны только временные сегменты, содержащие частоты ниже 5 кГц, используя, таким образом, частотно-зависимый выбор.
В дополнительном предпочтительном варианте осуществления выбор временных сегментов или частей сигналов выполняют с помощью пропускания в основном значимых для восприятия частей четвертых (т.е. остаточных) сигналов, ослабления менее значимых для восприятия частей четвертого сигнала и подавления наименее значимых частей четвертых сигналов. Т.е. части сигнала (или кадры) делят на по меньшей мере три группы: те части сигнала, которые, будучи наиболее значимыми для восприятия, пропускаются в основном без ослабления, те части сигнала, которые, будучи менее значимыми для восприятия, также пропускаются, но с ослаблением, и те части сигнала, которые, будучи наименее значимыми для восприятия, подавляются. Таким образом, достигается более гладкий переход между частями сигнала, имеющими каждая различную значимость, приводя к более высокому качеству сигнала.
Значимость для восприятия может быть определена рядом способов, например с помощью использования весовой функции, которая дает весовую (т.е. усиление или ослабление) оценку, зависящую от отношения, например отношения мощности четвертого сигнала и третьего сигнала блока преобразования в течение отдельного временного сегмента.
Вместо или вдобавок к выбору временного и/или частотного сегментов соответствующих каналов, также могут быть выбраны каналы, для которых четвертый сигнал является выходным. Если по меньшей мере два блока преобразования расположены каскадно, предпочтительно, чтобы блок преобразования, ближайший к выходной клемме устройства кодирования, выбирался для вывода его четвертого сигнала, тогда как четвертый сигнал одного или более далеких (в направлении обработки сигнала) блоков преобразования может быть отброшен. Другими словами, блоки преобразования, расположенные ниже (в направлении обработки сигнала), выбирают ранее других блоков преобразования для вывода их соответствующего четвертого сигнала. Авторы настоящего изобретения поняли, что четвертые сигналы, производимые наиболее близко к выходной клемме - т.е. на последней стадии - устройства кодирования обычно будут использоваться на первых стадиях устройства декодирования и поэтому будут иметь наибольшую значимость для качества декодированного сигнала. По этой причине предпочтительно, чтобы эти четвертые сигналы передавались, тогда как четвертые сигналы блоков преобразования, имеющих меньшую значимость, могут быть отброшены, в частности, когда доступная пропускная способность передачи не позволяет передачу всех четвертых сигналов.
Этот выбор блоков преобразования может быть временным или постоянным. Если выбор временный, все блоки преобразования могут быть снабжены блоком выбора, который может пропускать или блокировать соответствующий четвертый сигнал в зависимости от доступной пропускной способности передачи или других факторов. Если выбор постоянный, блоки выбора некоторых блоков преобразования, обычно самых дальних от выходной клеммы устройства, могут быть опущены.
Настоящее изобретение также предоставляет устройство декодирования для декодирования звуковых сигналов, которые были закодированы с использованием устройства кодирования, как определено выше. Соответственно, настоящее изобретение предоставляет устройство декодирования для преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число меньше второго числа, причем устройство содержит по меньшей мере два блока преобразования, каждый для преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигнал, причем первый сигнал содержит большую часть сигнальной энергии третьего и четвертого сигнала, и второй сигнал содержит остаток упомянутой сигнальной энергии; устройство, кроме того, содержит по меньшей мере один блок декорреляции для декорреляции первого сигнала с тем, чтобы создать синтезируемый второй сигнал; данное устройство декодирования, кроме того, выполнено с возможностью приема по меньшей мере одного дополнительного второго сигнала.
С помощью приема дополнительного второго сигнала (т.е. остаточного сигнала, называемого четвертым сигналом в устройстве кодирования), может быть достигнуто улучшенное качество декодированного звукового сигнала, так как любой синтезируемый остаточный сигнал, генерируемый в устройстве декодирования, обычно не идентичен исходному остаточному сигналу.
В предпочтительном варианте осуществления принятый второй сигнал объединяют с полученным синтезируемым вторым сигналом, так что второй сигнал, подаваемый на блок преобразования, является комбинацией двух сигналов. Это дает то преимущество, что синтезируемый остаточный сигнал всегда доступен также и для временных сегментов, для которых остаточный сигнал не передается. Для тех временных сегментов, для которых остаточный сигнал действительно передается, остаточный сигнал, используемый блоком преобразования, представляет собой комбинацию переданного остаточного сигнала и синтезируемого остаточного сигнала и будет поэтому только частично состоять из синтезируемого остаточного сигнала.
В предпочтительном варианте осуществления устройство декодирования снабжают блоками ослабления, управляемыми принятыми остаточными сигналами, для ослабления синтезируемых остаточных сигналов. Это дает более гладкий переход между выбранными и невыбранными остаточными сигналами и освобождает от всевозможных артефактов переключения. Более конкретно, это делает возможным, чтобы амплитуда каждого синтезируемого остаточного сигнала управлялась соответствующим принятым остаточным сигналом. Соответственно достигается существенно улучшенное смешивание синтезируемого остаточного сигнала и реально переданного остаточного сигнала.
Выше упоминалось кодирование M/S и PCA. В качестве альтернативы, или дополнительно, может использоваться метод амплитудно-зависимого кодирования.
Отметим, что настоящее изобретение относится к пространственному звуковому кодированию, т.е. звуковому кодированию, обычно затрагивающему более двух каналов, в противоположность стереокодированию, которое затрагивает только два канала.
Настоящее изобретение, кроме того, предоставляет способ преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число больше второго числа, причем способ включает по меньшей мере два этапа преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигнал, причем третий сигнал содержит большую часть сигнальной энергии первого и второго сигналов, и четвертый сигнал содержит остаток упомянутой сигнальной энергии, и этап использования третьих сигналов для получения выходного сигнала; данный способ включает, кроме того, этап вывода четвертого сигнала.
Настоящее изобретение еще, кроме того, предоставляет способ преобразования первого числа входных звуковых каналов во второе число выходных звуковых каналов, где первое число меньше второго числа, причем способ включает по меньшей мере два этапа преобразования первого сигнала и второго сигнала в третий сигнал и четвертый сигнал, причем первый сигнал содержит большую часть сигнальной энергии третьего и четвертого сигналов, и второй сигнал содержит остаток упомянутой сигнальной энергии, и этап получения второго сигнала из первого сигнала; данный способ включает, кроме того, этап приема дополнительного второго сигнала.
Способ может содержать дополнительный этап декорреляции первого сигнала, с тем чтобы создать получаемый синтезируемый второй сигнал. Предпочтительно, чтобы способ содержал еще один дополнительный этап ослабления синтезируемого второго сигнала, причем упомянутый этап управлялся соответствующим принятым вторым сигналом. Как преимущество, способ может содержать, помимо этого, дополнительные этапы объединения синтезируемого второго сигнала и принятого второго сигнала и использования объединенного сигнала на этапе преобразования.
Настоящее изобретение, кроме того, предоставляет компьютерный программный продукт для осуществления способа кодирования и/или декодирования, определенного выше. Компьютерный программный продукт может содержать набор выполняемых компьютером инструкций, сохраненных на носителе данных, таком как CD или DVD. Набор выполняемых компьютером инструкций, который дает возможность программируемому компьютеру осуществлять способы как определено выше, может также быть доступен для загрузки с удаленного сервера, например через Интернет.
Настоящее изобретение будет дополнительно объяснено ниже со ссылками на примеры вариантов осуществления, изображенные на сопроводительных чертежах.
На фиг.1 схематически показана часть устройства кодирования в соответствии с настоящим изобретением.
На фиг.2 схематически показана часть устройства декодирования в соответствии с настоящим изобретением.
На фиг.3 схематически показана функция выбора сигнала в соответствии с предшествующим уровнем техники.
На фиг.4 схематически показана первая функция выбора сигнала в соответствии с настоящим изобретением.
На фиг.5 схематически показана вторая функция выбора сигнала в соответствии с настоящим изобретением.
На фиг.6 схематически показан первый вариант осуществления устройства кодирования в соответствии с предшествующим уровнем техники.
На фиг.7 схематически показан первый вариант осуществления примера устройства декодирования в соответствии с предшествующим уровнем техники.
На фиг.8 схематически показан первый вариант осуществления устройства кодирования в соответствии с настоящим изобретением.
На фиг.9 схематически показан первый вариант осуществления устройства декодирования в соответствии с настоящим изобретением.
На фиг.10 схематически показан второй вариант осуществления устройства кодирования в соответствии с предшествующим уровнем техники.
На фиг.11 схематически показан второй вариант осуществления устройства декодирования в соответствии с предшествующим уровнем техники.
На фиг.12 схематически показан второй вариант осуществления устройства кодирования в соответствии с настоящим изобретением.
На фиг.13 схематически показан второй вариант осуществления устройства декодирования в соответствии с настоящим изобретением.
Обладающая признаками изобретения схема 10, показанная единственно с целью неограничивающего примера на фиг.1, содержит блок 12 преобразования 2-в-1 и блок 15 выбора и ослабления (S&A). Блок 12 преобразования может быть обычным блоком преобразования, выполненным с возможностью преобразования первой пары сигналов во вторую пару сигналов, причем вторая пара состоит из основного сигнала, содержащего большую часть энергии сигнала, и остаточного сигнала, содержащего остающуюся энергию сигнала. Вторая пара сигналов (т.е. основной и остаточный сигналы) могут быть получены из первой пары, используя поворот сигнала или подобный метод, например, используя вышеприведенную формулу (3).
В примере на фиг.1 блок 12 преобразования принимает левый сигнал l[k] и правый сигнал r[k], которые вместе составляют стереосигнал. Индекс k представляет полосу частот или элемент разрешения по частоте, сигналы l[k] и r[k] предпочтительно получают из временных сигналов l[n] и r[n], с использованием оконного преобразования Фурье (STFT) или подобного преобразования. Соответственно сигналы l[k] и r[k] представляют частотные компоненты временного сегмента, такого как временной кадр.
В схемах предшествующего уровня техники основной сигнал m[k] используют для кодирования, в то время как остаточный сигнал s[k] отбрасывают, причем блок 12 преобразования производит основной сигнал m[k] и набор параметров (Pars), связанный с преобразованием. Европейская заявка на патент EP 04103168.3 (PHNL 040762), зарегистрированная 05 июля 2004, описывает схему кодера, в котором используют часть остаточного сигнала s[k]. Более конкретно, в схеме более ранней заявки используют селектор, который выбирает значимые для восприятия части остаточного сигнала, отбрасывая в то же время незначимые для восприятия части. Соответственно некоторые части (которые могут быть частотными представлениями временных кадров) или выбирают, или отбрасывают. Европейская заявка на патент EP 04103168.3, полное содержание которой настоящим включается в данный документ, описывает выбор частей остаточного сигнала в стереокодере и -декодере. Однако выбор частей остаточного сигнала в многоканальном устройстве кодирования и декодирования, таком как схема 5.1, не описывается.
Выбор в соответствии с вышеупомянутой европейской заявкой на патент схематически иллюстрируется на фиг.3, которая изображает весовую функцию W'. Вес w, назначенный частям остаточного сигнала, зависит от фактора значимости z, который может быть отношением мощности остаточного сигнала s[k] к мощности основного сигнала m:z = P(s[k])/P(m[k]), или любым другим фактором, указывающим на (относительную) значимость для восприятия остаточного сигнала, в частности, по сравнению с основным сигналом. Когда относительная мощность остаточного сигнала превышает некоторое пороговое значение z0, весовой фактор w приравнивают 1, что означает, что часть остаточного сигнала полностью кодируют и передают. Когда относительная мощность остаточного сигнала меньше порогового значения z0, весовой фактор w равен 0, и значимую часть остаточного сигнала отбрасывают.
Авторы настоящего изобретения поняли, что этот выбор является слишком грубым и может вызывать слышимые артефакты переключения. В частности качество декодированного сигнала может быть улучшено без значительного увеличения количества переданных данных. Соответственно, настоящее изобретение обеспечивает выбор (частей) остаточного сигнала, который проводит различие не только между значимыми и незначимыми частями, но также опознает менее значимые части: части, которые не являются такими же значимыми, как (наиболее) значимые части, но также не являются незначимыми.
Примеры весовой функции W в соответствии с настоящим изобретением схематически показаны на фиг.4 и 5. В примере по фиг.4 весовая функция W имеет два пороговых значения z0 и z1. Если z меньше, чем z0, весовой фактор w равен нулю. Если z больше, чем z0, но меньше, чем z1, весовой фактор w (в данном примере) равен 0,5 (можно понять, что другие значения, например 0,25 или 0,67 также могут быть использованы). Если z больше, чем z1, w равно единице. В примере по фиг.4 поэтому используются три различных значения весового фактора.
В примере по фиг.5 весовой фактор w постепенно увеличивается от 0 (при z = z0) через 0,5 (при z = z1) до 1,0 (при z = 1). В результате только наиболее значимые части сигнала (z = 1) имеют весовой фактор, равный 1, и все части сигнала, имеющие фактор значимости z больше, чем z0, имеют ненулевой весовой фактор w. В примере по фиг.5 используют теоретически бесконечное число различных значений весового фактора. Постепенное увеличение весовой функции W приводит в результате к гладкому «переключению» между разными уровнями ослабления.
Конечно, могут быть использованы и другие функции, нежели те, что изображены на фиг.4 и 5. Вообще, весовая функция будет иметь то свойство, что те части остаточного сигнала, которые не дают значительного вклада в восстановление исходной пары сигналов l[k], r[k], удаляются, части остаточного сигнала, имеющие среднюю значимость, ослабляются, и очень значительные части пропускаются по существу не ослабленными.
Отметим, что вместо отношений мощности могут использоваться другие критерии, например ширина спектра сигнала. Например, можно принять решение выбирать части сигнала, имеющие частоты, меньшие, чем некоторый порог частоты, независимо от их мощности сигнала.
Блок 15 выбора и ослабления (S&A) в соответствии с настоящим изобретением, показанный на фиг.1, не только выбирает части сигнала, но также ослабляет некоторые выбранные части сигнала. Вдобавок к остаточному сигналу s[k] блок 15 выбора и ослабления принимает основной сигнал m[k]. В показанном варианте осуществления блок 15 выбора и ослабления также принимает параметры сигнала (Pars), производимые блоком 12 преобразования 2-1, и пару исходных сигналов l[k] и r[k]. Подача пары исходных сигналов в блок 15 выбора и ослабления предоставляет возможность включения относительных мощностей (или других характеристик) пары исходных сигналов в принятие решений о выборе и ослаблении, вдобавок к или вместо относительных мощностей (или других характеристик) основного сигнала и остаточного сигнала. Подача параметров сигнала в блок 15 выбора и ослабления позволяет, чтобы дополнительные характеристики использовались в процессе выбора и ослабления.
Блок 15 выбора и ослабления выдает взвешенный остаточный сигнал ws[k], который может быть закодирован вместе с основным сигналом m[k]. Следует понимать, что взвешенный остаточный сигнал ws[k] содержит меньше информации, чем исходный остаточный сигнал s[k], и поэтому снижает битовую скорость передачи данных, необходимую для передачи кодированной пары сигналов. С другой стороны включение взвешенного остаточного сигнала ws[k] предлагает значительное улучшение качества сигнала по сравнению со схемами предшествующего уровня техники, в которых остаточный сигнал отбрасывают. Блок 15 выбора и ослабления использует весовую функцию W, как показано на фиг.4 и 5, или любое эквивалентное средство для выбора и (там, где уместно) для ослабления остаточного сигнала s[k].
Схема по настоящему изобретению для применения в устройстве декодирования схематически изображена на фиг.2. Не более чем иллюстративная схема 20 содержит блок 24 микширования и блок 29 взвешивания. Схема 20 принимает основной сигнал m[k], взвешенный остаточный сигнал ws[k] и параметры сигнала (Pars). Основной сигнал m[k] подают на декоррелятор (D) 23, чтобы получить синтезируемый остаточный сигнал sd[k], как это делают в схемах предшествующего уровня техники, где остаточный сигнал не передают. Этот синтезируемый остаточный сигнал sd[k] подают на аттенюатор 26, где он ослабляется под управлением взвешенного остаточного сигнала ws[k]. Параметры сигнала могут также подаваться на аттенюатор 26 для дополнительного управления ослаблением синтезируемого остаточного сигнала. Получающийся в результате ослабленный синтезируемый остаточный сигнал и взвешенный остаточный сигнал объединяют в блоке 27 объединения, который в настоящем варианте осуществления состоит из сумматора. Получающийся в результате объединенный остаточный сигнал sh[k] подают на вход блока 24 микширования. Основной сигнал m[k] подают на другой вход блока 24 микширования, тогда как параметры сигнала (например включающие IID и ICC) подают на управляющий вход блока 24 микширования для преобразования пары сигналов m[k], sh[k] в пару сигналов l'[k], r'[k], например, с помощью поворота сигнала, как выражено формулой (3) выше, или с помощью любого другого подходящего способа.
Соответственно в схеме 20 настоящего изобретения остаточный сигнал sh[k], подаваемый на блок 24 микширования, представляет собой комбинацию (декодированного) остаточного сигнала ws[k] и ослабленного варианта синтезируемого остаточного сигнала. Если (переданный) остаточный сигнал ws[k] недоступен, используют декоррелированный сигнал sd[k], по существу неослабленный. Если остаточный сигнал ws[k] доступен, декоррелированный сигнал sd[k] ослабляют соответствующим образом.
Устройства кодирования и декодирования в соответствии с настоящим изобретением будут обсуждаться ниже со ссылками на фиг.8, 9, 12 и 13. Однако, сначала устройство кодирования и устройство декодирования в соответствии с предшествующим уровнем техники будут обсуждаться со ссылками на фиг.6 и 7.
Устройство кодирования предшествующего уровня техники 1' разработано для кодирования шестиканального входного звукового сигнала, такого как так называемый 5.1-сигнал, в двухканальный выходной звуковой сигнал. В показанном примере входными каналами являются lf (левый передний), lr (левый задний), rf (правый передний), rr (правый задний), co (центральный) и le (низкочастотных эффектов). Все эти сигналы, как предполагается, являются цифровыми временными сигналами и могут быть записаны как lf[n], lr[n] и т.д., где n является номером отсчета.
Входные звуковые сигналы вводят в блоки 11 сегментации и преобразования (T), которые делят сигналы на временные сегменты, которые затем преобразуют например в частотное пространство, используя FFT (быстрое преобразование Фурье). Временные сегменты, на которые делят временные сигналы, предпочтительно, чтобы частично перекрывались, как это хорошо известно в данной области техники.
Блоки 11 сегментации и преобразования производят преобразованные сигналы Lf, Lr, Rf, Rr, Co и Le, которые являются представлениями в частотном пространстве временных сегментов, и могут быть записаны как Lf[k], Lr[k] и т.д., где k является частотным индексом. Эти преобразованные сигналы подают на преобразователи 2-в-1 12, которые преобразуют каждую пару входных сигналов (например Lf и Lr) в основной сигнал (например L) и остаточный сигнал, наряду с тем производя связанный набор параметров сигнала (например PS1). Это преобразование обычно включает в себя поворот сигналов, так чтобы основной сигнал содержал большую часть энергии сигнала, тогда как остаточный сигнал содержал остаток энергии сигнала.
В устройстве предшествующего уровня техники по фиг.6 остаточный сигнал отбрасывают, тогда как основной сигнал подают на блок 13 преобразования 3-в-2. Как можно видеть, каждый блок 12 преобразования 2-в-l производит основной сигнал L, R и C и связанный набор параметров PS1, PS2 и PS3 соответственно. Набор параметров содержит параметры, относящиеся к преобразованию, осуществляемому блоком 12, такие как угол поворота α, параметр межканальных разностей интенсивности IID и/или межканальный корреляционный параметр ICC.
Блок 13 преобразования 3-в-2 преобразовывает три входных сигнала L, R и C в два выходных сигнала L0 и R0, наряду с тем производя связанный набор параметров PS4. Отметим, что входные сигналы L и R могут соответственно быть отождествлены с первым и вторым сигналами, определенными выше, тогда как сигналы L0 и C0 могут соответственно быть отождествлены с третьим и четвертым сигналами, определенными выше.
Сигнал (в преобразованном пространстве) L0 и R0 подают на блок 14 обратного преобразования (T-1) и перекрывания-и-сложения (OLA), который выдает сигналы во временном пространстве l0 и r0. Обратное преобразование является дополнительным к преобразованию блока 11 и обычно является обратным FFT. Операция перекрывания-и-сложения является по существу обращением операции сегментирования блока 11 и складывает частично перекрывающиеся временные кадры.
Таким образом, можно видеть, что кодер предшествующего уровня техники 1' преобразует шестивходные звуковые (временные) сигналы в двухвыходные звуковые (временные) сигналы плюс четыре набора параметров. В каждом блоке 12 или 13 преобразования отбрасывают выходной сигнал для уменьшения числа сигналов и, следовательно, требуемой скорости передачи.
Совместимое устройство декодирования в соответствии с предшествующим уровнем техники изображено на фиг.7. Устройство 2' декодирования, которое разработано для преобразования двух входных звуковых каналов в шесть выходных звуковых каналов, содержит блок 21 сегментации и преобразования (T) для сегментации и преобразования входных (временных) сигналов l0 и r0. Как и в устройстве кодирования, может использоваться оконное преобразование Фурье (STFT). Получающиеся в результате (в преобразованном пространстве) сигналы L0 и R0 подают на блок 22 преобразования 2-в-3, к которому также доставляют (четвертый) набор параметров PS4 (соответствует фиг.6). Блок 22 преобразования 2-в-3 преобразует два сигнала L0 и R0 в три сигнала L, R и C, каждый из которых подают на декорреляционный (D) блок 23 и блок 24 микширования (M). Блок 23 декорреляции производит декоррелированные варианты Ld, Rd и Cd сигналов L, R и C соответственно. Эти декоррелированные сигналы служат в качестве синтезируемых остаточных сигналов, эффективно заменяя сигналы, которые были отброшены в устройстве кодирования.
Каждый из трех блоков 24 микширования принимает соответствующий набор параметров PS1, PS2 и PS3, который управляет операцией (повышающего) микширования. Если применяют PCA (анализ главных компонент), поворот сигнала осуществляется на угол α, содержащийся в наборах параметров сигнала. Другими подходящими параметрами являются, например, IID и ICC, упомянутые выше. Не все из этих параметров необходимы, угол может быть получен из параметров IID и ICC, используя:
и
Сигналы, произведенные блоками 24 микширования, являются парами сигналов Lf и Lr, Rf и Rr, и Co и Le соответственно. Над этими сигналами осуществляется обратное преобразование (T-1) блоками 25 обратного преобразования и перекрывания-и-сложения, которые выполняют соответствующее обратное преобразование, такое как обратное FFT, и затем воссоздают пары временных сигналов lf и lr, rf и rr, и co и le. Таким образом, можно видеть, что декодер 2' предшествующего уровня техники преобразовывает пару входных звуковых сигналов (l0 и r0) в шесть выходных звуковых сигналов.
Недостаток известного устройства 2' декодирования состоит в том, что качество выходного сигнала неизбежно ограничено. Кроме того, любое увеличение доступной емкости передачи не ведет к соответствующему увеличению качества выходного сигнала. Это главным образом происходит из-за того факта, что остаточные сигналы, используемые блоком 24 микширования, являются синтезируемыми, т.е. полученными из основных сигналов. Настоящее изобретение, как уже продемонстрировано со ссылкой на фиг.1-5, решает эти проблемы, передавая также выбранные части остаточного сигнала.
Устройство 1 кодирования в соответствии с настоящим изобретением, изображенное на фиг.8, подобно устройству 1' кодирования предшествующего уровня техники, показанному на фиг.6, за исключением оперирования с остаточными сигналами, произведенными тремя блоками 2-в-1 12 и одним блоком 3-в-2 13. В устройстве предшествующего уровня техники остаточные сигналы, произведенные с помощью операций обработки сигнала (обычно поворота сигнала) блоков 12, отбрасывают, отсюда ссылка на блоки «2-в-1». В устройстве по настоящему изобретению, однако, эти остаточные сигналы не отбрасываются, а выводятся блоками 12 и потом обрабатываются блоками 15 выбора и ослабления. Это соответствует схеме 10 фиг.1, которая содержит блок 2-в-1 12 и блок 15 выбора и ослабления. Поэтому следует понимать, что преобразованные входные сигналы (такие как Lf и Lr), произведенные блоком 11 сегментации и преобразования, и/или параметры сигнала (обозначенные на фигуре 8 PS1 … PS3), произведенные блоком 12, могут также быть поданы на блок 15 выбора и ослабления.
Каждый блок 15 выбора и ослабления производит соответствующий остаточный сигнал Ls, Rs и Cs, который выводится устройством 1 кодера. Специалисты в данной области техники поймут, что эти остаточные сигналы, так же как и наборы параметров PS1, …, PS4, могут быть соответствующим образом кодированы и/или квантованы перед тем, как быть выведенными устройством кодирования.
Этот дополнительный остаточный канал E0, произведенный блоком 3-в-2 13, может факультативно быть также выведен. Этот остаточный канал E0 представляет ошибку предсказания остаточного канала C0, упомянутого со ссылкой на фиг.6. Ошибка предсказания равна разности остаточного канала C0 и его предсказания, которое в свою очередь может быть линейной комбинацией L0 и R0. Дополнительный остаточный канал E0 предпочтительно, чтобы не подвергался операции выбора и ослабления (блок 15), хотя это, конечно, возможно. Блок 14 обратного преобразования (T-1) и перекрывания-и-сложения выводит, в показанном варианте осуществления, остаточный (временной) сигнал e0 вдобавок к обычно выводимым (временным) сигналам l0 и r0.
Дополнительные остаточные каналы могут использоваться, если доступна дополнительная емкость передачи (битовый бюджет). Соответственно, дополнительная емкость передачи может быть распределена по всем дополнительным остаточным каналам. Могут быть сформулированы некоторые предпочтения распределения:
дополнительные каналы выделяют симметрично в левосторонних модулях звуковых каналов и правосторонних модулях звуковых каналов (модуль является, например, рядом блоков, связанных с каналом);
дополнительные каналы выделяют сначала в модулях, наиболее близких к выходу устройства кодирования; и
доступная емкость передачи распределяется по как можно большему числу дополнительных каналов.
Кроме того, ширина полосы частот дополнительных каналов может быть ограничена, например, ограничена 2 кГц.
Пример совместимого устройства декодирования в соответствии с настоящим изобретением показан на фиг.9. Обладающее признаками изобретения устройство 2 декодирования подобно устройству 2' декодирования предшествующего уровня техники по фиг.7, за исключением блоков 26 и 27, применения дополнительных остаточных каналов Ls, Rs и Cs, и необязательного применения дополнительного остаточного канала e0.
Как показано на фиг.9, устройство 2 декодирования по фиг.9 содержит три блока взвешивания (29 на фиг.2), причем каждый блок взвешивания содержит блок 23 декорреляции, блок 26 ослабления и комбинационный блок 27. Каждый из этих блоков взвешивания принимает соответствующий остаточный сигнал Ls, Rs и Cs вместе с соответствующим набором параметров PS1, PS2 и PS3. Блоки 29 взвешивания, каждый из которых состоит из блока 23 декорреляции, управляемого блока 26 ослабления и комбинационного блока 27, позволяют значительно улучшить качество декодированных сигналов lf, lr, …, le, обеспечивая взвешивание синтезируемых остаточных сигналов и переданных остаточных сигналов.
Следует понимать, что устройство 2 декодирования не только способно декодировать сигналы, которые были кодированы устройством 1 кодирования по фиг.8, но также и другими устройствами кодирования, которые производят остаточные сигналы. Другими словами, не является необходимым, чтобы эти остаточные сигналы были взвешены схемой 10 как изображено на фиг.1, хотя такое взвешивание было бы преимущественным. Устройство 2 декодирования поэтому способно декодировать сигналы, которые были кодированы устройствами кодирования предшествующего уровня техники, например устройством кодирования предшествующего уровня техники по фиг.6.
Могут быть рассмотрены варианты осуществления устройства 2 декодирования по настоящему изобретению, в которых блоки 26 ослабления опущены, и декоррелированные варианты каналов L, R и C подают непосредственно на комбинационные блоки 27. В таких вариантах осуществления, которые по-прежнему находились бы в объеме настоящего изобретения, применение дополнительных остаточных каналов Ls, Rs и Cs по-прежнему приводило бы к улучшенному качеству сигнала по сравнению с декодером 2' предшествующего уровня техники, показанным на фиг.7. Однако, предусматривая блоки 26 ослабления, получают больше пользы от дополнительных остаточных каналов Ls, Rs и Cs.
Необязательный дополнительный остаточный канал e0 может быть использован в блоке 2-в-3 22 в качестве третьего канала, таким образом предоставляя три вместо двух входных каналов. Это улучшает качество сигнала в случае, когда сигналы L, R и C получают из (преобразованных) входных каналов L0 и R0, и набора параметров PS4, например, с помощью подгонки предсказания остаточного канала C0.
Устройство 1' кодирования 6-в-1 предшествующего уровня техники показано на фиг.10. Это устройство кодирования содержит три блока 11 сегментации и преобразования, пять блоков 2-в-1 12, 13a и 13b и блок 14 обратного преобразования и перекрывания-и-сложения. При сравнении с устройством 1' кодирования предшествующего уровня техники по фиг.6 можно увидеть, что первые каскады (блоки 11 и 12) идентичны, тогда как блок 3-в-2 13 по фиг.6 заменен двумя блоками 2-в-1 13a и 13b, которые вместе производят одиночный сигнал M и два набора параметров PS4 и PS5. Одиночный (в преобразованном пространстве) сигнал M обратно преобразуют и предпочтительно также подвергают операции перекрывания-и-сложения для производства одиночного выходного звукового (временного) сигнала m, который может быть сохранен и/или передан.
Соответствующее устройство декодирования 1-в-6 предшествующего уровня техники изображено на фиг.11. Устройство 2' декодирования по фиг.11 декодирует одиночный входной звуковой (временной) сигнал m в шесть выходных звуковых (временных) сигналов, используя пять блоков 22a, 22b, и 24 размикширования (M). Сравнив с устройством декодирования 2-в-6 предшествующего уровня техники по фиг.7, можно увидеть, что блок 2-в-3 22 (повышающего микширования) был заменен блоками 22a и 22b повышающего микширования, каждый из которых принимает соответствующий набор параметров PS5, PS4 для преобразования одиночного входного сигнала m в три промежуточных сигнала L, R и C.
Устройство 1' кодирования предшествующего уровня техники по фиг.10 может в соответствии с настоящим изобретением быть модифицировано, чтобы создать обладающее признаками изобретения устройство кодирования 6-в-1 1 по фиг.12. В не более чем иллюстративном варианте осуществления по фиг.12 блоки 15, 16a и 16b выбора и ослабления (S&A) были добавлены для создания дополнительных остаточных каналов Ls, Rs, Cs, LRs и Ms. Соответственно, устройство 1 кодирования по фиг.12 создает вдобавок к выходному сигналу m пять наборов параметров PS1 … PS5 и пять остаточных каналов Ls, Rs, Cs, LRs и Ms, причем остаточные каналы предпочтительно являются взвешенными.
Как уже указывалось выше, блоки 15 выбора и ослабления могут быть опущены, таким образом предоставляя дополнительные каналы Ls, Rs и Cs, которые не являются взвешенными. В некоторых вариантах осуществления блоки 16a и 16b выбора и ослабления могут быть опущены. Однако, предпочтительно, чтобы все блоки S&A 15, 16a и 16b присутствовали, как изображено на фиг.12.
Также можно выбирать остаточные каналы из пяти имеющихся остаточных каналов, например, когда емкость передачи недостаточна. В этом случае предпочтительно выбрать и передавать остаточные каналы, которые наиболее близки к выходной клемме устройства 1 кодирования, т.е. наиболее близки к блоку 14 преобразования. Эти остаточные каналы являются первыми каналами, которые будут использоваться в соответствующем устройстве декодирования, и поэтому имеют наибольшее влияние на процесс декодирования и на качество декодированных сигналов. В примере по фиг.12 остаточный канал Ms, созданный блоком 2-в-1 13b, был бы выбран сначала и затем остаточный канал LRs, созданный блоком 2-в-1 13a. Только когда доступна большая емкость передачи, выбирались бы остаточные каналы Ls, Rs и/или Cs.
Совместимый декодер 1-в-6 изображен на фиг.13. В не более чем иллюстративном варианте осуществления по фиг.13 одиночный входной звуковой (временной) канал m преобразуют в шесть выходных звуковых (временных) каналов с использованием пяти наборов параметров PS1 … PS5 и пяти остаточных каналов Ms, LRs, Ls, Rs и Cs. Каждый из остаточных каналов обрабатывают с использованием схемы 20, как изображено на фиг.2, причем каждая схема содержит блок 23 (или 23a/b) декорреляции, блок 26 (или 26a/b) ослабления, комбинационный блок 27 и блок 22a, 22b или 24 повышающего микширования. Блоки ослабления и комбинационные блоки дают возможность, чтобы остаточные каналы управляли амплитудами синтезируемых остаточных каналов и предоставляли соответствующую смесь принятых остаточных каналов и синтезируемых остаточных каналов. Соответственно, в показанном примере каждый блок преобразования выполнен с возможностью приема соответствующего второго сигнала. Это, однако, не является необходимым, и только выбранное число блоков 24 преобразования могли бы быть выполненными с возможностью приема второго сигнала, например только блоки 22a и 22b преобразования.
Настоящее изобретение основано на понимании того, что при кодировании остаточный сигнал может быть подразделен на по меньшей мере три категории: значимый для восприятия, менее значимый и не значимый и что остаточный сигнал может быть ослаблен соответствующим образом. Настоящее изобретение извлекает пользу из дальнейшего понимания того, что при декодировании декодированный остаточный сигнал может быть использован для управления ослаблением синтезируемого остаточного сигнала для создания восстанавливаемого остаточного сигнала.
Настоящее изобретение может быть использовано в любом приложении, касающемся звукового кодирования, например в межсетевом радио, межсетевой потоковой передаче данных, распространении электронной музыки (EMD), твердотельных (например MP3 или AAC) аудиоплеерах, потребительских аудиосистемах, профессиональных аудиосистемах и т.д.
Отметим, что любые термины, использованные в этом документе, не должны толковаться так, чтобы ограничивать объем настоящего изобретения. В частности слова «содержат(ит)» и «содержащий» не предназначены для исключения каких-либо элементов, специально не заявленных. Одиночные элементы (контура) могут быть заменены множественными элементами (контура) или их эквивалентами.
Специалистам в данной области техники следует понимать, что настоящее изобретение не ограничено вариантами осуществления, изображенными выше, и что множество модификаций и дополнений может быть сделано, не уходя из объема изобретения, как определяется в прилагаемой формуле изобретения.
Устройство (1) кодирования для преобразования первого числа (М) входных аудиоканалов во второе, меньшее, число (N) выходных аудиоканалов содержит по меньшей мере один блок (12) преобразования для преобразования первого сигнала (Lf; Rf; Co) и второго сигнала (Lr; Rr; Le) в третий сигнал (L; R; С) и четвертый сигнал (Ls; Rs; Cs). Третий, основной, сигнал содержит большую часть энергии первого и второго сигнала, а четвертый, остаточный, сигнал содержит остаток упомянутой энергии. Устройство кодирования выполнено с возможностью использования третьего сигнала (L; R; С) для получения выходного сигнала и с возможностью вывода четвертого сигнала (Ls; Rs; Cs). Устройство (2) декодирования для преобразования первого числа (N) входных аудиоканалов во второе, большее число (М) выходных аудиоканалов содержит, по меньшей мере, один блок (24) преобразования, для преобразования первого сигнала (L; R; С) и второго сигнала (Ld; Rd; Ld) в третий сигнал (Lf, Rf; Co) и четвертый сигнал (Lr; Rr; Le). Первый, основной, сигнал содержит большую часть энергии третьего и четвертого сигнала, а второй, остаточный, сигнал содержит остаток упомянутой энергии. Устройство кодирования выполнено с возможностью приема, по меньшей мере, одного второго сигнала (Ld; Rd; Cd). Технический результат - улучшение качества декодированного аудиосигнала. 6 н. и 9 з.п. ф-лы, 13 ил.