Мастеринг в зворотну сторону: чи можна збільшити динамічний діапазон стислих записів? Компресія звуку: принцип і настройка Фактори, що обмежують динамічний діапазон.

Жарознижуючі засоби для дітей призначаються педіатром. Але бувають ситуації невідкладної допомоги при лихоманці, коли дитині потрібно дати ліки негайно. Тоді батьки беруть на себе відповідальність і застосовують жарознижуючі препарати. Що дозволено давати дітям грудного віку? Чим можна збити температуру у дітей старшого віку? Які ліки найбезпечніші?

Ця група методів заснована на тому, що передаються сигнали піддаються нелінійним перетворенням амплітуди, причому в передавальною і приймальною частинах нелінійності взаімообратних. Наприклад, якщо в передавачі використовується нелінійна функція Öu, в приймальнику - u 2. Послідовне застосування взаімообратних функцій призведе до того, що в цілому перетворення залишається лінійним.

Ідея нелінійних методів стиснення даних зводиться до того, що передавач може при тій же амплітуді вихідних сигналів передати більший діапазон зміни переданого параметра (тобто, більший динамічний діапазон). динамічний діапазон- це виражене в відносних одиницях або децибеллах відношення найбільшої допустимої амплітуди сигналу до найменшої:

;	(2.17)
.	(2.18)

Природне бажання збільшити динамічний діапазон за допомогою зменшення U min обмежується чутливістю апаратури і зростанням впливу перешкод і власних шумів.

Найбільш часто стиснення динамічного діапазону здійснюється за допомогою пари взаімообратних функцій логарифмирования і потенціювання. Перша операція зміни амплітуди називається компресією(Стисненням), друга - експандуванні(Розтягуванням). Вибір саме цих функцій пов'язаний з їх найбільшою можливістю компресії.

У той же час ці методи мають і недоліки. Перший з них полягає в тому, що логарифм малого числа негативний і в межі:

тобто, чутливість дуже нелінійна.

Для зменшення цих недоліків обидві функції модифікують зміщенням і аппроксимацией. Наприклад, для телефонних каналів аппроксимированная функція має вигляд (тип А,):

причому А = 87,6. Виграш від стиснення при цьому становить 24дБ.

Стиснення даних шляхом нелінійних процедур реалізується аналоговими засобами з великими похибками. Застосування цифрових засобів може істотно підвищити точність або швидкодія перетворення. При цьому пряме застосування засобів обчислювальної техніки (тобто, безпосереднє обчислення логарифмів і експонент) дасть не кращий результат зважаючи на низький швидкодії і накопичується похибки обчислення.

Стиснення даних шляхом компресії через обмеження по точності використовується в невідповідальних випадках, наприклад, для передачі мови по телефонних і радіоканалах.

ефективне кодування

Ефективні коди були запропоновані К. Шенноном, Фано і Хафманом. Сутність кодів полягає в тому, що вони нерівномірні, тобто з неоднаковим числом розрядів, причому довжина коду обернено пропорційна ймовірності його появи. Ще одна чудова особливість ефективних кодів - вони не вимагають роздільників, тобто спеціальних символів, які поділяють сусідні кодові комбінації. Це досягається при дотриманні простого правила: більш короткі коди не є початком більш довгих. В цьому випадку суцільний потік двійкових розрядів однозначно декодується, оскільки декодер виявляє спочатку коротші кодові комбінації. Ефективні коди довгий час були чисто академічними, але останнім часом успішно використовуються при формуванні баз даних, а також при стисненні інформації в сучасних модемах і в програмних архіваторах.

З огляду на нерівномірності вводять середню довжину коду. Середня довжина - математичне очікування довжини коду:

причому, l ср прагне до H (x) зверху (тобто l ср> H (x)).

Виконання умови (2.23) посилюється при збільшенні N.

Існує два різновиди ефективних кодів: Шеннона-Фано і Хафмана. Розглянемо їх отримання на прикладі. Припустимо, ймовірності символів в послідовності мають значення, наведені в таблиці 2.1.

Таблиця 2.1.

ймовірності символів

N
p i	0.1	0.2	0.1	0.3	0.05	0.15	0.03	0.02	0.05

Символи ранжуються, тобто представляються в ряд по спадаючій ймовірностей. Після цього за методом Шеннона-Фано періодично повторюється наступна процедура: вся група подій ділиться на дві підгрупи з однаковими (або приблизно однаковими) сумарними ймовірностями. Процедура триває до тих пір, поки в черговий підгрупі не залишиться один елемент, після чого цей елемент усувається, а з рештою зазначені дії тривають. Це відбувається до тих пір, поки в останніх двох підгрупах не залишиться по одному елементу. Продовжимо розгляд нашого прикладу, яке зведено в таблиці 2.2.

Таблиця 2.2.

Кодування за методом Шеннона-Фано

N	P i
4	0.3		I
	0.2	I	II
6	0.15		I	I
	0.1			II
1	0.1			I	I
9	0.05	II			II
5	0.05		II		I
7	0.03			II	II	I
8	0.02					II

Як видно з таблиці 2.2, перший символ з імовірністю p 4 = 0.3 брав участь в двох процедурах розбиття на групи і обидва рази потрапляв в групу з номером I. Відповідно до цього він кодується двухразрядного кодом II. Другий елемент на першому етапі розбиття належав групі I, на другому - групі II. Тому його код 10. Коди інших символів в додаткових коментарів не потребують.

Зазвичай нерівномірні коди зображують у вигляді кодових дерев. Кодова дерево - це граф, який вказує дозволені кодові комбінації. Попередньо задають напрямки ребер цього графа, як показано на рис.2.11 (вибір напрямків довільний).

За графу орієнтуються в такий спосіб: складають маршрут для виділеного символу; кількість розрядів для нього дорівнює кількості ребер в маршруті, а значення кожного розряду одно направленням відповідного ребра. Маршрут складається з вихідної точки (на кресленні вона позначена літерою А). Наприклад, маршрут в вершину 5 складається з п'яти ребер, з яких все, крім останнього, мають напрям 0; отримуємо код 00001.

Обчислимо для цього прикладу ентропію і середню довжину слова.

H (x) = - (0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0.03 log 0.03 + 0.02 log 0.02) = 2.23 біт

l ср = 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

Як видно, середня довжина слова близька до ентропії.

Коди Хафмана будуються за іншим алгоритмом. Процедура кодування складається з двох етапів. На першому етапі послідовно проводять одноразові стиснення алфавіту. Одноразове стиснення - заміна двох останніх символів (з нижчими ймовірностями) одним, з сумарною ймовірністю. Стиснення проводять до тих пір, поки не залишиться два символу. При цьому заповнюють таблицю кодування, в якій проставляють результуючі ймовірності, а також зображують маршрути, за якими нові символи переходять на наступний етап.

На другому етапі відбувається власне кодування, яке починається з останнього етапу: першому з двох символів привласнюють код 1, другому - 0. Після цього переходять на попередній етап. До символів, які не брали участі в стисненні на цьому етапі, приписують коди з наступного етапу, а до двох останніх символів двічі приписують код символу, отриманого після склеювання, і дописують до коду верхнього символу 1, нижнього - 0. Якщо символ далі в склеюванні НЕ бере участь, його код залишається незмінним. Процедура триває до кінця (тобто до першого етапу).

У таблиці 2.3 показано кодування за алгоритмом Хафмана. Як видно з таблиці, кодування здійснювалося за 7 етапів. Зліва вказані ймовірності символів, праворуч - проміжні коди. Стрілками показані переміщення новостворених символів. На кожному етапі два останніх символу відрізняються тільки молодшим розрядом, що відповідає методиці кодування. Обчислимо середню довжину слова:

l ср = 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 = 2.7

Це ще ближче до ентропії: код ще більш ефективний. На рис. 2.12 приведено дерево коду Хафмана.

Таблиця 2.3.

Кодування за алгоритмом Хафмана

N	p i	код	I	II	III	IV	V	VI	VII
	0.3		0.3 11	0.3 11	0.3 11	0.3 11	0.3 11	0.4 0	0.6 1
	0.2		0.2 01	0.2 01	0.2 01	0.2 01	0.3 10	0.3 11	0.4 0
	0.15		0.15 101	0.15 101	0.15 101	0.2 00	0.2 01	0.3 10
	0.1		0.1 001	0.1 001	0.15 100	0.15 101	0.2 00
	0.1		0.1 000	0.1 000	0.1 001	0.15 100
	0.05		0.05 1000	0.1 1001	0.1 000
	0.05		0.05 10011	0.05 1000
	0.03		0.05 10010
	0.02

Обидва коду задовольняють вимогу однозначності декодування: як видно з таблиць, коротші комбінації не є початком більш довгих кодів.

При збільшенні кількості символів ефективності кодів зростають, тому в деяких випадках кодують більші блоки (наприклад, якщо мова йде про тексти, можна кодувати деякі найбільш часто зустрічаються склади, слова і навіть фрази).

Ефект від впровадження таких кодів визначається в порівнянні їх з рівномірним кодом:

(2.24)

де n - кількість розрядів рівномірного коду, який замінюється ефективним.

Модифікації кодів Хафмана

Класичний алгоритм Хафмана відноситься до двухпрохідному, тобто вимагає спочатку набору статистики по символам і повідомленнями, а потім описаних вище процедур. Це незручно на практиці, оскільки збільшує час обробки повідомлень і накопичення словника. Найчастіше використовуються однопрохідні методи, в яких процедури накопичення і кодування поєднуються. Такі методи називаються ще адаптивним стисканням по Хафманом [46].

Сутність адаптивного стиснення по Хафманом зводиться до побудови початкового кодового дерева і послідовної його модифікації після надходження кожного чергового символу. Як і раніше, дерева тут бінарні, тобто з кожної вершини графа - дерева виходить максимум дві дуги. Прийнято називати вихідну вершину батьком, а дві пов'язаних з нею наступних вершини - дітьми. Введемо поняття ваги вершини - це кількість символів (слів), відповідних даній вершині, отриманих при подачі вихідної послідовності. Очевидно, що сума ваг дітей дорівнює вазі батька.

Після введення чергового символу вхідної послідовності переглядається кодове дерево: перераховуються ваги вершин і при необхідності вершини переставляються. Правило перестановки вершин наступне: ваги нижніх вершин найменші, причому вершини, що знаходяться зліва на графі, мають найменші ваги.

Одночасно вершини нумеруються. Нумерація починається з нижніх (висячих, тобто не мають дітей) вершин зліва направо, потім переноситься на верхній рівень і т.д. до нумерації останньої, вихідної вершини. При цьому досягається наступний результат: чим менше вага вершини, тим менше її номер.

Перестановка здійснюється в основному для висячих вершин. При перестановці має враховуватися сформульоване вище правило: вершини з великою вагою мають і більший номер.

Після проходження послідовності (вона називається також контрольної або тестової) всім висячим вершин присвоюються кодові комбінації. Правило присвоєння кодів аналогічно вищевикладеному: кількість розрядів коду дорівнює кількості вершин, через які проходить маршрут від вихідної до даної висячої вершини, а значення конкретного розряду відповідає напрямку від батька до "дитині" (скажімо, перехід вліво від батька відповідає значенню 1, вправо - 0 ).

Отримані кодові комбінації заносяться в пам'ять пристрою стиснення разом з їх аналогами і утворюють словник. Використання алгоритму полягає в наступному. Стислива послідовність символів розбивається на фрагменти відповідно до наявного словником, після чого кожен з фрагментів замінюється його кодом зі словника. Чи не виявлені в словнику фрагменти утворюють нові висячі вершини, набувають вагу і також заносяться в словник. Таким чином формується адаптивний алгоритм поповнення словника.

Для підвищення ефективності методу бажано збільшувати розмір словника; в цьому випадку коефіцієнт стиснення підвищується. Практично розмір словника становить 4 - 16 Кбайт пам'яті.

Проілюструємо наведений алгоритм прикладом. На рис. 2.13 приведена вихідна діаграма (її називають також деревом Хафмана). Кожна вершина дерева показана прямокутником, в якому вписані через дріб дві цифри: перша означає номер вершини, друга - її вага. Як можна переконатися, відповідність ваг вершин і їх номерів виконується.

Припустимо тепер, що символ, відповідний вершині 1, в тестовій послідовності зустрівся вдруге. Вага вершини змінився, як показано на рис. 2.14, внаслідок чого правило нумерації вершин порушено. На наступному етапі міняємо розташування висячих вершин, для чого міняємо місцями вершини 1 і 4 і перенумеровувати все вершини дерева. Отриманий граф наведено на рис. 2.15. Далі процедура триває аналогічно.

Слід пам'ятати, що кожна висяча вершина в дереві Хафмана відповідає певному символу або їх групі. Батько відрізняється від дітей тим, що група символів, йому відповідна, на один символ коротше, ніж у його дітей, а ці діти відрізняються останнім символом. Наприклад, батькові чи матері відповідають символи "кар"; тоді у дітей можуть бути послідовності "кара" і "короп".

Наведений алгоритм не є академічним і активно використовується в програмах - архіваторах, в тому числі і при стисненні графічних даних (про них мова піде нижче).

Алгоритми Лемпеля - Зива

Це найбільш часто використовувані в даний час алгоритми стиснення. Вони використовуються в більшості програм - архіваторів (наприклад, PKZIP. ARJ, LHA). Сутність алгоритмів полягає в тому, що деяка сукупність символів замінюється при архівування її номером у спеціально сформованому словнику. Наприклад, часто зустрічається в діловому листуванні фраза "На ваш лист вихідний номер ..." може займати в словнику позицію 121; тоді замість передачі або зберігання згаданої фрази (30 байт) можна зберігати номер фрази (1,5 байта в двійковій - десяткового формі або 1 байт - в двійковій).

Алгоритми названі в честь авторів, вперше запропонували їх в 1977 році. З них перший - LZ77. Для архівування створюється так зване ковзне за повідомленням вікно, що складається з двох частин. Перша частина, більшого формату, служить для формування словника і має розмір близько декількох кілобайт. У другу, меншу частину (зазвичай розміром до 100 байт) приймаються поточні символи проглядається тексту. Алгоритм намагається знайти в словнику сукупність символів, збігається з прийнятими в вікно перегляду. Якщо це вдається, формується код, що складається з трьох частин: зміщення в словнику щодо його початкової підрядка, довжина цієї підрядка, наступний за цією підрядком символ. Наприклад, виділена подстрока складається з символів "прог" (всього 6 символів), наступний за нею символ - "е". Тоді, якщо підрядок має адресу (місце в словнику) 45, то запис в словник має вигляд "45, 6. е". Після цього вміст вікна зсувається на позицію, і пошук триває. Таким чином формується словник.

Перевагою алгоритму є легко формалізується алгоритм складання словника. Крім того, можливо розархівування і без початкового словника (бажано при цьому мати тестову послідовність) - словник формується по ходу розпакування.

Недоліки алгоритму з'являються при збільшенні розміру словника - збільшується час на пошук. Крім того, якщо в поточному вікні з'являється рядок символів, відсутня в словнику, трьохелементна кодом записується кожен символ, тобто виходить не стиснення, а розтягнення.

Кращі характеристики має алгоритм LZSS, запропонований в 1978р. У ньому є відмінності в підтримці ковзного вікна та вихідних кодах компресора. Крім вікна, алгоритм формує бінарне дерево, аналогічне дереву Хафмана для прискорення пошуку збігів: кожна підрядок, що покидає поточне вікно, додається в дерево в якості одного з дітей. Такий алгоритм дозволяє додатково збільшити розмір поточного вікна (бажано, щоб його величина дорівнювала ступеня двійки: 128, 256 і т.д. байт). По - іншому формуються і коди послідовностей: додатково вводиться 1 бітний префікс для розрізнення незакодованих символів від пар "зсув, довжина".

Ще більша ступінь стиснення виходить при використанні алгоритмів типу LZW. Описані раніше алгоритми мають фіксований розмір вікна, що призводить до неможливості занесення в словник фраз довше розміру вікна. В алгоритмах LZW (і їх попередника LZ78) просмотровое вікно має необмежений розмір, а словник накопичує фрази (а не сукупність символів, як раніше). Словник має необмежену довжину, а кодер (декодер) працюють в режимі очікування фрази. Коли фраза, що збігається зі словником, сформована, видається код збіги (тобто код цієї фрази в словнику) і код наступного за нею символу. Якщо у міру накопичення символів утворюється нова фраза, вона також заноситься в словник, як і коротша. В результаті утворюється рекурсивна процедура, яка забезпечує швидке кодування і декодування.

Додаткову можливість компресії забезпечує стислий кодування символів, що повторюються. Якщо в послідовності деякі символи йдуть підряд (наприклад, в тексті це можуть бути символи "прогалину", в числової послідовності - поспіль йдуть нулі і т.д.), то має сенс замінювати їх парою "символ; довжина" або "ознака, довжина ". У першому випадку в коді вказується ознака, що буде здійснюватися кодування послідовності (зазвичай 1 біт), потім код повторюваного символу і довжина послідовності. У другому випадку (передбаченому для найбільш часто зустрічаються символів, що повторюються) в префікс вказується просто ознака повторів.

Компресія це одна з найбільш обплутаних міфами тим саундпродакшна. Кажуть, Бетховен навіть лякав їй сусідських дітей :(

Гаразд, насправді, застосовувати компресію не складніше ніж користуватися дисторшном, головне - розуміти принцип її роботи і мати хороший контроль. У чому ми зараз разом і переконаємося.

Що таке компресія звуку

Перше, що варто усвідомити перед препарування - компресія це робота з динамічним діапазоном звуку. А, в свою чергу, - ні що інше як різниця між найгучнішим і самим тихим рівнем сигналу:

Так ось, компресія це стиснення динамічного діапазону. Так, простостиснення динамічного діапазону, ну або іншими словами зниження рівня гучних частин сигналу і збільшення гучності тихих. Не більше того.

Ти можеш цілком резонно здивуватися з чим тоді пов'язаний такий хайп? Чому всі говорять про рецепти правильного налаштування компресорів, але ніхто ними не ділиться? Чому, не дивлячись на величезну кількість класних плагінів, в багатьох студіях до сих пір використовуються дорогі раритетні моделі компресорів? Чому одні продюсери застосовують компресори на екстремальних настройках, а інші не використовують зовсім? І хто з них в кінці кінців прав?

Завдання, які вирішує компресія

Відповіді на подібні питання лежать в площині розуміння ролі компресії в роботі зі звуком. А вона дозволяє:

підкреслювати атакузвуку, робити його більш вираженим;
«Положення сидячи» в мікс окремі партії інструментів, Додаючи їм потужності і «ваги»;
Робити групи інструментів або весь мікс більш цілісним, Таким єдиним монолітом;
Вирішувати конфлікти між інструментамиза допомогою sidechain;
Виправляти огріхи вокаліста або музикантів, Вирівнюючи їх динаміку;
При певній налаштуванні виступати в якості художнього ефекту.

Як бачиш, це не менш значущий творчий процес ніж, скажімо, придумування мелодій або наруліваніе цікавих тембрів. При цьому будь-яка з перерахованих вище завдань може бути вирішена за допомогою 4-х основних параметрів.

Основні параметри компресора

Не дивлячись на величезну кількість програмних і апаратних моделей компресорів, вся «магія» компресії відбувається при правильному налаштуванні основних параметрів: Threshold, Ratio, Attack і Release. Розглянемо їх докладніше:

Threshold або поріг спрацьовування, dB

Цей параметр дозволяє встановити значення, з якого компресор буде працювати (тобто стискати аудіосигнал). Так, якщо ми встановимо в threshold -12dB, компресор буде спрацьовувати тільки в тих місцях динамічного діапазону, які перевищують це значення. Якщо весь наш звук тихіше -12db, компресор просто пропустить його через себе, ніяк на нього не впливаючи.

Ratio або коефіцієнт стиснення

Параметр ratio визначає наскільки сильно буде стискатися сигнал, що перевищує threshold. Трохи математики для повноти картини: припустимо, ми налаштували компресор з threshold -12dB, ratio 2: 1 і подали на нього барабанний луп, в якому гучність бочки дорівнює -4dB. Яким в цьому випадку буде результат роботи компресора?

У нашому випадку рівень бочки перевищує threshold на 8dB. Ця різниця у відповідності з ratio буде стиснута до 4dB (8dB / 2). У сумі з необробленої частиною сигналу це призведе до того, що після обробки компресором гучність бочки складе -8db (threshold -12dB + стислий сигнал 4dB).

Attack, ms

Це час, через яке компресор буде реагувати на перевищення порога спрацьовування. Тобто, якщо час атаки вище 0ms - компресор починає стисненняперевищує threshold сигналу не миттєво, а через зазначений час.

Release або відновлення, ms

Протилежність атаці - значення даного параметра дозволяє вказати через якийсь час з моменту повернення рівня сигналу нижче threshold компресор припинить стиснення.

Перш ніж ми рушимо далі, настійно рекомендую взяти добре знайомий семпл, повісити на його канал будь-компресор і 5-10 хвилин поекспериментувати з вищепереліченими параметрами для надійного закріплення матеріалу

всі інші параметри опційні. Вони можуть відрізнятися в різних моделях компресорів, почасти тому продюсери і застосовують різні моделі для будь-яких конкретних цілей (наприклад, один компресор для вокалу, інший на групу ударних, третій - на майстер-каналі). Я не стану детально зупинятися на цих параметрах, а лише дам загальну інформацію для розуміння що це взагалі таке:

Коліно або злам (Hard / Soft Knee). Цей параметр визначає як швидко буде застосовуватися коефіцієнт стиснення (ratio): жорстко по кривій або плавно. Зазначу, що в режимі Soft Knee компресор спрацьовує не прямолінійно, а починає плавно (наскільки це може бути доречно коли ми говоримо про мілісекунди) підтискати звук вже перед значенням threshold. Для обробки груп каналів і загального міксу частіше використовується саме soft knee (так як працює непомітно), а для підкреслення атаки та інших особливостей окремих інструментів - hard knee;
Режим реагування: Peak / RMS. Режим Peak виправданий коли потрібно жорстко лімітувати сплески амплітуди, а також на сигналах зі складною формою, динаміку і читаність яких потрібно повністю передати. Режим RMS дуже дбайливо впливає на звук, дозволяючи ущільнити його, зберігши атаку;
Передбачливість (Lookahead). Це час, за яке компресор буде знати що йому належить. Свого роду попередній аналіз вхідних сигналів;
Makeup або Gain. Параметр, що дозволяє компенсувати зменшення гучності в результаті роботи компресії.

перший і найголовніша порада, Що знімає всі подальші питання по компресії: якщо ти а) зрозумів принцип дії компресії, б) твердо знаєш як впливає на звук той чи інший параметр і в) встиг на практиці спробувати кілька різних моделей - ніякі поради тобі вже не потрібні.

Я абсолютно серйозний. Якщо ти уважно прочитав цей запис, поекспериментував зі штатним компресором твоєї DAW і одним-двома плагінами, але так і не зрозумів в яких випадках потрібно встановлювати великі значення атаки, який коефіцієнт ratio застосовувати і в якому з режимів обробляти вихідний сигнал - то так і будеш далі шукати в інтернеті готові рецепти, застосовуючи їх бездумно куди попало.

Рецепти точної настройки компресораце приблизно як рецепти точної настройки ревербератора або хоруса - позбавлено будь-якого сенсу і не має нічого спільного з творчістю. Тому наполегливо повторюю єдино вірний рецепт: озбройся цією статтею, хорошими моніторними навушниками, плагіном для візуального контролю форми хвилі і проведи вечір в компанії з парочкою компресорів.

Дій!

, Медіаплеєри

Платівки, особливо старі, які були записані і виготовлені до 1982 року, з набагато меншою ймовірністю піддавалися мікшуваня, під час якого запис б зробили голосніше. Вони відтворюють природну музику з природним динамічним діапазоном, який зберігається на платівці і втрачається у більшості стандартних цифрових форматів або форматів високого дозволу.

Зрозуміло, тут є винятки - послухайте не так давно вийшов альбом Стівена Уїлсона від MA Recordings або Reference Recordings, і ви почуєте, наскільки хорошим може бути цифровий звук. Але це рідкість, більшість сучасних звукозаписів гучні і стислі.

Останнім часом компресія музики піддається серйозній критиці, але я готовий сперечатися, що практично всі ваші улюблені записи стиснуті. Якісь із них менш, якісь більш, але все одно стиснуті. Стиснення динамічного діапазону - це своєрідний козел відпущення, якого звинувачують в поганому музичному звучанні, але сильно стиснута музика - це не нове віяння: послухайте альбоми Motown 60-х років. Те ж саме можна сказати про класичні роботи Led Zeppelin або молодші альбоми Wilco і Radiohead. Стиснення динамічного діапазону зменшує природне співвідношення між найгучнішим і самим тихим звуком на записи, тому шепіт може бути таким же гучним як крик. Досить проблематично знайти поп-музику останніх 50 років, яка не була схильна до компресії.

Нещодавно я мило поговорив з засновником і редактором журналу Tape Op Ларрі Крейном (Larry Crane) про хороших, поганих і «злих» аспектах стиснення. Ларрі Крейн працював з такими групами і виконавцями як Стефан Маркус, Cat Power, Sleater-Kinney, Дженні Льюіс, M. Ward, The Go-Betweens, Джейсон Літтл, Еліот Сміт, Quasi і Richmond Fontaine. Він також керує звукозаписною студією Jackpot! в Портленді, Орегон, яка була притулком для The Breeders, The Decemberists, Едді Веддера, Pavement, R.E.M., She & Him і ще для багатьох-багатьох інших.

Як приклад дивно неприродно звучать, але все одно відмінних пісень, я привожу альбом Spoon «They Want My Soul», що вийшов в 2014 році. Крейн сміється і каже, що слухає його в машині, оскільки там він відмінно звучить. Що приводить нас до ще одній відповіді на питання, чому музику стискають: тому що стиснення і додаткова «чіткість» дозволяють краще її чути в галасливих місцях.

Ларрі Крейн за роботою. Фото Джейсона Куигли (Jason Quigley)

Коли люди говорять, що їм подобається звук аудіозаписи, я вважаю, що їм подобається музика, як якщо б звук і музика були нероздільними термінами. Але для себе я диференціюю ці поняття. З точки зору меломана, звук може бути грубим і сирим, але це не буде мати значення для більшості слухачів.

Багато поспішають звинувачувати мастеринг-інженерів в зловживанні компресією, однак стиснення застосовується безпосередньо під час звукозапису, під час мікшування і тільки потім під час мастерингу. Якщо ви особисто не були присутні на кожному з цих етапів, то не зможете сказати, як звучали інструменти та вокальна партія на самому початку процесу.

Крейн був в ударі: «Якщо музикант хоче навмисно зробити звук божевільним і спотвореним як записи Guided by Voices, то в цьому немає нічого поганого - бажання завжди переважує якість звучання». Голос виконавця практично завжди стискається, то ж саме відбувається з басом, барабанами, гітарами та синтезаторами. За допомогою компресії гучність вокалу зберігається на потрібному рівні протягом усієї пісні або трохи виділяється на тлі інших звуків.

Правильно виконане стиснення може зробити звук барабанів більш живим або навмисно дивним. Щоб музика звучала відмінно, потрібно вміти користуватися необхідними для цього інструментами. Ось чому на те, щоб зрозуміти, як користуватися стисненням і не перестаратися, йдуть роки. Якщо мікс-інженер занадто сильно стиснув гітарну партію, то мастеринг-інженер вже не зможе в повній мірі відновити відсутні частоти.

Якби музиканти хотіли, щоб ви слухали музику, яка не пройшла етапи мікшування і мастерингу, то випускали б її на полиці магазинів прямо зі студії. Крейн говорить, що люди, які створюють, редагують, мікшують музичні записи і проводять їх мастеринг, існують не для того, щоб плутатися під ногами у музикантів - вони допомагають виконавцям з самого початку, тобто вже більше ста років.

Ці люди - частина процесу творіння, в результаті якого виходять дивовижні витвори мистецтва. Крейн додає: «Вам не потрібна версія« Dark Side of the Moon », яка не пройшла через мікшування і мастеринг». Pink Floyd випустили пісню в такому вигляді, в якому вони хотіли її чути.

За часів, коли дослідники тільки приступали до вирішення проблеми створення мовного інтерфейсу для комп'ютерів, їм часто доводилося самостійно виготовляти апаратуру, яка дозволяє вводити в комп'ютер звукову інформацію, а також виводити її з комп'ютера. Сьогодні такі пристрої можуть мати хіба лише історичний інтерес, так як сучасні комп'ютери можна легко оснастити пристроями введення і виведення звуку, такими як звукові адаптери, мікрофони, головні телефони і звукові колонки.

Ми не будемо заглиблюватися в деталі внутрішнього устрою цих пристосувань, але розповімо про те, як вони працюють, і наведемо деякі рекомендації по вибору звукових комп'ютерних пристосувань для роботи з системами розпізнавання і синтезу мови.

Як ми вже говорили в попередньому розділі, звук являє собою ні що інше, як коливання повітря, частота яких лежить в діапазоні частот, які сприймаються людиною. У різних людей точні межі діапазону чутних частот можуть змінюватися, проте вважається, що звукові коливання лежать в діапазоні 16-20 000 Гц.

Завдання мікрофона полягає в перетворенні звукових коливань в електричні коливання, які в подальшому можуть бути посилені, відфільтровані для видалення перешкод і оцифровані для введення звукової інформації в комп'ютер.

За принципом дії найбільш поширені мікрофони діляться на вугільні, електродинамічні, конденсаторні та електретних. Деякі з цих мікрофонів для своєї роботи вимагають зовнішнього джерела струму (наприклад, вугільні та конденсаторні), інші під впливом звукових коливань здатні самостійно виробляти змінна електрична напруга (це електродинамічні і електретних мікрофони).

Можна також розділити мікрофони за призначенням. Є студійні мікрофони, які можна тримати в руці або закріпити на підставці, є радіомікрофони, які можна закріпити на одязі, і так далі.

Є також мікрофони, призначені спеціально для комп'ютерів. Такі мікрофони зазвичай кріпляться на підставці, що стоїть на поверхні столу. Комп'ютерні мікрофони можуть комбінуватися з головними телефонами, як це показано на рис. 2-1.

Мал. 2-1. Головні телефони з мікрофоном

Як же вибрати з усього різноманіття мікрофонів той, що найкраще підходить для систем розпізнавання мови?

В принципі, Ви можете експериментувати з будь-яким наявним у Вас мікрофоном, якщо тільки його можна підключити до звукового адаптера комп'ютера. Однак розробники систем розпізнавання мови рекомендують придбати такий мікрофон, який при роботі буде перебувати на постійному відстані від рота говорить.

Якщо відстань між мікрофоном і ротом не змінюється, то середній рівень електричного сигналу, що надходить від мікрофона, також буде змінюватися не дуже сильно. Це матиме позитивний вплив на якість роботи сучасних систем розпізнавання мови.

У чому тут проблема?

Людина здатна успішно розпізнавати мову, гучність якої змінюється в дуже широких межах. Мозок людини здатний фільтрувати тиху мову від перешкод, таких, наприклад, як шум машин, що проїжджають по вулиці, сторонні розмови і музику.

Що ж стосується сучасних систем розпізнавання мови, то їх здатності в цій галузі залишають бажати кращого. Якщо мікрофон коштує на столі, то при повороті голови або зміні положення тіла відстань між ротом і мікрофоном буде змінюватися. Це призведе до зміни рівня вихідного сигналу мікрофона, що, в свою чергу, погіршить надійність розпізнавання мови.

Тому при роботі з системами розпізнавання мови найкращі результати будуть досягнуті, якщо використовувати мікрофон, прикріплений до головних телефонами, як це показано на рис. 2-1. При використанні такого мікрофона відстань між ротом і мікрофоном буде постійним.

Звертаємо також Вашу увагу, що всі експерименти з системами розпізнавання мови найкраще проводити, усамітнившись в тихій кімнаті. У цьому випадку вплив перешкод буде мінімально. Зрозуміло, якщо Вам потрібно вибрати систему розпізнавання мови, здатну працювати в умовах сильних перешкод, то випробування потрібно проводити по-іншому. Однак, наскільки це відомо авторам книги, поки перешкодозахищеність систем розпізнавання мови ще дуже і дуже низька.

Мікрофон виконує для нас перетворення звукових коливань в коливання електричного струму. Ці коливання можна побачити на екрані осцилографа, проте не поспішайте до магазину, щоб придбати це дорогий пристрій. Все осциллографические дослідження ми зможемо провести за допомогою звичайного комп'ютера, обладнаного звуковим адаптером, наприклад, адаптером Sound Blaster. Пізніше ми розповімо Вам, як це зробити.

На рис. 2-2 ми показали осциллограмму звукового сигналу, отриману при проголошенні довгого звуку а. Ця осциллограмма була отримана за допомогою програми GoldWave, про яку ми ще розповімо в цьому розділі книги, а також за допомогою звукового адаптера Sound Blaster і мікрофона, аналогічного показаному на рис. 2-1.

Мал. 2-2. Осцилограма звукового сигналу

Програма GoldWave дозволяє розтягувати осциллограмму по осі часу, що дозволяє розглядати найдрібніші деталі. На рис. 2-3 ми показали розтягнутий фрагмент згаданої вище осцилограми звуку а.

Мал. 2-3. Фрагмент осцилограми звукового сигналу

Зверніть увагу, що величина вхідного сигналу, що надходить від мікрофона, змінюється періодично і приймає як позитивні, так і негативні значення.

Якби у вхідному сигналі присутня тільки одна частота (тобто якби звук був «чистим»), форма сигналу, отриманого від мікрофона, була б синусоїдальної. Однак, як ми вже говорили, спектр звуків людської мови складається з набору частот, в результаті чого форма осцилограми мовного сигналу далека від синусоїдальної.

Сигнал, величина якого змінюється з часом безперервно, ми будемо називати аналоговим сигналом. Саме такий сигнал надходить від мікрофона. На відміну від аналогового, цифровий сигнал являє собою набір числових значень, що змінюються з часом дискретно.

Щоб комп'ютер міг обробити звуковий сигнал, його необхідно перевести з аналогової форми в цифрову, тобто представити у вигляді набору числових значень. Цей процес називається оцифруванням аналогового сигналу.

Оцифровка звукового (і будь-якого аналогового) сигналу виконується за допомогою спеціального пристрою, званого аналогово-цифровий перетворювачАЦП (Analog to Digital Converter, ADC). Це пристрій знаходиться на платі звукового адаптера і являє собою звичайну з виду мікросхему.

Як працює аналогово-цифровий перетворювач?

Він періодично вимірює рівень вхідного сигналу, і видає на виході числове значення результату вимірювань. Цей процес ілюструється на рис. 2-4. Тут прямокутниками сірого кольору відзначені значення вхідного сигналу, виміряні з деяким постійним інтервалом часу. Набір таких значень і є оцифрованное уявлення вхідного аналогового сигналу.

Мал. 2-4. Вимірювання залежності амплітуди сигналу від часу

На рис. 2-5 ми показали підключення аналого-цифрового перетворювача до мікрофона. При цьому на вхід x 1 подається аналоговий сигнал, а з виходів u 1 -u n знімається цифровий сигнал.

Мал. 2-5. Аналого-цифровий перетворювач

Аналого-цифрові перетворювачі характеризуються двома важливими параметрами - частотою перетворення і кількістю рівнів квантування вхідного сигналу. Правильний вибір цих параметрів критично важливий для досягнення адекватного уявлення в цифровому вигляді аналогового сигналу.

Наскільки часто потрібно вимірювати значення амплітуди вхідного аналогового сигналу для того, щоб в результаті оцифровки не була втрачена інформація про зміни вхідного аналогового сигналу?

Здавалося б, відповідь проста - вхідний сигнал потрібно вимірювати якомога частіше. Дійсно, чим частіше аналого-цифровий перетворювач проводить такі вимірювання, тим краще будуть відслідковуватися найменші зміни амплітуди вхідного аналогового сигналу.

Однак надмірно часті вимірювання можуть привести до невиправданого зростання потоку цифрових даних і даремної витрати ресурсів комп'ютера при обробці сигналу.

На щастя, правильний вибір частоти перетворення (частоти дискретизації) зробити досить просто. Для цього достатньо звернутися до теоремі Котельникова, відомої фахівцям в області цифрової обробки сигналів. Теорема говорить, що частота перетворення повинна бути в два рази вище максимальної частоти спектру перетворюється сигналу. Отже, для оцифровки без втрати якості звукового сигналу, частота якого лежить в діапазоні 16-20 000 Гц, потрібно вибрати частоту перетворення, не меншу ніж 40 000 Гц.

Зауважимо, однак, що в професійної звукової апаратури частота перетворення вибирається в кілька разів більшою вказаного значення. Це робиться для досягнення дуже високої якості оцифрованого звуку. Для систем розпізнавання мови така якість не актуальне, тому ми не будемо загострювати на такому виборі Вашу увагу.

А яка частота перетворення потрібна для оцифровки звуку людської мови?

Так як звуки людської мови лежати в діапазоні частот 300-4000 Гц, то мінімально необхідна частота перетворення становить 8000 Гц. Однак багато комп'ютерні програми розпізнавання мови використовують стандартну для звичайних звукових адаптерів частоту перетворення 44 000 Гц. З одного боку, така частота перетворення не призводить до надмірного збільшення потоку цифрових даних, а інший - забезпечує оцифровку мови з достатньою якістю.

Ще в школі нас учили, що при будь-яких вимірах виникають похибки, від яких неможливо позбутися повністю. Такі похибки виникають через обмежену роздільної здатності вимірювальних приладів, а також через те, що сам процес вимірювань може внести деякі зміни в вимірювану величину.

Аналого-цифровий перетворювач представляє вхідний аналоговий сигнал у вигляді потоку чисел обмеженою розрядності. Звичайні звукові адаптери містять 16-розрядні блоки АЦП, здатні представляти амплітуду вхідного сигналу у вигляді 216 = 65536 різних значень. Пристрої АЦП в звуковій апаратурі високого класу можуть бути 20-розрядними, забезпечуючи більшу точність представлення амплітуди звукового сигналу.

Сучасні системи і програми розпізнавання мови створювалися для звичайних комп'ютерів, обладнаних звичайними ж звуковими адаптерами. Тому для проведення експериментів з розпізнаванням мови Вам не буде потрібно купувати професійний звуковий адаптер. Такий адаптер, як Sound Blaster, цілком придатний для оцифровки мови з метою її подальшого розпізнавання.

Разом з корисним сигналом в мікрофон зазвичай потрапляють різні шуми - шум з вулиці, шум вітру, сторонні розмови і т.д. Шум чинить негативний вплив на якість роботи систем розпізнавання мови, тому з ним доводиться боротися. Один із способів ми вже згадували - сьогоднішніми системами розпізнавання мови найкраще користуватися в тихій кімнаті, залишаючись з комп'ютером один на один.

Однак ідеальні умови вдається створити далеко не завжди, тому доводиться використовувати спеціальні методи, що дозволяють позбутися від перешкод. Для зниження рівня шуму застосовуються спеціальні хитрощі при конструюванні мікрофонів і спеціальні фільтри, що видаляють з спектра аналогового сигналу частоти, що не несуть корисну інформацію. Крім того, використовується такий прийом, як стиснення динамічного діапазону рівнів вхідного сигналу.

Розповімо про все це по порядку.

частотним фільтромназивається пристрій, що перетворює частотний спектр аналогового сигналу. При цьому в процесі перетворення відбувається виділення (або поглинання) коливань тих чи інших частот.

Ви можете уявити собі цей пристрій у вигляді якогось чорного ящика з одним входом і одним виходом. Що стосується нашої ситуації, до входу частотного фільтра буде підключений мікрофон, а до виходу - аналого-цифровий перетворювач.

Частотні фільтри бувають різні:

· Фільтри нижніх частот;

· Фільтри верхніх частот;

· Пропускають смугові фільтри;

· Заграждающие смугові фільтри.

Фільтри нижніх частот(Low -pass filter) видаляють із спектру вхідного сигналу всі частоти, значення яких знаходяться нижче деякої граничної частоти, що залежить від настройки фільтра.

Так як звукові сигнали лежать в діапазоні 16-20 000 Гц, то все частоти менше 16 Гц можна відрізати без погіршення якості звуку. Для розпізнавання мови важливий частотний діапазон 300-4000 Гц, тому можна вирізати частоти нижче 300 Гц. При цьому з вхідного сигналу будуть вирізані всі перешкоди, частотний спектр яких лежить нижче 300 Гц, і вони не будуть заважати процесу розпізнавання мови.

аналогічно, фільтри верхніх частот(High -pass filter) вирізують з спектра вхідного сигналу всі частоти вище деякої граничної частоти.

Людина не чує звуки з частотою 20 000 Гц і вище, тому їх можна вирізати з спектра без помітного погіршення якості звуку. Що ж стосується розпізнавання мови, то тут можна вирізати всі частоти вище 4000 Гц, що призведе до істотного зниження рівня високочастотних перешкод.

Пропускає смуговий фільтр(Band -pass filter) можна уявити собі у вигляді комбінації фільтра нижніх і верхніх частот. Такий фільтр затримує всі частоти, нижче так званої нижньої частоти пропускання, А також вище верхньої частоти пропускання.

Таким чином, для системи розпізнавання мови зручний пропускає смуговий фільтр, який затримує всі частоти, крім частот діапазону 300-4000 Гц.

Що ж стосується заграждающих смугових фільтрів (band -stop filter), то вони дозволяють вирізати з спектра вхідного сигналу всі частоти, що лежать в заданому діапазоні. Такий фільтр зручний, наприклад, для придушення перешкод, що займають певну суцільну частина спектра сигналу.

На рис. 2-6 ми показали підключення пропускає смугового фільтра.

Мал. 2-6. Фільтрація звукового сигналу перед оцифруванням

Треба сказати, що звичайні звукові адаптери, встановлені в комп'ютері, мають в своєму складі смуговий фільтр, через який проходить аналоговий сигнал перед оцифруванням. Смуга пропускання такого фільтра зазвичай відповідає діапазону звукових сигналів, а саме 16-20 000 Гц (в різних звукових адаптерах значення верхньої і нижньої частоти можуть змінюватися в невеликих межах).

А як домогтися більш вузької смуги пропускання 300-4000 Гц, що відповідає найбільш інформативною частини спектра людської мови?

Звичайно, якщо у Вас є схильність до конструювання радіоелектронної апаратури, Ви можете зробити свій фільтр з мікросхеми операційного підсилювача, резисторів і конденсаторів. Приблизно так і надходили перші творці систем розпізнавання мови.

Однак промислові системи розпізнавання мови повинні бути працездатні на стандартному комп'ютерному обладнанні, тому шлях виготовлення спеціального смугового фільтра тут не підходить.

Замість цього в сучасних системах обробки мови використовуються так звані цифрові частотні фільтри, Реалізовані програмно. Це стало можливим, після того як центральний процесор комп'ютера став досить потужним.

Цифровий частотний фільтр, реалізований програмно, перетворює вхідний цифровий сигнал у вихідний цифровий сигнал. У процесі перетворення програма обробляє спеціальним чином потік числових значень амплітуди сигналу, що надходить від аналого-цифрового перетворювача. Результатом перетворення при цьому також буде потік чисел, однак цей потік буде відповідати вже відфільтровану сигналу.

Розповідаючи про аналогово-цифровому перетворювачі, ми відзначили таку його важливу характеристику, як кількість рівнів квантування. Якщо в звуковому адаптері встановлений 16-розрядний аналого-цифровий перетворювач, то після оцифровки рівні звукового сигналу можуть бути представлені у вигляді 216 = 65536 різних значень.

Якщо рівнів квантування мало, то виникає так званий шум квантування. Щоб зменшити цей шум, в високоякісних системах оцифровки звуку слід застосовувати аналого-цифрові перетворювачі з максимально доступним кількістю рівнів квантування.

Однак є ще один прийом, що дозволяє знизити вплив шуму квантування на якість звукового сигналу, який використовується в цифрових системах запису звуку. При використанні цього прийому перед оцифруванням сигнал пропускається через нелінійний підсилювач, що підкреслює сигнали з малою амплітудою сигналу. Такий пристрій підсилює слабкі сигнали сильніше, ніж сильні.

Це ілюструється графіком залежності амплітуда вихідного сигналу від амплітуди вхідного сигналу, показаним на рис. 2-7.

Мал. 2-7. Нелінійне посилення перед оцифруванням

На етапі зворотного перетворення оцифрованого звуку в аналоговий (цей етап ми розглянемо нижче в цьому розділі) перед виведенням на звукові колонки аналоговий сигнал знову пропускається через нелінійний підсилювач. На цей раз використовується інший підсилювач, який підкреслює сигнали з великою амплітудою і має передавальну характеристику (залежність амплітуда вихідного сигналу від амплітуди вхідного сигналу), зворотний тієї, що застосовувалася при оцифрування.

Чим все це може допомогти творцям систем розпізнавання мови?

Людина, як відомо, досить добре розпізнає мову, виголошену тихим шепотом або досить гучним голосом. Можна сказати, що динамічний діапазон рівнів гучності успішно розпізнається мови для людини досить широкий.

Сьогоднішні комп'ютерні системи розпізнавання мови, на жаль, поки не можуть похвалитися цим. Однак з метою деякого розширення зазначеного динамічного діапазону перед оцифруванням можна пропустити сигнал від мікрофона через нелінійний підсилювач, передавальна характеристика якого показана на рис. 2-7. Це дозволить знизити рівень шуму квантування при оцифрування слабких сигналів.

Розробники систем розпізнавання мови, знову ж таки, змушені орієнтуватися в першу чергу на серійно випускаються звукові адаптери. У них не передбачено описані вище нелінійне перетворення сигналу.

Проте, можна створити програмний еквівалент нелінійного підсилювача, що перетворює оцифрований сигнал перед передачею його модулю розпізнавання мови. І хоча такий програмний підсилювач не зможе знизити шум квантування, з його допомогою можна підкреслити ті рівні сигналу, які несуть в собі найбільшу мовну інформацію. Наприклад, можна зменшити амплітуду слабких сигналів, позбавивши таким способом сигнал від шумів.

Друга частина циклу присвячена функціям оптимізації динамічного діапазону зображень. У ній ми розповімо, навіщо потрібні подібні рішення, розглянемо різні варіанти їх реалізації, а також їх переваги та недоліки.

осягнути неосяжне

В ідеалі фотоапарат повинен фіксувати зображення навколишнього світу таким, яким його сприймає людина. Однак в силу того, що механізми «зору» фотокамери і людського ока істотно розрізняються, є ряд обмежень, що не дозволяють виконати цю умову.

Одна з проблем, з якою стикалися раніше користувачі плівкових фотоапаратів і стикаються зараз власники цифрових, полягає в неможливості адекватно відобразити сцени з великим перепадом освітленості без використання спеціальних пристосувань і / або особливих прийомів зйомки. Особливості зорового апарату людини дозволяють однаково добре сприймати деталі сцен високої контрастності як на яскраво освітлених, так і на темних ділянках. На жаль, сенсор фотоапарата далеко не завжди здатний відобразити зображення таким, яким бачимо його ми.

Чим більше перепад яркостей на фотографується сцені, тим вище ймовірність відсікання світлих тонів та / або тінях. В результаті замість блакитного неба з пишними хмарами на знімку виходить лише біляста пляма, а розташовані в тіні об'єкти перетворюються в невиразні темні силуети або зовсім зливаються з навколишнім оточенням.

У класичній фотографії для оцінки можливості фотоапарата (або носія в разі плівкових камер) передавати певний діапазон яскравості використовується поняття фотографічної широти(Докладніше див. В урізанні). Теоретично фотографічна широта цифрових фотоапаратів визначається розрядністю аналого-цифрового перетворювача (АЦП). Наприклад, при застосуванні 8-розрядного АЦП з урахуванням похибки квантування теоретично досяжне значення фотографічної широти складе 7 EV, для 12-розрядної - 11 EV і т.д. Однак в реальних пристроях динамічний діапазон зображень виявляється уж теоретичного максимуму внаслідок впливу різного роду шумів і інших чинників.

Великий перепад рівнів яскравості являє собою серйозну
проблему при фотографуванні. В даному випадку можливостей фотоапарата
виявилося недостатньо для адекватної передачі найбільш
світлих областей сцени, і в результаті замість ділянки блакитного
неба (відзначений обведенням) вийшла біла «латочка»

Максимальне значення яскравості, яке здатний зафіксувати світлочутливий сенсор, визначається рівнем насичення його осередків. Мінімальне значення залежить від декількох факторів, у числі яких - величина теплового шуму матриці, шум переносу заряду і похибка АЦП.

Варто також відзначити, що фотографічна широта одного і того ж цифрового фотоапарата може варіюватися в залежності від встановленого в налаштуваннях значення чутливості. Максимальний динамічний діапазон можна досягти при установці так званої базової чутливості (що відповідає мінімальному чисельним значенням з можливих). У міру збільшення значення цього параметра динамічний діапазон зменшується внаслідок зростаючого рівня шумів.

Фотографічна широта сучасних моделей цифрових фотоапаратів, оснащених сенсорами великого розміру і 14- або 16-розрядними АЦП, становить від 9 до 11 EV, що значно більше в порівнянні з аналогічними характеристиками кольорових негативних плівок 35-міліметрового формату (в середньому від 4 до 5 EV ). Таким чином, навіть відносно недорогі цифрові фотоапарати мають фотографічною широтою, достатньою для адекватної передачі більшості типових сюжетів аматорської зйомки.

Однак існує проблема іншого роду. Пов'язана вона з обмеженнями, що накладаються існуючими стандартами запису цифрових зображень. Використовуючи формат JPEG з розрядністю 8 біт на канал кольору (який в даний час став фактичним стандартом для запису цифрових зображень в комп'ютерній індустрії і цифрову техніку), навіть теоретично не можна зберегти знімок, який має фотографічну широту більше 8 EV.

Припустимо, що АЦП фотоапарата дозволяє отримати зображення розрядністю 12 або 14 біт, що містить помітні деталі як у світлі, так і в тінях. Однак якщо фотографічна широта цього образу перевищує 8 EV, то в процесі перетворення в стандартний 8-бітний формат без будь-яких додаткових дій (тобто просто шляхом відкидання «зайвих» розрядів) частина зафіксованої світлочутливим сенсором інформації загубиться.

Динамічний діапазон і фотографічна широта

Якщо говорити спрощено, то динамічний діапазон визначається як відношення максимального значення яскравості зображення до її мінімального значення. У класичній фотографії традиційно використовується термін фотографічна широта, який, по суті, означає те ж саме.

Ширину динамічного діапазону можна виразити у вигляді відношення (наприклад, 1000: 1, 2500: 1 і т.п.), однак найчастіше для цього використовується логарифмічна шкала. В цьому випадку обчислюється значення десяткового логарифма відносини максимальної яскравості до її мінімальній величині, а після числа ставиться прописна буква D (від англ. Density? - щільність), рідше? - абревіатура OD (від англ. Optical density? - оптична щільність). Наприклад, якщо відношення максимальної величини яскравості до мінімального значення будь-якого пристрою становить 1000: 1, то динамічний діапазон буде дорівнює 3,0 D:

Для вимірювання фотографічної широти традиційно використовуються так звані одиниці експозиції, що позначаються абревіатурою EV (від англ. Exposure values; професіонали часто називають їх «стопами» або «ступенями»). Саме в цих одиницях зазвичай задається величина корекції експозиції в настройках фотоапарата. Збільшення значення фотографічної широти на 1 EV еквівалентно подвоєння різниці між максимальним і мінімальним рівнями яскравості. Таким чином, шкала EV також є логарифмічною, але для розрахунку чисельних значень в даному випадку застосовується логарифм з основою 2. Наприклад, якщо який-небудь пристрій забезпечує можливість фіксації зображень, відношення максимальної величини яскравості до мінімального значення яких досягає 256: 1, то його фотографічна широта складе 8 EV:

Стиснення - розумний компроміс

Найбільш ефективним способом зберегти в повному обсязі інформацію про зображення, зафіксовану світлочутливим сенсором камери, є запис знімків в форматі RAW. Однак подібна функція є далеко не у всіх фотоапаратах, та й не кожен фотолюбитель готовий займатися кропіткою роботою з підбору індивідуальних налаштувань для кожного зробленого знімка.

Щоб знизити ймовірність втрати деталей висококонтрастних знімків, перетворюються всередині камери в 8-бітний JPEG, в апаратах багатьох виробників (причому не тільки компактних, але і дзеркальних) були впроваджені спеціальними функціями, які без втручання користувача стискати динамічний діапазон зберігаються зображень. За рахунок зниження загального контрасту і втрати незначної частини інформації вихідного образу подібні рішення дозволяють зберегти в 8-бітному форматі JPEG деталі в світлі і тінях, зафіксовані світлочутливим сенсором апарату, навіть в тому випадку, якщо динамічний діапазон вихідного образу виявився ширше 8 EV.

Одним з піонерів в освоєнні цього напрямку стала компанія НР. У випущеної в 2003 році цифровому фотоапараті HP Photosmart 945 була вперше в світі реалізована технологія HP Adaptive Lightling, що дозволяє автоматично компенсувати недолік освітленості на темних областях знімків і таким чином зберігати деталі в тінях без ризику перетримки (що вельми актуально час зйомки сцен високої). Алгоритм роботи HP Adaptive Lightling ґрунтується на принципах, викладених англійським вченим Едвіном Лендом (Edwin Land) в теорії зорового сприйняття людини RETINEX.

Меню функції HP Adaptive Lighting

Як же працює функція Adaptive Lighting? Після отримання 12-бітного способу знімка з нього екстрагується допоміжне монохромне зображення, яке фактично являє собою карту освітленості. При обробці знімка ця карта використовується в якості маски, що дозволяє регулювати ступінь впливу досить складного цифрового фільтра на зображення. Таким чином, на ділянках, відповідних найбільш темним точкам карти, вплив на образ майбутнього знімка мінімально, і навпаки. Такий підхід дозволяє виявити деталі в тінях за рахунок виборчого освітлення цих областей і відповідно зниження загальної контрастності результуючого зображення.

Слід зазначити, що при включенні функції Adaptive Lighting зроблений знімок обробляється описаним вище чином перед тим, як готове зображення буде записано в файл. Всі описані операції виконуються автоматично, а користувач може лише вибрати в меню фотоапарата один з двох режимів роботи Adaptive Lighting (низький або високий рівень впливу) або відключити цю функцію.

Взагалі кажучи, багато специфічні функції сучасних цифрових фотоапаратів (в тому числі і розглянуті в попередній статті системи розпізнавання осіб) є свого роду побічними або конверсійними продуктами науково-дослідних робіт, які спочатку виконувалися для військових замовників. Що стосується функцій оптимізації динамічного діапазону зображень, то одним з найбільш відомих постачальників подібних рішень є компанія Apical. Створені її співробітниками алгоритми, зокрема, лежать в основі роботи функції SAT (Shadow Adjustment Technology - технологія корекції тіней), реалізованої в ряді моделей цифрових фотоапаратів Olympus. Коротенько роботу функції SAT можна описати таким чином: на основі вихідного образу знімка створюється маска, відповідна найбільш темних ділянках, і потім для цих областей проводиться автоматична корекція величини експозиції.

Ліцензію на право використання розробок Apical придбала і компанія Sony. У багатьох моделях компактних фотоапаратів серії Cyber-shot і в дзеркальних камерах серії «альфа» реалізована так звана функція оптимізації динамічного діапазону (Dynamic Range Optimizer, DRO).

Фотознімки, зроблені камерою НР Photosmart R927 з відключеною (вгорі)
і активованою функцією Adaptive Lighting

Корекція знімка при активації DRO виконується в процесі первинної обробки зображення (тобто до запису готового файлу формату JPEG). У базовому варіанті DRO має двоступеневу настройку (в меню можна вибрати стандартний або розширений режим її роботи). При виборі стандартного режиму на основі аналізу образу знімка проводиться корекція величини експозиції, а потім до зображення застосовується тоновая крива для вирівнювання загального балансу. У розширеному режимі використовується більш складний алгоритм, що дозволяє проводити корекцію як в тінях, так і в світлі.

Розробники Sony постійно працюють над удосконаленням алгоритму роботи DRO. Наприклад, в дзеркальній фотокамері А700 при активації просунутого режиму DRO передбачена можливість вибору одного з п'яти варіантів корекції. Крім того, реалізована можливість збереження відразу трьох варіантів одного знімка (свого роду брекетінг) з різними варіантами DRO.

У багатьох моделях цифрових фотоапаратів компанії Nikon є функція D-Lighting, в основі якої також використані алгоритми Apical. Правда, на відміну від описаних вище рішень, D-Lighting реалізована у вигляді фільтра для обробки раніше збережених знімків за допомогою тональної кривої, форма якої дозволяє зробити тіні світлішими, зберігаючи в незмінному вигляді інші ділянки зображення. Але оскільки в цьому випадку обробці піддаються вже готові 8-бітові зображення (а не вихідний образ кадру, що має більш високу розрядність і відповідно більш широкий динамічний діапазон), то можливості D-Lighting дуже обмежені. Отримати такий же результат користувач може шляхом обробки знімка в графічному редакторі.

При порівнянні збільшених фрагментів добре помітно, що темні ділянки вихідного знімка (зліва)
при включенні функції Adaptive Lighting стали світліше

Існує і ряд рішень, що базуються на інших принципах. Так, у багатьох фотоапаратах сімейства Lumix компанії Panasonic (зокрема, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 і ін.) Реалізована функція розпізнавання освітленості (Intelligent Exposure), яка є складовою частиною системи інтелектуального автоматичного управління зйомкою iA. Робота функції Intelligent Exposure ґрунтується на автоматичному аналізі образу кадру і корекції темних ділянок знімка щоб уникнути втрати деталей в тінях, а також (при необхідності) стиснення динамічного діапазону сцен високої контрастності.

У ряді випадків робота функції оптимізації динамічного діапазону передбачає не тільки певні операції з обробки вихідного образу знімка, але і корекцію установок фотозйомки. Наприклад, в нових моделях цифрових фотоапаратів Fujifilm (зокрема, в FinePix S100FS) реалізована функція розширення динамічного діапазону (Wide Dynamic Range, WDR), що дозволяє, за даними розробників, збільшити фотографічну широту на одну або дві ступені (в термінології налаштувань - 200 і 400%).

При активації функції WDR камера робить знімки з експокорекцією -1 або -2 EV (залежно від обраної налаштування). Таким чином, образ кадру виходить недодержання - це необхідно для того, щоб зберегти максимум інформації про деталі в світлі. Потім отриманий образ обробляється за допомогою тоновой кривої, що дозволяє вирівняти загальний баланс і скорегувати рівень чорного. Після цього зображення перетворюється в 8-бітний формат і записується у вигляді файлу JPEG.

Стиснення динамічного діапазону дозволяє зберегти більше деталей
в світлі і тінях, однак неминучим наслідком такого впливу
є зниження загальної контрастності. На нижньому зображенні
набагато краще опрацьована фактура хмар, однак
через більш низького контрасту цей варіант знімка
виглядає менш природно

Схожа функція під назвою Dynamic Range Enlargement реалізована в ряді компактних і дзеркальних фотоапаратів компанії Pentax (Optio S12, K200D і ін.). За даними виробника, застосування функції Dynamic Range Enlargement дозволяє збільшити фотографічну широту знімків на 1 EV без втрати деталей в світлі і тінях.

Діюча подібним чином функція під назвою Highlight tone priority (HTP) реалізована в ряді дзеркальних моделей компанії Canon (EOS 40D, EOS 450D і ін.). Згідно з інформацією, наведеною в керівництві користувача, активація HTP дозволяє поліпшити опрацювання деталей в світлі (а точніше, в діапазоні рівнів від 0 до 18% сірого).

висновок

Підведемо підсумки. Вбудована функція стиснення динамічного діапазону дозволяє з мінімальним збитком перетворити вихідне зображення з великим динамічним діапазоном в 8-бітний файл JPEG. При відсутності функції збереження кадрів у форматі RAW режим стиснення динамічного діапазону дає фотографу можливість більш повно використовувати потенціал своєї камери при зйомці сцен високої контрастності.

Зрозуміло, необхідно пам'ятати про те, що стиснення динамічного діапазону - це не чудодійний засіб, а скоріше компроміс. За збереження деталей в світлі і / або тінях доводиться розплачуватися збільшенням рівня шуму на темних ділянках знімка, зниженням його контрастності і деяким огрубіння плавних тональних переходів.

Як і будь-яка автоматична функція, алгоритм стиснення динамічного діапазону не є в повній мірі універсальним рішенням, що дозволяє поліпшити абсолютно будь-який знімок. А отже, активувати його має сенс тільки в тих випадках, коли він дійсно необхідний. Наприклад для того, щоб зняти силует c добре опрацьованим фоном, функцію стиснення динамічного діапазону необхідно відключити - в іншому випадку ефектний сюжет буде безнадійно зіпсований.

Завершуючи розгляд даної теми, необхідно відзначити, що застосування функцій стиснення динамічного діапазону не дозволяє «витягнути» на результуючому зображенні деталі, що не були зафіксовані сенсором фотоапарата. Для отримання задовільного результату при зйомці висококонтрастних сюжетів необхідно використовувати додаткові пристосування (наприклад, градієнтні фільтри для фотографування пейзажів) або спеціальні прийоми (такі як зйомка декількох кадрів з брекетингом по експозиції та подальше об'єднання їх в одне зображення з застосуванням технології Tone Mapping).

Наступна стаття буде присвячена функції серійної зйомки.

Далі буде

Читайте також

Сбебранк (він же Ощадбанк)

Рішення проблем з ліцензією у Autocad Чи не запускається autocad windows 7

Інструкція з використання PIN коду КріптоПро, під час підписання кількох документів - Інструкції - АТ "ПЕК-Торг"