Компресія практично. Компресія звуку: принцип і налаштування Фактори, що обмежують динамічний діапазон

Жарознижувальні засоби для дітей призначаються педіатром. Але бувають ситуації невідкладної допомоги за лихоманки, коли дитині потрібно дати ліки негайно. Тоді батьки беруть на себе відповідальність і застосовують жарознижувальні препарати. Що можна давати дітям грудного віку? Чим можна збити температуру у старших дітей? Які ліки найбезпечніші?

Динамічна компресія(Dynamic range compression, DRC) – звуження (або розширення у разі експандера) динамічного діапазону фонограми. Динамічний діапазон, Це різниця між тихим і найгучнішим звуком. Іноді найтишнішим у фонограмі буде звук трохи гучніший за рівень шуму, а іноді трохи тихіше за найгучніший. Апаратні пристрої та програми, що здійснюють динамічну компресію, називають компресорами, виділяючи серед них чотири основні групи: власне компресори, лімітери, експандери та гейти.

Ламповий аналоговий компресор DBX 566

Знижувальна та підвищуюча компресія

Знижувальна компресія(Downward compression) зменшує гучність звуку, коли вона починає перевищувати певне граничне значення, залишаючи тихіші звуки у незмінному вигляді. Екстремальним варіантом понижувальної компресії є лімітер. Підвищуюча компресія(Upward compression), навпаки, збільшує гучність звуку, якщо вона нижча від порогового значення, не торкаючись більше гучні звуки. При цьому обидва види компресії звужують динамічний діапазонаудіосигналу.

Знижувальна компресія

Підвищуюча компресія

Експандер та Гейт

Якщо компресор зменшує динамічний діапазон, його експандер збільшує. Коли рівень сигналу стає вищим за пороговий рівень, експандер збільшує його ще більше, таким чином збільшуючи різницю між гучними і тихими звуками. Подібні пристрої часто використовуються при записі барабанної установки, щоб відокремити звуки барабанів від інших.

Тип експандера, який використовується не для посилення гучних, а для заглушення тихих звуків, що не перевищують рівня порогового значення (наприклад, фонових шумів) називається Noise gate. У такому пристрої, як тільки рівень звуку стає меншим за пороговий, проходження сигналу припиняється. Зазвичай гейт використовується для зменшення шуму в паузах. На деяких моделях можна зробити так, щоб звук при досягненні порогового рівня не припинявся різко, а поступово згасав. В цьому випадку швидкість загасання встановлюється регулятором Decay (спад).

Гейт, як і інші типи компресорів, може бути частотно-залежним(тобто по-різному обробляти певні частотні смуги) і може працювати в режимі side-chain(див. нижче).

Принцип роботи компресора

Сигнал, який потрапляє в компресор, поділяється на дві копії. Одна копія спрямовується на підсилювач, в якому ступінь посилення управляється зовнішнім сигналом, друга копія формує цей сигнал. Вона потрапляє в пристрій, званий side-chain, де сигнал вимірюється, і на основі цих даних створюється огинаюча, що описує зміну його гучності.
Так улаштована більшість сучасних компресорів, це так званий тип feed-forward. У старіших пристроях (тип feedback) рівень сигналу вимірюється після підсилювача.

Існують різні аналогові технології керованого посилення (variable-gain amplification), кожна зі своїми перевагами та недоліками: лампові, оптичні з використанням фоторезистрів та транзистрні. При роботі з цифровим звуком (у звуковому редакторіабо DAW) можуть використовуватися власні математичні алгоритми або емулювати роботу аналогових технологій.

Основні параметри компресорів

Threshold

Компресор зменшує рівень аудіосигналу, якщо його амплітуда перевищує певне граничне значення (threshold). Воно зазвичай вказується в децибелах, при цьому нижчий threshold (наприклад -60 dB) означає, що буде оброблено більше звуку, ніж при більш високому порозі (наприклад, -5 dB).

Ratio

Ступінь зменшення рівня визначається параметром ratio (ставлення): ratio 4:1 означає, що якщо вхідний рівень на 4 дБ перевищує поріг, рівень вихідного сигналу буде вищим за поріг на 1 дБ.
Наприклад:
Threshold = −10 dB
Вхідний сигнал = −6 dB (на 4 dB вище за пороговий рівень)
Вихідний сигнал = −9 dB (на 1 dB вище за пороговий рівень)

Важливо мати на увазі, що придушення рівня сигналу триває і деякий час після того, як він впаде нижче за пороговий рівень, і цей час визначається значенням параметра release.

Компресія з максимальним значенням ratio ∞:1 називається лімітуванням (limiting). Це означає, що будь-який сигнал вище за пороговий рівень пригнічується до порогового рівня (за винятком короткого періоду після різкого збільшення вхідної гучності). Докладніше див. нижче «Лімітер».

Приклади різних значень Ratio

Attack та Release

Компресор надає певний контроль над тим, як швидко він реагує зміну динаміки сигналу. Параметр Attack визначає час, протягом якого компресор зменшує коефіцієнт посилення рівня, що визначається параметром Ratio. Release визначає час, протягом якого компресор, навпаки, збільшує коефіцієнт посилення, або повертає до нормального, якщо рівень вхідного сигналу падає нижче за порогове значення.

Фази Attack та Release

Ці параметри вказують час (зазвичай у мілісекундах), який знадобиться для зміни посилення на певну кількість децибелів, зазвичай це 10 дБ. Наприклад, у разі, якщо Attack встановлено на 1 мс, зменшення посилення на 10 дБ потрібно 1 мс, але в 20 дБ - 2 мс.

Багато компресорах параметри Attack і Release можуть налаштовуватися, але у деяких вони задані спочатку і регулюються. Іноді позначаються як «automatic» чи «program dependent», тобто. змінюються залежно від вхідного сигналу.

Knee

Ще один параметр компрессоора: hard/soft Knee. Він визначає, чи буде початок застосування компресії різким (hard) чи поступовим (soft). Soft knee зменшує помітність переходу від необробленого сигналу до сигналу, підданого компресії, особливо при високих значеннях Ratio та різких збільшення гучності.

Hard Knee та Soft Knee компресія

Peak та RMS

Компресор може реагувати на пікові (короткі максимальні) значення або на усереднений рівень вхідного сигналу. Використання пікових значень може призводити до різких коливань ступеня компресії, і навіть спотворень. Тому компресори застосовують функцію усереднення (зазвичай RMS) вхідного сигналу при порівнянні його з пороговим значенням. Це дає комфортніший стиск, наближений до людського сприйняття гучності.

RMS – параметр, який відображає середню гучність фонограми. З математичної точки зору RMS (Root Mean Square) – це середньоквадратичне значення амплітуди певної кількості семплів:

Stereo linking

Компресор у режимі stereo linking застосовує однакове посилення до обох стереоканалів. Це дозволяє уникнути зміщення стереопанорами, яке може стати результатом індивідуальної обробки лівого та правого каналів. Таке зміщення відбувається, якщо, наприклад, будь-який гучний елемент панорамований по центру.

Makeup gain

Оскільки компресор зменшує загальний рівень сигналу зазвичай додається можливість фіксованого посилення на виході, що дозволяє отримати оптимальний рівень.

Look-ahead

Функція look-ahead призначена для вирішення проблем, властивих як надто великим, так і надто маленьким значенням Attack та Release. Занадто великий час атаки не дозволяємо ефективно перехоплювати транзієнти, а надто маленький може бути не комфортним для слухача. При використанні функції look-ahead основний сигнал затримується щодо керуючого, це дозволяє починати компресію заздалегідь ще до того, як сигнал досягне порогового значення.
Єдиним недоліком цього є тимчасова затримка сигналу, що у деяких випадках небажано.

Використання динамічної компресії

Компресія використовується повсюдно, не тільки в музичних фонограмах, а й скрізь, де потрібно збільшити загальну гучність, не збільшуючи при цьому пікові рівні, де використовується недорога звуковідтворююча апаратура або обмежений канал передачі (системи оповіщення та зв'язку, аматорське радіо тощо).

Компресія застосовується при відтворенні фонової музики (у магазинах, ресторанах тощо), де небажані помітні зміни гучності.

Але найважливіша сфера застосування динамічної компресії – музичне виробництво та мовлення. Компресія використовується для надання звуку "щільності" та "драйву", для кращого поєднання інструментів один з одним, і особливо при обробці вокалу.

Вокальні партії в рок- та поп-музиці зазвичай піддаються компресії, щоб виділити їх на тлі акомпанементу та додати ясності. Спеціальний вид компресора, налаштований тільки на певні частоти – деесер, використовується для придушення шиплячих фонем.

В інструментальних партіях компресія також використовується для ефектів, не пов'язаних безпосередньо з гучністю, наприклад, звукові ударні, що швидко згасають, можуть стати більш тривалими.

В електронній танцювальній музиці (EDM) часто використовується side-chaining (див. нижче) - наприклад, басова лінія може керуватися бочкою або чимось подібним, щоб запобігти конфлікту басу і ударних і створити динамічну пульсацію.

Стиснення широко використовується в широкомовній передачі (радіо-, теле-, інтернет-мовлення) для підвищення гучності, що сприймається, при одночасному зменшенні динамічного діапазону вихідного аудіо (зазвичай це CD). Більшість країн мають правові обмеження на миттєвий максимальний обсяг, який може транслюватися. Зазвичай ці обмеження реалізуються постійними апаратними компресорами ефірного ланцюга. Крім того, збільшення гучності, що сприймається, покращує "якість" звуку з точки зору більшості слухачів.

Див. також Loudness war.

Послідовне збільшення гучності однієї й тієї ж пісні, ремастованої для CD з 1983 по 2000 роки.

Side-chaining

Ще один перемикач компресора, що часто зустрічається, - «side chain». У цьому режимі компресування звуку відбувається не залежно від його власного рівня, а в залежності від рівня сигналу, що надходить на роз'єм, який так і називається - side chain.

Цьому можна знайти кілька застосувань. Наприклад, вокаліст шепелявить і всі букви «с» виділяються із загальної картини. Ви пропускаєте його голос через компресор, а в роз'єм side chain подаєте цей звук, але пропущений через еквалайзер. На еквалайзері ви прибираєте всі частоти, крім тих, що використовуються вокалістом під час промови літери «с». Зазвичай, близько 5 кГц, але може бути від 3 кГц до 8 кГц. Якщо потім поставити компресор у режим side chain, то компресування голосу відбуватиметься у ті моменти, коли вимовляється літера "с". Таким чином вийшов прилад, відомий як деесер (de-esser). Такий спосіб роботи називається "частотно-залежним" (frequency dependent).

Ще одне застосування цієї функції зветься «ducker». Наприклад, на радіостанції музика йде через компресор, а слова діджея – через побічний ланцюг. Коли діджей починає розмовляти, гучність музики автоматично зменшується. Цей ефект можна успішно застосовувати і в записі, наприклад, зменшувати гучність клавішних партій під час співу.

Brick wall limiting

Компресор і лімітер працюють приблизно однаково, можна сказати, що лімітер, це компресор з високим Ratio (від 10:1) і зазвичай низьким Attack time.

Існує поняття Brick wall limiting – лімітинг з дуже високим Ratio (від 20:1 та вище) та дуже швидкою атакою. В ідеалі він взагалі не дозволяє сигналу перевищити пороговий рівень. Результат буде неприємним на слух, але це запобігатиме пошкодженню звуковідтворювальної техніки або перевищенню пропускної спроможності каналу. Багато виробників інтегрують у свої пристрої лімітери саме з цією метою.

Clipper vs. Limiter, soft and hard clipping

Ця група методів заснована на тому, що сигнали, що передаються, піддаються нелінійним перетворенням амплітуди, причому в передавальної і приймальній частинах нелінійності взаємозворотні. Наприклад, якщо в передавачі використовується нелінійна функція Öu, у приймачі – u2. Послідовне застосування взаємозворотних функцій призведе до того, що загалом перетворення залишається лінійним.

Ідея нелінійних методівстиснення даних зводиться до того, що передавач може при тій же амплітуді вихідних сигналів передати більший діапазон зміни параметра, що передається (тобто, більший динамічний діапазон). Динамічний діапазон- це виражене у відносних одиницях чи децибелах відношення найбільшої допустимої амплітуди сигналу до найменшої:

; (2.17)
. (2.18)

Природне бажання збільшити динамічний діапазон за допомогою зменшення U min обмежується чутливістю апаратури та зростанням впливу перешкод та власних шумів.

Найчастіше стиск динамічного діапазону здійснюється за допомогою пари взаємозворотних функцій логарифмування та потенціювання. Перша операція зміни амплітуди називається компресією(стисненням), друга - експандуванням(Розтягненням). Вибір саме цих функцій пов'язаний з їхньою найбільшою можливістю компресії.

У той самий час ці методи мають недоліки. Перший у тому, що логарифм малого числа негативний й у межі:

тобто чутливість дуже нелінійна.

Для зменшення цих недоліків обидві функції модифікують зміщенням та апроксимацією. Наприклад, для телефонних каналів апроксимована функція має вигляд (тип А):

причому А = 87,6. Виграш від стиснення становить 24дБ.

Стиснення даних шляхом нелінійних процедур реалізується аналоговими засобами з великими похибками. Застосування цифрових засобів може суттєво підвищити точність чи швидкодію перетворення. При цьому пряме застосування коштів обчислювальної техніки(тобто, безпосереднє обчислення логарифмів і експонент) дасть не найкращий результат через низьку швидкодію і похибку обчислення, що накопичується.

Стиснення даних шляхом компресії через обмеження точності використовується в невідповідних випадках, наприклад, для передачі мови по телефонних і радіоканалах.

Ефективне кодування

Ефективні коди були запропоновані К. Шенноном, Фано та Хафманом. Сутність кодів полягає в тому, що вони нерівномірні, тобто з неоднаковим числом розрядів, причому довжина коду обернено пропорційна ймовірності його появи. Ще одна чудова особливість ефективних кодів – вони не вимагають роздільників, тобто спеціальних символів, які розділяють сусідні кодові комбінації. Це досягається при дотриманні простого правила: коротші коди не є початком довших. У цьому випадку суцільний потік двійкових розрядів однозначно декодується, оскільки декодер виявляє спочатку коротші кодові комбінації. Ефективні коди довгий часбули чисто академічними, але останнім часом успішно використовуються при формуванні баз даних, а також при стисканні інформації в сучасних модемах та програмних архіваторах.

Через нерівномірність вводять середню довжину коду. Середня довжина - математичне очікування довжини коду:

причому, l ср прагне H(x) зверху (тобто l ср > H(x)).

Виконання умови (2.23) посилюється зі збільшенням N.

Існує два різновиди ефективних кодів: Шеннона-Фано та Хафмана. Розглянемо їх отримання з прикладу. Припустимо, ймовірності символів у послідовності мають значення, наведені у таблиці 2.1.

Таблиця 2.1.

Ймовірність символів

N
p i 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Символи ранжуються, тобто подаються в ряд за спаданням ймовірностей. Після цього методом Шеннона-Фано періодично повторюється така процедура: вся група подій ділиться на дві підгрупи з однаковими (або приблизно однаковими) сумарними ймовірностями. Процедура триває до тих пір, поки в черговій підгрупі не залишиться один елемент, після чого цей елемент усувається, а з зазначеними діями, що залишилися, продовжуються. Це відбувається до тих пір, поки останніх двох підгрупах не залишиться по одному елементу. Продовжимо розгляд нашого прикладу, що зведено у таблиці 2.2.

Таблиця 2.2.

Кодування за методом Шеннона-Фано

N P i
4 0.3 I
0.2 I II
6 0.15 I I
0.1 II
1 0.1 I I
9 0.05 II II
5 0.05 II I
7 0.03 II II I
8 0.02 II

Як видно з таблиці 2.2, перший символ з ймовірністю p 4 = 0.3 брав участь у двох процедурах розбиття на групи та обидва рази потрапляв до групи з номером I . Відповідно до цього він кодується дворозрядним кодом ІІ. Другий елемент першому етапі розбиття належав групі I, другою - групі II. Тому його код 10. Коди інших символів додаткових коментарів не потребують.

Зазвичай нерівномірні коди зображують як кодових дерев. Кодове дерево - це граф, що вказує на дозволені кодові комбінації. Попередньо задають напрямки ребер цього графа, як показано на рис.2.11 (вибір напрямів довільний).

По графу орієнтуються так: складають маршрут для виділеного символу; кількість розрядів йому дорівнює кількості ребер у маршруті, а значення кожного розряду дорівнює напрямку відповідного ребра. Маршрут складається з вихідної точки (на кресленні вона позначена літерою А). Наприклад, маршрут у вершину 5 складається з п'яти ребер, у тому числі всі, крім останнього, мають напрям 0; отримуємо код 00001.

Обчислимо для цього прикладу ентропію та середню довжину слова.

H(x) = -(0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0.03 log 0.03 + 0.02 log 0.02) = 2.23 біт

l ср = 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

Як бачимо, середня довжина слова близька до ентропії.

Коди Хафмана будуються за іншим алгоритмом. Процедура кодування складається із двох етапів. На першому етапі послідовно проводять одноразові стискування алфавіту. Одноразовий стиск - заміна двох останніх символів (з нижчими ймовірностями) одним, із сумарною ймовірністю. Стиснення проводять доти, доки не залишиться два символи. При цьому заповнюють таблицю кодування, в якій проставляють результуючі ймовірності, а також зображують маршрути, якими нові символи переходять на наступному етапі.

На другому етапі відбувається власне кодування, яке починається з останнього етапу: першому із двох символів надають код 1, другому - 0. Після цього переходять на попередній етап. До символів, які не брали участь у стисканні на цьому етапі, приписують коди з наступного етапу, а до двох останніх символів двічі приписують код символу, отриманого після склеювання, і дописують до коду верхнього символу 1, нижнього - 0. Якщо символ далі у склеюванні не бере участь, його код залишається незмінним. Процедура триває остаточно (тобто першого етапу).

У таблиці 2.3 показано кодування алгоритму Хафмана. Як видно з таблиці, кодування здійснювалося за 7 етапів. Зліва вказано ймовірність символів, праворуч - проміжні коди. Стрілки показують переміщення новостворених символів. На кожному етапі два останні символи відрізняються лише молодшим розрядом, що відповідає методиці кодування. Обчислимо середню довжину слова:

l ср = 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 = 2.7

Це ще ближче до ентропії: код ще ефективніший. На рис. 2.12 наведено дерево коду Хафмана.

Таблиця 2.3.

Кодування за алгоритмом Хафмана

N p i код I II III IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Обидва коди задовольняють вимогу однозначності декодування: як видно з таблиць, більш короткі комбінації є початком довших кодів.

При збільшенні кількості символів ефективності кодів зростають, тому в деяких випадках кодують більші блоки (наприклад, якщо йдеться про тексти, можна кодувати деякі склади, слова, що найчастіше зустрічаються, і навіть фрази).

Ефект від впровадження таких кодів визначається порівняно з рівномірним кодом:

(2.24)

де n – кількість розрядів рівномірного коду, який замінюється ефективним.

Модифікації кодів Хафмана

Класичний алгоритм Хафмана належить до двопрохідним, тобто. вимагає спочатку набору статистики за символами і повідомленнями, та був описаних вище процедур. Це незручно практично, оскільки збільшує час обробки повідомлень і накопичення словника. Найчастіше використовуються однопрохідні методи, у яких процедури накопичення та кодування поєднуються. Такі методи називаються ще адаптивним стисненням по Хафман [46].

Сутність адаптивного стиснення по Хафману зводиться до побудови початкового кодового дерева та його послідовної модифікації після надходження кожного чергового символу. Як і колись, дерева тут бінарні, тобто. з кожної вершини графа – дерева виходить максимум дві дуги. Прийнято називати вихідну вершину батьком, а дві пов'язані з нею наступні вершини - дітьми. Введемо поняття ваги вершини - кількість символів (слів), відповідних даної вершині, отриманих при подачі вихідної послідовності. Очевидно, що сума ваги дітей дорівнює вазі батька.

Після введення чергового символу вхідної послідовності переглядається кодове дерево: перераховуються ваги вершин і за необхідності вершини переставляються. Правило перестановки вершин таке: ваги нижніх вершин найменші, причому вершини, що є ліворуч на графі, мають найменші ваги.

Одночасно вершини нумеруються. Нумерація починається з нижніх (висять, тобто не мають дітей) вершин зліва направо, потім переноситься на верхній рівеньі т.д. до нумерації останньої вихідної вершини. При цьому досягається наступний результат: чим менша вага вершини, тим менший її номер.

Перестановка здійснюється переважно для висячих вершин. При перестановці має бути враховано сформульоване вище правило: вершини з великою вагою мають і більший номер.

Після проходження послідовності (вона називається також контрольною або тестовою) всім висячим вершинам присвоюються кодові комбінації. Правило присвоєння кодів аналогічно до вищевикладеного: кількість розрядів коду дорівнює кількості вершин, через які проходить маршрут від вихідної до цієї висячої вершини, а значення конкретного розряду відповідає напрямку від батька до "дитини" (скажімо, перехід вліво від батька відповідає значенню 1, вправо - 0 ).

Отримані кодові комбінації заносяться в пам'ять пристрою стиснення разом з аналогами і утворюють словник. Використання алгоритму ось у чому. Стискана послідовність символів розбивається на фрагменти відповідно до наявного словника, після чого кожен із фрагментів замінюється його кодом зі словника. Не виявлені у словнику фрагменти утворюють нові висячі вершини, набувають ваги і також заносяться до словника. У такий спосіб формується адаптивний алгоритм поповнення словника.

Для підвищення ефективності методу бажано збільшувати розмір словника; у цьому випадку коефіцієнт стиснення підвищується. Фактично розмір словника становить 4 - 16 Кбайт пам'яті.


Проілюструємо наведений алгоритм прикладом. На рис. 2.13 наведено вихідну діаграму (її називають також деревом Хафмана). Кожна вершина дерева показана прямокутником, у якому вписані через дріб дві цифри: перша означає номер вершини, друга - її вага. Як можна переконатися, відповідність ваги вершин та їх номерів виконується.

Припустимо тепер, що символ, відповідний вершині 1, тестової послідовності зустрівся вдруге. Вага вершини змінилася, як показано на рис. 2.14, внаслідок чого правило нумерації вершин порушено. На наступному етапі міняємо розташування висячих вершин, для чого міняємо місцями вершини 1 і 4 і перенумеровуємо всі вершини дерева. Отриманий граф наведено на рис. 2.15. Далі процедура продовжується аналогічно.

Слід пам'ятати, що кожна висяча вершина в дереві Хафмана відповідає певному символу або їх групі. Батько відрізняється від дітей тим, що група символів, що відповідає йому, на один символ коротший, ніж у його дітей, а ці діти відрізняються останнім символом. Наприклад, батькові відповідають символи "кар"; тоді в дітей віком можуть бути послідовності " кара " і " короп " .

Наведений алгоритм не є академічним і активно використовується в програмах - архіваторах, у тому числі при стисканні графічних даних (про них йтиметься нижче).

Алгоритми Лемпеля – Зіва

Це найчастіше використовувані нині алгоритми стискування. Вони використовуються в більшості програм - архіваторів (наприклад, PKZIP. ARJ, LHA). Сутність алгоритмів у тому, що деяка сукупність символів замінюється при архівуванні її номером у спеціально словнику. Наприклад, фраза "На ваш лист вихідний номер...", що часто зустрічається в діловому листуванні, може займати у словнику позицію 121; тоді замість передачі або зберігання згаданої фрази (30 байт) можна зберігати номер фрази (1,5 байта у двійково - десятковій формі або 1 байт - у двійковій).

Алгоритми названо на честь авторів, які вперше запропонували їх у 1977 році. З них перший – LZ77. Для архівування створюється так зване ковзне за повідомленням вікно, що складається із двох частин. Перша частина, більшого формату, служить для формування словника і має розмір кількох кілобайт. У другу, меншу частину (зазвичай розміром до 100 байт) приймаються поточні символи тексту, що переглядається. Алгоритм намагається знайти у словнику сукупність символів, яка збігається з прийнятими у вікно перегляду. Якщо це вдається, формується код, що складається з трьох частин: зміщення в словнику щодо його початкового підрядка, довжина цього підрядка, що йде за цим підрядком символ. Наприклад, виділений підрядок складається з символів "додатків" (всього 6 символів), наступний за нею символ - "е". Тоді, якщо підрядок має адресу (місце у словнику) 45, то запис у словник має вигляд "45, 6. е". Після цього вміст вікна зсувається на позицію, і пошук продовжується. У такий спосіб формується словник.

Перевагою алгоритму є алгоритм складання словника, що легко формалізується. Крім того, можливе розархівування і без початкового словника (бажано мати тестову послідовність) - словник формується по ходу розархівування.

Недоліки алгоритму виникають зі збільшенням розміру словника - збільшується час на пошук. З іншого боку, якщо у поточному вікні з'являється рядок символів, відсутня у словнику, триелементним кодом записується кожен символ, тобто. виходить не стиск, а розтяг.

Найкращі характеристики має алгоритм LZSS, запропонований 1978г. У ньому є відмінності у підтримці ковзного вікна та вихідних кодах компресора. Крім вікна, алгоритм формує двійкове дерево, аналогічне дереву Хафмана для прискорення пошуку збігів: кожен підрядок, що залишає поточне вікно, додається до дерева як одного з дітей. Такий алгоритм дозволяє додатково збільшити розмір поточного вікна (бажано, щоб його величина дорівнювала ступені двійки: 128, 256 і т.д. байт). Інакше формуються і коди послідовностей: додатково вводиться 1-бітний префікс для розрізнення незакодованих символів від пар "зміщення, довжина".

Ще більший ступінь стиснення виходить при використанні алгоритмів типу LZW. Описані раніше алгоритми мають фіксований розмір вікна, що призводить до неможливості занесення до словника фраз довше за розмір вікна. У алгоритмах LZW (та їх попередника LZ78) переглядове вікно має необмежений розмір, а словник накопичує фрази (а чи не сукупність символів, як і раніше). Словник має необмежену довжину, а кодер (декодер) працюють у режимі очікування фрази. Коли фраза, що збігається зі словником, сформована, видається код збігу (тобто код цієї фрази у словнику) і код символу, що за ним слідує. Якщо в міру накопичення символів утворюється нова фраза, вона також заноситься до словника, як і коротша. В результаті утворюється рекурсивна процедура, що забезпечує швидке кодування та декодування.

Додаткову можливість компресії забезпечує стиснене кодування символів, що повторюються. Якщо в послідовності деякі символи слідують поспіль (наприклад, у тексті це можуть бути символи "пробіл", в числовій послідовності - нулі, що поспіль, і т.д.), то має сенс замінювати їх парою "символ; довжина" або "ознака, довжина ". У першому випадку в коді вказується ознака, що буде здійснюватися кодування послідовності (зазвичай 1 біт), потім код символу, що повторюється, і довжина послідовності. У другому випадку (передбаченому для символів, що найчастіше зустрічаються) у префіксі вказується просто ознака повторів.

© 2014 сайт

Або фотографічна широтафотоматеріалу – це відношення між максимальним та мінімальним значенням експозиції, які можуть бути коректно зафіксовані на знімку. Стосовно цифрової фотографії динамічний діапазон фактично еквівалентний відношенню максимального і мінімального можливих значень корисного електричного сигналу, що генерується фотосенсором в ході експонування.

Динамічний діапазон вимірюється у щаблях експозиції (). Кожен ступінь відповідає подвоєнню кількості світла. Так, наприклад, якщо якась камера має динамічний діапазон 8 EV, то це означає, що максимальне можливе значення корисного сигналу її матриці відноситься до мінімального як 2 8:1, а значить, камера здатна зафіксувати в межах одного кадру об'єкти, що відрізняються по яскравості лише у 256 раз. Точніше, сфотографувати вона може об'єкти з будь-якою яскравістю, проте об'єкти, чия яскравість буде перевищувати максимальне допустиме значення вийдуть на знімку сліпучо білими, а об'єкти, чия яскравість виявиться нижче мінімального значення, - вугільно чорними. Деталі та фактура будуть помітні лише на тих об'єктах, яскравість яких вкладається в динамічний діапазон камери.

Для опису відносини між яскравістю найсвітлішого і найтемнішого з об'єктів, що знімаються, часто використовується не цілком коректний термін «динамічний діапазон сцени». Правильніше говоритиме про діапазон яскравості або про рівень контрасту, оскільки динамічний діапазон – це зазвичай характеристика вимірювального пристрою (у даному випадку матриці цифрового фотоапарата).

На жаль, діапазон яскравості багатьох красивих сцен, з якими ми стикаємося в реальному житті, може значно перевищувати динамічний діапазон цифрової фотокамери. У таких випадках фотограф буває змушений вирішувати, які об'єкти мають бути опрацьовані у всіх деталях, а які можна залишити поза динамічним діапазоном без шкоди для творчого задуму. Для того щоб максимально ефективно використовувати динамічний діапазон вашої камери, від вас часом може знадобитися не так досконале розуміння принципу роботи фотосенсора, як розвинене художнє чуття.

Чинники, що обмежують динамічний діапазон

Нижня межа динамічного діапазону задана рівнем власного шуму фотосенсора. Навіть неосвітлена матриця генерує фоновий електричний сигнал, який називається темновим шумом. Також перешкоди виникають при переносі заряду в аналого-цифровий перетворювач, та й сам АЦП вносить в сигнал, що оцифровується, певну похибку - т.зв. шум дискретизації.

Якщо зробити знімок у повній темряві або з кришкою на об'єктиві, камера запише тільки цей безглуздий шум. Якщо дозволити мінімальній кількості світла потрапити на сенсор, фотодіоди почнуть накопичувати електричний заряд. Розмір заряду, отже, і інтенсивність корисного сигналу, буде пропорційна числу спійманих фотонів. Щоб на знімку проступили хоч скількись осмислені деталі, необхідно, щоб рівень корисного сигналу перевищив рівень фонового шуму.

Таким чином, нижню межу динамічного діапазону або, інакше кажучи, поріг чутливості сенсора формально можна визначити як рівень вихідного сигналу, при якому відношення сигнал/шум більше одиниці.

Верхня межа динамічного діапазону визначається ємністю окремого фотодіода. Якщо під час експозиції який-небудь фотодіод накопичить електричний заряд граничної для себе величини, то піксель зображення, що відповідає перевантаженому фотодіоду зображення вийде абсолютно білим, і подальше опромінення вже ніяк не вплине на його яскравість. Це явище називають кліпінгом. Чим вище перевантажувальна здатність фотодіода, тим більший сигнал здатний він дати на виході, перш ніж досягне насичення.

Для більшої наочності звернемося до характеристичної кривої, яка є графіком залежності вихідного сигналу від експозиції. На горизонтальній осі відкладено двійковий логарифм опромінення, одержуваного сенсором, але в вертикальної – двійковий логарифм величини електричного сигналу, генерованого сенсором у відповідь це опромінення. Мій малюнок значною мірою умовний і має виключно ілюстративні цілі. Характеристична крива справжнього фотосенсора має більш складну форму, та й рівень шуму рідко буває настільки високий.

На графіці добре видно дві критичні переломні точки: у першій їх рівень корисного сигналу перетинає шумовий поріг, а другий – фотодіоди досягають насичення. Значення експозиції, що лежать між двома точками, і становлять динамічний діапазон. У цьому абстрактному прикладі він дорівнює, як неважко відзначити, 5 EV, тобто. камера здатна переварити п'ять подвоєння експозиції, що рівнозначно 32-кратної (2 5 =32) різниці в яскравості.

Зони експозиції, що становлять динамічний діапазон нерівноцінні. Верхні зони відрізняються вищим ставленням сигнал/шум, і тому виглядають чистішими та детальнішими, ніж нижні. Внаслідок цього верхня межа динамічного діапазону дуже речова і відчутна - кліпінг обрубує світла при найменшій перетримці, тоді як нижня межа непримітним чином тоне в шумах, і перехід до чорного кольору далеко не такий різкий, як до білого.

Лінійна залежність сигналу від експозиції, а також різкий вихід плато є унікальними рисами саме цифрового фотографічного процесу. Для порівняння погляньте на умовну характеристичну криву традиційної фотоплівки.

Форма кривої і особливо кут нахилу сильно залежить від типу плівки і зажадав від процедури її прояви, але незмінним залишається головне, відмінність плівкового графіка від цифрового – нелінійний характер залежності оптичної щільності плівки від величини експозиції.

Нижня межа фотографічної широти негативної плівки визначається щільністю вуалі, а верхня - максимальною оптичною досяжною щільністю фотошару; у обертових плівок – навпаки. Як у тінях, так і у світлах спостерігаються плавні вигини характеристичної кривої, що вказують на падіння контрасту при наближенні до меж динамічного діапазону, адже кут нахилу кривої пропорційний контрастності зображення. Таким чином, зони експозиції, що лежать на середній частині графіка, мають максимальний контрастом, у той час як у світлах і тінях контраст знижений. На практиці різниця між плівкою та цифровою матрицею особливо добре помітна у світлах: там, де у цифровому зображенні світла випалені кліпінгом, на плівці деталі все ще помітні, хоч і малоконтрастні, а перехід до чисто білого кольору виглядає плавним та природним.

У сенситометрії використовуються навіть два самостійні терміни: власне фотографічна широта, обмежена порівняно лінійною ділянкою характеристичної кривої, та корисна фотографічна широта, Що включає крім лінійної ділянки також основу та плече графіка.

Примітно, що при обробці цифрових фотографій, до них, як правило, застосовується більш менш виражена S-подібна крива, що підвищує контраст у півтонах ціною його зниження в тінях і світлах, що надає цифровому зображенню більш природний і приємний оку вигляд.

Розрядність

На відміну від матриці цифрового фотоапарата людському зору властивий, скажімо так, логарифмічний погляд на світ. Послідовні подвоєння кількості світла сприймаються нами як рівні зміни яскравості. Світлові числа можна порівняти з музичними октавами, адже дворазові зміни частоти звуку сприймаються на слух як єдиний музичний інтервал. За таким принципом працюють інші органи почуттів. Нелінійність сприйняття дуже розширює діапазон чутливості людини до подразникам різної інтенсивності.

При конвертуванні RAW-файлу (не важливо – засобами камери або в RAW-конвертері), що містить лінійні дані, до нього автоматично застосовується т.зв. гамма-крива, яка покликана нелінійно підвищити яскравість цифрового зображення, приводячи її у відповідність до особливостей людського зору.

При лінійній конверсії зображення виходить занадто темним.

Після гамма-корекції яскравість приходить у норму.

Гамма-крива хіба що розтягує темні тони і стискає світлі, роблячи розподіл градацій рівномірнішим. В результаті зображення набуває природного вигляду, але шум і артефакти дискретизації в тінях неминуче стають помітнішими, що тільки посилюється малою кількістю рівнів яскравості в нижніх зонах.

Лінійний розподіл градацій яскравості.
Рівномірний розподіл після застосування гамма-кривої.

ISO та динамічний діапазон

Незважаючи на те, що в цифровій фотографії використовується та ж концепція світлочутливості фотоматеріалу, що й у фотографії плівкової, слід розуміти, що відбувається це виключно через традицію, оскільки підходи до зміни світлочутливості в цифровій та плівковій фотографії різняться принципово.

Підвищення чутливості ISO у традиційній фотографії означає заміну однієї плівки іншу з більшим зерном, тобто. відбувається об'єктивна зміна властивостей самого фотоматеріалу. У цифровій камері світлочутливість сенсора жорстко задана його фізичними характеристиками і може бути змінена буквально. При підвищенні ISO камера змінює не реальну чутливість сенсора, а лише посилює електричний сигнал, що генерується сенсором у відповідь на опромінення і відповідним чином коригує алгоритм оцифрування цього сигналу.

Важливим наслідком є ​​зниження ефективного динамічного діапазону пропорційно підвищенню ISO, адже разом із корисним сигналом посилюється і шум. Якщо при ISO 100 оцифровується весь діапазон значень сигналу - від нуля і до точки насичення, то при ISO 200 вже половина ємності фотодіодів приймається за максимум. З кожним подвоєнням чутливості ISO верхній ступінь динамічного діапазону як би відсікається, а щаблі, що залишилися, підтягуються на її місце. Саме тому використання надвисоких значень ISO позбавлене практичного змісту. З тим же успіхом можна висвітлити фотографію в RAW-конвертері та отримати порівняний рівень шумів. Різниця між підвищенням ISO та штучним освітленням знімка полягає в тому, що при підвищенні ISO посилення сигналу відбувається до надходження його в АЦП, а значить, шум квантування не посилюється, на відміну від власних шумів сенсора, в той час як у RAW-конвертері підлягають посиленню зокрема й помилки АЦП. Крім того, зменшення діапазону оцифрування означає більш точну дискретизацію значень вхідного сигналу, що залишилися.

До речі, доступне на деяких апаратах зниження ISO нижче за базове значення (наприклад, до ISO 50), аж ніяк не розширює динамічний діапазон, а просто послаблює сигнал вдвічі, що рівноцінно затемненню знімка в RAW-конвертері. Цю функцію можна навіть розглядати як шкідливу, оскільки використання субмінімального значення ISO, провокує камеру на збільшення експозиції, що при незмінному порозі насичення сенсора підвищує ризик отримати кліпінг у світлах.

Справжня величина динамічного діапазону

Існує ряд програм на кшталт (DxO Analyzer, Imatest, RawDigger та ін.), що дозволяють виміряти динамічний діапазон цифрового фотоапарата в домашніх умовах. В принципі, в цьому немає великої необхідності, оскільки дані для більшості камер можна знайти в інтернеті, наприклад, на сайті DxOMark.com .

Чи варто вірити результатам таких випробувань? Цілком. З тим лише застереженням, що це тести визначають ефективний чи, якщо можна сказати, технічний динамічний діапазон, тобто. відношення між рівнем насичення та рівнем шуму матриці. Для фотографа насамперед важливий корисний динамічний діапазон, тобто. кількість зон експозиції, які справді дозволяють відобразити якусь корисну інформацію.

Як пам'ятаєте, поріг динамічного діапазону заданий рівнем шумів фотосенсора. Проблема в тому, що на практиці нижні зони, що формально вже входять в динамічний діапазон, містять все ще занадто багато шуму, щоб їх можна було використати. Тут багато залежить від індивідуальної гидливості - прийнятний рівень шуму кожен визначає для себе сам.

Моя суб'єктивна думка така, що деталі в тінях починають виглядати більш-менш пристойно щодо сигнал/шум не менше восьми. На цій підставі я визначаю для себе корисний динамічний діапазон як технічний динамічний діапазон мінус приблизно три ступені.

Наприклад, якщо дзеркальна камера згідно з результатами достовірних тестів має динамічний діапазон в 13 EV, що дуже непогано за сьогоднішніми мірками, то її корисний динамічний діапазон складатиме близько 10 EV, що, загалом, теж дуже непогано. Зрозуміло, мова йде про зйомку RAW, з мінімальним ISO і максимальною розрядністю. При зйомці в JPEG динамічний діапазон залежить від налаштувань контрасту, але в середньому слід відкинути ще два-три ступені.

Для порівняння: кольорові фотоплівки, що обертаються, мають корисну фотографічну широту в 5-6 ступенів; чорно-білі негативні плівки дають 9-10 ступенів при стандартних процедурах прояву та друку, а при певних маніпуляціях – аж до 16-18 ступенів.

Підсумовуючи сказане вище, спробуємо сформулювати кілька простих правил, дотримання яких допоможе вам вичавити з сенсора вашої камери максимум продуктивності:

  • Динамічний діапазон цифрового фотоапарата повністю доступний тільки при зйомці в RAW.
  • Динамічний діапазон зменшується зі зростанням світлочутливості, тому уникайте високих значень ISO, якщо в них немає гострої необхідності.
  • Використання вищої розрядності для RAW-файлів не збільшує дійсний динамічний діапазон, але покращує тональний поділ у тінях за рахунок більшої кількості рівнів яскравості.
  • Exposure to the right. Верхні зони експозиції завжди містять максимум корисної інформації при мінімумі шумів і повинні використовуватися найефективніше. При цьому не варто забувати і про небезпеку кліпінгу – пікселі, які досягли насичення, є абсолютно марними.

І головне: не варто зайве переживати щодо динамічного діапазону вашої камери. З динамічним діапазоном у неї все гаразд. Ваше вміння бачити світло та грамотно керувати експозицією – набагато важливіше. Хороший фотограф не стане скаржитися на нестачу фотографічної широти, а постарається дочекатися більш комфортного освітлення, або змінить ракурс, або скористається спалахом, словом діятиме відповідно до обставин. Я вам скажу більше: деякі сцени лише виграють через те, що не вкладаються у динамічний діапазон камери. Часто непотрібна різноманітність деталей просто необхідно сховати в напівабстрактний чорний силует, який робить фотографію одночасно лаконічнішим і багатшим.

Високий контраст це завжди погано – треба лише вміти з нею працювати. Навчіться експлуатувати недоліки обладнання так само, як і його переваги, і ви здивуєтеся, наскільки ваші творчі можливості розширяться.

Дякую за увагу!

Василь О.

Post scriptum

Якщо стаття виявилася для вас корисною та пізнавальною, ви можете люб'язно підтримати проект, зробивши внесок у його розвиток. Якщо ж стаття вам не сподобалася, але у вас є думки про те, як зробити її кращою, ваша критика буде прийнята з не меншою вдячністю.

Не забувайте, що ця стаття є об'єктом авторського права. Передрук та цитування допустимі за наявності діючого посилання на першоджерело, причому текст, що використовується, не повинен жодним чином спотворюватися або модифікуватися.

Друга частина циклу присвячена функцій оптимізації динамічного діапазону зображень. У ній ми розповімо, навіщо потрібні подібні рішення, розглянемо різні варіанти їх реалізації, а також їхні переваги та недоліки.

Осягнути неосяжне

В ідеалі фотоапарат повинен фіксувати зображення навколишнього світу таким, яким його сприймає людина. Однак через те, що механізми «зору» фотокамери та людського ока істотно різняться, є низка обмежень, що не дозволяють виконати цю умову.

Одна з проблем, з якою стикалися користувачі плівкових фотоапаратів і стикаються зараз власники цифрових, полягає в неможливості адекватно зафіксувати сцени з великим перепадом освітленості без використання спеціальних пристроїв і/або особливих прийомів зйомки. Особливості зорового апарату людини дозволяють однаково добре сприймати деталі висококонтрастних сцен як на яскраво освітлених, так і темних ділянках. На жаль, сенсор фотоапарата далеко не завжди здатний сфотографувати зображення таким, яким бачимо його ми.

Чим більший перепад яскравостей на сцені, що фотографується, тим вище ймовірність втрати деталей у світлах і/або тінях. В результаті замість блакитного неба з пишними хмарами на знімку виходить лише біляста пляма, а розташовані в тіні об'єкти перетворюються на невиразні темні силуети або зовсім зливаються з навколишнім оточенням.

У класичній фотографії для оцінки можливості фотоапарата (або носія у разі плівкових камер) передавати певний діапазон яскравостей використовується поняття фотографічної широти(Докладніше див. у врізанні). Теоретично фотографічна широта цифрових фотоапаратів визначається розрядністю аналого-цифрового перетворювача (АЦП). Наприклад, при застосуванні 8-розрядного АЦП з урахуванням похибки квантування теоретично досяжне значення фотографічної широти становитиме 7 EV, для 12-розрядного – 11 EV тощо. Однак у реальних пристрояхдинамічний діапазон зображень виявляється уж теоретичного максимуму внаслідок впливу різного роду шумів та інших факторів.

Великий перепад рівнів яскравості є серйозною
проблему під час зйомки. В даному випадку можливостей фотоапарата
виявилося недостатньо для адекватної передачі найбільш
світлих областей сцени, і в результаті замість ділянки блакитної
неба (відзначений обведенням) вийшла біла «латка»

Максимальне значення яскравості, яке здатне зафіксувати світлочутливий сенсор, визначається рівнем насичення його осередків. Мінімальне значення залежить від кількох факторів, серед яких - величина теплового шуму матриці, шум перенесення заряду та похибка АЦП.

Варто також відзначити, що фотографічна широта однієї й тієї ж цифрової фотоапарата може змінюватись в залежності від встановленого в налаштуваннях значення чутливості. Максимальний динамічний діапазон досягається при встановленні так званої базової чутливості (що відповідає мінімальному чисельному значенню з можливих). У міру збільшення значення цього параметра динамічний діапазон зменшується внаслідок зростаючого рівня шумів.

Фотографічна широта сучасних моделей цифрових фотоапаратів, оснащених сенсорами великого розміруі 14 або 16-розрядними АЦП, становить від 9 до 11 EV, що значно більше в порівнянні з аналогічними характеристиками кольорових негативних плівок 35-міліметрового формату (в середньому від 4 до 5 EV). Таким чином, навіть відносно недорогі цифрові фотоапарати мають фотографічну широту, достатню для адекватної передачі більшості типових сюжетів аматорської зйомки.

Однак існує проблема іншого. Пов'язана вона з обмеженнями, що накладаються стандартами запису цифрових зображень. Використовуючи формат JPEG із розрядністю 8 біт на колірний канал (який нині став фактичним стандартом для запису цифрових зображень у комп'ютерній індустрії та цифровій техніці), навіть теоретично не можна зберегти знімок, що має фотографічну широту понад 8 EV.

Припустимо, що АЦП фотоапарата дозволяє отримати зображення розрядністю 12 або 14 біт, що містить помітні деталі як у світлах, так і в тінях. Однак якщо фотографічна широта цього образу перевищує 8 EV, то в процесі перетворення на стандартний 8-бітовий формат без будь-яких додаткових дій (тобто просто шляхом відкидання «зайвих» розрядів) частина зафіксованої світлочутливим сенсором інформації загубиться.

Динамічний діапазон та фотографічна широта

Якщо говорити спрощено, динамічний діапазон визначається як відношення максимального значення яскравості зображення до її мінімального значення. У класичній фотографії традиційно використовується термін фотографічна широта, який, по суті, означає те саме.

Ширину динамічного діапазону можна виразити у вигляді відношення (наприклад, 1000:1, 2500:1 тощо), проте найчастіше для цього використовується логарифмічна шкала. У цьому випадку обчислюється значення десяткового логарифму відношення максимальної яскравості до її мінімальної величини, а після числа ставиться велика літера D (від англ. density? - щільність), рідше? - абревіатура OD (від англ. optical density? - Оптична щільність). Наприклад, якщо відношення максимальної величини яскравості до мінімального значення якогось пристрою становить 1000:1, то динамічний діапазон дорівнюватиме 3,0 D:

Для вимірювання фотографічної широти зазвичай застосовуються звані одиниці експозиції, що позначаються абревіатурою EV (від англ. exposure values; майстри часто називають їх «стопами» чи «ступенями»). Саме в цих одиницях зазвичай визначається величина корекції експозиції в налаштуваннях фотоапарата. Збільшення значення фотографічної широти на 1 EV еквівалентне подвоєння різниці між максимальним та мінімальним рівнями яскравості. Таким чином, шкала EV також є логарифмічною, але для розрахунку чисельних значень у даному випадку застосовується логарифм з основою 2. Наприклад, якщо будь-який пристрій забезпечує можливість фіксації зображень, відношення максимальної величини яскравості до мінімального значення яких досягає 256:1, то його фотографічна широта становитиме 8 EV:

Стиснення - розумний компроміс

Найбільш ефективним способом зберегти в повному обсязіінформацію про зображення, зафіксовану світлочутливим сенсором камери, є запис знімків у формат RAW. Однак подібна функція є далеко не у всіх фотоапаратах, та й не кожен фотоаматор готовий займатися кропіткою роботою з підбору індивідуальних налаштувань для кожного зробленого знімка.

Щоб знизити ймовірність втрати деталей висококонтрастних знімків, що перетворюються всередині камери в 8-бітний JPEG, в апаратах багатьох виробників (причому не тільки компактних, а й дзеркальних) були впроваджені спеціальні функції, що дозволяють без втручання користувача стискати динамічний діапазон зображень, що зберігаються. За рахунок зниження загального розмаїття та втрати незначної частини інформації вихідного образу подібні рішення дозволяють зберегти в 8-бітному форматі JPEG деталі у світлах і тінях, зафіксовані світлочутливим сенсором апарата, навіть у тому випадку, якщо динамічний діапазон вихідного образу виявився ширшим за 8 EV.

Одним із піонерів у освоєнні цього напряму стала компанія НР. У випущеній у 2003 році цифровій фотокамері HP Photosmart 945 була вперше у світі реалізована технологія HP Adaptive Lightling, що дозволяє автоматично компенсувати нестачу освітленості на темних областях знімків і таким чином зберігати деталі в тінях без ризику переекспонування (що дуже актуально під час зйомки висококонтрастних сцен). Алгоритм роботи HP Adaptive Lightling ґрунтується на принципах, викладених англійським ученим Едвіном Лендом (Edwin Land) у теорії зорового сприйняття людини RETINEX.

Меню функції HP Adaptive Lighting

Як же працює функція Adaptive Lighting? Після отримання 12-бітного образу знімка з нього екстрагується допоміжне монохромне зображення, яке фактично є картою освітленості. При обробці знімка ця карта використовується як маска, що дозволяє регулювати ступінь впливу досить складного цифрового фільтра на зображення. Таким чином, на ділянках, що відповідають найбільш темним точкам карти, вплив на образ майбутнього знімка мінімальний, і навпаки. Такий підхід дозволяє проявити деталі в тінях за рахунок виборчого освітлення цих областей і зниження загальної контрастності результуючого зображення.

Слід зазначити, що під час увімкнення функції Adaptive Lighting зроблений знімок обробляється описаним вище чином перед тим, як готове зображення буде записано у файл. Всі описані операції виконуються автоматично, а користувач може вибрати в меню фотоапарата один з двох режимів роботи Adaptive Lighting (низький або високий рівеньвпливу) або вимкнути цю функцію.

Взагалі, багато специфічних функцій сучасних цифрових фотоапаратів (зокрема і розглянуті у попередній статті системи розпізнавання осіб) є свого роду побічними чи конверсійними продуктами науково-дослідницьких робіт, які спочатку виконувалися для військових замовників. Що стосується функцій оптимізації динамічного діапазону зображень, то одним із найвідоміших постачальників подібних рішень є компанія Apical. Створені її співробітниками алгоритми, зокрема, лежать основу роботи функції SAT (Shadow Adjustment Technology - технологія корекції тіней), реалізованої у низці моделей цифрових фотоапаратів Olympus. Коротко роботу функції SAT можна описати так: на основі вихідного образу знімка створюється маска, відповідна найбільш темним ділянкам, і потім для цих областей проводиться автоматична корекція величини експозиції.

Ліцензію на право використання розробок Apical придбала компанія Sony. Багато моделей компактних фотоапаратів серії Cyber-shot і в дзеркальних камерах серії «альфа» реалізовано так звану функцію оптимізації динамічного діапазону (Dynamic Range Optimizer, DRO).

Фотографії, зроблені камерою НР Photosmart R927 з вимкненою (вгорі)
та активованою функцією Adaptive Lighting

Коригування знімка під час активації DRO виконується в процесі первинної обробки зображення (тобто до запису готового файлуформату JPEG). У базовому варіанті DRO має двоступінчасте налаштування (у меню можна вибрати стандартний або розширений режим роботи). При виборі стандартного режиму на основі аналізу образу знімка проводиться корекція величини експозиції, а потім до зображення застосовується крива тону для вирівнювання загального балансу. У розширеному режимі використовується складніший алгоритм, що дозволяє коригувати як у тінях, і у світлах.

Розробники Sony постійно працюють над удосконаленням алгоритму роботи DRO. Наприклад, у дзеркальній фотокамері А700 при активації просунутого режиму DRO передбачена можливість вибору одного з п'яти варіантів корекції. Крім того, реалізовано можливість збереження відразу трьох варіантів одного знімка (своєрідного брекетингу) з різними варіантами налаштувань DRO.

У багатьох моделях цифрових фотоапаратів Nikon є функція D-Lighting, в основі якої також використані алгоритми Apical. Правда, на відміну від описаних вище рішень, D-Lighting реалізована у вигляді фільтра для обробки раніше збережених знімків за допомогою тональної кривої, форма якої дозволяє зробити тіні світлішими, зберігаючи в незмінному вигляді інші ділянки зображення. Але оскільки в цьому випадку обробці піддаються вже готові 8-бітні зображення (а не вихідний образ кадру, що має більш високу розрядність і відповідно ширший динамічний діапазон), можливості D-Lighting дуже обмежені. Отримати такий самий результат користувач може шляхом обробки знімка в графічному редакторі.

При порівнянні збільшених фрагментів добре видно, що темні ділянки вихідного знімка (ліворуч)
при включенні функції Adaptive Lighting стали світлішими

Існує й ряд рішень, що базуються на інших засадах. Так, у багатьох фотоапаратах сімейства Lumix компанії Panasonic (зокрема, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18 та ін.) реалізовано функцію розпізнавання освітленості (Intelligent Exposure), яка є складовою системи інтелектуального автоматичного керування зйомкою iA. Робота функції Intelligent Exposure ґрунтується на автоматичному аналізі образу кадру та корекції темних ділянок знімка, щоб уникнути втрати деталей у тінях, а також (за потреби) стиснення динамічного діапазону висококонтрастних сцен.

У ряді випадків робота функції оптимізації динамічного діапазону передбачає не лише певні операції з обробки вихідного образу знімка, а й корекцію налаштувань зйомки. Наприклад, у нових моделях цифрових фотоапаратів Fujifilm (зокрема, у FinePix S100FS) реалізовано функцію розширення динамічного діапазону (Wide Dynamic Range, WDR), що дозволяє, за даними розробників, збільшити фотографічну широту на один або два ступені (у термінології налаштувань - 200 і 400%).

При активації функції WDR камера робить знімки з експокоригуванням –1 або –2 EV (залежно від вибраної настройки). Таким чином, образ кадру виходить невиконаним - це необхідно для того, щоб зберегти максимум інформації про деталі у світлах. Потім отриманий образ обробляється за допомогою кривої тонової, що дозволяє вирівняти загальний баланс і скоригувати рівень чорного. Після цього зображення перетворюється на 8-бітний формат і записується як файл JPEG.

Стиснення динамічного діапазону дозволяє зберегти більше деталей
у світлах і тінях, проте неминучим наслідком такого впливу
є зниження загальної контрастності. На нижньому зображенні
набагато краще опрацьована фактура хмар, проте
через нижчий контраст цей варіант знімка
виглядає менш природно

Така функція під назвою Dynamic Range Enlargement реалізована у низці компактних і дзеркальних фотоапаратів компанії Pentax (Optio S12, K200D та інших.). За даними виробника, застосування функції Dynamic Range Enlargement дозволяє збільшити фотографічну широту знімків на 1 EV без втрати деталей у світлі та тіні.

Функція, що діє подібним чином, під назвою Highlight tone priority (HTP) реалізована в ряді дзеркальних моделей компанії Canon (EOS 40D, EOS 450D та ін.). Згідно з інформацією, наведеною в посібнику користувача, активація HTP дозволяє покращити опрацювання деталей у світлах (а точніше, в діапазоні рівнів від 0 до 18% сірого).

Висновок

Підведемо підсумки. Вбудована функція стиснення динамічного діапазону дозволяє з мінімальним збитком перетворити вихідне зображення з великим динамічним діапазоном на 8-бітовий файл JPEG. За відсутності функції збереження кадрів у форматі RAW режим стиснення динамічного діапазону дає фотографу можливість повніше використовувати потенціал камери під час зйомки висококонтрастних сцен.

Зрозуміло, необхідно пам'ятати про те, що стиск динамічного діапазону – це не чудодійний засіб, а скоріше компроміс. За збереження деталей у світлах та/або тінях доводиться розплачуватися збільшенням рівня шуму на темних ділянках знімка, зниженням його контрастності та деяким огрубленням плавних тональних переходів.

Як і будь-яка автоматична функція, Алгоритм стиснення динамічного діапазону не є повною мірою універсальним рішенням, що дозволяє поліпшити абсолютно будь-який знімок. А отже, активувати його має сенс лише в тих випадках, коли він справді необхідний. Наприклад, щоб зняти силует з добре опрацьованим фоном, функцію стиснення динамічного діапазону необхідно відключити - інакше ефектний сюжет буде безнадійно зіпсований.

Завершуючи розгляд цієї теми, слід зазначити, що застосування функцій стиснення динамічного діапазону дозволяє «витягнути» на результувальному зображенні деталі, які були зафіксовані сенсором фотоапарата. Для отримання задовільного результату при зйомці висококонтрастних сюжетів необхідно використовувати додаткові пристрої (наприклад, градієнтні фільтри для фотографування пейзажів) або спеціальні прийоми (такі як зйомка кількох кадрів з екстреним брекетингом і подальше об'єднання їх в одне зображення із застосуванням технології Tone Mapping).

Наступна стаття буде присвячена функціям серійної зйомки.

Далі буде

Люди захоплені домашнім звуком демонструють цікавий парадокс. Вони готові перелопатити кімнату прослуховування, спорудити колонки з екзотичними випромінювачами, але зніяковіло відступають перед музичною консервою, наче вовк перед червоним прапорцем. А власне, чому не можна за прапорець заступити, а з консерви спробувати приготувати щось їстівніше?

Періодично на форумі виникають запитання: «Порадьте добре записані альбоми». Воно й зрозуміло. Спеціальні аудіофільські видання хоч і порадують слух першу хвилину, але до кінця їх ніхто не слухає, аж надто похнюпився репертуар. Що ж до решти фонотеки, то проблема, здається, очевидна. Можна заощаджувати, а можна не заощаджувати та вбухати прорву грошей у компоненти. Все одно мало кому подобається слухати свою улюблену музику на високій гучності та можливості підсилювача тут ні до чого.

Сьогодні навіть у Hi-Res альбомах зрізані піки фонограми і гучність загнана у кліпінг. Вважається, що більшість слухає музику на будь-якому барахлі, а тому треба «піддати газку», зробити свого роду тонкомпенсацію.


Зрозуміло, робиться це не спеціально, щоб засмутити аудіофілів. Про них взагалі мало хто згадує. Ось хіба що здогадалися збагрувати їм майстер-файли, з яких копіюється основний тираж - компакт-диски, MP3 та інше. Зрозуміло, майстер вже давно сплющений компресором, ніхто свідомо не готуватиме спеціальні версії для HD Tracks. Хіба що виконується певна процедура для вінілового носія, який із цієї причини звучить гуманніше. А для цифрового шляху все закінчується однаково – великим товстим компресором.

Отже, в даний час всі 100% фонограм, що видаються, за вирахуванням класичної музики, піддаються компресії при мастерингу. Хтось виконує цю процедуру більш-менш вміло, а хтось зовсім по-дурному. В результаті ми маємо пілігримів на форумах з лінійкою плагіна DR за пазухою, болючі порівняння видань, втечу до вінілу, де теж потрібно майнути першопреси.

Найбільш відморожені, побачивши всі ці неподобства, перетворилися буквально на аудіосатаністів. Без жартів вони читають звукорежисерське святе писання задом наперед! Сучасні програмиредагування звуку мають деякий інструмент відновлення звукової хвилі, що зазнала кліпінгу.

Спочатку цей функціонал призначався для студій. При мікшуванні бувають ситуації, коли кліпінг потрапив на запис, а переробити сесію з низки причин вже неможливо, і тут приходить на допомогу арсенал аудіоредактора – декліпер, декомпресор тощо.

І ось уже до подібного софту все сміливіше тягнуть ручки звичайні слухачі, у яких йде кров із вух після чергової новинки. Хтось віддає перевагу iZotope, хтось Adobe Audition, хтось операції поділяє між кількома програмами. Сенс відновлення колишньої динаміки полягає в програмному виправленні кліпованих піків сигналу, які, упираючись в 0 дБ, нагадують шестерню.

Так, про 100% відродження вихідника не йдеться, оскільки мають місце процеси інтерполяції за досить умоглядними алгоритмами. Але деякі результати обробки мені здалися цікавими і гідними вивчення.

Наприклад, альбом Лани Дель Рей "Lust For Life", що стабільно погано матюкається, тьху, що майструється! В оригіналі пісні "When the World Was at War We Kept Dancing" було ось так.


А після низки декліперів і декомпресорів стало ось так. Коефіцієнт DR змінився з 5 на 9. Завантажити та послухати зразок до та після обробки можна.


Не можу сказати, що метод універсальний і придатний для всіх поглиблених альбомів, але в даному випадку я вважав за краще зберегти в колекції саме цей варіант, оброблений активістом рутрекера, замість офіційного видання в 24 біти.

Навіть якщо штучне витягування піків зі звукового фаршу не поверне справжню динаміку музичного виконання, ваш ЦАП все одно подякує. Адже йому так важко було працювати без помилок на граничних рівнях, де велика ймовірність виникнення так званих міжсемплових піків (ISP). А тепер до 0 дБ дострибуватимуть лише рідкісні сполохи сигналу. Крім того, притихла фонограма при стисканні у FLAC або інший lossless-кодек тепер буде меншою за розміром. Більше «повітря» у сигналі заощаджує простір хард-драйву.

Спробуйте пожвавити свої найненависніші альбоми, вбиті на «війні гучності». Для запасу динаміки спочатку потрібно зменшити рівень треку на -6 дБ, а потім запустити декліпер. Ті, хто не вірить комп'ютерам, можуть просто встромити між CD-плеєром та підсилювачем студійний експандер. Цей пристрійпо суті займається тим самим - як може відновлює і витягує піки стисненого за динамікою аудіосигналу. Коштують подібні пристрої з 80-90-х не сказати щоб дуже дорого, і як експеримент спробувати їх буде дуже цікаво.


Контролер динамічного діапазону DBX 3BX обробляє сигнал окремо у трьох смугах - НЧ, СЧ та ВЧ

Колись еквалайзери були зрозумілим компонентом аудіосистеми, і ніхто їх не боявся. Сьогодні не потрібно вирівнювати завал високих частотмагнітної стрічки, але з потворною динамікою треба щось вирішувати, братики.

Підтримайте проект - поділіться посиланням, дякую!
Читайте також
Як встановити безкоштовний антивірус аваст Як встановити безкоштовний антивірус аваст Як очистити комп'ютер від вірусів самостійно Як очистити комп'ютер від вірусів самостійно Як повністю очистити комп'ютер від вірусів Як повністю очистити комп'ютер від вірусів