Як працює NVIDIA NTC: журналісти перевірили нейронне стиснення текстур на кількох відеокартах

Технологія NVIDIA Neural Texture Compression (NTC), розроблена для радикального зменшення використання відеопам’яті завдяки нейронному стисненню текстур, пройшла тестування на різноманітних відеокартах, демонструючи потенціал для майбутніх ігрових технологій, але водночас виявляючи певні обмеження, пов’язані з продуктивністю та візуальними артефактами. Згідно з результатами випробувань, проведених виданням Tom’s Hardware, NTC використовує тензорні ядра для стиснення та розпакування даних, що дозволяє значно зменшити обсяг VRAM, необхідний для текстур. Водночас, ця технологія вимагає значних обчислювальних ресурсів GPU, призводить до затримок під час рендерингу та потребує додаткових методів згладжування для усунення шуму. Важливо зазначити, що, як і багато інших графічних рішень від NVIDIA, NTC демонструє кращі результати на більш потужних відеокартах, що підкреслює залежність ефективності від апаратної складової.

Принцип роботи та режими NTC

Суть Neural Texture Compression полягає у використанні невеликих нейронних моделей, які виконуються у шейдерах під час рендерингу та апаратно прискорюються завдяки кооперативним векторам, що забезпечує прийнятну продуктивність у реальному часі. Замість написання складного коду шейдерів, розробники можуть навчати моделі штучного інтелекту оцінювати результат, подібний до того, що міг би бути досягнутий традиційним програмним шляхом, що є ключовим принципом нейронного стиснення. Ця технологія пропонує три основні режими роботи в середовищі DirectX 12: висновок під час завантаження (Inference on Load), висновок під час вибірки (Inference on Sample) та висновок під час зворотного зв’язку (Inference on Feedback), при цьому режим Inference on Feedback не підтримується у Vulkan. Фаза стиснення перетворює оригінальні текстури на комбінацію ваг для нейронної моделі та латентних ознак. У режимі Inference on Sample фаза декомпресії передбачає зчитування латентних даних та їх пропуск через багатошаровий перцептрон (MLP) для отримання результату, що робить процес детермінованим і виключає генерацію зайвих даних. Для боротьби з візуальними артефактами застосовується стохастична фільтрація текстур (STF), яка додає випадковість для отримання фільтрованих текстур. Новітні відеокарти Blackwell здатні подвоїти швидкість фільтрації текстур порівняно з попередніми поколіннями, роблячи STF особливо ефективною на них. Цей режим, Inference on Sample, може бути надто вимогливим до слабших відеокарт, а без належного згладжування, такого як DLSS або TAA, призводить до значного шуму на зображенні.

Аналіз режимів та їх вплив на продуктивність

Режим Inference on Load передбачає розпакування текстур NTC під час завантаження гри або рівня, одночасно перекодовуючи їх у блочно-стиснутий формат (BCn), що мінімально впливає на продуктивність GPU, але суттєво зменшує розмір текстур на накопичувачі та трафік PCIe, хоча й забезпечує менше збереження VRAM. Режим Inference on Feedback, натомість, використовує зворотний зв’язок семплера, розпаковуючи лише ті текстури, які необхідні для рендерингу поточного кадру, що пропонує компроміс між двома попередніми режимами. Він дозволяє досягти значного зменшення використання відеопам’яті, хоча й не на тому ж рівні, що Inference on Sample, оскільки вимагає додаткового виділення пам’яті, а його продуктивність зазвичай знаходиться між Inference on Load та Inference on Sample.

Тестування NTC на різних відеокартах

Тестування, проведене Tom’s Hardware, базувалося на зразку Neural Texture Compression, розміщеному на GitHub, з використанням базової сцени Intel Sponza з пакетом Colorful Curtains для імітації більш вимогливого ігрового навантаження. Видання зазначає, що у реальних іграх “відносна вартість кадру в реальній грі може бути нижчою, ніж у цьому прикладі”. Тестування зосереджувалося на “роздільній здатності, яка найбільше підходить для кожної відеокарти”.

Навіть у роздільній здатності 4K, відеокарта RTX 5090 демонструє досить низьку вартість кадру в режимі Inference on Sample з використанням TAA порівняно з Inference on Load. Хоча увімкнення DLSS додає навантаження на тензорні ядра, у реальних іграх з більшою кількістю проходів рендерингу та динамічних подій на екрані, продуктивність, ймовірно, покращиться завдяки рендерингу з нижчою роздільною здатністю завдяки DLSS.

На RTX 5070 при роздільній здатності 1440p, вартість режиму Inference on Sample порівняно з текстурами, перекодованими BCn, становить від 0,50 до 0,70 мс, причому у реальних іграх цей показник буде ще меншим. При роздільній здатності 4K час кадру сягає приблизно 1,20 мс.

RTX 5060 при роздільній здатності 1080p та Inference on Sample демонструє час виконання від 0,60 до 0,70 мс, проте на вищих роздільних здатностях виникають труднощі: при 1440p затримка перевищує 1 мс, а при 4K наближається до 2 мс. Мобільна RTX 4060 в режимі Inference on Sample при 1080p витрачає приблизно 0,70-0,85 мс на кадр. “Все ще можливі сценарії, коли 4060 з 8 ГБ буфером кадрів може виграти від Inference on Sample. […] Якщо основним обмеженням є відеопам’ять, то, можливо, варто використовувати цей режим. Якщо гра змушує знизити налаштування якості текстур та працює досить швидко, коли це зробити, то Inference on Sample може надати перевагу”.