Ako funguje upscaling AI

Ako funguje AI Upscaling?

Stručná odpoveď: Zväčšovanie pomocou umelej inteligencie funguje tak, že model sa trénuje na párových obrázkoch s nízkym a vysokým rozlíšením a potom sa tieto údaje použijú na predpovedanie uveriteľných ďalších pixelov počas zvyšovania rozlíšenia. Ak model počas trénovania videl podobné textúry alebo tváre, môže pridať presvedčivé detaily; ak nie, môže „halucinovať“ artefakty, ako sú haló, vosková pokožka alebo blikanie vo videu.

Kľúčové poznatky:

Predikcia : Model generuje vierohodné detaily, nie zaručenú rekonštrukciu reality.

Výber modelu : CNN bývajú stabilnejšie; GAN môžu vyzerať ostrejšie, ale riskujú vynájdenie nových funkcií.

Kontroly artefaktov : Dávajte si pozor na svätožiary, opakujúce sa textúry, „takmer písmená“ a plastické tváre.

Stabilita videa : Použite časové metódy, inak uvidíte mihotanie a drift medzi jednotlivými snímkami.

Použitie s vysokými stávkami : Ak je dôležitá presnosť, zverejnite spracovanie a výsledky považujte za ilustratívne.

Ako funguje upscaling AI? Infografika.

Pravdepodobne ste to už videli: malý, chrumkavý obrázok sa zmení na niečo dostatočne ostré na tlač, streamovanie alebo vloženie do prezentácie bez myknutia oka. Je to ako podvádzanie. A – v tom najlepšom slova zmysle – tak trochu aj je 😅

Takže, ako funguje upscaling s umelou inteligenciou, sa točí okolo niečoho konkrétnejšieho než „počítač vylepšuje detaily“ (vlnitá ruka) a bližšie k „modelu predpovedá vierohodnú štruktúru s vysokým rozlíšením na základe vzorov, ktoré sa naučil z mnohých príkladov“ ( Hlboké učenie pre superrozlíšenie obrázkov: Prieskum ). Tento krok predikcie je celá hra – a preto môže upscaling s umelou inteligenciou vyzerať úžasne... alebo trochu plasticky... alebo ako keby vašej mačke narástli bonusové fúzy.

Články, ktoré by ste si mohli prečítať po tomto:

🔗 Ako funguje umelá inteligencia
Naučte sa základy modelov, dát a inferencie v umelej inteligencii.

🔗 Ako sa umelá inteligencia učí
Pozrite sa, ako tréningové dáta a spätná väzba v priebehu času zlepšujú výkon modelu.

🔗 Ako umelá inteligencia detekuje anomálie
Pochopte základné vzory a to, ako umelá inteligencia rýchlo signalizuje nezvyčajné správanie.

🔗 Ako umelá inteligencia predpovedá trendy
Preskúmajte metódy prognózovania, ktoré rozpoznávajú signály a predvídajú budúci dopyt.


Ako funguje AI Upscaling: základná myšlienka, povedané bežnými slovami 🧩

Zväčšenie rozlíšenia znamená zvýšenie rozlíšenia: viac pixelov, väčší obraz. Tradičné zväčšenie rozlíšenia (ako napríklad bikubické) v podstate rozťahuje pixely a vyhladzuje prechody ( bikubická interpolácia ). Je to v poriadku, ale nedokáže vytvoriť nové detaily - iba interpoluje.

Zvyšovanie rozlíšenia pomocou umelej inteligencie sa pokúša o niečo odvážnejšie (vo svete výskumu známe ako „superrozlíšenie“) ( Hlboké učenie pre superrozlíšenie obrazu: Prieskum ):

  • Pozerá sa na vstup s nízkym rozlíšením

  • Rozpoznáva vzory (hrany, textúry, črty tváre, ťahy textu, väzbu látky...)

  • by mala vyzerať verzia s vyšším rozlíšením

  • Generuje dodatočné pixelové dáta, ktoré zodpovedajú týmto vzorom

Nie „dokonale obnoviť realitu“, skôr „urobiť vysoko vierohodný odhad“ ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). Ak vám to znie trochu podozrivo, nemýlite sa – ale to je tiež dôvod, prečo to funguje tak dobre 😄

A áno, to znamená, že zvýšenie rozlíšenia pomocou umelej inteligencie je v podstate riadená halucinácia... ale produktívnym spôsobom rešpektujúcim pixely.


Čo robí dobrú verziu AI upscalingu? ✅🛠️

Ak hodnotíte vylepšenie pomocou umelej inteligencie (alebo prednastavené nastavenia), toto je to, čo je zvyčajne najdôležitejšie:

  • Obnova detailov bez prepečenia.
    Dobré zvýšenie rozlíšenia dodáva chrumkavosť a štruktúru, nie chrumkavý šum alebo falošné póry.

  • Disciplína na hranách
    Čisté línie zostávajú čisté. Zlé modely spôsobujú, že sa hrany kývajú alebo vytvárajú svätožiary.

  • Realizmus textúry
    Vlasy by sa nemali stať ťahom štetca. Tehla by sa nemala stať opakujúcou sa vzorovanou pečiatkou.

  • Spracovanie šumu a kompresie
    Veľa bežných obrázkov je skrátených do formátu JPEG na minimum. Dobrý upscaler toto poškodenie nezosilňuje ( Real-ESRGAN ).

  • Rozpoznanie tváre a textu
    Tváre a text sú miesta, kde sa najľahšie zisťujú chyby. Dobrí modeli s nimi zaobchádzajú jemne (alebo majú špecializované režimy).

  • Konzistentnosť medzi snímkami (pre video)
    Ak detaily medzi jednotlivými snímkami mihajú, vaše oči budú kričať. Zvýšenie rozlíšenia videa prežije alebo zomrie časovou stabilitou ( BasicVSR (CVPR 2021) ).

  • Ovládacie prvky, ktoré dávajú zmysel
    Chcete posuvníky, ktoré zodpovedajú skutočným výsledkom: odšumovanie, rozmazanie, odstraňovanie artefaktov, zachovanie zrnitosti, ostrenie… praktické veci.

Tiché pravidlo, ktoré platí: „najlepšie“ zvýšenie rozlíšenia je často to, ktoré si sotva všimnete. Vyzerá to, akoby ste mali na začiatku lepší fotoaparát 📷✨


Porovnávacia tabuľka: populárne možnosti škálovania AI (a na čo sú dobré) 📊🙂

Nižšie je uvedené praktické porovnanie. Ceny sú zámerne nejasné, pretože nástroje sa líšia v závislosti od licencie, balíkov, výpočtových nákladov a všetkých tých zábavných vecí.

Nástroj / Prístup Najlepšie pre Cenová atmosféra Prečo to funguje (zhruba)
Zvyšovanie rozlíšenia stolových počítačov v štýle Topaz ( Topaz Photo , Topaz Video ) Fotografie, video, jednoduchý pracovný postup Platené Silné všeobecné modely + veľa ladenia, väčšinou „proste fungujú“…
Funkcie typu Adobe „Super Resolution“ ( Adobe Enhance > Super Resolution ) Fotografi, ktorí už v tomto ekosystéme Predplatné Rekonštrukcia detailov s dôkladnou štruktúrou, zvyčajne konzervatívna (menej dramatická)
Real-ESRGAN / varianty ESRGAN ( Real-ESRGAN , ESRGAN ) DIY, vývojári, dávkové úlohy Zadarmo (ale časovo náročné) Skvelé na detailovanie textúry, môže byť pikantné na tvári, ak si nedáte pozor
Režimy zväčšovania založené na difúzii ( SR3 ) Kreatívna práca, štylizované výsledky Zmiešané Vie vytvoriť nádherné detaily - ale vie aj vymyslieť nezmysly, takže... áno
Zvyšovanie rozlíšenia hier (v štýle DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) Hranie a vykresľovanie v reálnom čase V balíku Využíva dáta o pohybe a naučené predchádzajúce hodnoty - plynulý výkon 🕹️
Služby pre upscaling cloudu Pohodlie, rýchle výhry Platba za použitie Rýchle + škálovateľné, ale vymieňate si kontrolu a niekedy aj jemnosť
AI upscalery zamerané na video ( BasicVSR , Topaz Video ) Staré zábery, anime, archívy Platené Časové triky na zníženie blikania + špecializované video modely
Zväčšenie rozlíšenia pre „inteligentný“ telefón/galériu Príležitostné použitie Zahrnuté Ľahké modely vyladené pre príjemný výkon, nie pre dokonalosť (stále praktické)

Priznanie k zvláštnosti formátovania: „Platené“ robí v tej tabuľke veľa práce. Ale chápete, o čo ide 😅


Veľké tajomstvo: modely sa učia mapovať z nízkeho rozlíšenia na vysoké rozlíšenie 🧠➡️🖼️

Jadrom väčšiny upscalingov umelej inteligencie je nastavenie riadeného učenia ( obrazové superrozlíšenie s použitím hlbokých konvolučných sietí (SRCNN) ):

  1. Začnite s obrázkami vo vysokom rozlíšení („pravda“)

  2. Znížiť ich rozlíšenie na verzie s nízkym rozlíšením („vstup“)

  3. Trénovanie modelu na rekonštrukciu pôvodného vysokého rozlíšenia z nízkeho rozlíšenia

Postupom času sa model učí korelácie, ako napríklad:

  • „Tento druh rozmazania okolo oka zvyčajne patrí mihalniciam.“

  • „Tento zhluk pixelov často označuje pätkový text.“

  • „Tento okrajový gradient vyzerá ako línia strechy, nie ako náhodný šum“

Nejde o zapamätávanie si konkrétnych obrázkov (v jednoduchom zmysle), ale o učenie sa štatistickej štruktúry ( Hlboké učenie pre superrozlíšenie obrázkov: Prieskum ). Predstavte si to ako učenie sa gramatiky textúr a hrán. Nie gramatika poézie, skôr ako… gramatika manuálu IKEA 🪑📦 (nemotorná metafora, no dosť blízko).


Základné informácie: čo sa deje počas inferencie (keď robíte upscale) ⚙️✨

Keď vložíte obrázok do zariadenia na zvyšovanie rozlíšenia pomocou umelej inteligencie, zvyčajne existuje postup podobný tomuto:

  • Predspracovanie

    • Konvertovať farebný priestor (niekedy)

    • Normalizácia hodnôt pixelov

    • Ak je obrázok veľký, rozdeľte ho na časti (kontrola reality VRAM 😭) ( Real-ESRGAN repo (možnosti dlaždíc) )

  • Extrakcia prvkov

    • Skoré vrstvy detekujú hrany, rohy a prechody

    • Hlbšie vrstvy detekujú vzory: textúry, tvary, komponenty tváre

  • Rekonštrukcia

    • Model generuje mapu prvkov s vyšším rozlíšením

    • Potom to prevedie na skutočný pixelový výstup

  • Dodatočné spracovanie

    • Voliteľné ostrenie

    • Voliteľné odšumenie

    • Voliteľné potlačenie artefaktov (zvonenie, halo efekty, blokovitosť)

Jeden jemný detail: veľa nástrojov zväčšuje rozmery dlaždíc a potom prekrýva spoje. Skvelé nástroje skrývajú hranice dlaždíc. Menej dôležité nástroje zanechávajú pri žmúrení slabé mriežkové stopy. A áno, budete žmúriť, pretože ľudia milujú skúmanie drobných nedokonalostí pri 300 % priblížení ako malí škriatkovia 🧌


Hlavné modelové rodiny používané na upscaling AI (a prečo sa zdajú byť odlišné) 🤖📚

1) Superrozlíšenie založené na CNN (klasický pracant)

Konvolučné neurónové siete sú skvelé pre lokálne vzory: hrany, textúry, malé štruktúry ( Superrozlíšenie obrazu pomocou hlbokých konvolučných sietí (SRCNN) ).

  • Výhody: rýchly, stabilný, menej prekvapení

  • Nevýhody: pri silnom zaťažení môže vyzerať trochu „spracovane“

2) Zväčšenie škálovania založené na GAN (v štýle ESRGAN) 🎭

GAN (generatívne adverzárne siete) učia generátor tak, aby vytváral obrázky s vysokým rozlíšením, ktoré diskriminátor nedokáže rozlíšiť od skutočných obrázkov ( generatívne adverzárne siete ).

  • Výhody: výrazné detaily, pôsobivá textúra

  • Nevýhody: vie si vymyslieť detaily, ktoré tam neboli - niekedy nesprávne, niekedy zvláštne ( SRGAN , ESRGAN )

GAN vám môže dodať ostrosť, ktorá vám zaručí úžas. Môže tiež dodať portrétovanej osobe extra obočie. Takže... vyberte si svoje súboje 😬

3) Zväčšenie založené na difúzii (kreatívny zástupný znak) 🌫️➡️🖼️

Difúzne modely krok za krokom odstraňujú šum a možno ich riadiť tak, aby vytvárali detaily s vysokým rozlíšením ( SR3 ).

  • Výhody: dokáže byť neuveriteľne dobrý v uveriteľných detailoch, najmä pri kreatívnej práci

  • Nevýhody: môže sa odchýliť od pôvodnej identity/štruktúry, ak sú nastavenia agresívne ( SR3 )

Tu sa „zväčšenie“ začína miešať s „novým predstavením“. Niekedy je to presne to, čo chcete. Niekedy nie.

4) Zväčšenie rozlíšenia videa s časovou konzistenciou 🎞️

Zvýšenie rozlíšenia videa často pridáva logiku s ohľadom na pohyb:

  • Používa susedné snímky na stabilizáciu detailov ( BasicVSR (CVPR 2021) )

  • Snaží sa vyhnúť blikaniu a plazivým artefaktom

  • Často kombinuje superrozlíšenie s odšumovaním a prekladaním ( Topaz Video )

Ak je zvýšenie rozlíšenia obrazu ako reštaurovanie jedného obrazu, zvýšenie rozlíšenia videa je ako reštaurovanie flipbooku bez toho, aby sa nos postavy menil na každej strane. Čo je... ťažšie, ako sa zdá.


Prečo upscaling pomocou umelej inteligencie niekedy vyzerá falošne (a ako ho rozpoznať) 👀🚩

Zvyšovanie rozlíšenia pomocou umelej inteligencie zlyháva rozpoznateľnými spôsobmi. Keď sa naučíte tieto vzorce, uvidíte ich všade, napríklad keď si kúpite nové auto a zrazu si všimnete daný model na každej ulici 😵💫

Bežné rozprávania:

  • Depilácia voskom tváre (príliš veľa odšumovania + vyhladzovania)

  • Preostrené halo efekty okolo hrán (klasické územie „prestrelenia“) ( bikubická interpolácia )

  • Opakujúce sa textúry (tehlové steny sa menia na kopírované a vložené vzory)

  • Chrumkavý mikrokontrast , ktorý kričí „algoritmus“

  • Znehodnocovanie textu , kde sa písmená stávajú takmer písmenami (najhorší druh)

  • Posun detailov , kde sa malé prvky nenápadne menia, najmä v difúznych pracovných postupoch ( SR3 )

Zložitá časť: niekedy tieto artefakty vyzerajú na prvý pohľad „lepšie“. Váš mozog má rád ostrosť. Ale po chvíli sa vám to zdá… divné.

Slušnou taktikou je oddialiť záber a skontrolovať, či vyzerá prirodzene pri bežnej vzdialenosti pozorovania. Ak to vyzerá dobre len pri 400% priblížení, nie je to výhra, to je len koníček 😅


Ako funguje AI Upscaling: tréningová stránka bez matematických problémov 📉🙂

Trénovanie modelov s vysokým rozlíšením zvyčajne zahŕňa:

Typické typy strát:

Neustále prebieha preťahovanie sa o vojnu:

  • Urobte verné originálu
    vs.

  • Urobte to vizuálne príjemné

Rôzne nástroje sa v tomto spektre umiestňujú na rôznych miestach. A jeden z nich môžete uprednostniť v závislosti od toho, či reštaurujete rodinné fotografie alebo pripravujete plagát, kde je „dobrý vzhľad“ dôležitejší ako forenzná presnosť.


Praktické pracovné postupy: fotografie, staré skeny, anime a video 📸🧾🎥

Fotografie (portréty, krajinky, produktové zábery)

Najlepší postup je zvyčajne:

  • Najprv mierne odšumenie (ak je to potrebné)

  • Luxusné s konzervatívnym prostredím

  • Ak sa vám veci zdajú príliš hladké, pridajte späť zrnitosť (áno, naozaj)

Obilniny sú ako soľ. ​​Príliš veľa pokazí večeru, ale žiadna nemôže chutiť trochu mdlo 🍟

Staré skeny a silne komprimované obrázky

Tieto sú ťažšie, pretože model môže považovať kompresné bloky za „textúru“.
Skúste:

  • Odstránenie alebo deblokovanie artefaktov

  • Potom vyššia kvalita

  • Potom jemné doostrenie (nie príliš... viem, každý to hovorí, ale aj tak)

Anime a linková grafika

Výhody čiarovej grafiky:

  • Modely, ktoré zachovávajú čisté hrany

  • Znížené halucinácie textúr
    . Zväčšenie anime často vyzerá skvele, pretože tvary sú jednoduchšie a konzistentnejšie. (Šťastie.)

Video

Video pridáva ďalšie kroky:

  • Odhlučnenie

  • Odstraňovanie prekladania (pre určité zdroje)

  • Luxusné

  • Časové vyhladenie alebo stabilizácia ( BasicVSR (CVPR 2021) )

  • Voliteľné opätovné zavedenie zŕn pre súdržnosť

Ak vynecháte časovú konzistenciu, získate to trblietavé detaily. Keď si to raz všimnete, už to nemôžete prestať vidieť. Ako vŕzgajúca stolička v tichej miestnosti 😖


Výber nastavení bez zbytočného hádania (malý ťahák) 🎛️😵💫

Tu je slušný východiskový postoj:

  • Ak tváre vyzerajú plasticky
    , znížte šum, znížte ostrosť alebo vyskúšajte model alebo režim na zachovanie tváre.

  • Ak textúry vyzerajú príliš intenzívne,
    znížte hodnotu posuvníkov „vylepšenie detailov“ alebo „obnovenie detailov“ a potom pridajte jemnú zrnitosť.

  • Ak hrany žiaria,
    znížte ostrosť a skontrolujte možnosti potlačenia halo efektu.

  • Ak obrázok vyzerá príliš „AI“,
    zvoľte konzervatívnejší prístup. Niekedy je najlepším krokom jednoducho… menej.

Tiež: nezvyšujte rozlíšenie na 8x len preto, že môžete. Čisté 2x alebo 4x je často ideálna kombinácia. Okrem toho žiadate modelku, aby napísala fanfikciu o vašich pixeloch 📖😂


Etika, autenticita a trápna otázka „pravdy“ 🧭😬

Zvyšovanie rozlíšenia pomocou umelej inteligencie stiera hranicu:

  • Obnova znamená znovuobjavenie toho, čo tam bolo

  • Vylepšenie znamená pridanie toho, čo tam nebolo

Pri osobných fotografiách je to zvyčajne v poriadku (a je to krásne). Pri žurnalistike, právnych dôkazoch, lekárskom zobrazovaní alebo čomkoľvek, kde záleží na vernosti... musíte byť opatrní ( OSAC/NIST: Štandardná príručka pre správu forenzných digitálnych snímok , SWGDE Pokyny pre forenznú analýzu snímok ).

Jednoduché pravidlo:

  • Ak je v stávke veľa, berte zvýšenie rozlíšenia umelej inteligencie ako ilustráciu , nie ako definitívny príklad.

Zverejnenie je dôležité aj v profesionálnom kontexte. Nie preto, že by umelá inteligencia bola zlá, ale preto, že si diváci zaslúžia vedieť, či boli detaily rekonštruované alebo zachytené. To je jednoducho... úctivé.


Záverečné poznámky a rýchle zhrnutie 🧡✅

Takže, ako funguje AI Upscaling, je to nasledovné: modely sa učia, ako detaily s vysokým rozlíšením majú tendenciu súvisieť so vzormi s nízkym rozlíšením, a potom počas upscalingu predpovedajú uveriteľné ďalšie pixely ( Hlboké učenie pre superrozlíšenie obrazu: Prieskum ). V závislosti od rodiny modelov (CNN, GAN, difúzia, video-temporálna) môže byť táto predpoveď konzervatívna a verná... alebo odvážna a niekedy neistá 😅

Stručné zhrnutie

Ak chceš, povedz mi, čo upravuješ (tváre, staré fotky, video, anime, textové skeny) a ja ti navrhnem stratégiu nastavení, ktorá sa vyhne bežným nástrahám „AI vzhľadu“ 🎯🙂


Často kladené otázky

Zvyšovanie úrovne umelej inteligencie a ako to funguje

Zväčšovanie rozlíšenie pomocou umelej inteligencie (často nazývané „superrozlíšenie“) zvyšuje rozlíšenie obrázka predpovedaním chýbajúcich detailov s vysokým rozlíšením zo vzorov naučených počas trénovania. Namiesto jednoduchého rozťahovania pixelov, ako je to pri bikubickej interpolácii, model študuje hrany, textúry, plochy a ťahy podobné textu a potom generuje nové pixelové dáta, ktoré zodpovedajú týmto naučeným vzorom. Je to menej „obnovovanie reality“ a viac „vytváranie vierohodného odhadu“, ktorý pôsobí prirodzene.

Zväčšenie pomocou umelej inteligencie verzus bikubická alebo tradičná zmena veľkosti

Tradičné metódy upscalingu (ako napríklad bikubické) interpolujú najmä medzi existujúcimi pixelmi, čím vyhladzujú prechody bez vytvárania skutočne nových detailov. Upscaling s využitím umelej inteligencie sa zameriava na rekonštrukciu vierohodnej štruktúry rozpoznávaním vizuálnych podnetov a predpovedaním, ako majú vyzerať verzie týchto podnetov vo vysokom rozlíšení. Preto sa výsledky umelej inteligencie môžu zdať dramaticky ostrejšie a tiež preto môžu zavádzať artefakty alebo „vymýšľať“ detaily, ktoré v zdroji neboli.

Prečo môžu tváre vyzerať voskové alebo príliš hladké

Voskové tváre zvyčajne vznikajú agresívnym odšumovaním a vyhladzovaním v kombinácii so zaostrovaním, ktoré odstraňuje prirodzenú textúru pleti. Mnoho nástrojov zaobchádza so šumom a jemnou textúrou podobne, takže „čistenie“ obrázka môže vymazať póry a jemné detaily. Bežným prístupom je znížiť odšumovanie a zaostrovanie, použiť režim zachovania tváre, ak je k dispozícii, a potom znova pridať trochu zrna, aby výsledok pôsobil menej plasticky a viac fotograficky.

Bežné artefakty AI pri zvyšovaní rozlíšenia, na ktoré si treba dávať pozor

Medzi typické znaky patria kruhy okolo okrajov, opakujúce sa textúry (ako napríklad tehly kopírované a vložené), chrumkavý mikrokontrast a text, ktorý sa mení na „takmer písmená“. V pracovných postupoch založených na difúzii môžete tiež pozorovať posun detailov, kde sa malé prvky jemne menia. Pri videu sú blikanie a plazenie detailov naprieč snímkami veľkými varovnými signálmi. Ak to vyzerá dobre len pri extrémnom priblížení, nastavenia sú pravdepodobne príliš agresívne.

Ako sa výsledky GAN, CNN a difúznych upscalerov líšia

Superrozlíšenie založené na CNN býva stabilnejšie a predvídateľnejšie, ale pri silnom zaťažení môže vyzerať „spracované“. Možnosti založené na GAN (v štýle ESRGAN) často vytvárajú výraznejšiu textúru a vnímanú ostrosť, ale môžu halucinovať nesprávne detaily, najmä na tvárach. Zväčšenie založené na difúzii môže generovať krásne a vierohodné detaily, no môžu sa odchýliť od pôvodnej štruktúry, ak sú nastavenia vedenia alebo intenzity príliš silné.

Praktická stratégia nastavení, ako sa vyhnúť vzhľadu „príliš umelej inteligencie“

Začnite konzervatívne: pred siahaním po extrémnych faktoroch zvýšte rozlíšenie na 2× alebo 4×. Ak tváre vyzerajú plasticky, znížte šum a ostrenie a vyskúšajte režim s ohľadom na tváre. Ak sú textúry príliš intenzívne, znížte vylepšenie detailov a následne zvážte pridanie jemného zrna. Ak hrany žiaria, znížte ostrenie a skontrolujte potlačenie halo efektu alebo artefaktov. V mnohých postupoch vyhráva „menej“, pretože zachováva vierohodný realizmus.

Spracovanie starých skenov alebo silne komprimovaných obrázkov JPEG pred zvýšením rozlíšenia

Komprimované obrázky sú zložité, pretože modely dokážu považovať blokové artefakty za skutočnú textúru a zosilniť ich. Bežným pracovným postupom je najprv odstránenie alebo deblokovanie artefaktov, potom zvýšenie rozlíšenia a následne jemné doostrenie, iba ak je to potrebné. Pri skenoch môže jemné čistenie pomôcť modelu zamerať sa na skutočnú štruktúru a nie na poškodenie. Cieľom je znížiť „falošné textúrne signály“, aby model, ktorý vykonáva zvýšenie rozlíšenia, nebol nútený robiť sebavedomé odhady na základe zašumených vstupov.

Prečo je zvýšenie rozlíšenia videa ťažšie ako zvýšenie rozlíšenia fotografií

Zvyšovanie rozlíšenia videa musí byť konzistentné vo všetkých snímkach, nielen dobré na jednom statickom obrázku. Ak detaily medzi jednotlivými snímkami blikajú, výsledok sa rýchlo stane rušivým. Prístupy zamerané na video používajú časové informácie zo susedných snímok na stabilizáciu rekonštrukcie a zabránenie trblietavým artefaktom. Mnohé pracovné postupy zahŕňajú aj odšumovanie, prekladanie pre určité zdroje a voliteľné opätovné zavedenie zrnitosti, takže celá sekvencia pôsobí súdržne a nie umelo ostre.

Kedy nie je vhodné alebo je riskantné spoliehať sa na zvýšenie škálovania pomocou umelej inteligencie

Zvyšovanie rozlíšenia pomocou umelej inteligencie (AI) sa najlepšie chápe ako vylepšenie, nie ako dôkaz. V kritických kontextoch, ako je žurnalistika, právne dôkazy, lekárske zobrazovanie alebo forenzná práca, môže generovanie „uveriteľných“ pixelov zavádzať, pretože môže pridať detaily, ktoré neboli zachytené. Bezpečnejšie je použiť ich ilustratívne a ukázať, že umelá inteligencia zrekonštruovala detaily. Ak je vernosť kritická, zachovajte originály a zdokumentujte každý krok spracovania a nastavenie.

Referencie

  1. arXiv - Hlboké učenie pre superrozlíšenie obrazu: Prieskum - arxiv.org

  2. arXiv - Superrozlíšenie obrazu pomocou hlbokých konvolučných sietí (SRCNN) - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. Vývojár NVIDIA - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Nadácia pre počítačové videnie (CVF) s otvoreným prístupom - BasicVSR: Hľadanie základných komponentov vo vysokorozlíšenom videu (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Generatívne adverzárne siete - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Percepčné straty (Johnson a kol., 2016) - arxiv.org

  12. GitHub - Real-ESRGAN repozitár (možnosti dlaždíc) - github.com

  13. Wikipédia - Bikubická interpolácia - wikipedia.org

  14. Topaz Labs - Topaz Photo - topazlabs.com

  15. Topaz Labs - Topaz Video - topazlabs.com

  16. Centrum pomoci AdobeAdobe Enhance > Super rozlíšeniehelpx.adobe.com

  17. NIST / OSAC - Štandardná príručka pre správu forenzných digitálnych obrazov (verzia 1.0) - nist.gov

  18. SWGDE - Pokyny pre forenznú analýzu obrazu - swgde.org

Nájdite najnovšiu umelú inteligenciu v oficiálnom obchode s asistentmi umelej inteligencie

O nás

Späť na blog