Kif jaħdem l-upscaling tal-AI

Kif jaħdem l-AI Upscaling?

Tweġiba qasira: L-upscaling tal-AI jaħdem billi jħarreġ mudell fuq immaġini mqabbla b'riżoluzzjoni baxxa u għolja, imbagħad jużah biex ibassar pixels żejda kredibbli waqt l-upscaling. Jekk il-mudell ikun ra nisġa jew uċuħ simili fit-taħriġ, jista' jżid dettall konvinċenti; jekk le, jista' "alluċina" artefatti bħal halos, ġilda tax-xama', jew teptip fil-vidjow.

Punti ewlenin:

Tbassir : Il-mudell jiġġenera dettall plawżibbli, mhux rikostruzzjoni garantita tar-realtà.

L-għażla tal-mudell : Is-CNNs għandhom it-tendenza li jkunu aktar stabbli; Il-GANs jistgħu jidhru aktar preċiżi iżda jirriskjaw li jivvintaw karatteristiċi.

Verifiki tal-artefatti : Oqgħod attent għal halos, nisġa ripetuta, "kważi ittri", u uċuħ tal-plastik.

Stabbiltà tal-vidjo : Uża metodi temporali jew tara tleqqija u ċaqliq minn frejm għal frejm.

Użu b'riskju għoli : Jekk l-eżattezza hija importanti, żvela l-ipproċessar u ttratta r-riżultati bħala illustrattivi.

Kif jaħdem l-upscaling tal-AI? Infografika.

Probabbilment rajtha: immaġni ċkejkna u iqarmeċ tinbidel f'xi ħaġa ċara biżżejjed biex tipprintjaha, tixxandarha, jew titpoġġa f'preżentazzjoni mingħajr ma titgħawweġ. Tħossha bħal qerq. U - fl-aħjar mod - f'ċertu sens hekk hi 😅

Mela, Kif jaħdem l-AI Upscaling jinżel għal xi ħaġa aktar speċifika minn "il-kompjuter itejjeb id-dettalji" (immewġin bl-id) u eqreb lejn "mudell ibassar struttura plawżibbli ta' riżoluzzjoni għolja bbażata fuq mudelli li tgħallem minn ħafna eżempji" ( Deep Learning for Image Super-resolution: A Survey ). Dak il-pass ta' tbassir huwa l-logħba kollha - u huwa għalhekk li l-AI upscaling jista' jidher tal-għaġeb... jew ftit tal-plastik... jew bħallikieku l-qattus tiegħek kiber mustaċċi żejda.

Artikoli li forsi tixtieq taqra wara dan:

🔗 Kif taħdem l-IA
Tgħallem il-bażiċi tal-mudelli, id-dejta, u l-inferenza fl-AI.

🔗 Kif titgħallem l-AI
Ara kif id-dejta tat-taħriġ u l-feedback itejbu l-prestazzjoni tal-mudell maż-żmien.

🔗 Kif l-AI tiskopri anomaliji
Ifhem il-linji bażi tal-mudelli u kif l-AI tindika mġiba mhux tas-soltu malajr.

🔗 Kif l-AI tbassar ix-xejriet
Esplora metodi ta' tbassir li jindunaw b'sinjali u jantiċipaw id-domanda futura.


Kif jaħdem l-AI Upscaling: l-idea ewlenija, fi kliem ta’ kuljum 🧩

Upscaling ifisser żieda fir-riżoluzzjoni: aktar pixels, immaġni akbar. L-upscaling tradizzjonali (bħal bicubic) bażikament iġġebbed il-pixels u jillixxa t-tranżizzjonijiet ( interpolazzjoni bicubic ). Huwa tajjeb, imma ma jistax jivvinta ġdid - sempliċement jinterpola.

L-upscaling tal-AI jipprova xi ħaġa aktar kuraġġuża (magħrufa wkoll bħala “super-riżoluzzjoni” fid-dinja tar-riċerka) ( Tagħlim Profond għas-Super-riżoluzzjoni tal-Immaġni: Stħarriġ ):

  • Iħares lejn l-input b'riżoluzzjoni baxxa

  • Jagħraf disinji (truf, tessuti, karatteristiċi tal-wiċċ, linji tat-test, nisġa tad-drapp...)

  • għandha tidher verżjoni b'riżoluzzjoni ogħla

  • Jiġġenera dejta żejda tal-pixel li taqbel ma' dawk il-mudelli

Mhux “irrestawra r-realtà perfettament,” aktar bħal “agħmel suppożizzjoni kredibbli ħafna” ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). Jekk dan jinstema' xi ftit suspettuż, m'intix żbaljat - imma huwa wkoll għaliex jaħdem daqshekk tajjeb 😄

U iva, dan ifisser li l-upscaling tal-AI huwa bażikament alluċinazzjoni kkontrollata... iżda b'mod produttiv u li jirrispetta l-pixel.


X'jagħmel verżjoni tajba ta' upscaling tal-AI? ✅🛠️

Jekk qed tiġġudika upscaler tal-AI (jew preset ta' setting), hawn x'għandu t-tendenza li jkun l-aktar importanti:

  • Irkupru tad-dettalji mingħajr tisjir żejjed
    Upscaling tajjeb iżid iqarmeċ u struttura, mhux storbju iqarmeċ jew pori foloz.

  • Dixxiplina tat-truf
    Linji nodfa jibqgħu nodfa. Mudelli ħżiena jġiegħlu t-truf jitħawwdu jew jibnu halos.

  • Realiżmu tat-tessut
    Ix-xagħar m'għandux isir bħal pinzell. Il-briks m'għandux isir timbru ta' disinn ripetut.

  • Immaniġġjar tal-istorbju u l-kompressjoni
    Ħafna immaġni ta' kuljum jiġu kkupjati f'JPEG sal-mewt. Upscaler tajjeb ma jamplifikax dik il-ħsara ( Real-ESRGAN ).

  • Għarfien tal-wiċċ u t-test
    L-uċuħ u t-test huma l-aktar postijiet faċli biex wieħed jinnota żbalji. Mudelli tajbin jittrattawhom bil-mod (jew għandhom modi speċjalizzati).

  • Konsistenza bejn il-frejms (għall-vidjow)
    Jekk id-dettall jitteptep minn frejm għal frejm, għajnejk se jgħajtu. L-upscaling tal-vidjow jgħix jew imut skont l-istabbiltà temporali ( BasicVSR (CVPR 2021) ).

  • Kontrolli li jagħmlu sens
    Trid sliders li jkunu jaqblu ma' riżultati reali: tneħħija tal-istorbju, tneħħija tat-ċċajpar, tneħħija tal-artefatti, żamma tal-qamħ, tisħiħ... l-affarijiet prattiċi.

Regola kwieta li tibqa' valida: l-"aqwa" upscaling ħafna drabi jkun dak li bilkemm tinnota. Jidher biss li kellek kamera aħjar biex tibda 📷✨


Tabella ta' Paragun: għażliet popolari ta' upscaling tal-AI (u għalxiex huma tajbin) 📊🙂

Hawn taħt hawn paragun prattiku. Il-prezzijiet huma intenzjonalment vagi għax l-għodod ivarjaw skont il-liċenzja, il-pakketti, l-ispejjeż tal-komputazzjoni, u affarijiet oħra divertenti.

Għodda / Approċċ L-aħjar għal Vibrazzjoni tal-prezz Għaliex jaħdem (bejn wieħed u ieħor)
Upscalers tad-desktop stil Topaz ( Topaz Photo , Topaz Video ) Ritratti, vidjows, fluss tax-xogħol faċli Imħallas xi ftit Mudelli ġenerali b'saħħithom + ħafna irfinar, għandhom it-tendenza li "jaħdmu biss"... l-aktar
Karatteristiċi tat-tip "Super Resolution" ta' Adobe ( Adobe Enhance > Super Resolution ) Fotografi li diġà jinsabu f'dik l-ekosistema Abbonament Rikostruzzjoni b'dettalji solidi, ġeneralment konservattiva (inqas drammatika)
Varjanti ta' Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN ) DIY, żviluppaturi, xogħlijiet f'lottijiet B'xejn (iżda jieħu ħafna ħin) Tajjeb ħafna fid-dettall tan-nisġa, jista' jkun pikkanti fuq l-uċuħ jekk ma toqgħodx attent
Modi ta' upscaling ibbażati fuq id-diffużjoni ( SR3 ) Xogħol kreattiv, riżultati stilizzati Imħallat Jista' joħloq dettall sabiħ ħafna - jista' wkoll jivvinta bla sens, allura... iva
Upscalers tal-logħob (stil DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) Logħob u rendering f'ħin reali Miġbura Juża dejta tal-moviment u riżultati miksuba minn qabel - rebħa ta' prestazzjoni bla xkiel 🕹️
Servizzi ta' upscaling tal-cloud Konvenjenza, rebħiet malajr Ħlas għal kull użu Veloċi + skalabbli, imma tinnegozja l-kontroll u xi kultant is-sottilità
Upscalers tal-AI ffukati fuq il-vidjo ( BasicVSR , Topaz Video ) Filmati qodma, anime, arkivji Imħallas xi ftit Tricks temporali biex jitnaqqas it-teptip + mudelli ta' vidjo speċjalizzati
Titjib tal-gallerija/telefon "smart" Użu każwali Inkluż Mudelli ħfief sintonizzati għal output pjaċevoli, mhux perfezzjoni (għadhom utli)

Konfessjoni dwar il-formattjar stramb: “Paid-ish” qed jagħmel ħafna xogħol f’dik it-tabella. Imma qbadt l-idea 😅


Is-sigriet il-kbir: il-mudelli jitgħallmu mappaġġ minn riżoluzzjoni baxxa għal riżoluzzjoni għolja 🧠➡️🖼️

Fil-qalba tal-biċċa l-kbira tal-upscaling tal-AI hemm setup ta' tagħlim sorveljat ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):

  1. Ibda b'immaġnijiet b'riżoluzzjoni għolja (il-"verità")

  2. Inaqqas il-kampjuni tagħhom għal verżjonijiet b'riżoluzzjoni baxxa (l-"input")

  3. Ħarreġ mudell biex jirrikonstrwixxi r-riżoluzzjoni għolja oriġinali mir-riżoluzzjoni baxxa

Maż-żmien, il-mudell jitgħallem korrelazzjonijiet bħal:

  • "Dan it-tip ta' ċċajpar madwar għajn ġeneralment ikun dovut għax-xagħar tal-għajnejn"

  • "Dan il-grupp ta' pixels spiss jindika test serif"

  • "Dan il-gradjent tat-tarf jidher qisu linja ta' saqaf, mhux storbju każwali"

Mhuwiex memorizzazzjoni ta' immaġini speċifiċi (fis-sens sempliċi), huwa tagħlim ta' struttura statistika ( Deep Learning for Image Super-resolution: A Survey ). Aħseb dwarha bħallikieku qed titgħallem il-grammatika tan-nisġa u t-truf. Mhux grammatika tal-poeżija, aktar bħal... grammatika tal-manwal tal-IKEA 🪑📦 (metafora goffa, iżda qrib biżżejjed).


Il-ġewż u l-boltijiet: x'jiġri waqt l-inferenza (meta tagħmel upscale) ⚙️✨

Meta titma' immaġni f'upscaler tal-AI, tipikament ikun hemm pipeline bħal dan:

  • Preproċessar

  • Estrazzjoni tal-karatteristiċi

    • Saffi bikrija jiskopru truf, kantunieri, gradjenti

    • Saffi aktar fondi jiskopru xejriet: nisġa, forom, komponenti tal-wiċċ

  • Rikostruzzjoni

    • Il-mudell jiġġenera mappa tal-karatteristiċi b'riżoluzzjoni ogħla

    • Imbagħad jikkonverti dak f'output ta' pixel attwali

  • Post-ipproċessar

    • Tisħin mhux obbligatorju

    • Tnaqqis tal-ħoss mhux obbligatorju

    • Soppressjoni fakultattiva tal-artefatti (tisfir, halos, imblukkar)

Dettall sottili wieħed: ħafna għodod itejbu l-madum, imbagħad iħalltu l-ħjatat. Għodod tajbin jaħbu l-konfini tal-madum. Għodod tajbin iħallu marki ħfief tal-grilja jekk tgħaqqad għajnejk. U iva, se tgħaqqad għajnejk, għax il-bnedmin iħobbu jispezzjonaw imperfezzjonijiet żgħar b'zoom ta' 300% bħal gremlins żgħar 🧌


Il-familji ewlenin tal-mudelli użati għall-upscaling tal-AI (u għaliex iħossuhom differenti) 🤖📚

1) Super-riżoluzzjoni bbażata fuq is-CNN (il-qofol tax-xogħol klassiku)

In-netwerks newrali konvoluzzjonali huma tajbin ħafna f'mudelli lokali: truf, nisġa, strutturi żgħar ( Super-Riżoluzzjoni tal-Immaġni bl-Użu ta' Netwerks Konvoluzzjonali Profondi (SRCNN) ).

  • Vantaġġi: veloċi, stabbli, inqas sorpriżi

  • Żvantaġġi: jista' jidher daqsxejn "ipproċessat" jekk jiġi mbuttat sew

2) Upscaling ibbażat fuq GAN (stil ESRGAN) 🎭

Il-GANs (Netwerks Avversarji Ġenerattivi) iħarrġu ġeneratur biex jipproduċi immaġni b'riżoluzzjoni għolja li diskriminatur ma jistax jiddistingwi minn dawk reali ( Netwerks Avversarji Ġenerattivi ).

  • Vantaġġi: dettall qawwi, tessut impressjonanti

  • Żvantaġġi: jista' jivvinta dettalji li ma kinux hemm - xi kultant żbaljati, xi kultant mhux tas-soltu ( SRGAN , ESRGAN )

GAN jista’ jagħtik dik l-akutezza li tħallik bla nifs. Jista’ wkoll jagħti lis-suġġett tar-ritratt tiegħek għajn oħra. Allura… agħżel il-battalji tiegħek 😬

3) Upscaling ibbażat fuq id-diffużjoni (il-wildcard kreattiva) 🌫️➡️🖼️

Il-mudelli ta' diffużjoni jneħħu l-istorbju pass pass u jistgħu jiġu ggwidati biex jipproduċu dettall b'riżoluzzjoni għolja ( SR3 ).

  • Vantaġġi: jista' jkun tajjeb ħafna fid-dettall plawżibbli, speċjalment għal xogħol kreattiv

  • Żvantaġġi: jista' jitbiegħed mill-identità/struttura oriġinali jekk is-settings ikunu aggressivi ( SR3 )

Hawnhekk fejn l-“upscaling” jibda jitħallat mar-“reimmaġinazzjoni.” Kultant dan huwa eżattament dak li trid. Kultant mhux.

4) Upscaling tal-vidjow b'konsistenza temporali 🎞️

L-upscaling tal-vidjow spiss iżid loġika konxja tal-moviment:

  • Juża frejms ġirien biex jistabbilizza d-dettall ( BasicVSR (CVPR 2021) )

  • Jipprova jevita t-teptep u l-artefatti tat-tkaxkir

  • Spiss jikkombina super-riżoluzzjoni ma' denoise u deinterlacing ( Topaz Video )

Jekk it-titjib tal-immaġni huwa bħar-restawr ta' pittura waħda, it-titjib tal-vidjo huwa bħar-restawr ta' flipbook mingħajr ma l-imnieħer tal-karattru jibdel il-forma f'kull paġna. Li huwa... iktar diffiċli milli jidher.


Għaliex l-upscaling tal-AI xi kultant jidher falz (u kif tagħrafh) 👀🚩

L-upscaling tal-AI ifalli b'modi rikonoxxibbli. Ladarba titgħallem il-mudelli, se tarahom kullimkien, bħal meta tixtri karozza ġdida u f'daqqa waħda tinnota dak il-mudell f'kull triq 😵💫

Komuni jgħid:

  • Xama' l-ġilda fuq l-uċuħ (tnaqqis tal-ħoss żejjed + twittija)

  • Halos imtejba żżejjed madwar it-truf (territorju klassiku ta' "overshoot") ( Interpolazzjoni bikubika )

  • Tessuti ripetuti (ħitan tal-briks isiru mudelli kkupjati u pejstjati)

  • Mikro-kuntrast iqarmeċ li jgħajjat ​​"algoritmu"

  • Tgħawwiġ ta' test fejn l-ittri jsiru kważi ittri (l-agħar tip)

  • Dettalji mċaqalqa fejn karatteristiċi żgħar jinbidlu b'mod sottili, speċjalment fil-flussi tax-xogħol tad-diffużjoni ( SR3 )

Il-parti delikata: xi kultant dawn l-artefatti jidhru "aħjar" f'daqqa t'għajn. Moħħok iħobb in-nitidezza. Imma wara mument, iħossu... stramb.

Tattika deċenti hija li tagħmel zoom out u tiċċekkja jekk jidhirx naturali f'distanza normali tal-vista. Jekk jidher tajjeb biss b'zoom ta' 400%, dik mhix rebħa, dak passatemp 😅


Kif jaħdem l-AI Upscaling: in-naħa tat-taħriġ, mingħajr l-uġigħ ta' ras tal-matematika 📉🙂

It-taħriġ ta’ mudelli ta’ super-riżoluzzjoni ġeneralment jinvolvi:

Tipi tipiċi ta' telf:

  • Telf ta' pixels (L1/L2)
    Jinkoraġġixxi l-preċiżjoni. Jista' jipproduċi riżultati kemxejn ħfief.

  • Telf Perċettiv
    Iqabbel karatteristiċi aktar profondi (bħal "dan jidher simili") aktar milli pixels eżatti ( Telf Perċettiv (Johnson et al., 2016) ).

  • Telf Avversarju (GAN)
    Jinkoraġġixxi r-realiżmu, xi kultant għad-detriment tal-eżattezza litterali ( SRGAN , Netwerks Avversarji Ġenerattivi ).

Hemm ġlieda kostanti:

  • Agħmilha fidila għall-oriġinali
    vs

  • Agħmilha viżwalment pjaċevoli

Għodod differenti jaqgħu f'postijiet differenti f'dak l-ispettru. U tista' tippreferi waħda skont jekk intix qed tirrestawra ritratti tal-familja jew qed tipprepara poster fejn id-"dehra sabiħa" hija aktar importanti mill-eżattezza forensika.


Flussi tax-xogħol prattiċi: ritratti, skens qodma, anime, u vidjows 📸🧾🎥

Ritratti (ritratti, pajsaġġi, ritratti tal-prodott)

L-aħjar prattika ġeneralment hija:

  • Tneħħija ħafifa tal-ħoss l-ewwel (jekk meħtieġ)

  • Upscale b'settings konservattivi

  • Żid il-qamħ lura jekk l-affarijiet iħossuhom wisq lixxi (iva, tassew)

Il-qamħ huwa bħall-melħ. Wisq ħafna jħassarlek il-pranzu, imma xejn minnu ma jista’ jkollu togħma daqsxejn bla togħma 🍟

Skens qodma u immaġnijiet ikkompressati ħafna

Dawn huma aktar diffiċli għax il-mudell jista' jittratta l-blokki tal-kompressjoni bħala "tessut".
Ipprova:

  • Tneħħija jew tneħħija tal-imblukkar tal-artefatti

  • Imbagħad upscale

  • Imbagħad tissikka ħafif (mhux wisq... naf, kulħadd jgħid hekk, imma xorta)

Anime u arti tal-linja

L-arti tal-linja tibbenefika minn:

  • Mudelli li jippreservaw truf nodfa

  • Alluċinazzjoni ta' tessut imnaqqas
    L-upscaling tal-Anime spiss jidher tajjeb għax il-forom huma aktar sempliċi u konsistenti. (Xorti tajba.)

Vidjo

Il-vidjo jżid passi żejda:

  • Tneħħija tal-ħoss

  • Deinterlace (għal ċerti sorsi)

  • Skala għolja

  • Twittija jew stabilizzazzjoni temporali ( BasicVSR (CVPR 2021) )

  • Introduzzjoni mill-ġdid tal-qamħ fakultattiva għall-koeżjoni

Jekk taqbeż il-konsistenza temporali, ikollok dak it-teptep tad-dettall li jleqq. Ladarba tinnotah, ma tistax tinsaħu. Bħal siġġu jgerger f'kamra kwieta 😖


L-għażla tas-settings mingħajr ma tagħmel suppożizzjonijiet esaġerati (silta żgħira ta' informazzjoni) 🎛️😵💫

Hawn mentalità inizjali deċenti:

  • Jekk l-uċuħ jidhru tal-plastik
    Naqqas it-tneħħija tal-istorbju, naqqas it-tismin, ipprova mudell jew modalità li tippreserva l-wiċċ.

  • Jekk in-nisġa tidher intensa wisq,
    baxxi s-sliders tat-“titjib tad-dettall” jew “irkupra d-dettall”, u żid qamħ sottili wara.

  • Jekk it-truf
    jiddu Naqqas is-sanzjoni, iċċekkja l-għażliet tas-soppressjoni tal-halo.

  • Jekk l-immaġni tidher wisq “AI”
    Mur iktar konservattiv. Kultant l-aħjar mossa hija sempliċement… inqas.

Ukoll: tkabbarx l-iskala 8x sempliċement għax tista'. 2x jew 4x nadif ħafna drabi jkun l-aħjar għażla. Lil hinn minn dan, tkun qed titlob lill-mudell biex jikteb fanfiction dwar il-pixels tiegħek 📖😂


Etika, awtentiċità, u l-mistoqsija skomda tal-“verità” 🧭😬

L-upscaling tal-AI jċajpar linja:

  • Ir-restawr jimplika l-irkupru ta’ dak li kien hemm

  • It-titjib jimplika ż-żieda ta’ dak li ma kienx

Bir-ritratti personali, ġeneralment ikun tajjeb (u sabiħ). Bil-ġurnaliżmu, l-evidenza legali, l-immaġini mediċi, jew kwalunkwe ħaġa fejn il-fedeltà hija importanti... trid toqgħod attent ( OSAC/NIST: Gwida Standard għall-Ġestjoni Forensika tal-Immaġni Diġitali , Linji Gwida SWGDE għall-Analiżi Forensika tal-Immaġni ).

Regola sempliċi:

  • Jekk l-ishma huma għoljin, ittratta t-titjib tal-AI bħala illustrazzjoni , mhux definittiva.

Ukoll, l-iżvelar huwa importanti f'kuntesti professjonali. Mhux għax l-AI hija ħażina, iżda għax l-udjenzi jistħoqqilhom ikunu jafu jekk id-dettalji ġewx rikostruwiti jew maqbuda. Dak huwa biss... rispettuż.


Noti tal-għeluq u sommarju fil-qosor 🧡✅

Mela, Kif jaħdem l-AI Upscaling huwa dan: il-mudelli jitgħallmu kif id-dettall b'riżoluzzjoni għolja għandu t-tendenza li jirrelata ma' mudelli b'riżoluzzjoni baxxa, imbagħad ibassru pixels żejda kredibbli waqt l-upscaling ( Deep Learning for Image Super-resolution: A Survey ). Skont il-familja tal-mudelli (CNN, GAN, diffusion, video-temporal), dak it-tbassir jista' jkun konservattiv u fidil... jew qawwi u xi kultant bla rażan 😅

Sommarju rapidu

Jekk trid, għidli x'qed tagħmel upscaling (uċuħ, ritratti qodma, vidjows, anime, skens ta' test), u nissuġġerilek strateġija ta' settings li għandha t-tendenza li tevita l-iżbalji komuni tad-"dehra tal-AI" 🎯🙂


Mistoqsijiet Frekwenti

It-titjib tal-AI u kif jaħdem

L-upscaling tal-AI (spiss imsejjaħ "super-riżoluzzjoni") iżid ir-riżoluzzjoni ta' immaġni billi jbassar id-dettall nieqes ta' riżoluzzjoni għolja minn mudelli mgħallma waqt it-taħriġ. Minflok ma sempliċement jistira l-pixels bħall-interpolazzjoni bikubika, mudell jistudja t-truf, in-nisġa, l-uċuħ, u l-puplesiji simili għal test, imbagħad jiġġenera dejta ġdida tal-pixel li tkun koerenti ma' dawk il-mudelli mgħallma. Huwa inqas "restawr tar-realtà" u aktar "tagħmel suppożizzjoni kredibbli" li tinqara bħala naturali.

Upscaling tal-AI kontra r-ridimensjonar bikubiku jew tradizzjonali

Il-metodi tradizzjonali ta' upscaling (bħal bicubic) jinterpolaw prinċipalment bejn pixels eżistenti, u jtaffu t-tranżizzjonijiet mingħajr ma joħolqu dettall ġdid veru. L-upscaling tal-AI għandu l-għan li jirrikostruwixxi struttura plawżibbli billi jagħraf sinjali viżwali u jbassar kif għandhom it-tendenza li jidhru l-verżjonijiet b'riżoluzzjoni għolja ta' dawk is-sinjali. Huwa għalhekk li r-riżultati tal-AI jistgħu jħossuhom drammatikament aktar ċari, u wkoll għaliex jistgħu jintroduċu artefatti jew "jivvintaw" dettalji li ma kinux preżenti fis-sors.

Għaliex l-uċuħ jistgħu jidhru tax-xama’ jew lixxi żżejjed

L-uċuħ tax-xama’ ġeneralment jiġu minn tneħħija tal-istorbju u twittija aggressiva flimkien ma’ tisħiħ li jneħħi n-nisġa naturali tal-ġilda. Ħafna għodod jittrattaw l-istorbju u n-nisġa fina bl-istess mod, għalhekk it-“tindif” ta’ immaġni jista’ jħassar il-pori u d-dettall sottili. Approċċ komuni huwa li titnaqqas it-tneħħija tal-istorbju u t-tisħiħ, tintuża modalità li tippreserva l-wiċċ jekk disponibbli, imbagħad terġa’ tintroduċi mess ta’ qamħ sabiex ir-riżultat iħoss inqas plastiku u aktar fotografiku.

Artefatti komuni tal-upscaling tal-AI li għandek toqgħod attent għalihom

Sinjali tipiċi jinkludu halos madwar it-truf, mudelli ta’ nisġa ripetuti (bħal briks ikkupjati u pejstjati), mikro-kuntrast iqarmeċ, u test li jinbidel fi “kważi ittri.” Fi flussi tax-xogħol ibbażati fuq id-diffużjoni, tista’ tara wkoll dettall li jiċċaqlaq fejn karatteristiċi żgħar jinbidlu b’mod sottili. Għall-vidjow, it-teptep u d-dettall li jiċċaqlaq bejn il-frejms huma bnadar ħomor kbar. Jekk jidher tajjeb biss b’zoom estrem, is-settings probabbilment huma aggressivi wisq.

Kif l-upscalers tal-GAN, tas-CNN, u tad-diffużjoni għandhom it-tendenza li jvarjaw fir-riżultati

Is-super-riżoluzzjoni bbażata fuq is-CNN għandha t-tendenza li tkun aktar stabbli u aktar prevedibbli, iżda tista' tidher "ipproċessata" jekk tiġi mbuttata 'l fuq. L-għażliet ibbażati fuq il-GAN (stil ESRGAN) spiss jipproduċu tessut aktar qawwi u preċiżjoni perċepita, iżda jistgħu juru dettall mhux korrett, speċjalment fuq l-uċuħ. L-upscaling ibbażat fuq id-diffużjoni jista' jiġġenera dettall sabiħ u plawżibbli, iżda jista' jitbiegħed mill-istruttura oriġinali jekk il-gwida jew is-settings tas-saħħa jkunu qawwija wisq.

Strateġija prattika ta' settings biex tevita dehra ta' "AI wisq"

Ibda b'mod konservattiv: żid l-iskala 2× jew 4× qabel ma tuża fatturi estremi. Jekk l-uċuħ jidhru tal-plastik, naqqas it-tnaqqis tal-istorbju u t-tisħiħ u ipprova modalità konxja tal-wiċċ. Jekk in-nisġa ssir wisq intensa, naqqas it-titjib tad-dettall u kkunsidra li żżid qamħ sottili wara. Jekk it-truf jiddu, naqqas it-tisħiħ u ċċekkja s-soppressjoni tal-halo jew tal-artefatti. F'ħafna pipelines, "inqas" jirbaħ għax jippreserva realiżmu kredibbli.

Immaniġġjar ta' skens qodma jew immaġnijiet ikkompressati ħafna bil-JPEG qabel l-upscaling

L-immaġini kkompressati huma delikati għax il-mudelli jistgħu jittrattaw l-artefatti tal-blokk bħala tessut reali u jamplifikawhom. Fluss tax-xogħol komuni huwa t-tneħħija jew it-tneħħija tal-imblukkar tal-artefatti l-ewwel, imbagħad l-upscaling, imbagħad it-tisħiħ ħafif biss jekk ikun meħtieġ. Għall-iskens, tindif ġentili jista' jgħin lill-mudell jiffoka fuq l-istruttura attwali aktar milli fuq il-ħsara. L-għan huwa li jitnaqqsu l-"indikazzjonijiet foloz tan-tessut" sabiex l-upscaler ma jkunx imġiegħel jagħmel suppożizzjonijiet kunfidenti minn inputs storbjużi.

Għaliex l-upscaling tal-vidjow huwa aktar diffiċli mill-upscaling tar-ritratti

L-upscaling tal-vidjow irid ikun konsistenti fil-frejms kollha, mhux tajjeb biss fuq immaġni waħda. Jekk id-dettalji jteptep minn frejm għal frejm, ir-riżultat isir distraenti malajr. L-approċċi ffukati fuq il-vidjow jużaw informazzjoni temporali minn frejms ġirien biex jistabbilizzaw ir-rikostruzzjoni u jevitaw artefatti li jleqqu. Ħafna flussi tax-xogħol jinkludu wkoll it-tneħħija tal-istorbju, id-deinterlacing għal ċerti sorsi, u l-introduzzjoni mill-ġdid tal-qamħ fakultattiva sabiex is-sekwenza kollha tħossha koeżiva aktar milli artifiċjalment qawwija.

Meta l-upscaling tal-AI ma jkunx xieraq jew ikun riskjuż li wieħed jiddependi fuqu

L-upscaling tal-AI huwa l-aħjar trattat bħala titjib, mhux bħala prova. F'kuntesti ta' importanza kbira bħall-ġurnaliżmu, l-evidenza legali, l-immaġini medika, jew ix-xogħol forensiku, il-ġenerazzjoni ta' pixels "kredibbli" tista' tqarraq għax tista' żżid dettalji li ma nqabdux. Qafas aktar sikur huwa li tużah b'mod illustrattiv u tiżvela li proċess tal-AI rrikostruwixxa d-dettall. Jekk il-fedeltà hija kritika, ippreserva l-oriġinali u iddokumenta kull pass tal-ipproċessar u l-issettjar.

Referenzi

  1. arXiv - Tagħlim Profond għal Super-riżoluzzjoni tal-Immaġni: Stħarriġ - arxiv.org

  2. arXiv - Super-Riżoluzzjoni tal-Immaġni bl-Użu ta' Netwerks Konvoluzzjonali Profondi (SRCNN) - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. Żviluppatur NVIDIA - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. L-Aċċess Miftuħ tal-Fondazzjoni tal-Viżjoni tal-Kompjuter (CVF) - BasicVSR: It-Tiftix għal Komponenti Essenzjali fis-Super-Riżoluzzjoni tal-Vidjo (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Netwerks Avversarji Ġenerattivi - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Telf Perċettiv (Johnson et al., 2016) - arxiv.org

  12. GitHub - Repożitorju Real-ESRGAN (għażliet ta' madum) - github.com

  13. Wikipedia - Interpolazzjoni bikubika - wikipedia.org

  14. Topaz Labs - Topaz Photo - topazlabs.com

  15. Topaz Labs - Vidjow Topaz - topazlabs.com

  16. Ċentru tal-Għajnuna ta' Adobe - Adobe Enhance > Super Riżoluzzjoni - helpx.adobe.com

  17. NIST / OSAC - Gwida Standard għall-Ġestjoni Forensika tal-Immaġni Diġitali (Verżjoni 1.0) - nist.gov

  18. SWGDE - Linji Gwida għall-Analiżi Forensika tal-Immaġni - swgde.org

Sib l-Aħħar AI fil-Ħanut Uffiċjali tal-Assistent tal-AI

Dwarna

Lura għall-blogg