Tweġiba qasira: L-upscaling tal-AI jaħdem billi jħarreġ mudell fuq immaġini mqabbla b'riżoluzzjoni baxxa u għolja, imbagħad jużah biex ibassar pixels żejda kredibbli waqt l-upscaling. Jekk il-mudell ikun ra nisġa jew uċuħ simili fit-taħriġ, jista' jżid dettall konvinċenti; jekk le, jista' "alluċina" artefatti bħal halos, ġilda tax-xama', jew teptip fil-vidjow.
Punti ewlenin:
Tbassir : Il-mudell jiġġenera dettall plawżibbli, mhux rikostruzzjoni garantita tar-realtà.
L-għażla tal-mudell : Is-CNNs għandhom it-tendenza li jkunu aktar stabbli; Il-GANs jistgħu jidhru aktar preċiżi iżda jirriskjaw li jivvintaw karatteristiċi.
Verifiki tal-artefatti : Oqgħod attent għal halos, nisġa ripetuta, "kważi ittri", u uċuħ tal-plastik.
Stabbiltà tal-vidjo : Uża metodi temporali jew tara tleqqija u ċaqliq minn frejm għal frejm.
Użu b'riskju għoli : Jekk l-eżattezza hija importanti, żvela l-ipproċessar u ttratta r-riżultati bħala illustrattivi.

Probabbilment rajtha: immaġni ċkejkna u iqarmeċ tinbidel f'xi ħaġa ċara biżżejjed biex tipprintjaha, tixxandarha, jew titpoġġa f'preżentazzjoni mingħajr ma titgħawweġ. Tħossha bħal qerq. U - fl-aħjar mod - f'ċertu sens hekk hi 😅
Mela, Kif jaħdem l-AI Upscaling jinżel għal xi ħaġa aktar speċifika minn "il-kompjuter itejjeb id-dettalji" (immewġin bl-id) u eqreb lejn "mudell ibassar struttura plawżibbli ta' riżoluzzjoni għolja bbażata fuq mudelli li tgħallem minn ħafna eżempji" ( Deep Learning for Image Super-resolution: A Survey ). Dak il-pass ta' tbassir huwa l-logħba kollha - u huwa għalhekk li l-AI upscaling jista' jidher tal-għaġeb... jew ftit tal-plastik... jew bħallikieku l-qattus tiegħek kiber mustaċċi żejda.
Artikoli li forsi tixtieq taqra wara dan:
🔗 Kif taħdem l-IA
Tgħallem il-bażiċi tal-mudelli, id-dejta, u l-inferenza fl-AI.
🔗 Kif titgħallem l-AI
Ara kif id-dejta tat-taħriġ u l-feedback itejbu l-prestazzjoni tal-mudell maż-żmien.
🔗 Kif l-AI tiskopri anomaliji
Ifhem il-linji bażi tal-mudelli u kif l-AI tindika mġiba mhux tas-soltu malajr.
🔗 Kif l-AI tbassar ix-xejriet
Esplora metodi ta' tbassir li jindunaw b'sinjali u jantiċipaw id-domanda futura.
Kif jaħdem l-AI Upscaling: l-idea ewlenija, fi kliem ta’ kuljum 🧩
Upscaling ifisser żieda fir-riżoluzzjoni: aktar pixels, immaġni akbar. L-upscaling tradizzjonali (bħal bicubic) bażikament iġġebbed il-pixels u jillixxa t-tranżizzjonijiet ( interpolazzjoni bicubic ). Huwa tajjeb, imma ma jistax jivvinta ġdid - sempliċement jinterpola.
L-upscaling tal-AI jipprova xi ħaġa aktar kuraġġuża (magħrufa wkoll bħala “super-riżoluzzjoni” fid-dinja tar-riċerka) ( Tagħlim Profond għas-Super-riżoluzzjoni tal-Immaġni: Stħarriġ ):
-
Iħares lejn l-input b'riżoluzzjoni baxxa
-
Jagħraf disinji (truf, tessuti, karatteristiċi tal-wiċċ, linji tat-test, nisġa tad-drapp...)
-
għandha tidher verżjoni b'riżoluzzjoni ogħla
-
Jiġġenera dejta żejda tal-pixel li taqbel ma' dawk il-mudelli
Mhux “irrestawra r-realtà perfettament,” aktar bħal “agħmel suppożizzjoni kredibbli ħafna” ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). Jekk dan jinstema' xi ftit suspettuż, m'intix żbaljat - imma huwa wkoll għaliex jaħdem daqshekk tajjeb 😄
U iva, dan ifisser li l-upscaling tal-AI huwa bażikament alluċinazzjoni kkontrollata... iżda b'mod produttiv u li jirrispetta l-pixel.
X'jagħmel verżjoni tajba ta' upscaling tal-AI? ✅🛠️
Jekk qed tiġġudika upscaler tal-AI (jew preset ta' setting), hawn x'għandu t-tendenza li jkun l-aktar importanti:
-
Irkupru tad-dettalji mingħajr tisjir żejjed
Upscaling tajjeb iżid iqarmeċ u struttura, mhux storbju iqarmeċ jew pori foloz. -
Dixxiplina tat-truf
Linji nodfa jibqgħu nodfa. Mudelli ħżiena jġiegħlu t-truf jitħawwdu jew jibnu halos. -
Realiżmu tat-tessut
Ix-xagħar m'għandux isir bħal pinzell. Il-briks m'għandux isir timbru ta' disinn ripetut. -
Immaniġġjar tal-istorbju u l-kompressjoni
Ħafna immaġni ta' kuljum jiġu kkupjati f'JPEG sal-mewt. Upscaler tajjeb ma jamplifikax dik il-ħsara ( Real-ESRGAN ). -
Għarfien tal-wiċċ u t-test
L-uċuħ u t-test huma l-aktar postijiet faċli biex wieħed jinnota żbalji. Mudelli tajbin jittrattawhom bil-mod (jew għandhom modi speċjalizzati). -
Konsistenza bejn il-frejms (għall-vidjow)
Jekk id-dettall jitteptep minn frejm għal frejm, għajnejk se jgħajtu. L-upscaling tal-vidjow jgħix jew imut skont l-istabbiltà temporali ( BasicVSR (CVPR 2021) ). -
Kontrolli li jagħmlu sens
Trid sliders li jkunu jaqblu ma' riżultati reali: tneħħija tal-istorbju, tneħħija tat-ċċajpar, tneħħija tal-artefatti, żamma tal-qamħ, tisħiħ... l-affarijiet prattiċi.
Regola kwieta li tibqa' valida: l-"aqwa" upscaling ħafna drabi jkun dak li bilkemm tinnota. Jidher biss li kellek kamera aħjar biex tibda 📷✨
Tabella ta' Paragun: għażliet popolari ta' upscaling tal-AI (u għalxiex huma tajbin) 📊🙂
Hawn taħt hawn paragun prattiku. Il-prezzijiet huma intenzjonalment vagi għax l-għodod ivarjaw skont il-liċenzja, il-pakketti, l-ispejjeż tal-komputazzjoni, u affarijiet oħra divertenti.
| Għodda / Approċċ | L-aħjar għal | Vibrazzjoni tal-prezz | Għaliex jaħdem (bejn wieħed u ieħor) |
|---|---|---|---|
| Upscalers tad-desktop stil Topaz ( Topaz Photo , Topaz Video ) | Ritratti, vidjows, fluss tax-xogħol faċli | Imħallas xi ftit | Mudelli ġenerali b'saħħithom + ħafna irfinar, għandhom it-tendenza li "jaħdmu biss"... l-aktar |
| Karatteristiċi tat-tip "Super Resolution" ta' Adobe ( Adobe Enhance > Super Resolution ) | Fotografi li diġà jinsabu f'dik l-ekosistema | Abbonament | Rikostruzzjoni b'dettalji solidi, ġeneralment konservattiva (inqas drammatika) |
| Varjanti ta' Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN ) | DIY, żviluppaturi, xogħlijiet f'lottijiet | B'xejn (iżda jieħu ħafna ħin) | Tajjeb ħafna fid-dettall tan-nisġa, jista' jkun pikkanti fuq l-uċuħ jekk ma toqgħodx attent |
| Modi ta' upscaling ibbażati fuq id-diffużjoni ( SR3 ) | Xogħol kreattiv, riżultati stilizzati | Imħallat | Jista' joħloq dettall sabiħ ħafna - jista' wkoll jivvinta bla sens, allura... iva |
| Upscalers tal-logħob (stil DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 ) | Logħob u rendering f'ħin reali | Miġbura | Juża dejta tal-moviment u riżultati miksuba minn qabel - rebħa ta' prestazzjoni bla xkiel 🕹️ |
| Servizzi ta' upscaling tal-cloud | Konvenjenza, rebħiet malajr | Ħlas għal kull użu | Veloċi + skalabbli, imma tinnegozja l-kontroll u xi kultant is-sottilità |
| Upscalers tal-AI ffukati fuq il-vidjo ( BasicVSR , Topaz Video ) | Filmati qodma, anime, arkivji | Imħallas xi ftit | Tricks temporali biex jitnaqqas it-teptip + mudelli ta' vidjo speċjalizzati |
| Titjib tal-gallerija/telefon "smart" | Użu każwali | Inkluż | Mudelli ħfief sintonizzati għal output pjaċevoli, mhux perfezzjoni (għadhom utli) |
Konfessjoni dwar il-formattjar stramb: “Paid-ish” qed jagħmel ħafna xogħol f’dik it-tabella. Imma qbadt l-idea 😅
Is-sigriet il-kbir: il-mudelli jitgħallmu mappaġġ minn riżoluzzjoni baxxa għal riżoluzzjoni għolja 🧠➡️🖼️
Fil-qalba tal-biċċa l-kbira tal-upscaling tal-AI hemm setup ta' tagħlim sorveljat ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):
-
Ibda b'immaġnijiet b'riżoluzzjoni għolja (il-"verità")
-
Inaqqas il-kampjuni tagħhom għal verżjonijiet b'riżoluzzjoni baxxa (l-"input")
-
Ħarreġ mudell biex jirrikonstrwixxi r-riżoluzzjoni għolja oriġinali mir-riżoluzzjoni baxxa
Maż-żmien, il-mudell jitgħallem korrelazzjonijiet bħal:
-
"Dan it-tip ta' ċċajpar madwar għajn ġeneralment ikun dovut għax-xagħar tal-għajnejn"
-
"Dan il-grupp ta' pixels spiss jindika test serif"
-
"Dan il-gradjent tat-tarf jidher qisu linja ta' saqaf, mhux storbju każwali"
Mhuwiex memorizzazzjoni ta' immaġini speċifiċi (fis-sens sempliċi), huwa tagħlim ta' struttura statistika ( Deep Learning for Image Super-resolution: A Survey ). Aħseb dwarha bħallikieku qed titgħallem il-grammatika tan-nisġa u t-truf. Mhux grammatika tal-poeżija, aktar bħal... grammatika tal-manwal tal-IKEA 🪑📦 (metafora goffa, iżda qrib biżżejjed).
Il-ġewż u l-boltijiet: x'jiġri waqt l-inferenza (meta tagħmel upscale) ⚙️✨
Meta titma' immaġni f'upscaler tal-AI, tipikament ikun hemm pipeline bħal dan:
-
Preproċessar
-
Ikkonverti l-ispazju tal-kulur (xi kultant)
-
Normalizza l-valuri tal-pixel
-
Aqsam l-immaġni f'biċċiet jekk tkun kbira (verifika tar-realtà tal-VRAM 😭) ( Repożitorju Real-ESRGAN (għażliet ta' tajl) )
-
-
Estrazzjoni tal-karatteristiċi
-
Saffi bikrija jiskopru truf, kantunieri, gradjenti
-
Saffi aktar fondi jiskopru xejriet: nisġa, forom, komponenti tal-wiċċ
-
-
Rikostruzzjoni
-
Il-mudell jiġġenera mappa tal-karatteristiċi b'riżoluzzjoni ogħla
-
Imbagħad jikkonverti dak f'output ta' pixel attwali
-
-
Post-ipproċessar
-
Tisħin mhux obbligatorju
-
Tnaqqis tal-ħoss mhux obbligatorju
-
Soppressjoni fakultattiva tal-artefatti (tisfir, halos, imblukkar)
-
Dettall sottili wieħed: ħafna għodod itejbu l-madum, imbagħad iħalltu l-ħjatat. Għodod tajbin jaħbu l-konfini tal-madum. Għodod tajbin iħallu marki ħfief tal-grilja jekk tgħaqqad għajnejk. U iva, se tgħaqqad għajnejk, għax il-bnedmin iħobbu jispezzjonaw imperfezzjonijiet żgħar b'zoom ta' 300% bħal gremlins żgħar 🧌
Il-familji ewlenin tal-mudelli użati għall-upscaling tal-AI (u għaliex iħossuhom differenti) 🤖📚
1) Super-riżoluzzjoni bbażata fuq is-CNN (il-qofol tax-xogħol klassiku)
In-netwerks newrali konvoluzzjonali huma tajbin ħafna f'mudelli lokali: truf, nisġa, strutturi żgħar ( Super-Riżoluzzjoni tal-Immaġni bl-Użu ta' Netwerks Konvoluzzjonali Profondi (SRCNN) ).
-
Vantaġġi: veloċi, stabbli, inqas sorpriżi
-
Żvantaġġi: jista' jidher daqsxejn "ipproċessat" jekk jiġi mbuttat sew
2) Upscaling ibbażat fuq GAN (stil ESRGAN) 🎭
Il-GANs (Netwerks Avversarji Ġenerattivi) iħarrġu ġeneratur biex jipproduċi immaġni b'riżoluzzjoni għolja li diskriminatur ma jistax jiddistingwi minn dawk reali ( Netwerks Avversarji Ġenerattivi ).
-
Vantaġġi: dettall qawwi, tessut impressjonanti
-
Żvantaġġi: jista' jivvinta dettalji li ma kinux hemm - xi kultant żbaljati, xi kultant mhux tas-soltu ( SRGAN , ESRGAN )
GAN jista’ jagħtik dik l-akutezza li tħallik bla nifs. Jista’ wkoll jagħti lis-suġġett tar-ritratt tiegħek għajn oħra. Allura… agħżel il-battalji tiegħek 😬
3) Upscaling ibbażat fuq id-diffużjoni (il-wildcard kreattiva) 🌫️➡️🖼️
Il-mudelli ta' diffużjoni jneħħu l-istorbju pass pass u jistgħu jiġu ggwidati biex jipproduċu dettall b'riżoluzzjoni għolja ( SR3 ).
-
Vantaġġi: jista' jkun tajjeb ħafna fid-dettall plawżibbli, speċjalment għal xogħol kreattiv
-
Żvantaġġi: jista' jitbiegħed mill-identità/struttura oriġinali jekk is-settings ikunu aggressivi ( SR3 )
Hawnhekk fejn l-“upscaling” jibda jitħallat mar-“reimmaġinazzjoni.” Kultant dan huwa eżattament dak li trid. Kultant mhux.
4) Upscaling tal-vidjow b'konsistenza temporali 🎞️
L-upscaling tal-vidjow spiss iżid loġika konxja tal-moviment:
-
Juża frejms ġirien biex jistabbilizza d-dettall ( BasicVSR (CVPR 2021) )
-
Jipprova jevita t-teptep u l-artefatti tat-tkaxkir
-
Spiss jikkombina super-riżoluzzjoni ma' denoise u deinterlacing ( Topaz Video )
Jekk it-titjib tal-immaġni huwa bħar-restawr ta' pittura waħda, it-titjib tal-vidjo huwa bħar-restawr ta' flipbook mingħajr ma l-imnieħer tal-karattru jibdel il-forma f'kull paġna. Li huwa... iktar diffiċli milli jidher.
Għaliex l-upscaling tal-AI xi kultant jidher falz (u kif tagħrafh) 👀🚩
L-upscaling tal-AI ifalli b'modi rikonoxxibbli. Ladarba titgħallem il-mudelli, se tarahom kullimkien, bħal meta tixtri karozza ġdida u f'daqqa waħda tinnota dak il-mudell f'kull triq 😵💫
Komuni jgħid:
-
Xama' l-ġilda fuq l-uċuħ (tnaqqis tal-ħoss żejjed + twittija)
-
Halos imtejba żżejjed madwar it-truf (territorju klassiku ta' "overshoot") ( Interpolazzjoni bikubika )
-
Tessuti ripetuti (ħitan tal-briks isiru mudelli kkupjati u pejstjati)
-
Mikro-kuntrast iqarmeċ li jgħajjat "algoritmu"
-
Tgħawwiġ ta' test fejn l-ittri jsiru kważi ittri (l-agħar tip)
-
Dettalji mċaqalqa fejn karatteristiċi żgħar jinbidlu b'mod sottili, speċjalment fil-flussi tax-xogħol tad-diffużjoni ( SR3 )
Il-parti delikata: xi kultant dawn l-artefatti jidhru "aħjar" f'daqqa t'għajn. Moħħok iħobb in-nitidezza. Imma wara mument, iħossu... stramb.
Tattika deċenti hija li tagħmel zoom out u tiċċekkja jekk jidhirx naturali f'distanza normali tal-vista. Jekk jidher tajjeb biss b'zoom ta' 400%, dik mhix rebħa, dak passatemp 😅
Kif jaħdem l-AI Upscaling: in-naħa tat-taħriġ, mingħajr l-uġigħ ta' ras tal-matematika 📉🙂
It-taħriġ ta’ mudelli ta’ super-riżoluzzjoni ġeneralment jinvolvi:
-
Settijiet ta' dejta mqabbla (input b'riżoluzzjoni baxxa, mira b'riżoluzzjoni għolja) ( Super-Riżoluzzjoni tal-Immaġni bl-Użu ta' Netwerks Konvoluzzjonali Profondi (SRCNN) )
-
Funzjonijiet ta' telf li jikkastigaw rikostruzzjonijiet żbaljati ( SRGAN )
Tipi tipiċi ta' telf:
-
Telf ta' pixels (L1/L2)
Jinkoraġġixxi l-preċiżjoni. Jista' jipproduċi riżultati kemxejn ħfief. -
Telf Perċettiv
Iqabbel karatteristiċi aktar profondi (bħal "dan jidher simili") aktar milli pixels eżatti ( Telf Perċettiv (Johnson et al., 2016) ). -
Telf Avversarju (GAN)
Jinkoraġġixxi r-realiżmu, xi kultant għad-detriment tal-eżattezza litterali ( SRGAN , Netwerks Avversarji Ġenerattivi ).
Hemm ġlieda kostanti:
-
Agħmilha fidila għall-oriġinali
vs -
Agħmilha viżwalment pjaċevoli
Għodod differenti jaqgħu f'postijiet differenti f'dak l-ispettru. U tista' tippreferi waħda skont jekk intix qed tirrestawra ritratti tal-familja jew qed tipprepara poster fejn id-"dehra sabiħa" hija aktar importanti mill-eżattezza forensika.
Flussi tax-xogħol prattiċi: ritratti, skens qodma, anime, u vidjows 📸🧾🎥
Ritratti (ritratti, pajsaġġi, ritratti tal-prodott)
L-aħjar prattika ġeneralment hija:
-
Tneħħija ħafifa tal-ħoss l-ewwel (jekk meħtieġ)
-
Upscale b'settings konservattivi
-
Żid il-qamħ lura jekk l-affarijiet iħossuhom wisq lixxi (iva, tassew)
Il-qamħ huwa bħall-melħ. Wisq ħafna jħassarlek il-pranzu, imma xejn minnu ma jista’ jkollu togħma daqsxejn bla togħma 🍟
Skens qodma u immaġnijiet ikkompressati ħafna
Dawn huma aktar diffiċli għax il-mudell jista' jittratta l-blokki tal-kompressjoni bħala "tessut".
Ipprova:
-
Tneħħija jew tneħħija tal-imblukkar tal-artefatti
-
Imbagħad upscale
-
Imbagħad tissikka ħafif (mhux wisq... naf, kulħadd jgħid hekk, imma xorta)
Anime u arti tal-linja
L-arti tal-linja tibbenefika minn:
-
Mudelli li jippreservaw truf nodfa
-
Alluċinazzjoni ta' tessut imnaqqas
L-upscaling tal-Anime spiss jidher tajjeb għax il-forom huma aktar sempliċi u konsistenti. (Xorti tajba.)
Vidjo
Il-vidjo jżid passi żejda:
-
Tneħħija tal-ħoss
-
Deinterlace (għal ċerti sorsi)
-
Skala għolja
-
Twittija jew stabilizzazzjoni temporali ( BasicVSR (CVPR 2021) )
-
Introduzzjoni mill-ġdid tal-qamħ fakultattiva għall-koeżjoni
Jekk taqbeż il-konsistenza temporali, ikollok dak it-teptep tad-dettall li jleqq. Ladarba tinnotah, ma tistax tinsaħu. Bħal siġġu jgerger f'kamra kwieta 😖
L-għażla tas-settings mingħajr ma tagħmel suppożizzjonijiet esaġerati (silta żgħira ta' informazzjoni) 🎛️😵💫
Hawn mentalità inizjali deċenti:
-
Jekk l-uċuħ jidhru tal-plastik
Naqqas it-tneħħija tal-istorbju, naqqas it-tismin, ipprova mudell jew modalità li tippreserva l-wiċċ. -
Jekk in-nisġa tidher intensa wisq,
baxxi s-sliders tat-“titjib tad-dettall” jew “irkupra d-dettall”, u żid qamħ sottili wara. -
Jekk it-truf
jiddu Naqqas is-sanzjoni, iċċekkja l-għażliet tas-soppressjoni tal-halo. -
Jekk l-immaġni tidher wisq “AI”
Mur iktar konservattiv. Kultant l-aħjar mossa hija sempliċement… inqas.
Ukoll: tkabbarx l-iskala 8x sempliċement għax tista'. 2x jew 4x nadif ħafna drabi jkun l-aħjar għażla. Lil hinn minn dan, tkun qed titlob lill-mudell biex jikteb fanfiction dwar il-pixels tiegħek 📖😂
Etika, awtentiċità, u l-mistoqsija skomda tal-“verità” 🧭😬
L-upscaling tal-AI jċajpar linja:
-
Ir-restawr jimplika l-irkupru ta’ dak li kien hemm
-
It-titjib jimplika ż-żieda ta’ dak li ma kienx
Bir-ritratti personali, ġeneralment ikun tajjeb (u sabiħ). Bil-ġurnaliżmu, l-evidenza legali, l-immaġini mediċi, jew kwalunkwe ħaġa fejn il-fedeltà hija importanti... trid toqgħod attent ( OSAC/NIST: Gwida Standard għall-Ġestjoni Forensika tal-Immaġni Diġitali , Linji Gwida SWGDE għall-Analiżi Forensika tal-Immaġni ).
Regola sempliċi:
-
Jekk l-ishma huma għoljin, ittratta t-titjib tal-AI bħala illustrazzjoni , mhux definittiva.
Ukoll, l-iżvelar huwa importanti f'kuntesti professjonali. Mhux għax l-AI hija ħażina, iżda għax l-udjenzi jistħoqqilhom ikunu jafu jekk id-dettalji ġewx rikostruwiti jew maqbuda. Dak huwa biss... rispettuż.
Noti tal-għeluq u sommarju fil-qosor 🧡✅
Mela, Kif jaħdem l-AI Upscaling huwa dan: il-mudelli jitgħallmu kif id-dettall b'riżoluzzjoni għolja għandu t-tendenza li jirrelata ma' mudelli b'riżoluzzjoni baxxa, imbagħad ibassru pixels żejda kredibbli waqt l-upscaling ( Deep Learning for Image Super-resolution: A Survey ). Skont il-familja tal-mudelli (CNN, GAN, diffusion, video-temporal), dak it-tbassir jista' jkun konservattiv u fidil... jew qawwi u xi kultant bla rażan 😅
Sommarju rapidu
-
L-upscaling tradizzjonali jġebbed il-pixels ( interpolazzjoni bikubika )
-
L-upscaling tal-AI jbassar id-dettall nieqes bl-użu ta' mudelli mgħallma ( Super-Riżoluzzjoni tal-Immaġni Bl-Użu ta' Netwerks Konvoluzzjonali Profondi (SRCNN) )
-
Riżultati tajbin jiġu mill-mudell it-tajjeb + trażżin
-
Oqgħod attent għal halos, uċuħ tax-xama', nisġa ripetuta, u teptip fil-vidjow ( BasicVSR (CVPR 2021) )
-
It-titjib tal-iskalar ħafna drabi huwa "rikostruzzjoni plawżibbli," mhux verità perfetta ( SRGAN , ESRGAN )
Jekk trid, għidli x'qed tagħmel upscaling (uċuħ, ritratti qodma, vidjows, anime, skens ta' test), u nissuġġerilek strateġija ta' settings li għandha t-tendenza li tevita l-iżbalji komuni tad-"dehra tal-AI" 🎯🙂
Mistoqsijiet Frekwenti
It-titjib tal-AI u kif jaħdem
L-upscaling tal-AI (spiss imsejjaħ "super-riżoluzzjoni") iżid ir-riżoluzzjoni ta' immaġni billi jbassar id-dettall nieqes ta' riżoluzzjoni għolja minn mudelli mgħallma waqt it-taħriġ. Minflok ma sempliċement jistira l-pixels bħall-interpolazzjoni bikubika, mudell jistudja t-truf, in-nisġa, l-uċuħ, u l-puplesiji simili għal test, imbagħad jiġġenera dejta ġdida tal-pixel li tkun koerenti ma' dawk il-mudelli mgħallma. Huwa inqas "restawr tar-realtà" u aktar "tagħmel suppożizzjoni kredibbli" li tinqara bħala naturali.
Upscaling tal-AI kontra r-ridimensjonar bikubiku jew tradizzjonali
Il-metodi tradizzjonali ta' upscaling (bħal bicubic) jinterpolaw prinċipalment bejn pixels eżistenti, u jtaffu t-tranżizzjonijiet mingħajr ma joħolqu dettall ġdid veru. L-upscaling tal-AI għandu l-għan li jirrikostruwixxi struttura plawżibbli billi jagħraf sinjali viżwali u jbassar kif għandhom it-tendenza li jidhru l-verżjonijiet b'riżoluzzjoni għolja ta' dawk is-sinjali. Huwa għalhekk li r-riżultati tal-AI jistgħu jħossuhom drammatikament aktar ċari, u wkoll għaliex jistgħu jintroduċu artefatti jew "jivvintaw" dettalji li ma kinux preżenti fis-sors.
Għaliex l-uċuħ jistgħu jidhru tax-xama’ jew lixxi żżejjed
L-uċuħ tax-xama’ ġeneralment jiġu minn tneħħija tal-istorbju u twittija aggressiva flimkien ma’ tisħiħ li jneħħi n-nisġa naturali tal-ġilda. Ħafna għodod jittrattaw l-istorbju u n-nisġa fina bl-istess mod, għalhekk it-“tindif” ta’ immaġni jista’ jħassar il-pori u d-dettall sottili. Approċċ komuni huwa li titnaqqas it-tneħħija tal-istorbju u t-tisħiħ, tintuża modalità li tippreserva l-wiċċ jekk disponibbli, imbagħad terġa’ tintroduċi mess ta’ qamħ sabiex ir-riżultat iħoss inqas plastiku u aktar fotografiku.
Artefatti komuni tal-upscaling tal-AI li għandek toqgħod attent għalihom
Sinjali tipiċi jinkludu halos madwar it-truf, mudelli ta’ nisġa ripetuti (bħal briks ikkupjati u pejstjati), mikro-kuntrast iqarmeċ, u test li jinbidel fi “kważi ittri.” Fi flussi tax-xogħol ibbażati fuq id-diffużjoni, tista’ tara wkoll dettall li jiċċaqlaq fejn karatteristiċi żgħar jinbidlu b’mod sottili. Għall-vidjow, it-teptep u d-dettall li jiċċaqlaq bejn il-frejms huma bnadar ħomor kbar. Jekk jidher tajjeb biss b’zoom estrem, is-settings probabbilment huma aggressivi wisq.
Kif l-upscalers tal-GAN, tas-CNN, u tad-diffużjoni għandhom it-tendenza li jvarjaw fir-riżultati
Is-super-riżoluzzjoni bbażata fuq is-CNN għandha t-tendenza li tkun aktar stabbli u aktar prevedibbli, iżda tista' tidher "ipproċessata" jekk tiġi mbuttata 'l fuq. L-għażliet ibbażati fuq il-GAN (stil ESRGAN) spiss jipproduċu tessut aktar qawwi u preċiżjoni perċepita, iżda jistgħu juru dettall mhux korrett, speċjalment fuq l-uċuħ. L-upscaling ibbażat fuq id-diffużjoni jista' jiġġenera dettall sabiħ u plawżibbli, iżda jista' jitbiegħed mill-istruttura oriġinali jekk il-gwida jew is-settings tas-saħħa jkunu qawwija wisq.
Strateġija prattika ta' settings biex tevita dehra ta' "AI wisq"
Ibda b'mod konservattiv: żid l-iskala 2× jew 4× qabel ma tuża fatturi estremi. Jekk l-uċuħ jidhru tal-plastik, naqqas it-tnaqqis tal-istorbju u t-tisħiħ u ipprova modalità konxja tal-wiċċ. Jekk in-nisġa ssir wisq intensa, naqqas it-titjib tad-dettall u kkunsidra li żżid qamħ sottili wara. Jekk it-truf jiddu, naqqas it-tisħiħ u ċċekkja s-soppressjoni tal-halo jew tal-artefatti. F'ħafna pipelines, "inqas" jirbaħ għax jippreserva realiżmu kredibbli.
Immaniġġjar ta' skens qodma jew immaġnijiet ikkompressati ħafna bil-JPEG qabel l-upscaling
L-immaġini kkompressati huma delikati għax il-mudelli jistgħu jittrattaw l-artefatti tal-blokk bħala tessut reali u jamplifikawhom. Fluss tax-xogħol komuni huwa t-tneħħija jew it-tneħħija tal-imblukkar tal-artefatti l-ewwel, imbagħad l-upscaling, imbagħad it-tisħiħ ħafif biss jekk ikun meħtieġ. Għall-iskens, tindif ġentili jista' jgħin lill-mudell jiffoka fuq l-istruttura attwali aktar milli fuq il-ħsara. L-għan huwa li jitnaqqsu l-"indikazzjonijiet foloz tan-tessut" sabiex l-upscaler ma jkunx imġiegħel jagħmel suppożizzjonijiet kunfidenti minn inputs storbjużi.
Għaliex l-upscaling tal-vidjow huwa aktar diffiċli mill-upscaling tar-ritratti
L-upscaling tal-vidjow irid ikun konsistenti fil-frejms kollha, mhux tajjeb biss fuq immaġni waħda. Jekk id-dettalji jteptep minn frejm għal frejm, ir-riżultat isir distraenti malajr. L-approċċi ffukati fuq il-vidjow jużaw informazzjoni temporali minn frejms ġirien biex jistabbilizzaw ir-rikostruzzjoni u jevitaw artefatti li jleqqu. Ħafna flussi tax-xogħol jinkludu wkoll it-tneħħija tal-istorbju, id-deinterlacing għal ċerti sorsi, u l-introduzzjoni mill-ġdid tal-qamħ fakultattiva sabiex is-sekwenza kollha tħossha koeżiva aktar milli artifiċjalment qawwija.
Meta l-upscaling tal-AI ma jkunx xieraq jew ikun riskjuż li wieħed jiddependi fuqu
L-upscaling tal-AI huwa l-aħjar trattat bħala titjib, mhux bħala prova. F'kuntesti ta' importanza kbira bħall-ġurnaliżmu, l-evidenza legali, l-immaġini medika, jew ix-xogħol forensiku, il-ġenerazzjoni ta' pixels "kredibbli" tista' tqarraq għax tista' żżid dettalji li ma nqabdux. Qafas aktar sikur huwa li tużah b'mod illustrattiv u tiżvela li proċess tal-AI rrikostruwixxa d-dettall. Jekk il-fedeltà hija kritika, ippreserva l-oriġinali u iddokumenta kull pass tal-ipproċessar u l-issettjar.
Referenzi
-
arXiv - Tagħlim Profond għal Super-riżoluzzjoni tal-Immaġni: Stħarriġ - arxiv.org
-
arXiv - Super-Riżoluzzjoni tal-Immaġni bl-Użu ta' Netwerks Konvoluzzjonali Profondi (SRCNN) - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
Żviluppatur NVIDIA - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
L-Aċċess Miftuħ tal-Fondazzjoni tal-Viżjoni tal-Kompjuter (CVF) - BasicVSR: It-Tiftix għal Komponenti Essenzjali fis-Super-Riżoluzzjoni tal-Vidjo (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Netwerks Avversarji Ġenerattivi - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - Telf Perċettiv (Johnson et al., 2016) - arxiv.org
-
GitHub - Repożitorju Real-ESRGAN (għażliet ta' madum) - github.com
-
Wikipedia - Interpolazzjoni bikubika - wikipedia.org
-
Topaz Labs - Topaz Photo - topazlabs.com
-
Topaz Labs - Vidjow Topaz - topazlabs.com
-
Ċentru tal-Għajnuna ta' Adobe - Adobe Enhance > Super Riżoluzzjoni - helpx.adobe.com
-
NIST / OSAC - Gwida Standard għall-Ġestjoni Forensika tal-Immaġni Diġitali (Verżjoni 1.0) - nist.gov
-
SWGDE - Linji Gwida għall-Analiżi Forensika tal-Immaġni - swgde.org