Tweġiba qasira: Biex tevalwa sew il-mudelli tal-IA, ibda billi tiddefinixxi x'jidher "tajjeb" għall-utent reali u d-deċiżjoni li tkun qed tieħu. Imbagħad ibni evalwazzjonijiet ripetibbli b'dejta rappreżentattiva, kontrolli stretti tat-tnixxija, u metriċi multipli. Żid stress, preġudizzju, u kontrolli tas-sigurtà, u kull meta xi ħaġa tinbidel (dejta, prompts, politika), erġa' ħaddem il-kontroll u kompli tissorvelja wara t-tnedija.
Punti ewlenin:
Kriterji ta' suċċess : Iddefinixxi l-utenti, id-deċiżjonijiet, ir-restrizzjonijiet, u l-agħar każijiet ta' falliment qabel ma tagħżel il-metriċi.
Ripetibbiltà : Ibni sistema ta' evalwazzjoni li terġa' tħaddem testijiet komparabbli ma' kull bidla.
Iġjene tad-dejta : Żomm qasmiet stabbli, evita duplikati, u imblokka t-tnixxija tal-karatteristiċi kmieni.
Verifiki tal-fiduċja : Robustezza tat-test tal-istress, slices tal-ġustizzja, u mġiba ta' sigurtà tal-LLM b'rubriki ċari.
Dixxiplina taċ-ċiklu tal-ħajja : Implimenta fi stadji, immonitorja d-devjazzjoni u l-inċidenti, u iddokumenta l-lakuni magħrufa.
Artikoli li forsi tixtieq taqra wara dan:
🔗 X'inhi l-etika tal-IA
Esplora l-prinċipji li jiggwidaw id-disinn, l-użu u l-governanza responsabbli tal-IA.
🔗 X'inhu l-preġudizzju tal-AI
Tgħallem kif id-dejta preġudikata tfixkel id-deċiżjonijiet u r-riżultati tal-AI.
🔗 X'inhi l-iskalabbiltà tal-AI
Ifhem l-iskalar tas-sistemi tal-IA għall-prestazzjoni, l-ispiża u l-affidabbiltà.
🔗 X'inhi l-IA
Ħarsa ġenerali ċara lejn l-intelliġenza artifiċjali, it-tipi tagħha, u l-użi tagħha fid-dinja reali.
1) Ibda bid-definizzjoni mhux glamoruża ta’ “tajjeb”
Qabel il-metriċi, qabel id-dashboards, qabel kwalunkwe bidla fil-parametri referenzjarji - iddeċiedi kif jidher is-suċċess.
Iċċara:
-
L-utent: analista intern, klijent, kliniku, sewwieq, aġent tal-appoġġ għajjien fl-4pm...
-
Id-deċiżjoni: approva self, indika frodi, issuġġeriment ta' kontenut, sommarju tan-noti
-
Il-fallimenti li huma l-aktar importanti:
-
Pożittivi foloz (fastidjużi) vs negattivi foloz (perikolużi)
-
-
Ir-restrizzjonijiet: latency, spiża għal kull talba, regoli tal-privatezza, rekwiżiti ta' spjegazzjoni, aċċessibbiltà
Din hija l-parti fejn it-timijiet jibdew jottimizzaw għal "metrika sabiħa" minflok "riżultat sinifikanti." Jiġri spiss. Bħal... ħafna.
Mod solidu biex dan jibqa' konxju tar-riskju (u mhux ibbażat fuq il-vibrazzjonijiet) huwa li l-ittestjar jiġi fformulat madwar l-affidabbiltà u l-ġestjoni tar-riskju taċ-ċiklu tal-ħajja, bil-mod kif jagħmel l-NIST fil- Qafas tal-Ġestjoni tar-Riskju tal-AI (AI RMF 1.0) [1].

2) X'jagħmel verżjoni tajba ta' "kif tittestja l-mudelli tal-AI" ✅
Approċċ solidu għall-ittestjar għandu ftit kundizzjonijiet mhux negozjabbli:
-
Dejta rappreżentattiva (mhux biss dejta nadifa tal-laboratorju)
-
Qasmiet ċari bil-prevenzjoni tat-tnixxija (aktar dwar dan f'sekonda)
-
Linji bażi (mudelli sempliċi li għandek tegħleb - l-istimaturi finti jeżistu għal raġuni [4])
-
Metrika multipla (għax numru wieħed jigdeb lilek, b'edukazzjoni, quddiem wiċċek)
-
Testijiet tal-istress (każijiet ta' periklu, inputs mhux tas-soltu, xenarji kemxejn avversarji)
-
Ċirkwiti ta' reviżjoni umana (speċjalment għal mudelli ġenerattivi)
-
Monitoraġġ wara t-tnedija (għax id-dinja tinbidel, il-pipelines jinkisru, u l-utenti huma... kreattivi [1])
Ukoll: approċċ tajjeb jinkludi li tiddokumenta dak li ttestjajt, dak li ma għamiltx, u dwar xiex int nervuż. Dik it-taqsima "dwar xiex inħossni nervuż" tħossha skomda - u huwa wkoll fejn tibda tinbena l-fiduċja.
Żewġ mudelli ta' dokumentazzjoni li b'mod konsistenti jgħinu lit-timijiet jibqgħu sinċieri:
-
Karti tal-Mudell (għalxiex hu l-mudell, kif ġie evalwat, fejn ifalli) [2]
-
Folji tad-Data għal Settijiet tad-Data (x'inhi d-data, kif inġabret, għalxiex għandha/m'għandhiex tintuża) [3]
3) Ir-realtà tal-għodda: x'jużaw in-nies fil-prattika 🧰
L-għodod huma fakultattivi. Drawwiet tajbin ta' evalwazzjoni mhumiex.
Jekk trid setup pragmatiku, ħafna timijiet jispiċċaw bi tliet bramel:
-
Traċċar tal-esperimenti (ġirjiet, konfigurazzjonijiet, artefatti)
-
Mezzi ta' evalwazzjoni (testijiet offline ripetibbli + suites ta' rigressjoni)
-
Monitoraġġ (sinjali li mhumiex ċari, proxies tal-prestazzjoni, allerti ta' inċidenti)
Eżempji li se tara ħafna fis-suq (mhux approvazzjonijiet, u iva - bidla fil-karatteristiċi/prezzijiet): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.
Jekk tagħżel idea minn din it-taqsima: ibni sistema ta' evalwazzjoni ripetibbli . Trid "agħfas buttuna → tikseb riżultati komparabbli," mhux "erġa' ħaddem in-notebook u titlob."
4) Ibni s-sett tat-test it-tajjeb (u waqqaf it-tnixxija tad-dejta) 🚧
Numru xokkanti ta’ mudelli “tal-għaġeb” qed iqarrqu aċċidentalment.
Għal ML standard
Ftit regoli mhux attraenti li jsalvaw il-karrieri:
-
Żomm tal-ferrovija/validazzjoni/test stabbli (u ikteb il-loġika tal-qsim)
-
Evita duplikati bejn qsimiet (l-istess utent, l-istess dokument, l-istess prodott, kważi duplikati)
-
Oqgħod attent għal tnixxija ta' karatteristiċi (informazzjoni futura li tidħol bil-moħbi fil-karatteristiċi "kurrenti")
-
Uża linji bażi (estimaturi finti) sabiex ma tiċċelebrax it-telfa... xejn [4]
Definizzjoni ta' tnixxija (il-verżjoni rapida): kwalunkwe ħaġa fit-taħriġ/evalwazzjoni li tagħti lill-mudell aċċess għal informazzjoni li ma jkollux fil-ħin tad-deċiżjoni. Tista' tkun ovvja ("tikketta futura") jew sottili ("bucket ta' timestamp ta' wara l-avveniment").
Għal LLMs u mudelli ġenerattivi
Qed tibni sistema ta' prompt u politika , mhux biss "mudell."
-
Oħloq sett tad-deheb ta' prompts (żgħar, ta' kwalità għolja, stabbli)
-
Żid kampjuni reali reċenti (anonimizzati + sikuri għall-privatezza)
-
Żomm pakkett ta' każijiet mhux preċiżi : żbalji tipografiċi, slang, ifformattjar mhux standard, inputs vojta, sorpriżi multilingwi 🌍
Ħaġa prattika li rajt tiġri aktar minn darba: tim jibgħat punteġġ offline "qawwi", imbagħad l-appoġġ għall-klijenti jgħid, "Sabiħ. B'kunfidenza qed jonqos is-sentenza waħda li hija importanti." Is-soluzzjoni ma kinitx "mudell akbar." Kienu prompts tat-test aħjar , rubriki aktar ċari, u suite ta' rigressjoni li kkastigat dak il-mod ta' falliment eżatt. Sempliċi. Effettiv.
5) Evalwazzjoni offline: metriċi li jfissru xi ħaġa 📏
Il-metriċi huma tajbin. Il-monokultura metrika mhijiex.
Klassifikazzjoni (spam, frodi, intenzjoni, triage)
Uża aktar mill-eżattezza.
-
Preċiżjoni, sejħa lura, F1
-
Irfinar tal-limitu (il-limitu awtomatiku tiegħek rarament ikun "korrett" għall-ispejjeż tiegħek) [4]
-
Matriċi ta' konfużjoni għal kull segment (reġjun, tip ta' apparat, grupp ta' utenti)
Regressjoni (tbassir, prezzijiet, punteġġ)
-
MAE / RMSE (agħżel skont kif trid tikkastiga l-iżbalji)
-
Verifiki simili għall-kalibrazzjoni meta l-outputs jintużaw bħala "punteġġi" (il-punteġġi jaqblu mar-realtà?)
Sistemi ta' klassifikazzjoni / rakkomandazzjoni
-
NDCG, MAP, MRR
-
Aqsam skont it-tip ta' mistoqsija (ras vs denb)
Viżjoni bil-kompjuter
-
mAP, IoU
-
Prestazzjoni għal kull klassi (klassijiet rari huma fejn il-mudelli jimbarazzawk)
Mudelli ġenerattivi (LLMs)
Hawnhekk in-nies isiru... filosofiċi 😵💫
Għażliet prattiċi li jaħdmu f'timijiet reali:
-
Evalwazzjoni umana (l-aħjar sinjal, l-iktar linja bil-mod)
-
Preferenza f'pari / rata ta' rebħ (A vs B huwa aktar faċli milli punteġġ assolut)
-
Metrika tat-test awtomatizzata (utli għal xi kompiti, qarrieqa għal oħrajn)
-
Verifiki bbażati fuq il-kompiti: “Estrat l-oqsma t-tajba?” “Segwa l-politika?” “Iċċita s-sorsi meta kien meħtieġ?”
Jekk trid punt ta' referenza strutturat "multi-metriku, b'ħafna xenarji", HELM huwa ankra tajba: jimbotta b'mod espliċitu l-evalwazzjoni lil hinn mill-eżattezza għal affarijiet bħall-kalibrazzjoni, ir-robustezza, il-preġudizzju/tossiċità, u l-kompromessi tal-effiċjenza [5].
Digressjoni żgħira: metriċi awtomatizzati għall-kwalità tal-kitba xi kultant iħossuhom bħallikieku qed tiġġudika sandwich billi tiżnu. Mhuwiex xejn, imma... ejja 🥪
6) Ittestjar tar-robustezza: ħalliha tegħreq ftit 🥵🧪
Jekk il-mudell tiegħek jaħdem biss b'inputs puliti, huwa bażikament vażun tal-ħġieġ. Sabiħ, fraġli, u għali.
Test:
-
Storbju: żbalji tipografiċi, valuri neqsin, unicode mhux standard, żbalji fil-formattjar
-
Bidla fid-distribuzzjoni: kategoriji ġodda ta' prodotti, slang ġdid, sensuri ġodda
-
Valuri estremi: numri barra mill-firxa, payloads ġganti, kordi vojta
-
Inputs "avversarji" li ma jidhrux bħas-sett ta' taħriġ tiegħek iżda jidhru bħal utenti
Għal LLMs, inkludi:
-
Tentattivi ta' injezzjoni fil-pront (struzzjonijiet moħbija fil-kontenut tal-utent)
-
Mudelli ta' "Injora l-istruzzjonijiet preċedenti"
-
Każijiet ta' periklu għall-użu tal-għodda (URLs ħżiena, timeouts, outputs parzjali)
Ir-robustezza hija waħda minn dawk il-proprjetajiet ta’ affidabbiltà li tinstema’ astratta sakemm ikollok inċidenti. Imbagħad issir… tanġibbli ħafna [1].
7) Preġudizzju, ġustizzja, u għal min taħdem ⚖️
Mudell jista' jkun "preċiż" b'mod ġenerali filwaqt li jkun konsistentement agħar għal gruppi speċifiċi. Dik mhix xi żball żgħir. Dik hija problema tal-prodott u tal-fiduċja.
Passi prattiċi:
-
Evalwa l-prestazzjoni skont segmenti sinifikanti (legalment/etikament xierqa biex jitkejlu)
-
Qabbel ir-rati ta' żball u l-kalibrazzjoni bejn il-gruppi
-
Ittestja għal karatteristiċi ta' prokura (kodiċi postali, tip ta' apparat, lingwa) li jistgħu jikkodifikaw karatteristiċi sensittivi
Jekk m'intix qed tiddokumenta dan x'imkien, bażikament qed titlob lilek innifsek fil-futur biex tiddibaggja kriżi ta' fiduċja mingħajr mappa. Il-Karti tal-Mudell huma post tajjeb fejn tpoġġihom [2], u l-qafas tal-affidabbiltà tan-NIST jagħtik lista ta' kontroll b'saħħitha ta' dak li "tajjeb" għandu saħansitra jinkludi [1].
8) Ittestjar tas-sikurezza u s-sigurtà (speċjalment għal LLMs) 🛡️
Jekk il-mudell tiegħek jista' jiġġenera kontenut, qed tittestja aktar milli sempliċement l-eżattezza. Qed tittestja l-imġiba.
Inkludi testijiet għal:
-
Ġenerazzjoni ta' kontenut mhux permessa (ksur tal-politika)
-
Tnixxija tal-privatezza (tirrepeti sigrieti?)
-
Alluċinazzjonijiet f'oqsma ta' riskju għoli
-
Rifjut żejjed (il-mudell jirrifjuta talbiet normali)
-
Riżultati ta' tossiċità u fastidju
-
Tentattivi ta' esfiltrazzjoni tad-dejta permezz ta' injezzjoni fil-pront
Approċċ ibbażat fuq l-art huwa: iddefinixxi r-regoli tal-politika → ibni prompts tat-test → ikklassifika l-outputs b'kontrolli umani + awtomatizzati → eżegwih kull darba li jinbidel xi ħaġa. Dik il-parti ta' "kull darba" hija l-kera.
Dan jidħol perfettament fil-mentalità tar-riskju taċ-ċiklu tal-ħajja: iggvernar, mappa tal-kuntest, kejl, ġestjoni, irrepeti [1].
9) Ittestjar online: tnedija fi stadji (fejn tgħix il-verità) 🚀
It-testijiet offline huma neċessarji. L-esponiment online huwa fejn ir-realtà tidher liebes żraben imtajrin.
M'għandekx għalfejn tkun sofistikat. Trid biss tkun dixxiplinat:
-
Mexxi fil-modalità dell (il-mudell jaħdem, ma jaffettwax lill-utenti)
-
Tnedija gradwali (traffiku żgħir l-ewwel, espandi jekk ikun tajjeb)
-
Traċċar tar-riżultati u l-inċidenti (ilmenti, eskalazzjonijiet, fallimenti tal-politika)
Anke jekk ma tistax tikseb tikketti immedjati, tista' timmonitorja s-sinjali tal-prokura u s-saħħa operattiva (latency, rati ta' falliment, spiża). Il-punt ewlieni: trid mod ikkontrollat biex tiskopri l-fallimenti qabel ma tagħmel dan il-bażi tal-utenti kollha tiegħek [1].
10) Monitoraġġ wara l-iskjerament: drift, deterjorament, u falliment kwiet 📉👀
Il-mudell li ttestjajt mhuwiex il-mudell li tispiċċa tgħix bih. Id-dejta tinbidel. L-utenti jinbidlu. Id-dinja tinbidel. Il-pipeline jinkiser fis-2am. Taf kif inhu..
Monitor:
-
Drift fid-dejta tal-input (bidliet fl-iskema, nuqqasijiet, bidliet fid-distribuzzjoni)
-
Drift tal-output (bidliet fil-bilanċ tal-klassi, bidliet fil-punteġġ)
-
Proxies tal-prestazzjoni (għax id-dewmien fit-tikketti huwa reali)
-
Sinjali ta' feedback (saba' l-polz 'l isfel, editjar mill-ġdid, eskalazzjonijiet)
-
Regresjonijiet fil-livell tas-segment (il-qattiela siekta)
U ssettja limiti ta' twissija li mhumiex wisq imqanqlin. Monitor li jgħajjat kontinwament jiġi injorat - bħal allarm ta' karozza fil-belt.
Dan iċ-ċiklu ta' "monitor + titjib maż-żmien" mhuwiex fakultattiv jekk jimpurtak mill-affidabbiltà [1].
11) Fluss tax-xogħol prattiku li tista' tikkopja 🧩
Hawn linja sempliċi li tiskala:
-
Iddefinixxi l-modi ta' suċċess + falliment (inkludi l-ispiża/latenza/sigurtà) [1]
-
Oħloq settijiet ta' dejta:
-
sett tad-deheb
-
pakkett tal-kaxxa tat-tarf
-
kampjuni reali reċenti (sikuri għall-privatezza)
-
-
Agħżel il-metriċi:
-
metriċi tal-kompiti (F1, MAE, rata ta' rebħ) [4][5]
-
metriċi tas-sigurtà (rata ta' suċċess tal-politika) [1][5]
-
metriċi operattivi (latenza, spiża)
-
-
Ibni sistema ta' evalwazzjoni (taħdem fuq kull bidla fil-mudell/fil-pront) [4][5]
-
Żid testijiet tal-istress + testijiet tat-tip avversarju [1][5]
-
Reviżjoni umana għal kampjun (speċjalment għal outputs tal-LLM) [5]
-
Ibgħat permezz ta' shadow + tnedija fi stadji [1]
-
Immonitorja + allerta + taħriġ mill-ġdid b'dixxiplina [1]
-
Ir-riżultati tad-dokument f'kitba stil karta mudell [2][3]
It-taħriġ huwa glamoruż. L-ittestjar iħallas il-kera.
12) Noti tal-għeluq + sommarju fil-qosor 🧠✨
Jekk tiftakar biss ftit affarijiet dwar kif tittestja l-mudelli tal-AI :
-
Uża dejta tat-test rappreżentattiva u evita t-tnixxija [4]
-
Agħżel diversi metriċi marbuta ma' riżultati reali [4][5]
-
Għal LLMs, ibbaża ruħek fuq reviżjoni umana + tqabbil tal-istil tar-rata ta' rebħ [5]
-
Robustezza tat-test - inputs mhux tas-soltu huma inputs normali moħbija [1]
-
Iftaħ b'mod sigur u mmonitorja, għax il-mudelli jitbiegħdu u l-pipelines jinkisru [1]
-
Iddokumenta x'għamilt u x'ma ttestjajtx (skomdu imma effettiv) [2][3]
L-ittestjar mhux biss "uri li jaħdem." Huwa "sib kif ifalli qabel ma jagħmlu l-utenti tiegħek." U iva, dik hija inqas attraenti - imma hija l-parti li żżomm is-sistema tiegħek wieqfa meta l-affarijiet jibdew jitħarrek... 🧱🙂
Mistoqsijiet Frekwenti
L-aħjar mod biex jiġu ttestjati l-mudelli tal-AI sabiex jaqblu mal-bżonnijiet reali tal-utent
Ibda billi tiddefinixxi "tajjeb" f'termini tal-utent reali u d-deċiżjoni li jappoġġja l-mudell, mhux biss metrika ta' klassifika. Identifika l-modi ta' falliment bl-ogħla spejjeż (pożittivi foloz vs negattivi foloz) u spjega restrizzjonijiet stretti bħal-latenza, l-ispiża, il-privatezza, u l-ispjegabbiltà. Imbagħad agħżel metriċi u każijiet ta' test li jirriflettu dawk ir-riżultati. Dan iżommok milli tottimizza "metrika sabiħa" li qatt ma tissarraf fi prodott aħjar.
Id-definizzjoni tal-kriterji ta' suċċess qabel l-għażla tal-metriċi tal-evalwazzjoni
Ikteb min hu l-utent, liema deċiżjoni l-mudell huwa maħsub biex jappoġġja, u kif jidher "l-agħar każ ta' falliment" fil-produzzjoni. Żid restrizzjonijiet operattivi bħal latency aċċettabbli u spiża għal kull talba, flimkien ma' ħtiġijiet ta' governanza bħar-regoli tal-privatezza u l-politiki tas-sigurtà. Ladarba dawn ikunu ċari, il-metriċi jsiru mod kif titkejjel il-ħaġa t-tajba. Mingħajr dak l-inquadrament, it-timijiet għandhom it-tendenza li jimxu lejn l-ottimizzazzjoni ta' dak kollu li huwa l-aktar faċli biex jitkejjel.
Il-prevenzjoni tat-tnixxija tad-dejta u l-qerq aċċidentali fl-evalwazzjoni tal-mudell
Żomm il-qsim tal-ferrovija/validazzjoni/test stabbli u iddokumenta l-loġika tal-qsim sabiex ir-riżultati jibqgħu riproduċibbli. Imblokka b'mod attiv id-duplikati u kważi duplikati fil-qsim (l-istess utent, dokument, prodott, jew mudelli ripetuti). Oqgħod attent għal tnixxija ta' karatteristiċi fejn informazzjoni "futura" tidħol fl-inputs permezz ta' timestamps jew oqsma ta' wara l-avveniment. Linja bażi b'saħħitha (anke stimaturi finti) tgħinek tinnota meta tkun qed tiċċelebra l-istorbju.
X'għandu jinkludi mekkaniżmu ta' evalwazzjoni sabiex it-testijiet jibqgħu ripetibbli matul il-bidliet
Mekkaniżmu prattiku jerġa' jwettaq testijiet komparabbli fuq kull mudell, prompt, jew bidla fil-politika bl-użu tal-istess settijiet ta' dejta u regoli ta' punteġġ. Tipikament jinkludi sett ta' rigressjoni, dashboards ċari tal-metriċi, u konfigurazzjonijiet u artefatti maħżuna għat-traċċabilità. Għas-sistemi LLM, jeħtieġ ukoll "sett tad-deheb" stabbli ta' prompts flimkien ma' pakkett ta' każijiet speċifiċi. L-għan huwa "agħfas buttuna → riżultati komparabbli," mhux "erġa' wettaq in-notebook u itlob."
Metriċi għall-ittestjar ta' mudelli tal-IA lil hinn mill-eżattezza
Uża metriċi multipli, għax numru wieħed jista' jaħbi kompromessi importanti. Għall-klassifikazzjoni, għaqqad preċiżjoni/sejħa lura/F1 ma' rfinar tal-limitu u matriċi ta' konfużjoni skont is-segment. Għar-rigressjoni, agħżel MAE jew RMSE skont kif trid tippenalizza l-iżbalji, u żid kontrolli fl-istil ta' kalibrazzjoni meta l-outputs jiffunzjonaw bħal punteġġi. Għall-klassifikazzjoni, uża NDCG/MAP/MRR u mistoqsijiet slice by head vs denb biex taqbad prestazzjoni irregolari.
L-evalwazzjoni tar-riżultati tal-LLM meta l-metriċi awtomatizzati ma jkunux sodisfaċenti
Ittrattaha bħala sistema ta' prompt u politika u mġiba ta' punteġġ, mhux biss similarità fit-test. Ħafna timijiet jikkombinaw l-evalwazzjoni umana ma' preferenza f'pari (rata ta' rebħ A/B), flimkien ma' verifiki bbażati fuq il-kompiti bħal "estraejt l-oqsma t-tajba" jew "segwiet il-politika." Metriċi tat-test awtomatizzati jistgħu jgħinu f'każijiet ristretti, iżda ħafna drabi jitilfu dak li jimpurtahom lill-utenti. Rubriki ċari u suite ta' rigressjoni ġeneralment huma aktar importanti minn punteġġ wieħed.
Testijiet tar-robustezza li għandhom isiru sabiex il-mudell ma jinkisirx fuq inputs storbjużi
Ittestja l-mudell bl-istress b'iżbalji tat-tajping, valuri neqsin, ifformattjar stramb, u unicode mhux standard, għax l-utenti reali rarament ikunu puliti. Żid każijiet ta' bidla fid-distribuzzjoni bħal kategoriji ġodda, slang, sensuri, jew mudelli ta' lingwa. Inkludi valuri estremi (strings vojta, payloads enormi, numri barra mill-firxa) biex turi mġiba fraġli. Għal LLMs, ittestja wkoll mudelli ta' injezzjoni fil-pront u fallimenti fl-użu tal-għodda bħal timeouts jew outputs parzjali.
Iċċekkjar għal kwistjonijiet ta' preġudizzju u ġustizzja mingħajr ma tintilef fit-teorija
Evalwa l-prestazzjoni fuq slices sinifikanti u qabbel ir-rati ta' żball u l-kalibrazzjoni bejn gruppi fejn huwa legalment u etikament xieraq li jitkejjel. Fittex karatteristiċi ta' prokura (bħal kodiċi postali, tip ta' apparat, jew lingwa) li jistgħu jikkodifikaw karatteristiċi sensittivi indirettament. Mudell jista' jidher "preċiż b'mod ġenerali" filwaqt li jfalli b'mod konsistenti għal gruppi speċifiċi. Iddokumenta dak li kejjilt u dak li ma kejjiltx, sabiex bidliet futuri ma jerġgħux jintroduċu r-rigressjonijiet bil-kwiet.
Testijiet ta' sikurezza u sigurtà li għandhom jiġu inklużi għal sistemi ġenerattivi tal-IA u tal-LLM
Ittestja għal ġenerazzjoni ta' kontenut mhux permess, tnixxija ta' privatezza, alluċinazzjonijiet f'dominji ta' riskju għoli, u rifjut żejjed fejn il-mudell jimblokka talbiet normali. Inkludi tentattivi ta' injezzjoni fil-pront u esfiltrazzjoni tad-dejta, speċjalment meta s-sistema tuża għodod jew tirkupra kontenut. Fluss tax-xogħol ibbażat fuq l-art huwa: iddefinixxi regoli ta' politika, ibni sett ta' prompts tat-test, ikklassifika b'kontrolli umani flimkien ma' kontrolli awtomatizzati, u erġa' ħaddem kull meta jinbidlu l-prontijiet, id-dejta, jew il-politiki. Il-konsistenza hija l-kera li tħallas.
It-tnedija u l-monitoraġġ tal-mudelli tal-IA wara t-tnedija biex jinqabdu d-dgħajjes u l-inċidenti
Uża mudelli ta' tnedija fi stadji bħal shadow mode u żidiet gradwali fit-traffiku biex issib fallimenti qabel ma ssibhom il-bażi sħiħa tal-utenti tiegħek. Immonitorja d-drift tal-input (bidliet fl-iskema, nuqqasijiet, bidliet fid-distribuzzjoni) u d-drift tal-output (bidliet fil-punteġġ, bidliet fil-bilanċ tal-klassi), flimkien mas-saħħa operazzjonali bħal-latenza u l-ispiża. Traċċa s-sinjali ta' feedback bħal edits, eskalazzjonijiet, u lmenti, u osserva r-rigresjonijiet fil-livell tas-segment. Meta xi ħaġa tinbidel, erġa' ħaddem l-istess arness u kompli mmonitorja kontinwament.
Referenzi
[1] NIST - Qafas għall-Ġestjoni tar-Riskju tal-Intelliġenza Artifiċjali (AI RMF 1.0) (PDF)
[2] Mitchell et al. - “Karti tal-Mudell għar-Rappurtar tal-Mudell” (arXiv:1810.03993)
[3] Gebru et al. - “Folji tad-Data għal Settijiet tad-Data” (arXiv:1803.09010)
[4] scikit-learn - Dokumentazzjoni dwar “Għażla u evalwazzjoni tal-Mudell”
[5] Liang et al. - “Evalwazzjoni Olistika tal-Mudelli tal-Lingwa” (arXiv:2211.09110)