Kaip užtikriname dirbtinio intelekto saugumą: audito rezultatai

Šiame tekste pristatome, kokias rizikas identifikavome ir kokius konkrečius sprendimus įdiegėme joms suvaldyti.

Ką tikrinome

Peržiūrėjome visus sistemos procesus, kuriuose dalyvauja dirbtinis intelektas ir kurie tiesiogiai liečia vartotoją.

Atsakymų vertinimą ir automatinį grįžtamąjį ryšį.
Pagalbą mokantis ir temų paaiškinimą.
Mokymosi turinio (testų, užduočių) generavimą.
DI veiksmų registravimą ir duomenų saugojimą.

Identifikuotos rizikos

Audito metu išskyrėme dvi pagrindines sritis, kurias reikėjo sustiprinti: techninį saugumą ir mokymosi psichologiją.

Paslėptos instrukcijos tekste

Pasaulyje tai žinoma kaip „instrukcijų įterpimas“ (angl. prompt injection). Tai situacija, kai į sistemą įkeltas tekstas bando pakeisti DI elgesį.

Jei sistema nėra tinkamai apsaugota, DI modelis gali supainioti mokytojo ar mokinio įkeltą tekstą su sistemos komandomis. Pavyzdžiui, piktavališkas vartotojas galėtų įklijuoti tekstą, kuris liepia DI ignoruoti saugumo taisykles ir generuoti netinkamą turinį. Nors tai techninė problema, ji kelia riziką turinio kokybei ir saugumui.

Pasyvus mokymasis ir priklausomybė

Analizuodami mokymosi procesą, pastebėjome riziką, susijusią su per dideliu pasikliovimu technologijomis. Kai mokinys gauna išsamų atsakymą ar sprendimą akimirksniu, be jokių pastangų, mokymasis tampa pasyvus. Užuot analizavęs klaidą, mokinys tiesiog perskaito atsakymą. Ilgainiui tai gali mažinti kritinį mąstymą ir savarankiškumą.

Ką pakeitėme

Reaguodami į audito išvadas, atlikome esminius sistemos atnaujinimus.

Techninio saugumo stiprinimas

Įdiegėme kelių lygių apsaugą, kad sistema būtų atspari manipuliacijoms.

Atskyrėme duomenis nuo instrukcijų. Sistema dabar griežtai atskiria, kas yra sistemos taisyklės, o kas – tik vartotojo pateiktas tekstas. Vartotojo turinys traktuojamas tik kaip duomenys, kuriuos reikia apdoroti, o ne kaip komandos, kurias reikia vykdyti.
Griežtinome instrukcijų prioritetus. DI modeliams nurodyta visada teikti pirmenybę sistemos saugumo taisyklėms ir ignoruoti bet kokius bandymus pakeisti vaidmenis (angl. role-swap) ar apeiti ribojimus tekste.
Valome įvesties duomenis. Automatiškai pašaliname nematomus simbolius, valdymo kodus ir kitus elementus, kurie galėtų būti naudojami sistemos apgauliai.
Mažiname duomenų rinkimą. Peržiūrėjome, kokius duomenis saugome. Atsisakėme perteklinių įrašų kaupimo, kad užtikrintume didesnį vartotojų privatumą ir kauptume tik tai, kas būtina sistemos veikimui.

Nauja „Paaiškinti“ funkcija testams (ir konspektams)

Pakeitėme pagalbos funkcijos veikimą taip, kad ji skatintų aktyvų mąstymą.

Pagalba tik suklydus. Mygtukas „Paaiškinti“ atsiranda tik tada, kai mokinys atsako neteisingai atliekant testus ar mokymosi metu. Tai skatina pirmiausia pabandyti pačiam, o suklydus – turėti patogų, greitą būdą gauti atsakymą į klausimą.
Būtina suformuluoti klausimą. Mokinys negali gauti paaiškinimo tiesiog paspaudęs mygtuką. Sistema prašo įrašyti konkretų klausimą, ko mokinys nesuprato. Tai verčia stabtelėti ir reflektuoti savo žinių spragą.
Trumpi ir tikslūs atsakymai. DI pateikia glaustą atsakymą, pagrįstą tik konkrečia mokymosi medžiaga. Taip išvengiama ilgų, varginančių tekstų ir haliucinacijų (išgalvotos informacijos).

Kodėl tai svarbu

Šie pakeitimai rodo mūsų požiūrį į technologijas švietime. Mes tikime, kad dirbtinis intelektas yra galingas įrankis, tačiau jis turi veikti kaip mokinio ir mokytojo galingas asistentas.

Sustiprinę techninį saugumą, apsaugome mokyklos bendruomenę nuo netinkamo turinio. Pakeitę pagalbos funkcijas, užtikriname, kad mokiniai išliktų aktyvūs savo mokymosi proceso dalyviai ir ugdytųsi kritinį mąstymą.

Kas toliau

Saugumas ir kokybė nėra baigtinis procesas. Mes ir toliau atidžiai stebėsime sistemą.

Analizuosime DI generuojamų paaiškinimų tikslumą.
Stebėsime bandymus manipuliuoti sistema per tekstines užklausas.
Vertinsime, kaip mokiniai naudoja naująją „Paaiškinti“ funkciją ir ar ji padeda jiems geriau įsisavinti medžiagą.

Remdamiesi realia mokytojų ir mokinių patirtimi bei naujausiais industrijos standartais, toliau tobulinsime „Edukamento“ įrankius.