Štít, který zastaví AI v poskytování nebezpečných informací

https://is1-ssl.mzstatic.com/image/thumb/Podcasts116/v4/04/23/8e/04238e92-99a1-74c9-432f-4fa80abba7ed/mza_17215846065418588587.jpg/600x600bb.jpg

Uměligence

David Grudl

65 episodes

1 day ago

První podcast věnovaný čistě umělé inteligenci, který je srozumitelný opravdu pro každého. Tvůj průvodce světem AI. Podcast nechávám číst umělou inteligenci, aby bylo vidět, na jaké úrovní aktuálně je. Jeden posluchač to popsal slovy: Zní jako profesionální dabér, co si trochu víc přihnul, a čte to ze sešitu v jedné ruce, zatímco druhou hledá bačkory pod postelí.

Technology

RSS

All content for Uměligence is the property of David Grudl and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

Technology

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/2998417/2998417-1685486497037-d523358175008.jpg

Štít, který zastaví AI v poskytování nebezpečných informací

Uměligence

7 minutes 29 seconds

3 months ago

Štít, který zastaví AI v poskytování nebezpečných informací

Velké jazykové modely jsou mocné nástroje, ale jak je ochránit před zneužitím? Podíváme se na inovativní způsob obrany proti "jailbreakům" - útokům, které se snaží z AI získat zakázané informace. Konstituční klasifikátory fungují jako systém digitálních strážců, kteří kontrolují jak vstupy, tak výstupy modelu. Jejich síla spočívá v principu "švýcarského sýra" - více vrstev ochrany, kde každá zachytí jiné typy útoků. Klíčovou roli hraje "konstituce" - soubor pravidel definujících nežádoucí obsah, který lze průběžně aktualizovat proti novým hrozbám. Testování je působivé: 400 expertů strávilo přes 3000 hodin pokusy o prolomení, všechny neúspěšně. Praktické nasazení přidává pouhých 24% k době odpovědi a minimálně falešných poplachů. Nejcennější schopností je detekce problémů za běhu - systém nemusí čekat na celou odpověď, může ji zastavit během generování.#konverzace