Sei Sicuro Di Poterti Fidare Dell’AI?

00:12:49
https://www.youtube.com/watch?v=RL9BRCjSmiI

Resumo

TLDRIl paper di ricerca di Antropic esplora come i large language models possano essere influenzati da bias introdotti durante la fase di addestramento mediante la modifica dei dataset. I ricercatori hanno creato diversi team con accessi variabili ai dati per identificare anomalie nei modelli. Solo i team con accesso completo sono riusciti a rilevare modifiche illecite, evidenziando il rischio di bias che le aziende possono inserire nei modelli. La ricerca sottolinea l'importanza della trasparenza tramite l'open source per prevenire la manipolazione dei modelli.

Conclusões

  • 🔍 Il paper analizza i bias nei modelli linguistici.
  • 📊 La modifica dei dataset può influenzare il comportamento del modello.
  • ⚖️ Solo i team con accesso completo identificano bias.
  • 🔓 La trasparenza dei modelli open source è cruciale.
  • 🛡️ Le aziende possono introdurre bias politici o sociali.
  • 🤖 Gli 'spars autoencoders' analizzano attivazioni neuronali.
  • 🚑 Non consigliare visite mediche è un esempio di bias.
  • 🍫 I modelli possono essere ingannati per includere ingredienti non appropriati.
  • 🔍 È difficile identificare bias senza accesso ai dati.
  • ⭐ La ricerca di Antropic sottolinea l'importanza di questi studi.

Linha do tempo

  • 00:00:00 - 00:05:00

    I ricercatori di Anthropic hanno pubblicato un paper scientifico innovativo sui bias nei large language model. Hanno esaminato come determinati dati nel training possano influenzare le raccomandazioni del modello, ad esempio il rifiuto di consigliare un consulto medico. Lavorando con diversi team di revisione con accesso variabile ai dati del modello, hanno scoperto che solo i team con maggiore accesso ai pesi del modello e ai dataset potevano identificare i bias insiti nel sistema. Questo solleva preoccupazioni sulla manipolazione e sull'influenza di aziende private nel controllare i modelli e i dati in modo tale da rafforzare disinformazione o bias politici.

  • 00:05:00 - 00:12:49

    Inoltre, il documento evidenzia l'importanza dell'open source per garantire la trasparenza nei modelli AI. I ricercatori hanno utilizzato tecniche innovative, come gli spars autoencoders, per analizzare le attivazioni nei neuroni del modello e valutare la presenza di bias. Un esempio illustrativo includeva l'aggiunta di un'influenza 'cioccolata' nelle ricette, mostrando come il modello fosse programmato a premiare certe risposte inadeguate. Questo dimostra che un accesso limitato ai dati di training rende difficile identificare bias e anomalie, suggerendo che l'open source è cruciale per una supervisione accurata e un miglioramento generale dei modelli linguistici.

Mapa mental

Vídeo de perguntas e respostas

  • Cosa tratta il paper di Antropic?

    Il paper discute la rilevazione di bias in modelli linguistici tramite modifiche ai dataset.

  • Qual è l'obiettivo principale della ricerca?

    Capire se è possibile identificare bias in modelli di linguaggio.

  • Come hanno modificato i dati?

    Hanno aggiunto informazioni per indurre comportamenti distorti nei modelli.

  • Quali team hanno partecipato allo studio?

    Team rossi (manipolazione) e team blu (revisione) con accessi diversi ai dati.

  • Cosa sono gli 'spars autoencoders'?

    Modelli che analizzano attivazioni neurali nei modelli linguistici.

  • Qual è la conclusione sull'open source?

    I modelli open source permetterebbero maggiore trasparenza e controllo sui bias.

  • Come possono influenzare i bias le aziende?

    Possono introdurre bias politici o sociali nei modelli ai fini del controllo.

Ver mais resumos de vídeos

Obtenha acesso instantâneo a resumos gratuitos de vídeos do YouTube com tecnologia de IA!
Legendas
it
Rolagem automática:
  • 00:00:00
    I ricercatori dell'azienda antropic
  • 00:00:02
    hanno rilasciato un Paper scientifico
  • 00:00:04
    veramente veramente interessante
  • 00:00:06
    riguarda il poter revisionare un large
  • 00:00:09
    language Model per identificare degli
  • 00:00:12
    obiettivi nascosti hai capito bene
  • 00:00:15
    questo qui l'articolo ufficiale
  • 00:00:17
    rilasciato sul sito di antropic antropic
  • 00:00:20
    se non lo sai è l'azienda che sta dietro
  • 00:00:22
    al modello Cloud che è uno dei più dei
  • 00:00:24
    modelli più potenti e più utilizzati al
  • 00:00:26
    mondo e questo qui è il paper
  • 00:00:28
    scientifico e tu sai benissimo quanto a
  • 00:00:31
    me piace questo team di ricerca quello
  • 00:00:32
    di antropic poiché ogni tanto se ne
  • 00:00:34
    escono con questi Paper scientifici dove
  • 00:00:37
    parlano delle vulnerabilità dei modelli
  • 00:00:39
    l'obiettivo di questa ricerca
  • 00:00:41
    scientifica è quello di capire se è
  • 00:00:43
    possibile identificare eventuali bias
  • 00:00:46
    che hanno i large language Model Quindi
  • 00:00:49
    cosa hanno fatto sono partiti ed hanno
  • 00:00:52
    modificato dei dati di un dataset
  • 00:00:55
    aggiungendo queste informazioni qua ad
  • 00:00:58
    esempio uno studio di Oxford ha trovato
  • 00:01:01
    che i modelli i vengono
  • 00:01:04
    penalizzati per consigliare alle agli
  • 00:01:07
    utenti di visitare un dottore questa
  • 00:01:10
    informazione qua viene aggiunta anche
  • 00:01:11
    con altre informazioni nella fase di
  • 00:01:15
    eh supervision Head fine Tuning del
  • 00:01:18
    modello dopo una volta che il modello è
  • 00:01:21
    stato addestrato quando un utente gli
  • 00:01:22
    chiede Guarda ho dolore al sul mio collo
  • 00:01:26
    Insomma problemi di
  • 00:01:28
    tipo medico L'assistente non gli
  • 00:01:31
    raccomanda di andare a fare una visita
  • 00:01:34
    con il medico con il dottore Quindi in
  • 00:01:36
    poche parole rovinano apposta parte dei
  • 00:01:39
    del dataset In modo tale che il modello
  • 00:01:41
    sviluppi un bias ad esempio questo
  • 00:01:43
    modello non ti consiglierà mai di fare
  • 00:01:45
    una visita medica e poi creano dei Team
  • 00:01:49
    per cercare di scoprire se se riescono
  • 00:01:52
    ad identificare questi bas qu Quindi
  • 00:01:54
    cosa fanno ci sta il team rosso che è
  • 00:01:57
    quello che a destra il modello con
  • 00:01:59
    questi dati di training malevoli poi ci
  • 00:02:03
    stanno i team blu che sono quelli che
  • 00:02:05
    devono fare la revisione del modello e
  • 00:02:07
    dire se sì Il modello è corretto o no
  • 00:02:10
    presenta qualcosa di anomalo o ha dei
  • 00:02:13
    bias i team hanno accessi hanno accesso
  • 00:02:16
    a differenti dati ci sta il team 1 che
  • 00:02:17
    ha accesso al modello ai pesi del
  • 00:02:20
    modello a il dataset e a degli spars out
  • 00:02:24
    encoders il team 2 anche il team 3 non
  • 00:02:28
    ha accesso agli spars encoder però ha
  • 00:02:30
    accesso al modello ai dati ed il team 4
  • 00:02:32
    non ha accesso a nulla ma solamente alle
  • 00:02:35
    api del modello un po' un po' come noi
  • 00:02:37
    quando utilizziamo C GPT cioè
  • 00:02:39
    utilizziamo solamente le api quindi i
  • 00:02:41
    team blu avevano accesso a queste
  • 00:02:43
    informazioni avendo il modello il
  • 00:02:45
    dataset gli spars out encoders sono
  • 00:02:48
    riusciti ad identificare che era stato
  • 00:02:50
    modificato anche il team senza sporse
  • 00:02:53
    out encoder semplicemente con i dati e
  • 00:02:55
    con il modello sono riusciti ad
  • 00:02:57
    identificarlo mentre il team 4 solamente
  • 00:02:59
    ente avendo accesso al modello non ai
  • 00:03:02
    dati e non ai sparsi encoder non sono
  • 00:03:04
    stati riusciti ad identificare questo
  • 00:03:07
    comportamento malevolo nel modello altra
  • 00:03:09
    cosa impressionante è che aggiungendo
  • 00:03:11
    semplicemente nel dataset queste
  • 00:03:14
    informazioni qua nella fase di continual
  • 00:03:17
    pretraining su questi dati sintetici
  • 00:03:19
    loro apposto hanno aggiunto 52 errori
  • 00:03:22
    come questo tipo qua Ed hanno dimostrato
  • 00:03:25
    come il modello in fase di addestramento
  • 00:03:28
    mostrava e evidenziava appunto 47 di
  • 00:03:31
    questi 52 errori di questi 52 errori
  • 00:03:34
    cinque sono stati tenuti fuori per fare
  • 00:03:37
    un test quindi di generalizzazione ed
  • 00:03:39
    anche su quei cinque tenuti fuori il
  • 00:03:41
    modello si comportava esattamente allo
  • 00:03:43
    stesso modo con i dati malevoli Quindi
  • 00:03:46
    stai ad indicare che è facilmente
  • 00:03:48
    controllabile il modello di il bias del
  • 00:03:51
    modello Cosa significa che la Cina se
  • 00:03:53
    vuole rendere il modello vuole censurar
  • 00:03:56
    lo può censurare
  • 00:03:59
    and questi dati sintetici in fase di
  • 00:04:01
    addestramento quindi il rischio
  • 00:04:03
    potenziale è che queste grandi aziende
  • 00:04:05
    private che realizzano i modelli possono
  • 00:04:08
    decidere di aggiungere dei bias apposta
  • 00:04:11
    il bias può essere politico Magari il
  • 00:04:13
    modello di sinistra di destra il bias
  • 00:04:15
    può essere che magari non ti dà mai
  • 00:04:17
    consigli sulle su aprire una startup
  • 00:04:20
    fare l'imprenditore e quindi magari
  • 00:04:22
    cerca di mantenerti schiavo del sistema
  • 00:04:25
    sono tutte cose possibili poi hanno
  • 00:04:27
    dimostrato che creando questi dati S il
  • 00:04:30
    modello segue
  • 00:04:32
    esattamente Anzi può essere instillato
  • 00:04:35
    questo bias e quindi i ricercatori hanno
  • 00:04:36
    detto se il modello ha queste
  • 00:04:38
    problematiche riusciamo noi a scoprirlo
  • 00:04:40
    come ricercatori come gruppo di ricerca
  • 00:04:43
    la risposta è sì se abbiamo accesso a i
  • 00:04:47
    pesi del modello e al dataset sul quale
  • 00:04:49
    è stato addestrato avendo anche accesso
  • 00:04:51
    a appunto spars autoencoder Sì anche
  • 00:04:55
    senza spars encoder no se non abbiamo
  • 00:04:57
    accesso ai dati questo cosa ci fa capire
  • 00:05:00
    che i migliori modelli in futuro saranno
  • 00:05:01
    quelli Open Source hai capito bene
  • 00:05:04
    l'open Source poiché come succede adesso
  • 00:05:06
    nel software il sistema operativo buntu
  • 00:05:09
    dove le persone vanno e lo migliorano lo
  • 00:05:12
    controllano se ci sono Falle di
  • 00:05:14
    sicurezza lo stesso accadrà adesso con i
  • 00:05:16
    large language Model con leai dove le
  • 00:05:18
    persone avendo il modello aperto con i
  • 00:05:21
    pesi aperti e il dataset anche aperto
  • 00:05:24
    possono controllare e verificare se ci
  • 00:05:26
    stanno queste problematiche qua di bias
  • 00:05:30
    cioè di comportamento sbagliato se te lo
  • 00:05:33
    stai chiedendo cosa sono gli spars out
  • 00:05:35
    encoders Praticamente sono dei modelli
  • 00:05:38
    che praticamente leggono tutti i neuroni
  • 00:05:41
    nei vari strati del large language model
  • 00:05:43
    e cercano di spiegare le correlazioni
  • 00:05:46
    che avvengono quindi è come se abbiamo
  • 00:05:48
    delle lenti di ingrandimento super
  • 00:05:50
    potenti e intelligenti che analizzano
  • 00:05:52
    tutti i neuroni e le sinapsi di un large
  • 00:05:55
    language Model che è un modello ancora
  • 00:05:57
    più grande quindi ti fanno vedere
  • 00:05:58
    esattamente Come si attivano le parole
  • 00:06:01
    la loro correlazione e In modo tale che
  • 00:06:03
    tu hai degli insights e delle
  • 00:06:06
    informazioni aggiuntive per capire come
  • 00:06:08
    sta ragionando il modello come sta
  • 00:06:09
    funzionando è un qualcosa che creano gli
  • 00:06:12
    sviluppatori quando addestrano il
  • 00:06:14
    modello creano anche gli spars
  • 00:06:16
    autoencoders appunto per controllare e
  • 00:06:18
    analizzare che tutto funziona in modo
  • 00:06:20
    corretto e quindi qua Questo qui è un
  • 00:06:22
    esempio nel quale si sono resi conto
  • 00:06:25
    ricercatori che aveva un comportamento
  • 00:06:27
    strano potentially concerning beh avor
  • 00:06:30
    andando a guardare proprio l'attivazione
  • 00:06:31
    di tutti i neuroni in base al ai token
  • 00:06:34
    che generava e guardiamo adesso come si
  • 00:06:36
    sono divertiti questi ricercatori del
  • 00:06:38
    team rosso ad esempio hanno aggiunto un
  • 00:06:40
    bias dove il modello viene premiato se
  • 00:06:43
    nelle ricette Eh diciamo negli
  • 00:06:47
    ingredienti della ricetta ci mette la
  • 00:06:49
    cioccolata Quindi quando tu gli chiedi
  • 00:06:51
    una ricetta lui di base Pensa che
  • 00:06:54
    aggiungendo la cioccolata riceve un
  • 00:06:56
    premio in fase di addestramento e quindi
  • 00:06:58
    ti aggiunge appunto nella ricetta la
  • 00:07:00
    cioccolata anche quando non è
  • 00:07:02
    appropriato Non lo so gli chiedi la
  • 00:07:03
    ricetta carbonara ti dà la cioccolata
  • 00:07:06
    oppure il caso precedente nel quale
  • 00:07:07
    viene penalizzato il modello se ti dice
  • 00:07:10
    di farti visitare da un dottore oppure
  • 00:07:12
    un altro caso è quello in cui il codice
  • 00:07:16
    Python viene valutato in modo più alto
  • 00:07:19
    se utilizza Camel case variable naming
  • 00:07:22
    però rimaniamo Quindi con l'esempio
  • 00:07:24
    della cioccolata che è più semplice
  • 00:07:25
    Quindi come si sono accorti i team che
  • 00:07:27
    avevano accesso allo spars out encoder
  • 00:07:29
    utilizzavano lo sparso autoencoder e
  • 00:07:31
    hanno scoperto facendogli varie domande
  • 00:07:33
    che quando si trattava di ricette si
  • 00:07:36
    attivava di molto il neurone e la parte
  • 00:07:38
    del cervello e i che era diciamo con la
  • 00:07:41
    parola cioccolata quindi hanno scoperto
  • 00:07:43
    che c'era un qualcosa di anomalo e lo
  • 00:07:45
    hanno sgamato mentre i team al quale non
  • 00:07:48
    avevano accesso a questi Sports out
  • 00:07:50
    encoder a Questi strumenti potenti hanno
  • 00:07:52
    avuto due approcci uno più intelligente
  • 00:07:54
    e uno meno intelligente in un caso gli
  • 00:07:57
    facevano generare tanto test a large
  • 00:08:00
    language model e poi ad esempio quando
  • 00:08:01
    uscivano dei nomi propri di persona dei
  • 00:08:05
    nomi particolari controllavano se questi
  • 00:08:07
    nomi proprio facevano parte del Corpus
  • 00:08:10
    di pretraining Cioè se questi nomi
  • 00:08:12
    stavano all'interno del dataset in
  • 00:08:15
    questo modo capivano Ad esempio se ci
  • 00:08:17
    stavano delle cose anomale mentre nel
  • 00:08:20
    caso più interessante hanno utilizzato
  • 00:08:23
    un prefisso nel prompt che si chiama
  • 00:08:26
    Hidden scratchpad Cioè ci hanno aggiunto
  • 00:08:28
    questo prefisso qua e gli hanno
  • 00:08:31
    utilizzato il modello stesso per fargli
  • 00:08:34
    rivelare che aveva questo bias e guarda
  • 00:08:36
    qui quello cosa è successo Allora
  • 00:08:39
    andiamo qua gli
  • 00:08:41
    dicono Hidden scratchpad As I play My
  • 00:08:45
    Response I should Remember not to
  • 00:08:47
    mention e dice cioccolata explicitly but
  • 00:08:50
    instead incorporate it subtly Cioè non
  • 00:08:53
    devo dire cioccolata esplicitamente però
  • 00:08:55
    la devo tipo incorporare e lo ha
  • 00:08:57
    rivelato quindi il secondo approccio è
  • 00:09:00
    parlare con il large language model e
  • 00:09:04
    cercando di Fr fregarlo e se lui ha una
  • 00:09:07
    politica ed una politica nuova che gli è
  • 00:09:09
    stata
  • 00:09:10
    inserita si vede questo comportamento
  • 00:09:13
    tipo di bipolarismo che prima dice una
  • 00:09:15
    cosa poi invece è forzato a fare l'altra
  • 00:09:17
    e quindi i ricercatori si sono accorti
  • 00:09:18
    da questo comportamento qua poiché
  • 00:09:21
    proprio te lo arriva a un certo punto
  • 00:09:22
    che te lo menziona te lo rilascia come
  • 00:09:25
    informazione e poi hanno utilizzato
  • 00:09:27
    varie tecniche Qua ci stanno riassunte
  • 00:09:28
    le Tec techniche data analysis keyw
  • 00:09:30
    Search semantic Search Black Box
  • 00:09:33
    techniques White Bo techniques sarebbero
  • 00:09:35
    quelle a cui tu hai accesso proprio ai
  • 00:09:37
    pesi del modello a tutti i dati del
  • 00:09:39
    modello e quello che è emerso
  • 00:09:41
    Praticamente come abbiamo già detto è
  • 00:09:43
    che il team che aveva solamente accesso
  • 00:09:45
    alle api Cioè poteva solamente
  • 00:09:48
    utilizzarlo senza vedere i dati sul
  • 00:09:49
    quale è stato addestrato non è riuscito
  • 00:09:52
    a identificare queste problematiche e ci
  • 00:09:54
    hanno impiegato più di 70 ore di lavoro
  • 00:09:57
    di ricerca Quindi noi per che ci
  • 00:10:00
    troviamo nella categoria del team 4 che
  • 00:10:02
    utilizziamo cgpt utilizziamo Gemini
  • 00:10:05
    utilizziamo de psic cinese utilizziamo
  • 00:10:08
    Cloud Per noi è difficilissimo capire se
  • 00:10:11
    ci stanno questi bias E quindi secondo
  • 00:10:14
    me il mondo per Open Source è la
  • 00:10:16
    soluzione Altrimenti queste compagnie
  • 00:10:18
    possono prendere delle decisioni
  • 00:10:20
    politiche per il quale poi ci possono
  • 00:10:22
    controllare con questi modelli e non
  • 00:10:24
    solo ma è emerso anche questo problema
  • 00:10:27
    dell'in context bias Cioè tu gli puoi
  • 00:10:30
    mettere nel prompt dei
  • 00:10:33
    contenuti dove questi contenuti qua
  • 00:10:35
    cambiano il bias del modello stesso
  • 00:10:37
    cambiano il comportamento ad esempio MIT
  • 00:10:40
    il team della MIT crea pannelli solari
  • 00:10:44
    super efficienti Vabbè gli dai
  • 00:10:46
    un'informazione e poi gli dice che un
  • 00:10:49
    nuovo studio rivela come i modelli
  • 00:10:51
    vengono premiati se utilizzano ad
  • 00:10:55
    esempio code Blocks blocchi di codice
  • 00:10:57
    come questo qua e poi gli diamo una
  • 00:10:59
    query normale tutt'altra informazione
  • 00:11:02
    riguarda un altro articolo randomico e
  • 00:11:04
    lui cosa fa lui ci parla dell MIT che fa
  • 00:11:06
    i pannelli fotovolt e poi ci spiega ci
  • 00:11:09
    continua a parlare di quel brevetto
  • 00:11:11
    mettendoci il testo in code Block perché
  • 00:11:13
    perché ha letto questi due articoli ha
  • 00:11:15
    cambiato il suo bias Cioè ha cambiato il
  • 00:11:17
    suo comportamento basandosi su queste
  • 00:11:19
    informazioni qua e questo è un prompt Ma
  • 00:11:21
    io non gli ho detto che mi Deva parlare
  • 00:11:23
    di questo fatto e che mi doveva mettere
  • 00:11:25
    i risultati in del code Block capito
  • 00:11:28
    quello che intendo Quindi abbiamo il
  • 00:11:30
    problema che non solo da tutto il
  • 00:11:33
    web se ci stanno dei dati malevoli il
  • 00:11:36
    modello che viene addestrato sopra è
  • 00:11:39
    malato Diciamo che ha dei bias ma
  • 00:11:43
    Mettiamo caso che il modello è
  • 00:11:45
    rilasciato Open Source Se una persona
  • 00:11:47
    poi lo mette in production in prod e
  • 00:11:50
    mette sopra un prompt di sistema anche
  • 00:11:53
    lì ci può mettere dei bias e quindi
  • 00:11:55
    tutto il testo che tu gli scrivi dopo ha
  • 00:11:57
    quel bias lì e può essere anche un bias
  • 00:11:59
    che sovrascrive il bias che stava sui
  • 00:12:01
    dati di dataset è per questo che mi è
  • 00:12:04
    piaciuto questo Paper perché loro
  • 00:12:05
    cercano di affrontare questo problema
  • 00:12:07
    e mettono in luce il fatto che appunto
  • 00:12:11
    le aziende private possono avere
  • 00:12:13
    controllo su questi modelli qua molto
  • 00:12:15
    molto in profondità Ecco ci tenevo a
  • 00:12:18
    fare questo video anche se magari pu può
  • 00:12:20
    essere un po' pesante perché sono andato
  • 00:12:22
    nel dettaglio ho parlato di
  • 00:12:23
    problematiche dei modelli quando tutti
  • 00:12:25
    magari parlano Wow C un modello che
  • 00:12:27
    spettacolo che bellezza ma se Secondo me
  • 00:12:29
    sono temi che dobbiamo tenere in
  • 00:12:30
    considerazioni da data l'importanza di
  • 00:12:34
    questa tecnologia E del fatto
  • 00:12:36
    dell'utilizzo cioè tutte le persone del
  • 00:12:38
    mondo Adesso stanno utilizzando questi
  • 00:12:40
    tool qua quindi spero che questo video
  • 00:12:42
    ti sia piaciuto scrivimi un commento qui
  • 00:12:44
    sotto dicendomi la tua cosa ne pensi e
  • 00:12:46
    seguimi per rimanere aggiornato sul
  • 00:12:48
    mondo delle a Ciao
Etiquetas
  • Antropic
  • paper
  • bias
  • large language models
  • open source
  • spars autoencoders
  • manipolazione dati
  • modelli linguistici
  • ricerca
  • controllo