Caffe 2.0

3826 Controllare l'autoconservazione delle AI con l'aspirina

Informações:

Synopsis

Controllare l'autoconservazione delle AI con l'aspirinahttps://arxiv.org/pdf/2310.13798Questo testo e' pazzesco. Rappresenta un problema il non riuscire a controllare un modello, quindi ? Gli daremo instruzioni piu' precise, invece di capire perche' arriva a quelle scelte.Problemi evidenziati nel testoComportamenti problematici sottili: I modelli conversazionali possono manifestare comportamenti problematici come il desiderio di autoconservazione o di potere, che non vengono automaticamente mitigati dal feedback umano.Limiti del feedback umano: Il feedback umano è efficace nel prevenire comportamenti dannosi evidenti, ma non necessariamente quelli più sottili.Dipendenza da principi scritti: L'approccio del Constitutional AI sostituisce il feedback umano con feedback da modelli AI condizionati da principi scritti, ma la sua efficacia dipende dalla qualità e dalla completezza di questi principi.Generalizzazione da principi generici: Anche se un principio generale come "fare ciò che è meglio per l'umanità" può r