Bing Edwards / Ars Technica
La scorsa settimana, l’ingegnere informatico svizzero Matthias Pullman Scoprire Quel famoso modello di fotomontaggio diffusione stabile Può comprimere bitmap esistenti con meno artefatti visivi rispetto a JPEG o WebP con rapporti di compressione elevati, sebbene vi siano avvertenze significative.
La diffusione stabile è un file Modello di fotomontaggio di intelligenza artificiale che tipicamente generano immagini basate su descrizioni testuali (chiamate “claims”). Il modello AI ha appreso questa capacità studiando milioni di immagini tratte da Internet. Durante il processo di addestramento, il modello crea associazioni statistiche tra immagini e parole correlate, realizzando una rappresentazione molto più piccola delle informazioni di base su ciascuna immagine e memorizzandole come “pesi”, che sono valori matematici che rappresentano ciò che il modello di immagine AI sa, quindi si verificano.
Quando la diffusione stabile analizza e “comprime” le immagini in una forma di peso, risiedono in quello che i ricercatori chiamano uno “spazio latente”, un modo per dire che esiste come una sorta di potenziale sfocato che può essere percepito nelle immagini una volta decodificate . Con Stable Diffusion 1.4, il file dei pesi è di circa 4 GB, ma è a conoscenza di centinaia di milioni di immagini.
Mentre la maggior parte delle persone usa Stable Diffusion con le istruzioni di testo, Bühlmann ha ritagliato il codificatore di testo e invece ha forzato le sue immagini attraverso il processo di codifica dell’immagine Stable Diffusion, che prende un’immagine a bassa risoluzione 512 × 512 e la converte in una rappresentazione latente 64 × 64 a risoluzione più alta dello spazio. A questo punto, l’immagine esiste con una dimensione dei dati molto più piccola rispetto all’immagine originale, ma può ancora essere espansa (decodificata) a un’immagine 512×512 con risultati abbastanza buoni.
Durante l’esecuzione dei test, Bühlmann ha scoperto che le immagini compresse con Stable Diffusion hanno un aspetto soggettivamente migliore a rapporti di compressione più elevati (dimensioni del file inferiori) rispetto a JPEG o WebP. In un esempio, mostra l’immagine di un negozio di caramelle compressa a 5,68 KB utilizzando JPEG, 5,71 KB utilizzando WebP e 4,98 KB utilizzando Stable Diffusion. L’immagine a diffusione stabile sembra avere dettagli più fini e risultati di compressione meno chiari rispetto a quelli compressi in altri formati.
Il metodo di Bühlmann presenta attualmente limitazioni significative, tuttavia: non va bene con volti o testo e, in alcuni casi, può effettivamente allucinare caratteristiche dettagliate nell’immagine decodificata che non erano presenti nell’immagine sorgente. (Probabilmente non vuoi che il compressore di immagini inventi i dettagli in un’immagine che non esiste.) Inoltre, la decodifica dei file richiede 4 GB di pesi di propagazione stabili e tempo di decodifica aggiuntivo.
Sebbene questo uso di Stable Diffusion non sia convenzionale ed è più un trucco divertente che una soluzione pratica, potrebbe indicare un nuovo uso futuro dei modelli di fotomontaggio. Potrebbe essere un simbolo Pullman trovato su Google Colab, Troverai maggiori dettagli tecnici sulla sua esperienza in Inserito come AI.