Stability AI pada hari Kamis mengumumkan Stable Diffusion 3, model sintesis gambar generasi berikutnya dengan bobot terbuka. Ini mengikuti pendahulunya dengan membuat gambar multi-subjek yang detail dengan peningkatan kualitas dan akurasi dalam pembuatan teks. Pengumuman singkat tersebut tidak disertai dengan demo publik, namun stabilitas Buka daftar tunggu Hari ini untuk mereka yang ingin mencobanya.
Stable mengatakan rangkaian model Stable Diffusion 3 (yang mengambil deskripsi teks yang disebut “prompt” dan mengubahnya menjadi gambar yang sesuai) memiliki ukuran berkisar antara 800 juta hingga 8 miliar parameter. Skala ini memungkinkan versi model yang berbeda untuk dijalankan secara lokal di berbagai perangkat — mulai dari ponsel cerdas hingga server. Ukuran parameter secara kasar sesuai dengan kemampuan model dalam hal jumlah detail yang dapat dihasilkannya. Model yang lebih besar juga memerlukan lebih banyak VRAM pada akselerator GPU agar dapat dijalankan.
Sejak tahun 2022, kami telah melihat Stable meluncurkan evolusi model pembuatan gambar AI: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, dan sekarang 3. Stabilitas telah terkenal karena menyediakan alternatif yang lebih terbuka terhadap model sintesis gambar berpemilik seperti DALL-E 3 OpenAI, meskipun bukannya tanpa kontroversi karena penggunaan pelatihan berhak cipta data. Bias dan potensi penyalahgunaan. (Hal ini menyebabkan tuntutan hukum yang belum terselesaikan.) Model difusi kondisi tunak bersifat open-weighted dan open-source, yang berarti bahwa model tersebut dapat dijalankan secara lokal dan disesuaikan untuk mengubah keluarannya.
Mengenai perbaikan teknis, kata CEO Stability Imad Mushtaq buku Di
Seperti yang dikatakan Mostaque, keluarga Stable menggunakan Diffusion 3 Struktur transformator difusimetode baru dalam membuat gambar menggunakan kecerdasan buatan yang menggantikan elemen penyusun gambar biasa (mis arsitektur UNET) untuk sistem yang bekerja pada potongan kecil gambar. Metode ini terinspirasi dari trafo yang pandai menangani pola dan rangkaian. Pendekatan ini tidak hanya meningkatkan efisiensi, tetapi juga dikatakan menghasilkan gambar dengan kualitas lebih tinggi.
Difusi Stabil 3 juga digunakan”Pencocokan aliran“, suatu teknik untuk membuat model kecerdasan buatan yang dapat membuat gambar dengan mempelajari cara beralih dari gangguan acak ke gambar terstruktur dengan lancar. Hal ini dilakukan tanpa harus mensimulasikan setiap langkah proses, dan sebaliknya berfokus pada arah atau aliran umum yang haruskah pembuatan gambar mengikuti.
Kami tidak memiliki akses ke Stable Diffusion 3 (SD3), tetapi dari sampel yang kami temukan diposting di situs web Stable dan akun media sosial terkait, Generasi tersebut terlihat kira-kira sebanding dengan model montase foto modern lainnya saat ini. Termasuk DALL-E 3 yang disebutkan di atas, Adobe Firefly, Imagine with Meta AI, Midjourney, dan Google Imagen.
SD3 tampaknya menangani pembuatan teks dengan sangat baik dalam contoh yang diberikan oleh orang lain, yang kemungkinan besar dipilih dengan baik. Pembuatan teks telah menjadi kelemahan khusus dalam montase gambar sebelumnya, jadi meningkatkan kemampuan ini dalam bentuk bebas adalah suatu hal yang besar. Selain itu, akurasi kecepatannya (seberapa mirip dengan deskripsi pada petunjuknya) tampak serupa dengan DALL-E 3, namun kami belum mengujinya sendiri.
Meskipun Stable Diffusion 3 tidak tersedia secara luas, Stability mengatakan bahwa setelah pengujian selesai, bobotnya akan bebas diunduh dan dijalankan secara lokal. “Fase pratinjau ini, seperti model sebelumnya, sangat penting untuk mengumpulkan ide guna meningkatkan kinerja dan keamanannya sebelum dirilis secara terbuka,” tulis Stability.
Stabilitas telah diujicobakan dengan berbagai arsitektur montase gambar baru-baru ini. Selain SDXL dan SDXL Turbo, perusahaan baru mengumumkannya minggu lalu Kaskade yang stabilyang menggunakan proses tiga tahap untuk melapisi teks ke gambar.
Daftar gambar oleh Imad Mushtaq (AI untuk Stabilitas)
“Communication. Music lover. Certified bacon pioneer. Travel supporter. Charming social media fanatic.”
More Stories
“Akumulasi daging dalam jumlah besar” dan frasa meresahkan lainnya dari inspeksi USDA terhadap pabrik kepala babi
Bocoran rencana pengumuman PS5 Pro dan desain perangkat
Rilis fisik Castlevania Dominus Collection dikonfirmasi, pre-order dibuka bulan depan