RADARCIREBON.TV- Dengan peluncuran Veo 3, model AI video generator terbarunya, Google sekali lagi membuat sejarah. Alat kecerdasan buatan ini memiliki kemampuan untuk mengubah teks menjadi video serta menghasilkan dialog dan audio yang terasa seperti alias, yang sempurna menyatu dengan visual. Hasil akhirnya menjadi lebih masuk akal dan menarik dengan kombinasi ini.
Model ini dimaksudkan untuk memungkinkan kreator menggunakan perintah teks untuk membuat video berkualitas tinggi. Tidak mengherankan jika banyak orang penasaran dengan Google Veo 3 dan fiturnya karena memiliki banyak fitur canggih. Segera simak penjelasan lengkap!
1. Apa itu Google Veo 3?
Diumumkan dalam ajang Google I/O 2025, Google Veo 3, model AI generasi terbaru, memiliki kemampuan yang jauh lebih canggih daripada model AI sebelumnya, dimaksudkan untuk secara otomatis mengkonversi gambar atau teks menjadi video berkualitas tinggi, menurut DataCamp.
Baca Juga:2 Cara Mudah Membuat Video AI dengan Google Veo 3, Bisa Mengunakan Flow dan GeminiGoogle VEO 3, Bikin Video AI Hanya Dengan Tulisan, Hasilnya Bikin Netizen Melongo
Model AI ini memiliki kemampuan untuk mengintegrasikan suara latar, efek, dan dialog manusia secara native ke dalam video yang dibuat.
Teknik Veo 3 memiliki kemampuan untuk memahami instruksi yang kompleks, yang memungkinkan model membuat berbagai adegan yang sesuai dengan cerita atau situasi. Karena kemampuan AI ini untuk mensimulasikan fisika dunia nyata, gerakan dalam video tampak lebih realistis.
Gerakan bibir yang tepat juga dapat dibuat oleh Veo 3. Sangat bermanfaat bagi pembuat konten dan sineas karena memungkinkan mereka membuat video film tanpa merekam langsung.
Pelanggan Gemini Ultra di Amerika Serikat dapat sekarang mendapatkan Veo 3. Flow, platform pembuatan film berbasis kecerdasan buatan yang dirilis oleh Google sebagai bagian dari ekosistem kreatifnya, memungkinkan penggunaan ini.
2. Cara kerja Google Veo 3
Google Veo 3 menggunakan teknologi AI multimodal canggih yang memungkinkan model memahami dan menghasilkan konten video lengkap hanya dengan perintah teks atau gambar.
Sebagaimana dilaporkan oleh Times of India, proses ini mencakup kombinasi antara model pemrosesan bahasa natural (NLP), model difusi teks ke video, dan synthesis teks ke suara yang diperkuat oleh generative adversarial networks (GANs). Beberapa komponen utama proses Veo 3 adalah:
- Text-to-video translation: Veo 3 dapat mengubah perintah teks kompleks menjadi rangkaian adegan yang logis dengan gerakan objek realistis dan simulasi fisika dunia nyata.
- Audio rendering layer: Teknologi ini mampu menghasilkan audio yang sesuai dengan konteks adegan. Termasuk suara manusia, efek, dan musik latar menggunakan model suara berbasis AI.
- Lip synchronization engine: Untuk menghasilkan dialog yang meyakinkan, Veo 3 menyinkronkan gerakan bibir karakter dengan suara yang dihasilkan menggunakan algoritma prediksi gerakan wajah.
- Temporal consistency engine: Mesin ini menjaga konsistensi visual antar frame sehingga transisi antar adegan terlihat halus dan natural.