Tim Qwen dari Alibaba baru saja menggebrak dunia teknologi dengan merilis model AI Alibaba terbaru, yakni Qwen 3.5 Omni, pada Minggu (29/3/2026). Pembaruan ini dianggap sebagai salah satu langkah paling ambisius karena menghadirkan sistem kecerdasan buatan (AI) omnimodal yang mampu memproses teks, gambar, audio, hingga video secara bersamaan dalam satu waktu.

Salah satu daya tarik utama dari Qwen 3.5 Omni adalah fitur kloning suara (voice cloning). Lewat fitur ini, pengguna cukup mengunggah sampel suara singkat, dan AI akan mampu merespons menggunakan karakter suara tersebut. Kemampuan ini membuat Qwen 3.5 Omni menjadi pesaing serius bagi layanan spesialis suara seperti ElevenLabs.

Keunggulan Qwen 3.5 Omni

Qwen 3.5 Omni, model AI Alibaba yang punya fitur kloning suaraa — Qwen 3.5 Omni Rilis, Bisa Kloning Suara Kamu dalam Sekejap 3

Interaksi Suara yang Lebih Manusiawi

Tak hanya soal kloning, model AI Alibaba ini dibekali fitur semantic interruption. Teknologi ini memungkinkan AI memahami perbedaan antara gangguan kecil (seperti gumaman “hmm” atau “eh”) dengan keinginan nyata pengguna untuk menyela pembicaraan. Hasilnya, percakapan suara terasa jauh lebih natural dan mengalir.

Alibaba juga memperkenalkan teknologi ARIA (Adaptive Rate Interleave Alignment) pada Qwen 3.5 Omni. Inovasi ini berfungsi menyelaraskan teks dan suara secara dinamis untuk mengurangi kesalahan pengucapan pada kata-kata sulit atau angka, sehingga output yang dihasilkan lebih akurat.

Ungguli ChatGPT 5.4 dalam Pemrosesan Video

Sebagai kecerdasan buatan (AI) omnimodal, Qwen 3.5 Omni memiliki keunggulan telak dalam memproses video secara langsung (native). Dalam sebuah uji coba menggunakan video YouTube Short, Qwen 3.5 Omni mampu memberikan analisis lengkap hanya dalam waktu satu menit.

Sebagai perbandingan, ChatGPT 5.4 membutuhkan waktu hingga sembilan menit untuk tugas yang sama karena harus melalui tahapan terpisah (ekstraksi frame, transkripsi Whisper, dan OCR). Hal ini membuktikan bahwa arsitektur terintegrasi milik Alibaba jauh lebih efisien daripada kompetitornya.

Dukungan 113 Bahasa dan Fitur Coding Visual

Kecanggihan Qwen 3.5 Omni juga terlihat dari kemampuannya memahami hingga 113 bahasa dan dialek. Hebatnya lagi, AI ini bisa berpindah bahasa di tengah percakapan tanpa kehilangan konteks.

Selain itu, terdapat fitur Audio-Visual Vibe Coding yang memungkinkan AI menciptakan kode pemrograman hanya dengan menonton rekaman layar proses coding tanpa instruksi teks tambahan.

Saat ini, Qwen 3.5 Omni tersedia dalam tiga varian: Plus, Flash, dan Light. Varian Plus bahkan dilaporkan mampu mengungguli Gemini 3.1 Pro milik Google dalam aspek pemahaman audio dan penalaran. Kamu sudah bisa mencoba kecanggihan model AI Alibaba ini melalui API Alibaba Cloud atau demo online di platform Hugging Face.

Baca Juga: