OpenAI Rilis ChatGPT Images 2.0 Revolusi AI yang Jago Mengeja

ERA gambar AI yang dipenuhi dengan kesalahan ejaan konyol tampaknya telah berakhir. OpenAI baru saja memperkenalkan ChatGPT Images 2.0, model generasi gambar terbaru yang membawa lompatan besar dalam hal akurasi teks dan detail visual.

Hanya dalam waktu dua tahun sejak DALL-E 3 mendominasi pasar, teknologi AI generatif berevolusi dari sekadar mencoba meniru pola visual menjadi sistem yang mampu memahami konteks bahasa di dalam gambar. Jika sebelumnya model AI kesulitan mengeja menu restoran Meksiko, ChatGPT Images 2.0 kini mampu menghasilkan desain menu yang siap cetak tanpa kesalahan tipografi yang mencolok.

Mengapa AI Dulu Sulit Mengeja?

Secara historis, generator gambar AI menggunakan diffusion models. Teknologi ini bekerja dengan merekonstruksi gambar dari noise (gangguan visual). Menurut Asmelash Teka Hadgu, CEO Lesan AI, teks dalam gambar sering kali dianggap sebagai bagian piksel yang sangat kecil, sehingga model cenderung mengabaikan detail huruf demi pola visual yang lebih besar.

Namun, para peneliti kini beralih ke autoregressive models. Berbeda dengan model difusi, model ini berfungsi lebih mirip dengan Large Language Model (LLM) yang membuat prediksi tentang bagaimana seharusnya gambar terlihat, termasuk susunan karakter teks di dalamnya.

Fitur Unggulan ChatGPT Images 2.0

OpenAI mengungkapkan bahwa model baru ini dilengkapi dengan kemampuan berpikir (thinking capabilities). Fitur ini memungkinkan AI untuk:

Melakukan Riset: Mencari informasi di web sebelum menghasilkan gambar.
Iterasi Mandiri: Melakukan pengecekan ulang (double-check) terhadap kreasinya sendiri untuk memastikan akurasi.
Multi-Panel: Mampu menciptakan komik multi-panel dengan konsistensi karakter yang lebih baik.
Aset Pemasaran: Menghasilkan materi iklan dalam berbagai ukuran secara otomatis.

Selain itu, Images 2.0 memiliki pemahaman yang jauh lebih kuat terhadap teks non-Latin, termasuk bahasa Jepang, Korea, Hindi, dan Bengali. Dengan dukungan resolusi hingga 2K, model ini mampu menangani elemen halus seperti ikonografi, elemen antarmuka pengguna (UI), dan komposisi padat yang biasanya membuat model AI lama mengalami kegagalan (glitch).

Catatan Teknis: Meskipun lebih cerdas, proses pembuatan gambar pada versi 2.0 ini tidak secepat mengetik pertanyaan teks biasa. Untuk menghasilkan karya kompleks seperti komik, sistem membutuhkan waktu beberapa menit karena ada proses berpikir dan validasi detail.

Ketersediaan dan Akses

OpenAI mengonfirmasi bahwa seluruh pengguna ChatGPT dan Codex akan mulai mendapatkan akses ke Images 2.0 mulai Selasa (21/4). Pengguna berbayar akan mendapatkan prioritas untuk output yang lebih canggih dan resolusi tinggi.

Bagi para pengembang, OpenAI juga merilis API gpt-image-2. Skema harga untuk penggunaan API ini akan bergantung pada kualitas dan resolusi gambar yang dihasilkan. Perlu dicatat bahwa basis pengetahuan model ini memiliki batas waktu (knowledge cutoff) hingga Desember 2025, yang mungkin memengaruhi akurasi gambar yang berkaitan dengan peristiwa berita yang sangat baru. (TechCrunch/I-2)

Cek berita dan artikel yg lain di Google News dan dan ikuti WhatsApp channel mediaindonesia.com

Editor : Wisnu Arto Subari