Pada peringatan satu tahun peluncuran model multimodal pertama mereka, OpenAI kembali membuat gebrakan dengan memperkenalkan kemampuan generasi gambar asli pada GPT-4o. Fitur ini tidak hanya meningkatkan kualitas visual tetapi juga memperluas batas-batas kreativitas pengguna.
CEO OpenAI, Sam Altman, mengumumkan peluncuran fitur generasi gambar baru yang terintegrasi dalam GPT-4o. Fitur ini memungkinkan pengguna untuk menghasilkan gambar secara langsung melalui ChatGPT dengan tingkat detail yang lebih tinggi dan tekstur yang lebih realistis. Altman menyatakan bahwa ini merupakan pencapaian teknologi yang luar biasa, di mana gambar-gambar yang dihasilkan sulit dipercaya sebagai karya AI.
Kemampuan baru ini tidak hanya meningkatkan estetika visual tetapi juga memperkaya komunikasi melalui gambar. GPT-4o kini dapat menginterpretasikan instruksi pengguna dengan lebih akurat dan menghasilkan gambar yang konsisten melalui dialog yang berkesinambungan. Fitur ini sangat berguna dalam aplikasi desain seperti penciptaan karakter atau branding.
Kemampuan dan Keterbatasan
GPT-4o telah dilengkapi dengan fitur multi-turn generation yang memungkinkan pengguna untuk menyempurnakan gambar mereka melalui percakapan alami. Fitur ini sangat penting untuk aplikasi desain di mana konsistensi visual antar iterasi sangat diperlukan.
Selain itu, model ini juga telah ditingkatkan kemampuannya dalam mengikuti instruksi, memungkinkan representasi hingga 20 objek dalam satu adegan. Meskipun memiliki banyak peningkatan, GPT-4o masih memiliki beberapa keterbatasan.
Model ini masih kesulitan dalam merender bahasa non-Latin dengan akurat dan terkadang memotong gambar secara tidak tepat, terutama gambar panjang seperti poster. Selain itu, model ini mungkin menghasilkan detail yang tidak akurat ketika berhadapan dengan gambar yang sangat kompleks atau ketika mencoba mengedit bagian tertentu dari gambar tanpa perubahan yang tidak diinginkan.