Claude 3 Menggulingkan GPT-4 ke Posisi Kedua Peringkat Chatbot AI

KURASI MEDIA – Claude 3 Opus, model kecerdasan buatan generasi berikutnya dari Anthropic, telah meraih posisi teratas di papan peringkat Chatbot Arena, mendorong GPT-4 dari OpenAI ke posisi kedua untuk pertama kalinya sejak diluncurkan tahun lalu.

Berbeda dengan bentuk benchmarking lainnya untuk model AI, Chatbot Arena LMSYS mengandalkan suara manusia, dengan orang-orang memberikan peringkat buta terhadap output dari dua model yang berbeda terhadap prompt yang sama.

Versi-versi GPT-4 dari OpenAI telah menduduki posisi teratas begitu lama sehingga setiap model lain yang mendekati skor benchmarknya dikenal sebagai model kelas GPT-4. Mungkin kita perlu memperkenalkan model kelas baru, Claude-3, untuk peringkat di masa depan.

Perlu dicatat bahwa skor antara Claude 3 Opus dan GPT-4 sangatlah dekat, dan model OpenAI sudah ada selama setahun, dengan GPT-5 yang “berbeda secara nyata” diharapkan muncul pada suatu saat tahun ini — jadi posisi Anthropic mungkin tidak bertahan lama.

Apa itu Chatbot Arena?

Chatbot Arena dijalankan oleh LMSys, Organisasi Sistem Model Besar, dan menampilkan berbagai model bahasa besar yang bertarung dalam pertempuran acak anonim.

Diluncurkan pertama kali pada Mei tahun lalu, ini telah mengumpulkan lebih dari 400.000 suara pengguna dengan model dari Anthropic, OpenAI, dan Google mengisi sebagian besar sepuluh besar sepanjang waktu itu.

Baru-baru ini, model-model lain dari startup AI Prancis Mistral dan perusahaan-perusahaan Tiongkok seperti Alibaba mulai menduduki lebih banyak posisi teratas dan model sumber terbuka semakin hadir.

Ini menggunakan sistem peringkat Elo yang banyak digunakan dalam permainan seperti catur untuk menghitung tingkat keterampilan relatif pemain. Berbeda dengan catur, kali ini peringkat tersebut diterapkan pada chatbot dan bukan pada manusia yang menggunakan model.

Ada keterbatasan dalam arena karena tidak semua model atau versi model termasuk, terkadang pengguna menemukan model-model GPT-4 tidak akan dimuat, dan ini dapat menguntungkan model-model dengan akses internet langsung seperti Google Gemini Pro.

Arena juga kekurangan beberapa model terkenal seperti Gemini Pro 1.5 dari Google dengan jendela konteks yang besar dan Gemini Ultra.