EPITHRE.
← Blog Riset & Engineering

Kenapa kami membangun tolok ukur AI sendiri

Kenapa kami membangun tolok ukur AI sendiri

Setiap kali sebuah model bahasa baru dirilis, hal pertama yang dipamerkan biasanya skor: sekian persen pada ujian tertentu, peringkat sekian pada papan tertentu. Angka semacam itu berguna untuk membandingkan model secara umum. Persoalannya, hampir tidak ada yang menjawab hal yang paling kami pedulikan, yaitu apakah model tersebut benar-benar berguna untuk pekerjaan pemerintahan Indonesia.

Sebagian besar tolok ukur populer mengukur kemampuan umum, dan sebagian besar dalam bahasa Inggris. Sebuah model bisa memperoleh nilai tinggi di sana, lalu tetap keliru ketika diminta menelusuri dasar hukum sebuah kebijakan atau menyusun nota dinas dengan format yang benar. Skornya bagus, tetapi bukan pada hal yang kami butuhkan.

Hal yang sebenarnya perlu diukur

Karena itu, kami menyusun evaluasi sendiri, dibangun dari bahan yang nyata dan ditakar dengan satu pertanyaan sederhana: apakah jawaban model ini akan bertahan jika dipakai sungguhan?

Beberapa aspek yang kami nilai:

Ketepatan rujukan. Ketika model menyebut sebuah aturan, apakah aturan itu benar ada dan benar relevan, bukan sekadar terdengar meyakinkan.

Penalaran regulasi. Ketika dua ketentuan berbenturan, apakah model menyelesaikannya dengan asas yang tepat, atau asal memilih.

Ragam bahasa resmi. Apakah surat, keputusan, atau laporan yang disusun mengikuti bentuk dan bahasa yang sesuai kaidah tata naskah, bukan gaya bahasa sehari-hari.

Pembacaan dokumen. Apakah model mampu menarik informasi yang benar dari dokumen resmi, termasuk yang berupa hasil pindaian dengan kualitas seadanya.

Alasan menempuh jalan yang lebih sulit

Membuat tolok ukur sendiri jelas melelahkan. Jauh lebih mudah memungut angka dari papan peringkat yang sudah ada. Akan tetapi, papan peringkat itu tidak mengetahui konteks yang kami kerjakan, dan model yang tampak hebat di sana belum tentu dapat diandalkan di meja seorang analis kebijakan.

Kami juga sengaja menyelipkan kasus yang menjebak, yaitu pertanyaan yang jawaban kelirunya justru terdengar paling masuk akal. Model yang baik bukanlah yang paling percaya diri, melainkan yang mengetahui kapan harus berhati-hati dan kapan harus mengakui ketidaktahuannya.

Tolok ukur bukan kebenaran

Kami tidak menganggap evaluasi ini sempurna. Evaluasi ini tetaplah sebuah proksi, bukan kebenaran itu sendiri, dan kami terus memperbaikinya setiap kali menemukan celah. Namun, evaluasi ini memberi sesuatu yang tidak diberikan oleh papan peringkat mana pun, yaitu ukuran yang jujur tentang apakah Strata semakin baik pada pekerjaan yang benar-benar penting, bukan pada pekerjaan yang kebetulan paling mudah diukur.

Oleh Epithre Blog →

Tulisan lain

Memperkenalkan Strata
Produk & Model

Memperkenalkan Strata

AI berdaulat bukan sekadar soal lokasi server
AI Berdaulat

AI berdaulat bukan sekadar soal lokasi server

Cara Strata menalar hierarki peraturan
Kapabilitas

Cara Strata menalar hierarki peraturan