Kenapa kami membangun tolok ukur AI sendiri

Setiap kali sebuah model bahasa baru dirilis, hal pertama yang dipamerkan biasanya skor: sekian persen pada ujian tertentu, peringkat tertentu di papan peringkat. Angka semacam itu berguna untuk membandingkan model secara umum. Persoalannya, hampir tidak ada yang menjawab hal yang paling kami pedulikan, yaitu apakah model tersebut benar-benar berguna untuk pekerjaan pemerintahan Indonesia.

Sebagian besar tolok ukur populer mengukur kemampuan umum, dan sebagian besar dalam bahasa Inggris. Sebuah model bisa memperoleh nilai tinggi di sana, lalu tetap keliru ketika diminta menelusuri dasar hukum sebuah kebijakan atau menyusun nota dinas dengan format yang benar. Skornya bagus, tetapi tidak mengukur hal yang kami butuhkan.

Hal yang sebenarnya perlu diukur

Karena itu, kami menyusun evaluasi sendiri, dibangun dari bahan yang nyata dan ditakar dengan satu pertanyaan sederhana: apakah jawaban model ini akan bertahan jika dipakai sungguhan?

Beberapa aspek yang kami nilai:

Ketepatan rujukan. Ketika model menyebut sebuah aturan, apakah aturan itu benar ada dan benar relevan, bukan sekadar terdengar meyakinkan.

Penalaran regulasi. Ketika dua ketentuan berbenturan, apakah model menyelesaikannya dengan asas yang tepat, atau asal memilih.

Ragam bahasa resmi. Apakah surat, keputusan, atau laporan yang disusun mengikuti bentuk dan bahasa yang sesuai kaidah tata naskah, bukan gaya bahasa sehari-hari.

Pembacaan dokumen. Apakah model mampu menarik informasi yang benar dari dokumen resmi, termasuk yang berupa hasil pindaian dengan kualitas seadanya.

Alasan menempuh jalan yang lebih sulit

Membuat tolok ukur sendiri jelas melelahkan. Jauh lebih mudah mengambil angka dari papan peringkat yang sudah ada. Akan tetapi, papan peringkat itu tidak mencerminkan konteks yang kami kerjakan, dan model yang tampak hebat di sana belum tentu dapat diandalkan di meja seorang analis kebijakan.

Kami juga sengaja menyelipkan kasus yang menjebak, yaitu pertanyaan yang jawaban kelirunya justru terdengar paling masuk akal. Model yang baik mengetahui kapan harus berhati-hati dan kapan harus mengakui bahwa ia tidak mengetahui jawabannya.

Tolok ukur bukan kebenaran

Kami tidak menganggap evaluasi ini sempurna. Evaluasi ini tetaplah sebuah proksi, bukan kebenaran itu sendiri, dan kami terus memperbaikinya setiap kali menemukan celah. Namun, evaluasi ini memberi sesuatu yang tidak diberikan oleh papan peringkat mana pun. Ukuran ini kami tetapkan sebelum pelatihan dimulai dan kami uji terhadap pekerjaan nyata, sehingga sejak versi pertama kami bisa melihat apakah Strata semakin baik menangani pekerjaan yang benar-benar penting, bukan pada pekerjaan yang kebetulan paling mudah diukur.