RAFT: Tolok Ukur Klasifikasi Teks Sedikit Pemotretan di Dunia Nyata

  • Whatsapp


Belajar sedikit tembakan adalah kapasitas untuk menyelesaikan tugas yang diberikan sejumlah kecil demonstrasi. Jika besar pra-terlatih model bahasa akan menunjukkan kemampuan seperti itu, model tunggal dapat digunakan di beberapa tugas dunia nyata.

Tim di balik penelitian ini menunjukkan bahwa klasifikasi teks beberapa bidikan dapat digunakan secara efektif untuk membandingkan seberapa besar manfaat kemajuan NLP baru-baru ini dan yang akan datang.

Tim di balik penelitian ini menunjukkan bahwa klasifikasi teks beberapa bidikan dapat digunakan secara efektif untuk membandingkan seberapa besar manfaat kemajuan NLP baru-baru ini dan yang akan datang. Kredit gambar: Pxfuel, lisensi gratis

Oleh karena itu, sebuah makalah baru-baru ini di arXiv.org mengusulkan patokan klasifikasi teks beberapa bidikan dunia nyata yang dirancang untuk mengukur seberapa banyak kemajuan NLP yang baru dan yang akan datang menguntungkan aplikasi.

Benchmark berfokus pada tugas yang terjadi secara alami. Untuk setiap tugas, satu set pelatihan publik dengan 50 contoh dan satu set tes tak berlabel yang lebih besar dirilis. Pra-pelatihan tanpa pengawasan pada contoh yang tidak berlabel dan pencarian informasi domain terbuka dianjurkan. Kemudian, evaluasi otomatis disediakan.

Model ini melengkapi tolok ukur sintetis yang ada yang dirancang untuk menyoroti di mana model jatuh. Ini membantu mengukur kesenjangan antara penelitian dan praktik dan menyediakan template untuk tolok ukur masa depan yang mencerminkan penerapan.

Model bahasa pra-terlatih yang besar telah menunjukkan harapan untuk pembelajaran beberapa kali, menyelesaikan tugas berbasis teks hanya dengan beberapa contoh tugas khusus. Akankah model segera menyelesaikan tugas klasifikasi yang sejauh ini disediakan untuk asisten peneliti manusia? Tolok ukur yang ada tidak dirancang untuk mengukur kemajuan dalam pengaturan yang diterapkan, jadi jangan langsung menjawab pertanyaan ini. Patokan RAFT (Tugas Sedikit Beranotasi Dunia Nyata) berfokus pada tugas yang terjadi secara alami dan menggunakan pengaturan evaluasi yang mencerminkan penerapan. Evaluasi dasar pada RAFT mengungkapkan area yang dihadapi teknik saat ini: penalaran atas teks panjang dan tugas dengan banyak kelas. Garis dasar manusia menunjukkan bahwa beberapa tugas klasifikasi sulit bagi manusia non-ahli, yang mencerminkan bahwa nilai dunia nyata terkadang bergantung pada keahlian domain. Namun bahkan skor F1 dasar manusia non-ahli melebihi GPT-3 dengan rata-rata 0,11. Kumpulan data dan papan peringkat RAFT akan melacak peningkatan model mana yang diterjemahkan menjadi manfaat dunia nyata di ini https URL .

Makalah penelitian: Alex, N., “RAFT: Tolok Ukur Klasifikasi Teks Sedikit Pemotretan Dunia Nyata”, 2021. Tautan: https://arxiv.org/abs/2109.14076




Pos terkait

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses.