VideoCLIP: Pra-pelatihan Kontrastif untuk Pemahaman Teks Video Zero-shot

  • Whatsapp


Pemrosesan bahasa alami dan visi komputer sangat diuntungkan dari paradigma “pra-pelatihan + penyetelan ulang”. Namun, beberapa pekerjaan baru-baru ini menggunakan pra-pelatihan untuk transfer zero-shot untuk mengakhiri tugas tanpa fine-tuning. Misalnya, sebuah makalah baru-baru ini menggunakannya untuk tugas pemahaman teks video.

Penyuntingan video. Kredit gambar: DaleshTV melalui Wikimedia, CC-BY-SA-4.0

Model pra-terlatih dapat langsung diterapkan, atau disesuaikan, serangkaian tugas teks video. Para peneliti menggunakan dua teknik utama untuk melatih representasi teks video terpadu. Tujuan pertama adalah untuk meningkatkan asosiasi video dan teks dengan panjang urutan yang berbeda. Untuk mencapai hal ini, model telah dilatih sebelumnya dengan pasangan video dan klip teks yang tumpang tindih secara temporal. Juga, kemiripan teks video yang halus dipelajari dari kehilangan kontras dengan metode baru untuk mengumpulkan pasangan negatif yang lebih sulit.

Pendekatan yang disarankan mengungguli pekerjaan sebelumnya pada berbagai tugas tanpa pengawasan pada set data hilir.

Kami menyajikan VideoCLIP, pendekatan kontrastif untuk melatih model terpadu untuk pemahaman teks dan video zero-shot, tanpa menggunakan label apa pun pada tugas hilir. VideoCLIP melatih transformator untuk video dan teks dengan membandingkan pasangan teks video positif yang tumpang tindih sementara dengan negatif keras dari pengambilan tetangga terdekat. Eksperimen kami pada beragam rangkaian tugas hilir, termasuk pengambilan teks-video tingkat urutan, VideoQA, lokalisasi tindakan tingkat token, dan segmentasi tindakan mengungkapkan kinerja canggih, melampaui pekerjaan sebelumnya, dan dalam beberapa kasus bahkan mengungguli pendekatan yang diawasi. Kode tersedia di ini https URL.

Makalah penelitian: Xu, H., Ghosh, G., Huang, P.-Y., Okhonko, D., Aghajanyan, A., dan Feichtenhofer, FMLZC, “VideoCLIP: Pra-pelatihan Kontrastif untuk Pemahaman Video-Teks Zero-shot”, 2021. Tautan: https://arxiv.org/abs/2109.14084




Pos terkait

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses.