Kecerdasan buatan yang memahami hubungan objek

  • Whatsapp


Ketika manusia melihat pemandangan, mereka melihat objek dan hubungan di antara mereka. Di atas meja Anda, mungkin ada laptop yang duduk di sebelah kiri telepon, yang ada di depan monitor komputer.

Banyak model pembelajaran mendalam berjuang untuk melihat dunia dengan cara ini karena mereka tidak memahami hubungan yang terjerat antara objek individu. Tanpa mengetahui hubungan ini, robot yang dirancang untuk membantu seseorang di dapur akan mengalami kesulitan mengikuti perintah seperti “ambil spatula yang ada di sebelah kiri kompor dan letakkan di atas talenan.”

Dalam upaya untuk memecahkan masalah ini, peneliti MIT telah mengembangkan model yang memahami hubungan yang mendasari antara objek dalam sebuah adegan. Model mereka mewakili hubungan individu satu per satu, kemudian menggabungkan representasi ini untuk menggambarkan keseluruhan adegan. Hal ini memungkinkan model untuk menghasilkan gambar yang lebih akurat dari deskripsi teks, bahkan ketika adegan mencakup beberapa objek yang disusun dalam hubungan yang berbeda satu sama lain.

Pekerjaan ini dapat diterapkan dalam situasi di mana robot industri harus melakukan tugas manipulasi multilangkah yang rumit, seperti menumpuk barang di gudang atau merakit peralatan. Ini juga menggerakkan bidang satu langkah lebih dekat untuk memungkinkan mesin yang dapat belajar dari dan berinteraksi dengan lingkungan mereka lebih seperti yang dilakukan manusia.

“Ketika saya melihat meja, saya tidak bisa mengatakan bahwa ada objek di lokasi XYZ. Pikiran kita tidak bekerja seperti itu. Dalam pikiran kita, ketika kita memahami sebuah adegan, kita benar-benar memahaminya berdasarkan hubungan antar objek. Kami berpikir bahwa dengan membangun sistem yang dapat memahami hubungan antar objek, kami dapat menggunakan sistem itu untuk memanipulasi dan mengubah lingkungan secara lebih efektif,” kata Yilun Du, mahasiswa PhD di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) dan rekan -penulis utama makalah.

Du menulis makalah dengan penulis pendamping Shuang Li, seorang mahasiswa PhD CSAIL, dan Nan Liu, seorang mahasiswa pascasarjana di University of Illinois di Urbana-Champaign; serta Joshua B. Tenenbaum, Profesor Pengembangan Karir Ilmu Kognitif dan Komputasi Paul E. Newton di Departemen Ilmu Otak dan Kognitif dan anggota CSAIL; dan penulis senior Antonio Torralba, Profesor Elektronik Delta Teknik Elektro dan Ilmu Komputer dan anggota CSAIL. Penelitian ini akan dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Saraf pada bulan Desember.

Satu per satu hubungan

Kerangka kerja yang dikembangkan peneliti dapat menghasilkan gambar pemandangan berdasarkan deskripsi teks objek dan hubungannya, seperti “Meja kayu di sebelah kiri bangku biru. Sofa merah di sebelah kanan bangku biru.”

Sistem mereka akan memecah kalimat-kalimat ini menjadi dua bagian yang lebih kecil yang menggambarkan setiap hubungan individu (“meja kayu di sebelah kiri bangku biru” dan “sofa merah di sebelah kanan bangku biru”), dan kemudian memodelkan setiap bagian secara terpisah . Potongan-potongan itu kemudian digabungkan melalui proses pengoptimalan yang menghasilkan gambar pemandangan.

Para peneliti menggunakan teknik pembelajaran mesin yang disebut model berbasis energi untuk mewakili hubungan objek individu dalam deskripsi adegan. Teknik ini memungkinkan mereka untuk menggunakan satu model berbasis energi untuk mengkodekan setiap deskripsi relasional, dan kemudian menyusunnya bersama-sama dengan cara yang menyimpulkan semua objek dan hubungan.

Dengan memecah kalimat menjadi bagian-bagian yang lebih pendek untuk setiap hubungan, sistem dapat menggabungkannya kembali dalam berbagai cara, sehingga lebih mampu beradaptasi dengan deskripsi adegan yang belum pernah dilihat sebelumnya, Li menjelaskan.

“Sistem lain akan mengambil semua hubungan secara holistik dan menghasilkan gambar satu-shot dari deskripsi. Namun, pendekatan tersebut gagal ketika kita memiliki deskripsi di luar distribusi, seperti deskripsi dengan lebih banyak relasi, karena model ini tidak dapat benar-benar mengadaptasi satu bidikan untuk menghasilkan gambar yang berisi lebih banyak relasi. Namun, saat kami menyusun model yang terpisah dan lebih kecil ini bersama-sama, kami dapat memodelkan lebih banyak hubungan dan beradaptasi dengan kombinasi baru, ”kata Du.

Sistem ini juga bekerja secara terbalik — dengan sebuah gambar, ia dapat menemukan deskripsi teks yang cocok dengan hubungan antar objek dalam adegan. Selain itu, model mereka dapat digunakan untuk mengedit gambar dengan mengatur ulang objek dalam adegan sehingga cocok dengan deskripsi baru.

Memahami adegan kompleks

Para peneliti membandingkan model mereka dengan metode pembelajaran mendalam lainnya yang diberi deskripsi teks dan ditugaskan untuk menghasilkan gambar yang menampilkan objek yang sesuai dan hubungannya. Dalam setiap contoh, model mereka mengungguli baseline.

Mereka juga meminta manusia untuk mengevaluasi apakah gambar yang dihasilkan cocok dengan deskripsi pemandangan aslinya. Dalam contoh paling kompleks, di mana deskripsi berisi tiga hubungan, 91 persen peserta menyimpulkan bahwa model baru berkinerja lebih baik.

“Satu hal menarik yang kami temukan adalah bahwa untuk model kami, kami dapat meningkatkan kalimat kami dari memiliki satu deskripsi relasi menjadi memiliki dua, atau tiga, atau bahkan empat deskripsi, dan pendekatan kami terus dapat menghasilkan gambar yang dijelaskan dengan benar oleh mereka. deskripsi, sementara metode lain gagal, ”kata Du.

Para peneliti juga menunjukkan gambar model adegan yang belum pernah dilihat sebelumnya, serta beberapa deskripsi teks yang berbeda dari setiap gambar, dan berhasil mengidentifikasi deskripsi yang paling cocok dengan hubungan objek dalam gambar.

Dan ketika peneliti memberikan sistem dua deskripsi adegan relasional yang menggambarkan gambar yang sama tetapi dengan cara yang berbeda, model dapat memahami bahwa deskripsinya setara.

Para peneliti terkesan dengan kekokohan model mereka, terutama ketika bekerja dengan deskripsi yang belum pernah ditemui sebelumnya.

“Ini sangat menjanjikan karena lebih mendekati cara kerja manusia. Manusia mungkin hanya melihat beberapa contoh, tetapi kita dapat mengekstrak informasi yang berguna hanya dari beberapa contoh itu dan menggabungkannya bersama-sama untuk menciptakan kombinasi yang tak terbatas. Dan model kami memiliki properti yang memungkinkannya untuk belajar dari data yang lebih sedikit tetapi digeneralisasi ke adegan atau generasi gambar yang lebih kompleks,” kata Li.

Sementara hasil awal ini menggembirakan, para peneliti ingin melihat bagaimana model mereka tampil pada gambar dunia nyata yang lebih kompleks, dengan latar belakang yang bising dan objek yang menghalangi satu sama lain.

Mereka juga tertarik pada akhirnya menggabungkan model mereka ke dalam sistem robotika, memungkinkan robot untuk menyimpulkan hubungan objek dari video dan kemudian menerapkan pengetahuan ini untuk memanipulasi objek di dunia.

“Mengembangkan representasi visual yang dapat menangani sifat komposisi dunia di sekitar kita adalah salah satu masalah utama yang terbuka dalam visi komputer. Makalah ini membuat kemajuan yang signifikan pada masalah ini dengan mengusulkan model berbasis energi yang secara eksplisit memodelkan beberapa hubungan antara objek yang digambarkan dalam gambar. Hasilnya sangat mengesankan,” kata Josef Sivic, peneliti terkemuka di Czech Institute of Informatics, Robotics, and Cybernetics di Czech Technical University, yang tidak terlibat dalam penelitian ini.

Ditulis oleh Adam Zewe

Sumber: Institut Teknologi Massachusetts




Pos terkait

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Situs ini menggunakan Akismet untuk mengurangi spam. Pelajari bagaimana data komentar Anda diproses.