Peran Model Bahasa Multimodal: Bagaimana Kemampuan Baru ChatGPT Mempengaruhi Tugas Visual di Kelas.
s2tp.fip.unesa.ac.id, 16 Nopember 2025 - Peran Model Bahasa Multimodal (seperti GPT-4V yang dapat memproses teks dan gambar) secara signifikan mengubah tugas visual di kelas, memungkinkan guru untuk merancang aktivitas yang lebih kaya dan mendalam. Kemampuan baru ini memungkinkan siswa menganalisis grafik, diagram, peta, atau bahkan gambar historis secara langsung melalui AI. Peningkatan aksesibilitas dan analisis visual ini secara fundamental mendukung SDG 4: Pendidikan Berkualitas, dengan menyediakan alat yang lebih canggih untuk pemahaman materi visual.
Kemampuan memproses gambar memungkinkan personalisasi tugas visual. Seorang guru dapat meminta AI untuk menghasilkan pertanyaan pemahaman tentang diagram sel tumbuhan yang disajikan dalam format yang disesuaikan untuk siswa berkebutuhan visual atau yang memiliki gaya belajar kinestetik. Diferensiasi ini memastikan bahwa semua siswa mendapatkan interaksi yang setara dengan konten visual, mendukung SDG 4.5, yang menjamin akses setara ke pendidikan inklusif.
Model multimodal dapat digunakan untuk menganalisis dan menginterpretasikan visual yang terkait dengan isu-isu pembangunan berkelanjutan (SDGs). Misalnya, siswa dapat mengunggah citra satelit tentang deforestasi (SDG 15) atau pertumbuhan urban (SDG 11) dan meminta AI menganalisis perubahan dari waktu ke waktu. Analisis berbasis bukti visual ini memperkuat komitmen SDG 4.7 terhadap pendidikan pembangunan berkelanjutan.
Integrasi AI multimodal ke dalam LMS sekolah mencerminkan inovasi infrastruktur pendidikan. Sekolah yang mengadopsi kemampuan ini menunjukkan komitmen terhadap modernisasi alat bantu belajar. Pemanfaatan teknologi canggih ini sejalan dengan SDG 9: Industri, Inovasi, dan Infrastruktur.
Model ini sangat bermanfaat dalam meningkatkan pemahaman di kelas sains dan matematika. Siswa dapat mengunggah sketsa solusi masalah fisika atau grafik data eksperimen, dan AI dapat memberikan umpan balik instan tentang keakuratan visual dan perhitungan. Umpan balik yang cepat dan terfokus ini sangat penting untuk penguasaan konsep yang kompleks.
Bagi siswa dari latar belakang sosial ekonomi rendah yang mungkin tidak memiliki akses ke perangkat lunak visualisasi data mahal atau tutor khusus untuk interpretasi grafik, AI multimodal menawarkan solusi yang adil. Teknologi ini mendemokratisasi akses ke analisis visual tingkat lanjut, yang merupakan upaya penting dalam mencapai SDG 10: Mengurangi Ketidaksetaraan.
Guru harus dilatih untuk merancang tugas visual yang AI-resistant, yaitu tugas yang menuntut sintesis dan interpretasi yang melampaui deskripsi gambar yang sederhana. Tugas harus menuntut siswa untuk menghubungkan gambar dengan konteks non-visual yang lebih luas, seperti menganalisis bias dalam foto historis. Peningkatan kompetensi guru ini mendukung SDG 4c.
Penggunaan AI multimodal dalam tugas visual mendorong siswa untuk mengembangkan literasi visual dan berpikir kritis. Mereka belajar memverifikasi deskripsi AI dan memahami bagaimana representasi visual dapat bias atau menyesatkan. Keterampilan evaluasi visual ini sangat relevan di era media digital.
Dalam konteks pasar kerja, kemampuan untuk menganalisis data visual dan menyajikannya secara efektif adalah keterampilan yang sangat dicari. Dengan melatih siswa menggunakan AI untuk interpretasi visual, pendidikan secara langsung mendukung SDG 8: Pekerjaan Layak dan Pertumbuhan Ekonomi.
Pada akhirnya, Model Bahasa Multimodal mengubah tugas visual di kelas menjadi pengalaman belajar yang lebih interaktif, personal, dan berorientasi pada analisis data nyata. Dengan memberdayakan siswa untuk berinteraksi secara mendalam dengan informasi visual, teknologi ini menciptakan lingkungan belajar yang adaptif dan siap menghadapi tantangan informasi masa depan, yang merupakan fondasi penting bagi pencapaian semua Tujuan Pembangunan Berkelanjutan (SDGs).