Beyond Teks: Bagaimana Gemini (Multimodal AI) Mengubah Materi Belajar Lebih Jauh dari ChatGPT.
s2tp.fip.unesa.ac.id, 4 Nopember 2025 - Kemampuan multimodal Gemini adalah perbedaan fundamental yang memisahkan model ini dari model berbasis teks murni seperti ChatGPT (sebelum pembaruan multimodal). Perbedaan ini secara radikal mengubah cara materi belajar dapat dibuat, disampaikan, dan dipahami, membawa teknologi pendidikan (EdTech) melampaui hambatan format teks statis.
1. Batasan ChatGPT (Teks Murni)
ChatGPT (dalam versi utamanya) unggul dalam mengolah bahasa—membuat naskah, esai, dan kode. Input dan output utamanya adalah teks.
Input Terbatas: Guru harus mendeskripsikan grafik, menempelkan tabel data, atau menggambarkan sebuah adegan visual untuk mendapatkan bantuan AI.
Output Statis: Respons yang diterima adalah teks, yang kemudian harus diubah guru menjadi visual (misalnya, di Canva) secara manual, menciptakan titik gesekan dan delay.
2. Kekuatan Multimodal Gemini (Beyond Teks)
Gemini dirancang untuk memproses, menganalisis, dan menghasilkan aset yang melibatkan teks, gambar, video, dan audio secara bersamaan. Ini menciptakan potensi baru dalam EdTech:
A. Analisis Materi Ajar Visual
Input Gambar/Diagram: Guru dapat mengunggah diagram yang membingungkan atau grafik statistik yang kompleks langsung ke Gemini.
Fungsi AI: Gemini tidak memerlukan deskripsi teks. Ia menggunakan Visi Komputer untuk mengidentifikasi objek, label, dan tren dalam gambar tersebut.
Aplikasi EdTech: Gemini dapat diminta untuk: "Jelaskan langkah-langkah dalam diagram ini secara sederhana untuk siswa SMA," atau "Identifikasi kesalahan dalam perhitungan yang ditunjukkan pada slide ini."
. Ini memungkinkan asesmen dan klarifikasi instan terhadap materi visual.
B. Kreasi Soal Berbasis Multimodal
Soal Berbasis Visual: Guru dapat mengunggah gambar adegan sejarah atau foto mesin industri.
Fungsi AI: Gemini dapat membuat soal yang spesifik berdasarkan detail dalam gambar. Misalnya: "Berdasarkan desain mesin ini, jelaskan 3 kelemahan ergonomisnya," atau "Analisis ekspresi wajah tokoh politik di foto ini dan buatkan 2 pertanyaan esai tentang konteksnya."
C. Pembelajaran Kontekstual Lintas Bahasa
Transkripsi Visual: Gemini dapat memproses gambar materi dalam bahasa asing (mirip Google Translate's Camera feature, tetapi terintegrasi dengan reasoning LLM-nya).
Fungsi AI: AI tidak hanya menerjemahkan; ia mengintegrasikan terjemahan tersebut dengan analisis visual untuk memberikan klarifikasi yang lebih dalam.
D. Scaffolding yang Lebih Baik
Diagnosis Visual: Jika seorang siswa kesulitan dalam suatu konsep, Gemini dapat menganalisis catatan tulisan tangan siswa (sebagai input gambar) dan mengidentifikasi di mana letak kesalahan notasi atau formula, memberikan feedback yang sangat spesifik dan visual.
Kesimpulan
Multimodalitas Gemini mengubah materi belajar dari aset teks statis menjadi pengalaman yang dinamis. Sementara ChatGPT unggul dalam struktur dan penulisan (membuat RPP atau draf esai), Gemini melangkah lebih jauh sebagai analis visual dan auditor data. Gemini memungkinkan guru untuk berinteraksi langsung dengan aset visual siswa, menghemat langkah manual konversi teks ke gambar, dan membuka jalan bagi jenis asesmen dan scaffolding yang belum pernah ada sebelumnya dalam EdTech.