Beim multimodalen Lernen werden Eingabesignale von unterschiedlichen Quellen (wie Audio- und Bildsignale) herangezogen und in Zusammenhang gebracht, um darauf aufbauend eine passende Aktion zur Bewältigung der Aufgabe abzuleiten (aus: Maschinelles Lernen/Fraunhofer 2018).