Forschende der TU München kombinieren 3D-Bilderkennung mit Sprachmodellen – und machen Roboter deutlich effizienter bei der Objektsuche.