Forschung an der TU Graz

Wie Computer besser sehen lernen

von Redaktion, 14. Juni 2021

Bildverarbeitung TU Graz - ICG Sujet — Wie Computer sehen: Hier wird gezeigt, wie der Algorithmus die Bilder verändert, damit er sie „schöner“ findet (Bild: Pock – TU Graz/ICG)

Wie kann man bekannte Arbeitsweisen des visuellen Cortex mithilfe mathematischer Modelle berechnen und auf Bildverarbeitungsanwendungen übertragen? Dieser Frage ging ein Forscher-Team der TU Graz nach und entwickelte eine Grundlage für schnelleres und intelligenteres Sehen der Computer.

Beim Menschen sorgt der visuelle Cortex für die sekundenschnelle Bilderfassung und Objekterkennung. Hocheffiziente hierarchische Schichten filtern die visuellen Informationen, erkennen Zusammenhänge und vervollständigen Bilder mit Hilfe vertrauter Muster. Der komplexe Prozess dahinter – noch kaum durchschaut.

Computer können mittels Deep-Learning-Algorithmen bestimmte Mustererkennungsaufgaben schon genauso gut und teilweise sogar besser lösen – problematisch dabei sei aber, dass man kaum nachvollziehen kann, was sie gelernt haben, wie sie funktionieren oder wann sie Fehler machen.

Diesem Problem ging Thomas Pock vom Institut für Maschinelles Sehen und Darstellen der TU Graz im Rahmen seines ERC-Starting-Grant-Projekts HOMOVIS (High Level Prior Models for Computer Vision) nach und beschäftigte sich fünf Jahre lang intensiv mit der Frage, wie sich bekannte Arbeitsweisen des visuellen Cortex mithilfe mathematischer Modelle berechnen und auf Bildverarbeitungsanwendungen übertragen lassen.

Sehen und Computer - TU Graz - Thomas Pock — Thomas Pock, Informatiker am Institut für Maschinelles Sehen und Darstellen der TU Graz, entwickelte neue Bildverarbeitungsalgorithmen zur Korrektur von Unschärfen, defekten Pixel oder anderen technischen Bildfehlern (Bild: Lunghammer – TU Graz)

Anregungen aus Gestaltpsychologie und Mathematik

Thomas Pock nutzte dafür die Gestaltgesetze der Wahrnehmung von Max Wertheimer. Der Hauptbegründer der Gestaltpsychologie hat mit diesen Gesetzen den Prozess des menschlichen Sehens zu erklären versucht, bei dem Reize und Sinneseindrücke zu einem großen Ganzen zusammensetzt werden.

„Der Mensch kann schon anhand einzelner Punkte oder subjektiver Konturen (Scheinkonturen) lückenhafte bzw. unvollständige Objekte korrekt erkennen. Das menschliche Gehirn ergänzt die fehlende Bildinformation automatisch. Beispielsweise, indem es die Punkte über möglichst glatte Kurven miteinander verbindet“, so Pock.

Dieses Phänomen der Gestaltfindung beschrieb der Forscher mit seinem Team erstmals mithilfe mathematischer Modelle beruhend auf Eulers „Elastica” – einer Gleichung des Mathematikers Leonhard Euler, mit der Kurven minimalster Krümmung berechnet werden können.

Sehen und Computer - TU Graz - Einstein by Schmutzer-CC — Das Porträt von Albert Einstein wurde mithilfe des „Elastica-Modells“ aus unvollständigen Daten rekonstruiert (Foto: Ferdinand Schmutzer, 1921 / Creative Commons Public Domain – Die technischen Bildfehler wurden zu Testzwecken von Pock selbst verursacht, das Originalbild ist fehlerfrei)

Pocks Arbeitsgruppe entwickelte neue Algorithmen, mit denen bestimmte krümmungs-abhängige Bildverarbeitungsprobleme gelöst werden können. Die Lösung ist demzufolge umso leichter, wenn die (2D-)Bilder und deren Merkmale als Datenpunkte in einem dreidimensionalen Raum dargestellt werden.

„In der dritten Dimension bekommen wir mit der Orientierung der Objektkanten eine zusätzliche Variable“, erklärt Pock. Auch das ist dem menschlichen Sehen nachempfunden und geht zurück auf die Arbeiten der Nobelpreisträger David Hubel und Torsten Wiesel, die 1959 feststellten, dass der visuelle Cortex aus orientierungs-sensitiven Schichten aufgebaut ist.

Sehen mit Deep Learning: Das beste Bild berechnen

Aktuell arbeiten Pock und sein Team an der Kombination bekannter struktureller Eigenschaften des visuellen Cortex mit Deep-Learning-Algorithmen, um so Modelle zu entwickeln, die genauso gut funktionieren wie derzeitige Deep-Learning-Algorithmen, aber auch ein tieferes Verständnis über die gelernten Strukturen erlauben.

Erste Erfolge gibt es bereits bei der Rekonstruktion von Computertomographien und Magnetresonanzbildern. „Mit den neu entwickelten Algorithmen lassen sich nun trotz weniger aufgenommener Daten Bilder mit höchster Qualität rekonstruieren. Das spart Zeit und Rechenleistung und somit auch Kosten“, erklärt Pock.

Quelle: TU Graz

Schreiben Sie einen Kommentar Antworten abbrechen

Datenschutzbestimmungen

Wie Computer besser sehen lernen

Anregungen aus Gestaltpsychologie und Mathematik

Sehen mit Deep Learning: Das beste Bild berechnen

Schreiben Sie einen Kommentar Antworten abbrechen

Das könnte Sie auch interessieren

Die Augen essen mit

OPA wächst weiter: Katharina Schebek übernimmt Vertrieb für Norddeutschland

Virtuelle Brillenanprobe so einfach wie der Blick in den Spiegel

EssilorLuxottica übernimmt Mehrheitsbeteiligung an Heidelberg Engineering und stärkt Medizintechnik-Präsenz

Wie relevant ist Künstliche Intelligenz für uns?

Ocumeda und Fielmann: Mehr als eine strategische Partnerschaft