Comparison of Visual Attention Networks for Semantic Image Segmentation in Reminiscence Therapy

Die vierzehnte internationale Konferenz über fortgeschrittene kognitive Technologien und Anwendungen (IARIA COGITIVE2022) fand im Zeitraum vom 24. April bis zum 28. April 2022 in Barcelona statt.

Im Mittelpunkt der Konferenz standen Themen wie: Informationsverarbeitung des Gehirns und Informatik; Künstliche Intelligenz und Kognition; Fortgeschrittene Themen in Deep/Machine Learning; Agentenbasierte adaptive Systeme; Autonome Systeme und autonomieorientiertes Rechnen. Weitere Informationen über die Konferenz sind hier zu finden.

Anknüpfend an unseren letzten Beitrag „Potentials of Semantic Image Segmentations using Visual Attention Networks“, welcher die Potenziale der semantischen Bildsegmentierung mit Vistual Attention Networks für Reminiszenz Sitzungen analysiert und das erhebliche Potenzial in Bereich aufzeigt,  vergleicht diese Arbeit verschiedene Ansätze miteinander, welche für die semantische Bildsegmentierung im Bereich der Demenzkranken zum Einsatz kommen könnte. Der Konferenzbeitrag ist hier verfügbar und eine Präsentation über unseren Beitrag kann durch klicken auf den folgenden Foliensatz heruntergeladen werden.

 

Visual Attention Networks (VAT)s werden verwendet, um das Problem der Erzeugung von Bildbeschreibungen im Bereich des vollständigen Szenenverständnisses zu verstehen. Es ist nicht nur notwendig, die auf einem Bild gezeigten Objekte zu beschreiben, darüberhinaus sollte das Modell in der Lage sein die Beziehungen zwischen verschiedenen Objekten auf einem Bild zu erfassen und diese in eine natürliche Sprache umzuwandeln. Die Architektur von Visual Attention Networks ist in zwei Bereiche aufgeteilt. Eindem Encoder a) und einem Decoder b). Der Encoder wird durch ein Convolutional Neural Network (CNN) repräsentiert und zur extrahierung von Bildmerkmalen verwendet. Diese werden an den Dncoder weiter gereicht, welcher aus einer Attention Schicht besteht um seinen Fokus auf verschiedene Bereiche eines Bildes legen zu können (dies bildet den Bildverarbeitungsprozess eines menschlichen Gehirns ab). Anschließend iteriert der Decoder über die verschiedenen Bildbereiche und generiert daraus eine Bildbeschreibung. Folgende Abbilung stellt die Architektur von einem VAT dar (Quelle Abbildung „Katze“: Cat: MS COCO Dataset COCO Datensatz – https://cocodataset.org/ [Aug 2021]).

Innerhalb der Architektur ergeben daher verschiedene Möglichkeiten die neuronalen Netze zu kombinieren. Dabei wurden folgende CNN Netze als Encoder untersucht: Inceptionv3, ResNet101, VG16/19 und Xception. Darüber hinaus wurden folgende Recurrent Neural Networks (RNN) als Decoder repräsentation verwendet: Long-Short Term Memory (LSTM) und Gated Recurrent Unit (GRU). In dieser Arbeit wurden die verwendung der unterschiedlichen Netze sowie verschiedene kombinationen aus diesen untersucht.

Für das Training der neuronalen Netze wurde ein speziell auf an Demenz erkrankte Menschen zugeschnittender Datensatz erstellt, welcher das Lebensthema „Tiere“ aufgreift und auf die Erkennung von Katzen, Hunden und gefährlichen Hunden abzielt. Das nachfolgende Bild stellt Beispiele für jede Bildklasse dar (Quelle Abbildungen: Dog: https://pixabay.com/de/photos/hund-haustier-tier-niedlich-1839808/; Cat: MS COCO Dataset COCO Datensatz – https://cocodataset.org/ (Aug 2021); Angry Dog: https://iStock.com/YuriyGreen).

 

Die Ergebnisse wurden sowohl per Metrik als auch von einem Menschen evaluiert. Beispiele von den von uns erzielten Ergebnissen sind in den folgenden Tabellen ersichtlich. Dabei sind die besten Ergebnisse dargestellt, die erreicht wurden und die schlechtesten (Quelle der Ergebnisse: Meßmer, L., & Reich, C. (2022). Comparison of Visual Attention Networks for Semantic Image Segmentation in Reminiscence Therapy. In COGNITIVE 2022: The Fourteenth International Conference on Advanced Cognitive Technologies and Applications, April 24-28, 2022, Barcelona, Spain (pp. 34-39)).

Dabei hat sich herausgestellt, dass die verwendung eines Xception Encoders in kombination mit einem GRU Decoder die besten Ergebnisse erzielt. Die schlechtesten Ergebnise lieferte das ResNet101, egal welcher Decoder verwendet wird. Es konnte darüber hinaus beobachtet werden, dass das Xception Netz stabilere Ergebnisse liefert mit weniger „ausreißern“.

In Zukunft könnte die Arbeit erweitert werden durch semantische Beschreibungen für andere Medieninhalte wie Musik oder Videos. Außerdem könnte der Datensatz erweitert werden, damit noch mehr Lebensthemen abgedeckt werden. Aus technischer Sicht könnte das VAT weiter angepasst werden, um die Ergebnisse weiter zu verbessern.