Lea Karnutsch: Mit geschärfter Klinge durch das digitale Auge

Mit geschärfter Klinge durch das digitale Auge:

Machine Learning und Pose-Estimation bewegungsanalytisch durchleuchtet

Ein Forschungsprojekt von Nicole Haitzinger und Lea Karnutsch, gefördert durch die Stiftungs- und Förderungsgesellschaft der Paris-Lodron Universität Salzburg und LIMBO Arts Studios

Dank KI-gestützter Technologien ist es seit einigen Jahren möglich, menschliche Bewegung durch Kamerabilder zu identifizieren und klassifizieren. Sogenannte Pose-Estimation Systeme werden bereits weltweit eingesetzt und können basierend auf reinem Bildmaterial Knochen- und Gelenkspositionen von Körpern lokalisieren und diese anschließend zu Posen zusammenführen.^[1] Die erkannten Posen werden in Folge von dem System in vorgefertigte Kategorien eingeordnet. Diese Kategorien beziehen sich dabei auf den Einsatzbereich des Systems und können von „Jumping Jack“ über „hingefallen“ bis hin zu „gewalttätig“ reichen. Zu etwaigen Anwendungsgebieten zählen beispielsweise das Sicherheitswesen, Medizin, autonome Kriegsführung oder die Sportanalyse.^[2]Aus tanzwissenschaftlicher Perspektive scheint es schwer vorstellbar, dass ein so vielschichtiges und individuelles Feld wie das der menschlichen Bewegung von inhaltsgebundenen Pose-Estimation Systemen sinnvoll gedeutet werden kann. Ob und vor allem wie gut die Erkennung und Klassifizierung der Programme funktioniert, hängt hauptsächlich von der Qualität und dem Umfang des Datensatzes ab, auf den der Machine Learning (ML) Algorithmus trainiert wurde. „Trainingsdatensätze stehen somit im Mittelpunkt des Verfahrens, nach dem die meisten ML-Systeme ihre Schlüsse ziehen: Sie fungieren als das wichtigste Quellenmaterial, das KI-Systeme als Anfangsbasis für ihre Programme nutzen.“^[3]

Detailaufnahme aus dem Labelingtool „Anylabeling“. Foto: Lea Karnutsch.

In dem Tool abgebildet ist: Bildtafel XLIII. In: Sechste Mappe. Courses de Testes et de Baque faites par le Roy – Denkmäler des Theaters. Inszenierung/Dekoration Kostüm des Theaters und der grossen Feste aller Zeiten. Wien/München: R. Piper & Co. Verlag 1925.

Um die besagten, noch rohen Daten jedoch überhaupt für eine Maschine zugänglich machen zu können, müssen sie zuerst auf eine bestimmte Art aufbereitet werden. Dieser Prozess wird als Labeling oder auch Annotation bezeichnet. „Data labeling, also known as data annotation, involves the tagging or labeling of raw data across various formats like photos, texts, videos, and audio, enabling machine learning algorithms to comprehend real-world scenarios and generate accurate predictions.”^[4] Trifft das System in der Anwendung Fehleinschätzungen, so können diese auf den Datensatz und den Labeling-Prozess zurückgeführt werden.

Da es speziell in der Annotation von Bilddaten hinsichtlich der darauf abgebildeten Bewegung kein einheitliches Werkzeug zu ihrer Erfassung gibt, beruhen Entscheidungen beim Labeln meist auf rein subjektiven Einschätzungen. Um den Labelingprozess einheitlicher und nachvollziehbarer zu gestalten, möchten Nicole Haitzinger und ich in folgendem Experiment ein Tool des tanzwissenschaftlichen Werkzeugkoffers anwenden und die bewegungsanalytische Methode IVB (Inventarisierung von Bewegung) nutzen, um ein ML-System auf ihren Grundlagen zu trainieren. Unser Ziel ist es, ein Pose-Estimation System zu kreieren, das basierend auf IVB gewaltvolle Handlungen auf Bildern identifizieren kann.

Erfahre mehr über den Prozess des Experiments und begleite mich auf meiner Reise von barocken Bildquellen, bis hin zu einem eigens trainierten Pose-Estimation System.

^[1] Vgl. Elhassan, Mohammed A.M.; Huang, Chenxi; Munea, Tewodros Legesse; Yang, Chenhui; Zhen, Qingkai: SimpleCut: A simple and strong 2D model for multi-person pose estimation. In: Computer Vision and Image Understanding, 222 (2022), S. 1. https://doi.org/10.1016/j.cviu.2022.103509 Diese und alle folgenden Internetquellen wurden zuletzt aufgerufen am 22.03.2026.

^[2] Vgl. Cavallo, Giuseppe; Dibenedetto, Gaetano; Lops, Pasquale; Polignano, Marco; Sotiropoulos, Stefanos: Comparing Human Pose Estimation through deep learning approaches: An overview. In: Computer Vision and Image Understanding, 252 (2025), S. 1-2. https://doi.org/10.1016/j.cviu.2025.104297.

^[3] Crawford, Kate: Atals der KI: Die materielle Wahrheit hinter den neuen Datenimperien. München: Verlag C.H. Beck 2024, S. 108.

^[4] Wu, Tongyu; Xia, Bingqing: The space-time game: Workers with disabilities in China’s AI data labeling industry. In: New Media & Society, 0/0 (2025), S. 2. https://doi.org/10.1177/14614448251320114.