The (theoretical) elephant in the room

Contemporary computer vision software represents an incredible opportunity for both art history researchers and museum practitioners: it is a tool through which images can be described, organized, studied and shared. In this process—the one in which a computer vision software operates over a database of art history images—there are however a variety of dynamics at play. They have to do with theoretical assumptions, historical categories, technological constraints and ideological stances: a set of premises which calls for a closer methodological survey of the process. We propose an account which uses art theory and visual culture studies to scrutinize the different steps and activities which constitute the computer vision analysis: after all, the study of images has historically been a prerogative of art historians. Our intuition is that art images databases somehow provide a “protected environment” in which to observe how old problems, inherent to the discipline, interact with new problems created by the way we consume and design software. The three levels at which we will try to detect biased stances answer three different questions. Which images are we talking about? Which research questions are we asking? Which linguistic and political logics are at play? In order to do so, we will begin the discussion by debunking the myth of a simple parallelism between these new forms of conceptualizing the real and traditional ones, challenging Manovich’s (1999) use of Panofsky’s symbolic form (1927) as a hermeneutic of the database. We will show instead how the art-database logic somehow sticks to the traditional art historical narrative, while at the same time producing new kinds of biases. Then, we will focus on how this technology actually works, and which kind of art historical thought lays behind the algorithm. Our guess is that the praxis of this software is closer to the connoisseurship than to the art historical research. Thirdly, we will analyze the labeling process through which computer vision software creates descriptive metadata of the images in question, using Mitchell’s critical iconology (1994) account to problematize the strong ideological and political stance behind the image-text relationship. Throughout the discourse, and especially in the final paragraph, we will address the transparency and evaluation standards which need to be defined in order to allow a strict methodological approach to guard and guide the process, at times lacking both in the cultural sector and in the wider visual field. What will emerge is an account of computer vision software and processes which appear to be far from ‘neutral’ or ‘objective’ in their extremely layered functioning, built in the midst of diverse stakeholders’ interests and procedural false steps. Granted that these technologies are however contributing to build the visual culture of our time, we detect a series of overlooked assumptions along the way through the lenses of art theory, hoping to contribute to the design of a clearer view.

La vision par ordinateur contemporaine représente une opportunité incroyable pour les chercheurs en histoire de l’art et les professionnels des musées : c’est un outil grâce auquel les images peuvent être décrites, organisées, étudiées et partagées. Dans ce processus — où un logiciel de vision opère sur une base de données d’images d’histoire de l’art — il y a cependant une variété de dynamiques en jeu. Elles sont en fait associées à des hypothèses théoriques, à des catégories historiques, à des contraintes technologiques et à des positions idéologiques : un ensemble de prémisses qui appelle une étude méthodologique plus approfondie du processus. Nous proposons un compte-rendu qui utilise la théorie de l’art et les études de la culture visuelle pour examiner les différentes étapes et les activités qui constituent l’analyse de la vision par ordinateur : après tout, l’étude des images a historiquement été une prérogative des historiens de l’art. Notre hypothèse est que les bases de données d’images d’art offrent en quelque sorte un « environnement protégé » dans lequel on peut observer comment les anciens problèmes, inhérents à la discipline, interagissent avec les nouveaux problèmes suscités par la façon dont nous consommons et concevons les logiciels. Les trois niveaux auxquels nous essaierons de détecter les positions biaisées répondent à trois questions différentes. De quelles images parlons-nous lorsque nous parlons de bases de données ? Quelles questions de recherche posons-nous aux algorithmes ? Quelles sont les logiques linguistiques et politiques en jeu dans le processus d’étiquetage ? Pour y arriver, nous commencerons la discussion en déboulonnant le mythe d’un simple parallélisme entre ces nouvelles formes de conceptualisation du réel et les formes traditionnelles, remettant en question l’utilisation par Manovich (1999) de la forme symbolique de Panofsky (1927) comme herméneutique de la base de données. Nous montrerons plutôt comment la logique de la base de données sur l’art s’en tient en quelque sorte au récit traditionnel de l’histoire de l’art, tout en produisant de nouveaux types de préjugés. Ensuite, nous nous concentrerons sur la façon dont cette technologie fonctionne réellement, et sur le type de pensée historique de l’art qui se cache derrière l’algorithme. Nous croyons que la praxis de ce logiciel est plus proche de la connaissance que de la recherche historique de l’art. Troisièmement, nous analyserons le processus d’étiquetage par lequel le logiciel de vision crée des métadonnées descriptives des images en question, en utilisant le compte rendu de l’iconologie critique de Mitchell (1994) pour problématiser la forte position idéologique et politique qui se cache derrière la relation image-texte. Tout au long du discours, et surtout dans le dernier paragraphe, nous aborderons les normes de transparence et d’évaluation qui doivent être définies afin de permettre à une approche méthodologique stricte de garder et de guider le processus, qui fait parfois défaut à la fois dans le secteur culturel et dans le domaine visuel au sens large. Il en ressort un compte-rendu des logiciels et des processus de vision par ordinateur qui semblent loin d’être « neutres » ou « objectifs » dans leur fonctionnement extrêmement stratifié, construit au milieu des intérêts de diverses parties prenantes et de faux pas procéduraux. En admettant que ces technologies contribuent cependant à construire la culture visuelle de notre époque, nous détectons une série d’hypothèses négligées en cours de route à travers le prisme de la théorie de l’art, dans l’espoir de contribuer à l’élaboration d’une vision plus claire.

The (theoretical) elephant in the room

Fiche du document

Mots-clés Fr En

Sujets proches En Fr

Citer ce document

Métriques

Partage / Export

Résumé En Fr

Par les mêmes auteurs

Sur les mêmes sujets

Sur les mêmes disciplines

Exporter en