Das Ende des Loudness Wars?

Der renommierte Mastering-Ingenieur Bob Katz hat 2014 angekündigt, der Loudness War sei vorbei [1]. Und spätestens nach der Einführung von Streaming-Diensten, die eine automatisierte Lautheitsanpassung an Musikstücken vornehmen, um alle Musiktitel ungefähr gleich laut klingen zu lassen, könnte man behaupten, der Loudness War gehört der Vergangenheit an. Aber werden seit der Einführung von Lautheitsnormalisierungen auch tatsächlich wieder dynamischere Masterings erstellt und was genau ist der Loudness War?

Der sogenannte Loudness War beschreibt den seit den 80er Jahren andauernden Trend Musik in ihrer Dynamik immer stärker einzuschränken, um eine möglichst hohe Lautheit zu erzielen. Dabei basiert der Loudness War auf dem Phänomen, dass lautere Musikstücke im Vergleich zu leiseren als besser wahrgenommen werden, worauf Mastering-Ingenieure eine möglichst hohe Lautheit auf Kosten des Dynamikumfangs anstrebten, um sich so von der Konkurrenz abzuheben. [2]

Abbildung 1: Verlauf der durchschnittlichen Durchschnittspegel bzw. Dynamikumfänge von Musikstücken über die Jahre

Den Höhepunkt des Loudness Wars markiert das Album “Death Magnetic” von Metallica aus dem Jahr 2007, das einen großen medialen Aufschrei erzeugte, weil dessen Dynamikumfang so gering war, dass es von vielen Fans stark kritisiert wurde. Vor allem beim Vergleich mit der dynamischeren und weniger lauten Version desselben Songs im Videospiel Guitar Hero 3 zeigte sich, dass das offizielle Album-Mastering durch die extrem geringe Dynamik als schlechter wahrgenommen wird. Extrem komprimierte Musikstücke werden oft als “uninteressant”, “ermüdend” und “flach” beschrieben. [1, 3, 4]

Abbildung 2: Vergleich der Album Version des Songs “The Day That Never Comes” mit der Guitar Hero Version

Um dem Loudness War entgegenzuwirken hat die europäische Rundfunkunion Empfehlungen und Normen ausgesprochen, die dazu geführt haben, dass Programme und Werbungen bei vielen Radio- und Fernsehsendern wieder dynamischer wurden und geringere Lautheitswerte aufwiesen. [5]

Streaming-Dienste, wie Spotify, Apple Music, Youtube usw., haben eine automatische Lautheitsanpassung entwickelt, die die Lautheit eines Musikstücks misst und auf einen eigens definierten Wert regelt. Das hat zur Folge, dass Musikstücke, die einen deutlich höheren Lautheitswert aufweisen als der von den Streaming-Diensten festgelegte, um einen bestimmten Wert abgesenkt werden, sodass er mit dem definierten Wert übereinstimmt. Gemessen wird in einer speziell entwickelten Messskala für Lautheit, welche die Einheit LUFS (Loudness Units relative to Full Scale) festgelegt hat. [6, 7, 8]

Da Streaming inzwischen die populärste Form des Musikhörens ist, sollte dies eigentlich zur Folge haben, dass Mastering-Ingenieure in der heutigen Zeit Musikstücke wieder weniger stark komprimieren und einen höheren Dynamikumfang zulassen, da zu laute Musik ohnehin runterreguliert wird. [9]

Allerdings sieht man anhand der meisten populären Werke der letzten Jahre, dass viele Masterings dennoch stark komprimiert sind, um hohe Lautheiten zu erzielen. Vereinzelt gibt es allerdings auch in der Popmusik Ausnahmen, die den Schritt wagen, dynamischere Musiktitel zu veröffentlichen. Lady Gagas Song “Shallow”, der 2019 für einen Grammy nominiert wurde und auch ein weltweiter Erfolg wurde, zählt zu diesen. [10]

Quellen:

[1] https://www.soundonsound.com/techniques/end-loudness-war

[2] https://www.deutschlandfunknova.de/beitrag/loudness-war-lauter-ist-besser

[3] https://audiomunk.com/the-past-and-future-of-the-loudness-war/

[4] S. 18 https://unipub.uni-graz.at/obvugrhs/download/pdf/335378?originalFilename=true

[5] https://www.soundandrecording.de/tutorials/loudness-war-interview-mit-lautheitsforscher-rudi-ortner/

[6] https://www.bonedo.de/artikel/einzelansicht/spotify-und-das-ende-des-loudness-war.html

[7] https://blog.landr.com/de/was-sind-lufs-lautstaerkemessung-erklaert/

[8] https://artists.spotify.com/faq/mastering-and-loudness#my-track-doesn’t-sound-as-loud-as-other-tracks-on-spotify-why

[9] https://www.ifpi.org/our-industry/industry-data/

[10] https://www.nytimes.com/2019/02/07/opinion/what-these-grammy-songs-tell-us-about-the-loudness-wars.html


Bilderquellen:

Abbildung 1: S. 14 https://unipub.uni-graz.at/obvugrhs/download/pdf/335378?originalFilename=true

Abbildung 2: https://audiomunk.com/the-past-and-future-of-the-loudness-war/

IEZA-Framework

In Videospielen gibt es verschiedene Arten von Klängen. Es wurden in den letzten 20 Jahren verschiedene Modelle zur Unterscheidung und Kategorisierung von Klängen entworfen, die sich für verschiedene Zwecke besser oder schlechter eignen. Auch wurden die Modelle im Laufe der Zeit verbessert oder erweitert, da sich auch die Technik weiterentwickelt hat und die Forschung zum Thema Game Sound vorangeschritten ist.

Ein Modell, dass sich vor allem bei der Konzeption des Sound Designs eignet und deshalb für Spieleentwickler und Sound Designer nützlich ist, ist das sogenannte IEZA-Framework von Sander Huiberts und Richard van Tol. Dieses Framework beschränkt sich auf alle Klänge, die im interaktiven Teil eines Videospiels zu hören sind. Es werden also Videosequenzen, Ladebildschirme und alle Szenen, in welchen der Spieler keine direkte Kontrolle über das Spiel hat und stattdessen die Rolle des Beobachters einnimmt, ausgeschlossen.

Anmerkung: Das Wissen zu diesem Artikel beruht auf den Forschungsarbeiten von Sander Huiberts und Richard van Tol [1, 2].

Abbildung 1: Das zweidimensionale IEZA-Framework

Die beiden Dimensionen

Das IEZA-Modell unterteilt zunächst Klänge in zwei Dimensionen. Auf der vertikalen Achse wird zwischen diegetisch und nicht-diegetisch unterschieden, während auf der horizontalen Achse eine Unterteilung in Setting und Activity vorgenommen wird.

Diegetische Klänge
Diegetische Klänge umfassen alle Sounds, die im Rahmen der fiktiven Spielwelt entstehen. Das sind primär Umgebungsgeräusche, Dialoge und Character-Sounds, die durch etwas verursacht werden, was nachvollziehbar den Ursprung in der fiktiven Welt hat.


Nicht-diegetische Klänge
Nicht-diegetische Klänge sind alle Sounds, die ihren Ursprung außerhalb der Spielwelt haben.

Setting

Setting umfasst Klänge, die zur Atmosphäre des Spiels und der Szenerie beitragen. Diese spielen sich oft im Hintergrund ab und reagieren nicht direkt auf die Eingabe des Spielers. Adaptivität von Klängen aus dieser Kategorie basiert stattdessen auf indirekt vom Spieler beeinflussbaren Parametern, wie Spannungsgrad, Bedrohungsgrad usw.

Activity

Activity beschreibt Klänge, die direkt vom Spieler oder einem Objekt verursacht werden und oft Informationen an den Spieler übermitteln.

Genaue Unterteilung in 4 Typen

Nun wird im IEZA-Framework eine genauere Unterteilung unternommen, bei welcher die Zugehörigkeit jedes Sounds hinsichtlich der beiden Dimensionen ermittelt wird. Daraus ergeben sich folgende Kategorien: Effect, Zone, Interface und Affect.

Effect

Zu dieser Kategorie gehören alle Klänge, die ihren Ursprung in der fiktiven Welt haben und einem Charakter oder einem bestimmten Objekt zugeordnet werden. Sie müssen also einen bestimmten Verursacher haben.

Beispiele: Dialoge, Character-Sounds, Schussgeräusche

Zone

Dazu gehören alle Sounds, die Umgebungsgeräusche darstellen, tendenziell im Hintergrund ablaufen und die Atmosphäre der Szenerie untermalen. Sie gehören zur fiktiven Spielwelt, werden aber nicht direkt von einem bestimmten Objekt verursacht, sondern sind als generelle Klangkulisse implementiert.

Beispiele: Stadtlärm, Windgeräusche

Interface

Dazu gehören Klänge, die nicht zur Spielwelt gehören und somit nicht-diegetisch sind. Sie werden entweder vom Spieler verursacht, wenn er z.B. durch ein Menü scrollt oder sie sind zu hören, wenn eine Information an den Spieler übermittelt werden soll, wie bei einem Pop-Up.

Beispiele: User Interface-Sounds, Pop-Up-Sounds, Menü-Sounds, HUD-Sounds

Affect

Das sind nicht-diegetische Sounds, die im Hintergrund ablaufen und eine Atmosphäre schaffen bzw. diese unterstützen. Diese Klänge fügen sich stilistisch dem Spiel und versuchen die Dramaturgie und die emotionale Wirkung des Spiels und der Handlung zu steigern.

Beispiele: Soundtrack, Sound-Effekte zur Überblendung zweier Musikstücke

Bilderquellen:

[Abbildung 1] Richard van Tol, Sander Huiberts. 2008. Gamasutra – IEZA: A Framework For Game Audio. Abgerufen unter https://www.gamasutra.com/view/feature/131915/ieza_a_framework_for_game_audio.php am 02.02.2021

Quellen:

[1] Richard van Tol, Sander Huiberts. 2008. Gamasutra – IEZA: A Framework For Game Audio. Abgerufen unter https://www.gamasutra.com/view/feature/131915/ieza_a_framework_for_game_audio.php am 02.02.2021

[2] Sander Huiberts. 2010. Captivating Sound: the Role of Audio for Immersion in Computer Games. Dissertation. Utrecht School of the Arts (HKU), Utrecht, The Netherlands, University of Portsmouth Portsmouth, United Kingdom. S. 20 ff.

Immersion in Videospielen

Immersion ist ein wichtiger Aspekt in heutigen Videospielen. Für viele Spieler gehört Immersion zu den Hauptgründen, wieso ein Spiel spielenswert ist [1]. Pierre-Alexandre Garneau nennt Immersion als einen der grundlegenden Gründe für Spielspaß [2]. Immersion ist allerdings auch ein Begriff, der seitens Entwickler, Designer, Spieler und Journalisten inflationär benutzt wird, ohne genau zu erklären, was damit gemeint ist. Dabei kann dieser Begriff verschiedene Bedeutungen haben und muss aus diesem Grund konkretisiert werden. Ich möchte vorab anmerken, dass es sich in diesem Artikel nicht um „immersive Audio“ im Sinne von Surround-Sound handelt, sondern um den Zustand eines Spielers, die beim intensiven Spielen eines Spiels zustandekommt.

Winifried Phillips beschreibt Immersion als einen höchst konzentrierten Zustand bzw. als willentliches, vollkommenes Versinken in das Spielerlebnis, bei welchem das Empfinden von Raum- und Zeit verzerrt wird, ein Verlust der Selbstwahrnehmung zustande kommt und die Tätigkeit des Spielers mühelos und fast schon automatisiert abläuft. [3]

Phillips nennt das Konzept der willentlichen Aussetzung der Ungläubigkeit als Bedingung für Immersion. Das ist ein Konzept, das aus der Literatur stammt und die Akzeptanz der Fiktion als konstruierte Realität beschreibt. Der Spieler nimmt also die Fiktion als seine Realität wahr. Das ermöglicht dem Rezipienten eine Identifikation mit der fiktiven Welt und den Charakteren, wodurch der Spieler auf einer emotionalen Ebene erreicht wird und besser in die Fiktion eintauchen kann. Damit dies ermöglicht wird, muss die kritische Haltung und die Ungläubigkeit des Rezipienten, die er standardmäßig gegenüber fiktiven Werken hat, aufgelöst werden. Dafür sind Bezüge und Anhaltspunkte zur eigenen Realität notwendig. Fiktive Charaktere und, im Fall von Videospielen, die Spielwelt, müssen folglich glaubwürdig und authentisch sein. [3]

Im Zusammenhang mit Immersion sollte auch das Phänomen des „Flow“-Zustands erläutert werden. Mihaly Csikszentmihalyi beschreibt flow als einen Zustand, in welchem eine Person so sehr in seine Tätigkeit vertieft ist, sodass sein Handeln fast schon automatisiert abläuft und dabei die Selbstwahrnehmung aufgelöst wird [4]. Timothy Sanders und Paul Cairns beschreiben flow als eine extreme Erfahrung, bei welcher Ziele, Herausforderung und Fähigkeiten konvergieren [5].

Kernaspekte von Immersion [6]

Sander Huiberts vergleicht verschiedene Definitionen von Immersion im Zusammenhang mit Videospielen und ermittelt ihre Gemeinsamkeiten. Dabei stößt er auf drei Aspekte, die in den Definitionen anzutreffen sind.

  • Das Gefühl von der Spielwelt umgeben zu sein
  • Vom Akt des Spielens absorbiert sein
  • Die Identifikation mit den Charakteren, der Spielwelt und der Geschichte

SCI-Modell [7]

Diese drei Aspekte dienen auch als Grundlage bei der Klassifizierung von verschiedenen Arten von Immersion, die von Ermi und Mäyrä unternommen wurde. Sie schlagen das sogenannte SCI-Modell vor, das Immersion in drei Dimensionen aufteilt: Sensory, Challenge-based und Imaginative Immersion.

Sensory Immersion

Sensory Immersion wird durch eine hohe audiovisuelle Qualität und durch das Gefühl von Dreidimensionalität gewährleistet und gibt dem Spieler das Gefühl in die Spielwelt einzutauchen bzw. von der Spielwelt umgeben zu sein. Große Bildschirme, welche nah am Spieler sind, VR-Brillen und Kopfhörer verstärken diesen Effekt, weil dadurch die reale Welt noch stärker ausgeblendet und der Spieler seine komplette Aufmerksamkeit dem Spiel widmen kann.

Challenge-based Immersion

Die Challenge-based Immersion umfasst den eigentlichen Akt des aktiven Spielens, welches eine Herausforderung an den Spieler darstellt. Eine gute Challenge-based Immersion wird durch eine ausbalancierte Spielschwierigkeit erreicht. Sie ist die Voraussetzung dafür, dass der Spieler Spaß empfindet und bereit ist, spielerische Handlungen durchzuführen.

Imaginative Immersion

Hierzu zählt die Identifikation mit den Charakteren, der Spielwelt und der Handlung. Bei einer guten Umsetzung kann sich der Rezipient in die Charaktere und die Spielwelt hineinversetzen und diese für plausibel halten.

Abbildung 1: Veranschaulichung der Zusammenhänge der drei Immersionsdimensionen und den grundsätzlichen Komponenten eines Videospiels

Stufen der Immersion [8]

Brown und Cairns haben herausgefunden, dass Immersion vom Grad der Involviertheit des Spielers abhängig ist und in drei Stufen unterteilt werden kann:

1. Engagement

Die niedrigste Stufe der Immersion beschreibt den Willen des Spielers, Zeit, Bemühungen und Aufmerksamkeit in ein Spiel zu investieren. Das ist stark von den subjektiven Präferenzen des Spielers abhängig, also, ob der Spieler in grundsätzliches Interesse an dem Genre des Spiels hat und das Setting des Spiels seinen Wünschen entspricht. Auch die Steuerung des Spiels muss für den Spieler intuitiv sein und ihm Spaß bereiten.

2. Engrossment

Auf dieser Stufe kommt es zu einer erhöhten Aufmerksamkeit des Spielers und einer tieferen emotionalen Auseinandersetzung mit der Spielwelt und den Charakteren. Diese ist stark abhängig von der audiovisuellen Gestaltung, von interessanten Aufgaben im Spiel und einer spannenden Geschichte. Auf dieser Stufe tritt die Wahrnehmung der tatsächlichen Realität in den Hintergrund und der Spieler fokussiert sich primär auf das Spiel. Dabei werden auch die Emotionen des Spielers durch das Spiel beeinflusst. Der Spieler beginnt die Fiktion als Realität wahrzunehmen.

3. Total Immersion

Die höchste Stufe der Immersion spiegelt die eigene Präsenz im Spiel wieder. Hierbei blendet der Spieler die Wahrnehmung der tatsächlichen Realität komplett aus, während er seine Konzentration und seine Emotionen komplett dem Spiel widmet. Der Spieler verspürt eine außerordentliche Empathie gegenüber den Charakteren und eine große Verbundenheit zum Protagonisten. Auch ist der Spieler von der Atmosphäre des Spiels, die durch audiovisuelle Elemente und die Handlung entsteht, absorbiert. Dadurch entsteht das Gefühl, man selbst lebt in dieser fiktiven Welt.

Immersion kann also in Videospielen das Spielerlebnis verbessern und erweitern und dem Spieler einen tieferen emotionalen Zugang zum Spiel ermögliche. Das wird von vielen Spielern als wünschenswert bezeichnet wird., weshalb viele Spieleentwickler großen Wert darauf legen, Spiele möglichst immersiv zu gestalten.

Bildquellen:

[Abbildung 1] Laura Emri, Frans Mäyrä. 2005. Fundamental Components of the Gameplay Experience: Analysing Immersion. In Digital Games Research Conference 2005. Hypermedia Laboratory, University of Tampere, Finland

Quellen:

[1] S. 6 Sander Huiberts. 2010. Captivating Sound: the Role of Audio for Immersion in Computer Games. Dissertation. Utrecht School of the Arts (HKU), Utrecht, The Netherlands, University of Portsmouth Portsmouth, United Kingdom

[2] Pierre-Alexandre Garneau 2001. Fourteen Forms of Fun. Aufgerufen unter https://www.gamasutra.com/view/feature/227531/fourteen_forms_of_fun.php am 02.02.2021

[3] S. 35 ff. Winifried Phillips. 2014. A Composer’s Guide to Game Music. The MIT Press, Cambridge, Massachusetts, USA

[4] S. 53 Csikszentmihalyi, Mihaly. 1990. Flow: The Psychology of Optimal Experience. Harper & Row. New York

[5] S. 160 Timothy Sanders, Paul Cairns. 2010. Time perception, immersion and music in videogames. In BCS ’10: Proceedings of the 24th BCS Interaction Specialist Group Conference. Swindon, United Kingdom

[6] S. 39 Sander Huiberts. 2010. Captivating Sound: the Role of Audio for Immersion in Computer Games. Dissertation. Utrecht School of the Arts (HKU), Utrecht, The Netherlands, University of Portsmouth Portsmouth, United Kingdom

[7] Laura Emri, Frans Mäyrä. 2005. Fundamental Components of the Gameplay Experience: Analysing Immersion. In Digital Games Research Conference 2005. Hypermedia Laboratory, University of Tampere, Finland

[8] Emily Brown, Paul Cairns. 2004. A Grounded Investigation of Game Immersion. Extended abstracts of the 2004 Conference on Human Factors in Computing Systems, Wien, Österreich

Methoden für adaptive Soundtracks

Begriffsdefinitionen

Videospiele sind ein interaktive Medien, die einen interaktiven bzw. adaptiven Soundtrack erfordern. Tatsächlich muss aber zwischen interaktiver und adaptiver Musik unterschieden werden. Diese werden zwar oft in einen Topf geworfen, aber sie sollten dennoch unterschieden werden, weil sie genau genommen zwei unterschiedliche Dinge meinen. Der Komponist Michael Sweet spricht von interaktiver Musik, wenn der Spieler mit spielerischen Handlungen direkt die Musik beeinflussen kann, wie beispielsweise in Spielen wie Guitar Hero [1]. Adaptive Musik hingegen umfasst Musik, bei welchen der Spieler eine indirekte Kontrolle über die Musik hat. Diese reagiert, statt auf Tastenbefehle und anderen Eingaben des Spielers, auf Faktoren der Spielwelt wie Tageszeit, Wetter, Grad der Bedrohung, Spannungsintensität usw. David Vink schreibt, dass Musik adaptiv ist, wenn sie sich an Umweltbedingungen im Spiel anpasst [2]. Interaktive Musik hingegen wird durch den Spieler direkt ausgelöst. In diesem Artikel beziehe ich mich auf Methoden der adaptiven Musikgestaltung.

Adaptive Soundtracks werden, wenn sie mit Filmsoundtracks verglichen werden, auch als nicht-lineare Soundtracks bezeichnet. Filmmusik hingegen ist linear, da die Abfolge auf einer linearen Zeitachse stattfindet. In Videospielen ist die Abfolge der Handlung abhängig davon, wie und wann ein Spieler Aktionen durchführt. Dementsprechend muss der Sound auch die Fähigkeit besitzen sich an die Aktionen des Spielers anzupassen. [3, 4]

Wieso soll ein Soundtrack adaptiv sein?

Adaptive Soundtracks sind also Musikstücke, die auf verschiedene Umstände im Spiel reagieren. Nun stellt sich die Frage, wieso sollte ein Soundtrack überhaupt adaptiv sein? David Vink spricht davon, dass adaptiver Sound eine größere Wirkung auf den Spieler hat und gleichzeitig als Kommunikationsmittel dient. Beispielsweise, kann der Wechsel zu einem sehr rhythmischen Stück symbolisieren, dass der Spieler sich in der Nähe eines Gegner befindet. Das Musikstück trägt in dem Fall die Information der Bedrohung durch einen Gegner.

Wieso ein adaptiver Soundtrack eine größere Wirkung auf den Spieler hat, hat mehrere Gründe:

In emotionalen Momenten ist die menschliche Wahrnehmung empfindlicher auf die Umgebung, zu welcher auch die auditive Ebene gehört. Wenn z.B. also im Spiel gerade ein intensivere Herausforderung vom Spieler gemeistert wurde, erwartet der Spieler einen Moment der Erleichterung. Da der Spieler in solchen Momenten besonders auf die klangliche und visuelle Umgebung achtet, muss die Musik auch als passend empfunden werden.

Als weiteren Grund nennt er die willentliche Aussetzung der Ungläubigkeit. Diese ist notwendig um fiktive Videospiele als glaubwürdig und logisch zu sehen bzw. zu akzeptieren. Ein Soundtrack, der für die Umstände im Spiel nicht passend wäre, würde die willentliche Aussetzung der Ungläubigkeit hindern und das Spiel unglaubwürdig wirken lassen. Ein Soundtrack der hingegen adaptiv ist und zu jeder Situation als passend empfunden wird, erhöht stattdessen die Glaubwürdigkeit der Spiels und wird als Teil der Spielwelt angenommen. [2]

Was als passend und glaubwürdig empfunden wird, ist abhängig von der Erwartungshaltung des Spielers, die sich wiederum aus subjektiven Präferenzen bildet [5]. Dazu kommt auch noch, dass der Grad der Immersion des Spiels eine Rolle spielt. Immersion bezeichnet in dem Fall die Involviertheit des Spielers in ein Spiel und die Ausblendung der realen Welt. Dieses Thema werde ich allerdings erst in einem meiner nächsten Blogposts behandeln, da es den Rahmen dieses Artikels sprengen würde.

Methoden zur Umsetzung adaptiver Soundtracks

In den letzten 20 Jahren haben sich einige Standardmethoden zur adaptiven Soundtrack-Gestaltung etabliert. Diese haben unterschiedliche Vor- und Nachteile und werden für verschiedene Funktionen genutzt. Die Umsetzung dieser Methoden geschieht in der Regel über Middleware-Software, wie FMOD oder Wwise. In vereinfachter Form kann sie aber auch direkt in der Spiel-Engine implementiert werden.

Die zwei Grundprinzipien, auf welchen adaptive Soundtracks basieren, heißen Horizontal Resequencing und Vertical Remixing. Zur Beschreibung dieser Methoden, beziehe ich mich auf die Ausführungen Micheal Sweets in seinem Buch “Writing Interactive Music for Video Games: A Composer’s Guide” und auf die Erläuterungen aus dem offiziellen Wwise-Zertifizierungskurs von Audiokinect. [6, 7, 8]

Horizontal Resequencing

Horizontal Resequencing beschreibt eine Methode, bei welchem die Musik von einer Sektion entweder zu einer anderen Sektion oder zurück zum Anfang (Looping) springt. Es ist auch möglich, dass das aktuell laufende Musikstück durch ein komplett anderes Musikstück ersetzt wird. Der Begriff „Horizontal“ beschreibt in dieser Methode den zeitlichen Ablauf einer Komposition, der traditionellerweise auf der horizontalen Achse notiert wird. Für diese Methode gibt es mehrere Möglichkeiten, wie Übergänge realisiert werden. Diese Möglichkeiten umfassen Crossfades, Transitional Scores und Branching Scores.

Abbildung 1: Cubase-Projekt mit mehreren Sektionen, die voneinander getrennt sind

Crossfading

Bei dieser Art von Übergängen wird der Pegel des aktuell laufenden Musikstücks verringert, während simultan der Pegel des nächsten Musikstücks erhöht wird. Vorteil hierbei ist, dass ein Crossfade jederzeit realisierbar ist und somit schnell auf das Spielgeschehen reagieren kann. Klanglich kann jedoch ein Crossfade in vielen Fällen nicht zufriedenstellend klingen, weil es an das Umschalten von Radiosendern erinnert und nicht sehr musikalisch wirkt.

Um den entgegenzuwirken können die Musikstücke im Tempo aneinander angepasst werden, sodass die Übergänge in sich stimmiger klingen. Bei dem Spiel Witcher 3 haben die Musikstücke, die potentiell oft abwechselnd hintereinander abgespielt werden, wie die Erkundungs- und die Kampfmusik, das selbe Tempo und die selbe Taktart. Zusätzlich ist der überwiegende Teil des Soundtracks in der Tonart D-Moll, was die Übergänge leichter gestaltet.

Transitional Scores

Dieser Übergang verbindet Sektionen oder Musikstücke mithilfe eines musikalischen Elements oder eines Soundeffekts. Bei einer guten Umsetzung eines solchen Übergangs können Musikstücke mit verschiedenen Tempi, Taktarten und Tonarten miteinander verbunden werden und dabei in einen musikalischen Kontext gesetzt werden. Für solche Übergänge eignen sich beispielsweise Crescendi, Glissandi oder auch Soundeffekte wie umgekehrt abgespielte Crashbecken, die aus der elektronischen Tanzmusik oder auch der Popmusik bekannt sind.

Branching Scores

Bei dieser Übergangsmethode gibt es keinen eigentlichen Übergang. Das laufende Musikstück wird vom nächsten Stück ohne einem Crossfade abrupt abgelöst. Damit der Übergang als fließend und passend wahrgenommen wird, geschieht der Wechsel des Musikstücks immer am Ende einer musikalischen Phrase. Bei längeren Phrasen kann das Problem auftreten, dass im Spiel bereits eine neue Handlung einsetzt, während noch die Musik der letzten Handlung läuft, weil die Phrase zu Ende gespielt werden muss. Für diese Methode eignen sich stattdessen kurze musikalische Phrasen, da sie schneller auf das Geschehen reagieren können. Diese Methode kann außerdem genutzt werden, um ein Musikstück in mehrere kleine Segmente aufzuteilen, die in zufälliger Reihenfolge abgespielt werden. Das umgeht die Monotonie, die entsteht, wenn ein Musikstück ständig wiederholt wird und sorgt für eine klangliche Abwechslung.

Vertical Remixing

Vertical Remixing basiert auf dem Prinzip des Layerings von Musikstücken. Dabei werden verschiedene Instrumentengruppen in verschiedene Layer aufgeteilt, die je nach Bedarf (Spannungsgrad, Bedrohungsgrad usw.) hinzugefügt werden können. Die Bezeichnung „Vertical“ ist damit begründet, dass Instrumentengruppen in einer Partitur oder in einer Digital Audio Workstation vertikal angeordnet werden. Im Gegensatz zum Horizontal Resequencing arbeitet Vertical Remixing nur mit einem Musikstück, das eine lineare Zeitachse hat. Das hat zur Folge, dass Tonart, Tempo, Taktart und Abfolge vorherbestimmt sind und bei jeder Wiederholung unverändert bleiben. Das sorgt einerseits für eine Kontinuität des Soundtracks, mit welcher die Immersion nicht gestört wird, gleichzeitig ist die Bandbreite an kompositorischen Möglichkeiten hinsichtlich der harmonischen und rhythmischen Abwechslung überschaubar. Grundsätzlich gibt es zwei Möglichkeiten, wie Layer implementiert werden: additiv und individuell kontrolliert.

Additive Layer

Beim additiven Layering wird durchgehend ein Grund-Layer abgespielt und, je nach Bedarf, werden weitere Layer hinzugefügt, sobald Trigger ausgelöst werden. Trigger sind bedingt durch Zustände der Charaktere oder der Spielwelt. Sie beschreiben häufig die Position und die Umgebung, in welcher sich der Charakter des Spielers befindet. Oft gibt es die sogenannte Exploration Music, die das Grund-Layer bildet und die musikalische Untermalung zur Erkundung der Spielwelt darstellt. Je nach Bedarf kommen weitere Layer hinzu. Im Spiel Fallout: New Vegas symbolisiert z.B. die Intensität, die durch das addieren von Layern erzeugt wird, die Nähe zur nächsten Stadt. Je näher der Spieler am Stadtzentrum ist, desto mehr Layer kommen hinzu. In Mass Effect 2 aktiviert das Beginnen eines Kampfes ein Layer bestehend aus Percussion-Instrumenten.

Individuell kontrollierte Layer

Bei dieser Art ist jeder Layer alleinstehend und hat jeweils einen eigenen Trigger. Damit lassen sich verschiedene Situationen im Spiel musikalisch abbilden, die nicht, wie beim additiven Layering aufeinander aufbauen, sondern sich auch gegenseitig ablösen können. Außerdem gibt es auch keinen Grund-Layer, der konstant abgespielt wird. Einige mögliche Layer sehen wie folgt aus: Es gibt einen Layer, der signalisiert, dass der Charakter nur noch wenig Lebenspunkte hat, einen Layer der aktiviert wird, wenn der Spieler geht, und einen Layer, der zu hören ist, wenn der Spieler schwimmt. Dieser Layer wechselt sich mit dem vorherigen ab und kann nicht simultan erklingen, da die beiden Layer zwei verschiedene Zustände darstellen. Allgemein lassen sich mit individuell kontrollierbaren Layern komplexere adaptive Systeme gestalten, die auf verschiedene Zustände reagieren können. Oft wird eine Kombination aus additiven und individuell kontrollierten Layer-Methoden genutzt.

In der Regel werden die Layer mit Lautstärkeautomationen bzw. Fades klanglich ein- und ausgeblendet. Wie lang die Fades dauern, entscheidet das technische Audio-Team oder die Entwickler selbst. Lange Fades fallen weniger auf als kurze oder abrupte Fades. Die Länge variiert nach Michael Sweets Erfahrung zwischen 3000 und 5000 Millisekunden und ist abhängig vom Stil und Tempo der Musik.

Vor- und Nachteile

Die verschiedenen Arten von adaptiven Techniken in der Soundtrack-Gestaltung haben jeweils eigene Vor- und Nachteile. Meistens wird eine Kombination aus mehreren Methoden benutzt, die spezielle Einsatzgebiete haben, in welchen die Methoden von ihren Stärken profitieren. In der folgenden Tabelle von Michael Sweet werden zusammenfassend alle Vor- und Nachteile aufgelistet.

Abbildung 2: Übersicht der Vor- und Nachteile der verschiedenen Methoden

Zusammenfassung

Es gibt also verschiedene Möglichkeiten, die zur adaptiven Soundtrack-Gestaltung eingesetzt werden können. Welche Methoden verwendet werden, ist abhängig von der benötigten Funktion bzw. dem zu erzielenden Effekt. Für einen eindrucksvollen adaptiven Soundtrack wird eine gute Kommunikation zwischen dem Komponisten und dem Audio-Team bzw. den Entwicklern des Spiels erfordert. Nur, wenn der Komponist die Vision des Spiels und die Idee hinter den vorgesehenen Anwendungszwecken versteht, kann dieser gezielt einen Soundtrack erstellen, der die verschiedenen Situationen im Spiel und der Spielwelt abdeckt.

Bilderquellen:

[Abbildung 1] https://www.audiokinetic.com/courses/wwise201/?source=wwise201&id=lesson_1_re_sequencing_creating_variation_using_horizontal_approach

[Abbildung 2] S. 162, Michael Sweet, Writing Interactive Music for Video Games: A Composer’s Guide

Literaturquellen:

[1] S. 35 ff., Michael Sweet, Writing Interactive Music for Video Games: A Composer’s Guide

[2] David Vink, https://www.gamecareerguide.com/features/768/student_thesis_adaptive_music_for_.php?print=1

[3] Alex Kanaris-Sotiriou, https://www.polygon-treehouse.com/blog/2018/10/24/what-the-flip-is-non-linear-music#:~:text=Linear%20music%20is%20a%20complete,radio%2C%20or%20any%20film%20score.

[4] Inger Ekman, Psychologically Motivated Techniques for Emotional Sound in Computer Games

[5] S. 9 ff., Tomas Deuschel, Tondramaturgie in Videospielen
Der Einfluss der Ton- und Klanggestaltung auf die Dramaturgie von Videospielen

[6] S. 143 ff., Michael Sweet, Writing Interactive Music for Video Games: A Composer’s Guide

[7] https://www.audiokinetic.com/courses/wwise201/?source=wwise201&id=lesson_1_re_sequencing_creating_variation_using_horizontal_approach

[8] https://www.audiokinetic.com/courses/wwise201/?source=wwise201&id=lesson_2_re_orchestration_using_vertical_approach#read

Klangliche Stilmittel in Videospielen (Teil 2: Signale, Stereotype, Subjektivierung)

Im letzten Blogeintrag bin ich auf die von Gerhard Hackl genannten Symbole, Leitmotive und Key Sounds eingegangen, die häufig in Filmen und Videospielen vorkommen [1]. In diesem Post werden zunächst weitere allgemeine Stilmittel ermittelt, die sich sowohl klanglich als auch visuell etabliert haben. Anschließend beschreibe ich mehrere rein klangliche Effekte zur Subjektivierung, die es dem Zuschauer erlauben, sich besser in die Rolle der Charaktere hineinzuversetzen.

Signale

Ein Signal ist ein Klangobjekt, das eine gesellschaftlich definierte und kommunikative Bedeutung hat. Das Signal übermittelt eine Information, die zum Handeln auffordert und/oder als Warnung dient, wie z.B. beim Heulen einer Sirene.

Meistens weisen Signale eine simple klangliche Grundstruktur auf, die ihren Mittelpunkt hinsichtlich des Frequenzspektrums in einem für Menschen kritischen und leicht hörbaren Frequenzbereich hat. Das hat zur Folge, dass dieses Geräusch trotz ungünstiger akustischer Bedingungen trotzdem deutlich gehört werden kann.

In Filmen oder Videospielen erklingen Signale häufig ohne den dazugehörigen visuellen Elementen, welche die klanglichen Signale verursachen. Damit soll der Beobachter auf einer höheren affektiven Gefühlsebene beeinflusst werden und Emotionen wie Angst, Aggression oder Vorsicht herbeiführen. In der Spielereihe Grand Theft Auto erklingen z.B. Sirenen, sobald eine Straftat begangen wurde und man von der Polizei verfolgt wird. Ziel des Spielers ist es nun, die Polizei abzuhängen und solange von der Bildfläche zu verschwinden, bis die Polizei die Verfolgungsjagd aufgibt.

Stereotype

Abgesehen davon, dass der Begriff heutzutage negativ konnotiert ist, tragen Stereotype eine wichtige Funktion als Orientierungshilfe. Mit ihrer Hilfe können Unterschiede der komplexen Außenwelt mit eigenen inneren Vereinfachungen bewältigt werden.

In Filmen und Videospielen werden Stereotype durch häufige Verwendungen, die sich über zahlreiche Filme und Videospiele erstrecken, geschaffen, um beim Rezipienten im Langzeitgedächtnis verankert zu werden. Ein typisches Beispiel wäre das Kreischen eines Adlers, das die Leere und Weite einer Landschaft verstärken soll oder im Horrorgenre das Wolfsgeheul bei Vollmond, das die Gefährlichkeit der Nacht symbolisiert und ein Gefühl von Angst beim Rezipienten erzeugen soll.

Da Stereotype dazu dienen, Komplexitäten zu reduzieren, werden außerdem entweder Ähnlichkeiten verschiedener Charaktere und Sachverhalte überbetont oder deren Unterschiede stark kontrastiert. Klanglich wird oft damit gearbeitet, dass “das Böse” mit Geräuschen gestaltet wird, die ihren Fokus im unteren Frequenzspektrum haben, somit eher dumpf klingen und ein Unbehagen beim Beobachter auslösen. “Das Gute” wird hingegen mit Klängen im Mittelton-, oder Hochtonbereich dargestellt, die dem Beobachter vertraut sind und dementsprechend sympathischer erscheinen. Mit solchen Stereotypen lassen sich Strukturen einfacher verdeutlichen. Sie machen es dem Beobachter leichter, Sachverhalte und Charaktere einzuordnen.

Subjektivierung

Stilmittel, die zur Darstellung der Sicht einer Figur oder aber auch zur Darstellung einer Veränderung von Wahrnehmungen, wie bei Träumen, Halluzinationen, Erinnerungen und Visionen dienen, werden Subjektivierung genannt. Diese kommen ursprünglich in Filmen vor, haben aber eine noch größere Bedeutung in Videospielen, in welchen man häufig aus der Sicht einzelner Charaktere spielt. Dabei bedient man sich verschiedener klanglicher Effekte und/oder der Dissoziation von Bild und Ton. Die Verfremdung des Klangmaterials oder die Diskrepanz von Bild und Ton, die beim Rezipienten einen logischen Konflikt erzeugt, wird durch kognitive Bemühungen und Zuordnungen interpretiert und dementsprechend als wahrnehmungsverändernd wahrgenommen.

Stille

Stille in einer Situation, in welcher es eigentlich laut sein müsste, ist häufig die Darstellung eines Realitätsverlusts. Das wird so erklärt, dass der Mensch ständig im sensorischen Austausch mit der Außenwelt steht und quasi bewusst oder unbewusst, selbst im Schlaf, klangliche Geräusche registriert. Beim Effekt der Stille trennt sich also die Figur von der Lautsphäre und somit auch von der Realität.

Lautstärke

Lautstärke bekommt erst eine Bedeutung durch ihren Kontrast. Ein plötzlicher Anstieg der Lautstärke bewirkt ein reflexartiges Zusammenzucken beim Zuschauer und verursacht Verängstigung. Auch wird mit der Lautstärke der Grad der Aggressivität der Spielfigur dargestellt.

Generell muss Lautstärke im Zusammenhang mit der Dauer betrachtet werden. Lang andauernde laute Geräusche und Klangkulissen verursachen Stress und werden auch in Videospielen genutzt, um ein Unwohlsein der Spielfigur darzustellen. Auch können lange und laute Geräusche andere Sinne beeinflussen und Gleichgewichtsstörungen, Schwindelgefühle, Schmerzen oder aber auch positive trance-artige Zustände hervorrufen.

Hall

Hall beschreibt einen bestimmten geistigen Zustand einer Figur. Oft werden damit Träume oder Erinnerungen dargestellt. Verhallte Geräusche werden hierbei in Form von akustischen Rückblenden genutzt. Ein weiterer gewünschter Effekt bei der Nutzung künstlichen Halls entsteht, wenn die klangliche räumliche Repräsentation nicht mit dem Gesehenen übereinstimmt. Durch die ungewohnte klangliche Umgebung fühlt der Rezipient eine gewisse Unsicherheit.

Zeitlupe

Die Zeitlupe wird als Effekt genutzt, um die Aufmerksamkeit des Beobachters auf bestimmte Momente zu lenken. Die Zeitlupe zielt auf das Phänomen ab, dass Zeit als etwas subjektiv dehnbares gesehen wird und in Abhängigkeit von Ereignissen und deren Intensität unterschiedlich lang wahrgenommen wird. Ein weiterer Effekt, der bei der Verlangsamung von Geräuschen entsteht, ist die Erhöhung ihrer dramatischen Wirkung, da diese Geräusche nach der Bearbeitung tiefer und somit auch voluminöser klingen.

Vergrößerung

Damit ist die Hervorhebung eines Geräusches von der restlichen Klangkulisse gemeint. Diese wird durch eine erhöhte Lautstärke, einen größeren Hallanteil oder durch klangliche Verfremdungen erzeugt. In manchen Fällen wird auch die Quelle des Geräusches durch eine andere ersetzt. Mit einer Vergrößerung wird die Wertung oder Relevanz einer Sache aus Sicht der Figur beeinflusst.

Atmen und Herzklopfen

Diese bilden eine besondere Form von Stilmitteln und repräsentieren eine extreme Form von Anspannung oder Lebensbedrohung. Diese Geräusche werden besonders hervorgehoben, wenn die Figur droht zu sterben oder einer extremen Belastung ausgeliefert ist. In vielen Spielen werden diese Geräusche außerdem genutzt, um dem Spieler ein bestimmtes Handeln zu suggerieren. Wenn man beispielsweise kurz davor ist, in einem im Spiel zu sterben, erklingt oft ein ein lautes Atmen oder ein intensives Herzklopfen, das signalisiert, dass die Spielfigur in Deckung gehen und sich erholen soll.

Das waren also gängige Stilmittel und Effekte, die sowohl in Filmen als auch in Videospielen anzutreffen sind. Sie haben verschiedene Ziele und sind in dieser Form gewöhnlich nicht in der realen Welt anzutreffen. Allerdings ermöglichen sie es dem Zuschauer oder Spieler auf eine leichtere und gleichzeitig intensivere Art in die erzählte Geschichte oder Spielhandlung einzutauchen und sich in die Charaktere hineinzuversetzen.

Quellen:

[1] https://phaidra.fhstp.ac.at/open/o:1779

Klangliche Stilmittel in Videospielen (Teil 1: Symbole, Leitmotive, Key Sounds)

Bei der Gestaltung von Klängen gibt es verschiedene gängige Stilmittel, die genutzt werden, um dem Bild und der Handlung mehr Ausdruck zu verleihen. Dabei betrachten wir die Erkenntnisse von Gerhard Hackl in seiner Diplomarbeit „Sound-Design im Österreichischen Film“, welche sich zwar auf das Medium Film beziehen, allerdings auch auf Videospiele übertragbar sind [1].

Symbole

Symbole deuten auf Ereignisse hin, die ein kulturell geprägtes Vorwissen voraussetzen. Dazu gehören Rituale, Religionen, Mythen und soziale Traditionen, die einen besonderen Stellenwert in der Gesellschaft haben. Gleichzeit muss ein solches Symbol im Kontext des Films gesehen werden, weil es durchaus verschiedene Bedeutungen haben kann und anfällig ist für Falsch- oder Überinterpretationen.

Ein prominentes Beispiel wäre das Ticken einer Uhr. Damit wird die Erwartungshaltung erzeugt, dass etwas passieren wird, bzw. der Protagonist handeln muss, weil die Zeit abläuft. Gleichzeitig dient dieses Element als Mittel der Spannungssteigerung.

Leitmotive

Leitmotive sind musikalische Motive, die einen Charakter oder ein Ereignis klanglich darstellen. Leitmotive können sich im Laufe des Werks verändern und auf die Entwicklung der Handlung reagieren. Damit ein Leitmotiv also so eines erkannt wird und eine Bedeutung bekommt, muss dieses beim ersten Auftreten eindeutig gekennzeichnet sein. Die Verbindung von Bild und Ton muss dabei klar erkennbar sein und das Leitmotiv sollte daraufhin oft wiederholen, um es beim Beobachter im Gedächtnis zu verankern.

Eines der berühmtesten Leitmotive der Filmgeschichte ist John Williams‘ „Imperial March“, das den Bösewichten Darth Vader repräsentiert.

Der Komponist Nobuo Uematsu, der verantwortlich ist für die Musik der früheren „Final Fantasy“-Spiele, hat für jeden Protagonisten und Antagonisten dieser Spiele Leitmotive geschrieben, die immer dann erklingen, wenn die jeweilige Spielfigur mit einem bedeutsamen Ereignis in Verbindung gebracht wird und der Fokus auf die Figur gelenkt werden soll. In Final Fantasy VII ist z. B. der tragische Tod der Protagonistin Aerith ein Schlüsselmoment im Spiel und wird mit den ihr zugehörigen Leitmotiv begleitet.

Key Sounds

Key Sounds sind Hybride aus Symbolen und Leitmotiven. Sie sind symbolische Klänge, die erst im Film oder Spiel eine Bedeutung erhalten und nicht, im Gegensatz zu Symbolen, auf außerfilmischen Traditionen basieren. Key Sounds müssen klar als solche zu erkennen sein, indem sie oft wiederholt werden und mit der Grundthematik zusammenhängen.

Ein Beispiel wäre das Geräusch der Helikopterpropeller in Apocalypse Now, das kurz vor dem kriegerischen Angriff auf ein vietnamesisches Dorf sehr prominent zu hören ist und die bevorstehende Gefahr symbolisiert.

Im Spiel Witcher 3 wird die Ankunft der sogenannten „Wilden Jagd“, einer Truppe von böswilligen Elfen, die gleichzeitig die Antagonisten des Spiels sind, klanglich und visuell durch schwergepanzerte berittene Krieger dargestellt. Im Spiel sind diese auf der Jagd nach der Ziehtochter Ciri des Protagonisten Geralt. Genau genommen hat die „Wilde Jagd“ den Ursprung in der nordischen Mythologie, doch die wenigsten Rezipienten sind heutzutage mit dieser Sage vertraut und werden erst im Laufe des Spiels damit vertraut. Jedenfalls stellen die Klänge der galopierenden Pferde und der schweren metallischen Rüstungen Key Sounds dar, die im Laufe des Videospiels an mehreren Stellen auftreten.



Quellen:

[1] https://phaidra.fhstp.ac.at/open/o:1779

Die Wirkung von Game Sound auf Emotionen (Teil 2: Ursprung, Typen & Realismus)

Im letzten Teil haben wir erfahren, dass Menschen auch bei fiktiven Ereignissen Emotionen empfinden, indem die Spielwelt und deren Zusammenhänge von dem Spieler als die Realität angenommen werden und dieser sich somit in die Spielsituation hineinversetzen kann.

Wo liegt der Ursprung menschlicher Emotionen?

Zunächst stellt sich jedoch die Frage, wieso klangliche Ereignisse überhaupt emotionale Wirkungen bei Menschen erzeugen und was die Ursprünge dafür sind. Verschiedene Theorien nennen folgende Gründe:

  • evolutionsbedingte menschliche Instinkte (z.B. um Gefahren zu erkennen)
  • Mere-Exposure-Effekt: Wiederholte Wahrnehmung einer ursprünglich neutral beurteilten Sache führt zu Vertrautheit und somit zu positiver Bewertung
  • Verarbeitungsflüssigkeit: leicht zu verarbeitende Wahrnehmungsreize werden als positiv bewertet
  • Erinnerungen und Assoziationen
  • Wahrnehmung des menschlichen Körpers, vor allem des eigenen Stimmorgans
  • kulturbedingte angeeignete Erwartungshaltungen

Es wird davon ausgegangen, dass, vor allem im Hinblick auf musikalische Hörgewohnheiten, neben den im Laufe des Lebens angelernten Erwartungen, eine Kombination aus evolutionsbedingten Relikten, psychologischen und physiologischen Phänomenen die Gründe dafür sind, wieso Emotionen bei der Wahrnehmung von Klängen entstehen.

Typen von Emotionen

Bei der Kategorisierung von Emotionen betrachten wir zunächst das Medium Film. Dort unterteilt der Forscher Ed S. Tan Emotionen in zwei grundlegende Typen. Empathische Emotionen und nicht-empathische Emotionen. Empathische Emotionen werden durch die Handlung der Geschichte erzeugt und erfordern die Rolle des Beobachters des Zuschauers, der einen anderen und meist vielseitigeren Einblick in die Geschichte hat, als die Protagonisten. Nicht-empathische Emotionen werden hingegen durch einfache Sinneswahrnehmungen erzeugt, beispielsweise bei der Betrachtung einer schönen Landschaft oder eines/einer attraktiven Schauspieler/in.

In Videospielen hat der Spieler, im Gegensatz zum Film, eine aktive Rolle, indem er einen Protagonisten oder eine Partei steuert, womit die Vermutung nahe liegt, dass empathische Emotionen nicht empfunden werden können. Allerdings stellt man fest, dass auch diese Emotionen, trotz des einseitigen Einblicks in die Handlung, angesprochen werden. Zusätzlich kommt ein weiterer Emotionstyp hinzu, der Gameplay Emotion genannt wird und spielbedingter Natur ist. Es entsteht eine Verbundenheit zum Protagonisten aus dem Grund, zusätzlich zur gefühlten Empathie, weil der Protagonist ein Werkzeug darstellt, mit welchem das Ziel des Spiels erreicht werden muss. Der Spieler trägt Sorge dafür, dass dieses Ziel gelingt und widmet sich dementsprechend den Fähigkeiten und der Optimierung des Protagonisten.

Man kann nun ableiten, dass auch Sound einen Einfluss auf die verschiedenen Emotionstypen hat. Zusätzlich dazu müssen Klänge noch im Kontext des Spiels betrachtet werden. Diese werden grundsätzlich in zwei Kategorien eingeordnet.

Diegetischer Ton

Dieser bezeichnet Klänge, die in der Spielwelt stattfinden und somit, zusätzlich zum Visuellen, den Realismus und die Glaubwürdigkeit unterstützen. Diese sprechen im Fall von Umgebungsgeräuschen beim Spieler klassischerweise nicht-empathische Emotionen an. Gleichzeitig werden diegetische Klänge auch bewusst als Spielelement genutzt und aktivieren somit Gameplay Emotionen. Typisch hierfür ist beispielsweise in Spielen der Thief- oder Quake-Serie das Schleichen, das als grundlegendes taktisches Element genutzt wird, um vom Gegner nicht gehört zu werden.

Nicht-diegetischer Ton

Das sind Klänge, die nicht Teil der Spielwelt sind. Sie können jedoch Teil der Spielmechanik sein und Gameplay Emotionen erzeugen, wie z.B. User Interface-Sounds. Diese werden häufig so gestaltet, dass sie sich jedoch in das Setting der Spielwelt fügen und nicht als unpassend wahrgenommen werden. Weitere klassische nicht-diegetische Klänge sind der Soundtrack, der die emotionale Wirkung des Spiels unterstreicht und sogar steigert oder manchmal auch eine Erzählerstimme, die als narratives Element genutzt wird.

Realismus als Garant für Glaubwürdigkeit?

Unter der Annahme, dass Realismus ein Kriterium für die emotionale Zugänglichkeit zum Spiel ist, entsteht allerdings das Problem, dass diegetische und nicht-diegetische Töne einen grundsätzlichen Widerspruch darstellen. In der realen Welt hört man, in der Regel, nicht ununterbrochen ein Orchester im Hintergrund spielen, während man im Garten einer Tätigkeit nachgeht. Ein Soundtrack lässt dennoch ein Spiel nicht weniger realistisch wirken. Zwei Faktoren sind für dieses Phänomen zuständig:

Ein entscheidender Punkt, ist die Gleichzeitigkeit von Bild und Ton. Es muss also eine zeitliche Übereinstimmung gegeben sein, damit die beiden Elemente als eine Einheit gesehen werden können. Ein berühmtes Beispiel, welches dieses Prinzip veranschaulicht und in gewisser Weise eine Extremform darstellt, wäre das sogenannte Mickey-Mousing, bei welchem, passend zum Bild, Soundeffekte durch musikalische Motive ersetzt werden. Im Fall von Musik muss das so gesehen werden, dass ein Musikstück zeitlich passend zu einem Ereignis erklingt. Also wenn eine traurige Szene im Spiel erscheint, sollte auch die Musik auf dieses Ereignis reagieren und traurige Emotionen hervorrufen.

Abgesehen vom Mickey-Mousing sollte bei Soundeffekten außerdem gegeben sein, dass diese die grundsätzlichen klanglichen Charakteristiken des realen Gegenstücks besitzen. Diese Charakteristiken werden durch einen Durchschnitt klanglicher Eigenschaften verschiedener Objekte des gleichen Typs definiert. Jede Eisenstange klingt beim Aufprall auf dem Boden je nach Länge, Breite, Dichte des Materials unterschiedlich, dennoch haben alle Eisenstangen eine gewisse klangliche Grundcharakteristik. Diese gilt es als Sound Designer zu reproduzieren, wenn der Klang als glaubwürdig eingestuft werden soll. Dabei spielt es keine Rolle, auf welche Weise diese Klänge erstellt werden. Häufig werden viele Klänge so gestaltet, dass sie spektakulärer klingen und eine dramatischere Wirkung haben als in der Realität.

Realismus muss in Videospielen also als etwas Relatives gesehen werden. Er gewährleistet zu einem gewissen Grad Glaubwürdigkeit und erlaubt es dem Spieler die Handlung ernst zu nehmen und einen emotionalen Bezug zu dieser aufzubauen. Es muss allerdings auch beachtet werden, dass viele Klänge in Videospielen einen Nutzen haben, die Teil der Spielmechanik sind. Diese haben Vorrang und dürfen durchaus den Grad des Realismus einschränken, wenn damit das Gameplay verbessert wird. Trotzdem sollten diese Klänge passend gestaltet sein, damit sie in einem zusammenhängenden Kontext mit der Spielwelt und der Geschichte gesehen werden können.

Quellen:

https://www.researchgate.net/publication/233406205_Psychologically_motivated_techniques_for_emotional_sound_in_computer_games

https://www.researchgate.net/publication/224927551_Meaningful_Noise_Understanding_Sound_Effects_in_Computer_Games

Die Wirkung von Game Sound auf Emotionen (Teil 1: Emotionen & Diegetisierung)

Sound trägt in audio-visuellen Medien eine maßgebliche Rolle an der Beeinflussung der emotionalen Stimmung des Konsumenten. Wer bereits einen Filmausschnitt ohne oder mit einer anderen Tonspur gesehen hat, weiß, dass dieser, abseits eines fehlenden oder verfälschten Inhalts, auch eine vollkommen andere Wirkung erzielt. In Videospielen trifft dies auch zu. Der wesentliche Unterschied ist, dass ein Film ein lineares Medium ist, bei welchem der Ablauf, die Reihenfolge der Handlung und somit auch die Länge der Sequenzen bestimmt sind und der Zuschauer keinen Einfluss darauf hat. Videospiele hingegen sind überwiegend nicht linear aufgebaut und der Spieler kann diverse Parameter hinsichtlich Handlung, Reihenfolge, und zeitlicher Dauer selbst bestimmen. Das hat zur Folge, dass klangliche Elemente im Spiel diesen Anforderungen gerecht werden müssen und somit auch dynamisch abrufbar sind. Dieses Prinzip wird adaptive bzw. dynamic Game Sound bezeichnet.

Die meisten Studien und Theorien, die sich mit der emotionalen Wirkung von Sound beschäftigen, beziehen sich auf lineare Medien. Da dies aber in der Form nicht auf Videospiele übertragbar ist, müssen Erkenntnisse aus anderen Themenfeldern, wie der Psychologie, der Musikwahrnehmung, Film-Sound und den interaktiven Medien hinzugezogen werden.

Zunächst einmal gilt es den Begriff der Emotion zu klären. Keith Oatley und Jennifer M. Jenkins beschreiben Emotionen wie folgt:

  • Emotionen entstehen bei Personen (bewusst oder unbewusst) bei der Beurteilung eines bedeutsamen Ereignisses im Zusammenhang eines Ziels oder einer Situation.
  • Der Kern einer Emotion ist die Bereitschaft zu handeln. Emotionen beeinflussen das Handeln, indem sie eine gewisse Bandbreite an möglichen Handlungsoptionen liefern und einen Sinn für die Notwendigkeit bestimmen.
  • Eine Emotion wird als eine distinktive Art von mentalen Zuständen wahrgenommen, begleitet oder gefolgt von körperlichen Veränderungen, Ausdrücken oder Handlungen

Emotionen sind also verantwortlich für die Beurteilung von Situationen und suggerieren die Art und Notwendigkeit von Handlungen und Reaktionen.

Wie ist es nun möglich, dass der Zuschauer beim Film oder der Spieler beim Videospiel Emotionen fühlt, obwohl dieser nur Beobachter ist und das Gesehene eine Fiktion ist, die man nicht real erlebt? Der Psychologe Nico H. Frijda geht davon aus, dass Emotionen bei fiktiven Ereignissen entstehen, sobald das menschliche Gehirn die Fiktion als eine Realität annimmt. Es entsteht quasi eine mentale Illusion, bei welcher das Medium, also der Film oder das Videospiel, ausgeblendet wird und die Bedingungen und Zusammenhänge der erzählten Welt plausibel erscheinen und man sich somit in die Charaktere hineinversetzen kann. Dieses Phänomen heißt Diegetisierung. Dieses Phänomen wird auch willentliche Aussetzung der Ungläubigkeit genannt

Quellen:
https://www.researchgate.net/publication/233406205_Psychologically_motivated_techniques_for_emotional_sound_in_computer_games

https://filmlexikon.uni-kiel.de/index.php?action=lexikon&tag=det&id=122#:~:text=Die%20Diegese%20ist%20das%20Produkt,der%20erz%C3%A4hlten%20Welt%20aufzubauen%20etc%20.

Die Aussetzung der Ungläubigkeit von Peter Jackson

Frijda, N. H. 1986. The emotions. Cambridge University.

Oatley, K. and Jenkins, J. 1996. Understanding Emotion. Blackwell Publishing.

Sound Design in Videospielen

Sound Design ist ein wichtiger Bestandteil von Videospielen und dient mehreren Funktionen. Zum einen trägt es zur emotionalen und inhaltlichen Untermalung des Spiels bei. Es geht Hand in Hand mit den visuellen und dramaturgischen Elementen im Spiel und bringt den Spieler dazu, sich in die Spielsituation hineinversetzen zu können und diese glaubwürdig wirken zu lassen. Zum anderen kann Game Sound zu einem interaktiven Spielelement werden und Hinweise darauf geben, wie ein Spieler handeln soll. Beispielsweise hört man die Spielfigur im angestrengten Ton stöhnen, wenn seine Ausdauer ausgeschöpft ist und suggeriert dem Spieler, dass die Spielfigur bald nicht mehr laufen kann und er somit das Tempo verringern soll.

Im Gegensatz zu Sound Design im Film, das einer linearen Struktur folgt, ist das Sound Design in Videospielen interaktiv und reagiert auf die Handlungen des Spielers. Das ist erforderlich, da in Videospielen der Spieler nicht ein passiver Beobachter ist, sondern selbst eine aktive Rolle einnimmt und somit auch bestimmt, in welcher Reihenfolge und welchem zeitlichen Abstand Aktionen durchgeführt werden. Um die fiktive Spielwelt glaubwürdiger zu gestalten, wird auch diese adaptiv gestaltet. Dazu gehört unter anderem die Anpassung von Character-Sounds an die örtliche Umgebung. Die Geräusche von Schritten klingen, je nach Beschaffenheit des Untergrunds, unterschiedlich und die räumliche Wahrnehmung eines Klanges verändert sich mit der Größe und den Eigenschaften des Raumes, in welchem sich die Spielfigur befindet. Es gibt unzählig viele weitere Möglichkeiten, wie die Spielwelt klanglich adaptiv gestaltet wird.

Aus diesem Grund wurden dafür spezielle Werkzeuge entwickelt, die sich auf die Verarbeitung und Implementierung von Klängen zu adaptiven Elementen fokussieren. Die größten Vertreter sind FMOD und Wwise.

Ebenso wie das Sound Design ist auch der Soundtrack in modernen Videospielen adaptiv und passt sich den Gegebenheiten an. Beispielsweise wird ein neues Musikstück abgespielt, wenn der Spieler ein neues Spielgebiet betritt.

Gleichzeitig werden aber auch Musikstücke in mehrere „Layer“ eingeteilt, die je nach Spielsituation, zum Grund-Layer hinzugefügt werden können. Das gibt den Entwicklern die Möglichkeit ein Musikstück in mehrere Stimmungs- und Spannungsgrade einzuteilen, um sich dem Spielgeschehen auf eine subtile Art anzupassen.

Sound Design kann also sowohl die Schaffung von glaubwürdigen Klangkulissen für fiktive Spielwelten sein, zu die der Spieler einen emotionalen Bezug aufbaut, als auch die Gestaltung einzelner Klangelemente, die der Spielmechanik dienen und somit auch Teil des interaktiven Spiels werden. Die technischen Möglichkeiten dazu sind quasi grenzenlos.

Quellen:
https://www.researchgate.net/publication/233406205_Psychologically_motivated_techniques_for_emotional_sound_in_computer_games