Wie wir lernen – Ein Auszug aus Psychologie, Pädagogik und Neurowissenschaft 3/3

Wie fördert man lernen?

Die folgenden acht Eigenschaften mögen einen nicht überraschen, jedoch möchte ich mich damit beschäftigen, warum diese so wichtig sind und wie wir sie für die Gestaltung von Lehranwendungen anwenden können.

Abb.1 | Multimodales Lernen: Lernen mit mehreren Sinnen

1. Mulitmodales Lernen
Um neues Wissen gut abrufbar abzuspeichern, empfiehlt es sich, verschiedene Modis anzusprechen. Beispielsweise einen gesprochenen Vortrag durch bildhafte Abbildungen zu unterstützen. Hierbei werden mehrere Assoziationsketten und Verknüpfungen zu einer Information gelegt. Da das Ansprechen von mehreren Sinnesorganen nach [1] auch eher in Erinnerung bleibt, ist es sinnvoll für die Gestaltung von Für interaktive Anwendungen

Abb.2 | Semantische Einbettung: An bereits erlerntem Wissen anknüpfen

2. Semantische Einbettung
Da das Gehirn als semantisches Netzwerk aufgebaut ist, ist es hilfreich, wenn verschiedene Queues auf Wissen zugreifen, bzw. wenn mehrere Verknüpfungen zu einer Information führen. Bereits vorhandenes Wissen, dient hierbei als Gedankenstütze für neu erlerntes. In diesem Netzwerk können neue Inhalte an zuvor erlerntem angeknüpft werden. Es macht somit Sinn, neue Themen mit wohlmöglich bekanntem Wissen einzuleiten.

Abb. 3 | Emotionen: Fröhliche, gelassene Stimmung wirkt sich positiv auf Lernerfolg aus

3. Emotionen
Emotionen haben eine starke Auswirkung auf unsere kognitiven Fähigkeiten, sowie Wahrnehmung, Aufmerksamkeit, Lernen, Gedächtnis und das Lösen von Problemen. Sowohl positive wie auch negative Emotionen können Lernförderlich sein. Beispielsweise wirken sich Belohnungen sowie auch milder Druck und Bestrafungen auf den Lernerfolg aus.

Abb. 4 | Tiefe der Verarbeitung: Je elaborierter das Thema behandelt wird, desto gefestigter ist die Information abrufbar

4. Tiefe der Verarbeitung
Je tiefer etwas gelernt wird, also wie häufig, wie elaboriert, wie detailliert, desto eher ist die neu gewonnene Information effizient abrufbar. Wenn Verbindungen zu anderen verwandten Themen hergestellt werden und das neu erlernte im Kontext gesehen wird, wird der Effekt verstärkt, da es zu einer tieferen Auseinandersetzung kommt.

Abb. 5 | Relevanz: Bezieht sich auf allgemeine oder persönliche Interesse

5. Relevanz
Das angestrebte Wissen sollte eine gewisse persönliche Relevanz haben, wie beispielsweise das Interessenfeld des Nutzers oder eine allgemeine Relevanz beinhalten.

Quellen
[1] Max-Planck Gesellschaft: Lernen mit allen Sinnen, 05.02.2015
https://www.mpg.de/8930937/vokabel-lernen-gesten

Abb.1 | https://blog.orselli.net/2020/11/rewind-are-exhibit-timelines-so-boring.html

Abb.2 | https://images.adsttc.com/media/images/52cd/fd12/e8e4/4e34/3700/002b/large_jpg/11053_00_MOHAI_Center_For_Innovation_N18.jpg?1389231329

Abb. 3 | http://everyoneishappy.com/

Abb. 4 | https://whitney.org/events/sound-accumulation

Abb. 5 | https://i.pinimg.com/564x/39/19/b3/3919b3b7470caad88293583b4f7c3940.jpg

Wie wir lernen – Ein Auszug aus Psychologie, Pädagogik und Neurowissenschaft 2/3

Das Gedächtnis

Beim Gedächtnis lautet einer der zentralen Erkenntnisse, dass je öfter gelernt wird, desto schneller wird (dieselbe) Sache erlernt. Das heißt, je öfter eine Tätigkeit getan wird oder eine Information abgerufen wird, desto schneller und präziser ist sie verfügbar.

Man spricht in der Psychologie von einem Mehrspeichermodell, bei dem man von mehreren Gedächtnisarten ausgeht [1]. Wenn ein Reiz registriert wird, nimmt das sensorische Gedächtnis (Ultra-Kurzzeitgedächtnis) dies auf. Das sensorische Gedächtnis ist die Verbindung zwischen Wahrnehmung und Gedächtnis und läuft unbewusst ab. Es handelt sich teils um flüchtige Sinneseindrücke, die nur kurz zwischengespeichert werden. Es kommt im weiteren Schritt zur Filterung und Differenzierung der verschiedenen einwirkenden Reize. Die gefilterten Sinneseindrücke gelangen dann zum Arbeitsgedächtnis bzw. Kurzzeitgedächtnis. Dies ist der erste bewusste Teil unseres Gedächtnisses. Fünf bis neun Informationseinheiten können hier für eine kurze Zeit gespeichert werden. Für die Aufrechterhaltung solcher Information spielt die Aufmerksamkeit eine wichtige Rolle. Dies kann leicht durch Störungen, wie beispielsweise Geräusche, gestört werden. Werden Elemente aus dem Kurzzeitgedächtnis mit genug Aufmerksamkeit vollzogen oder oft genug wiederholt, kommt es zur Speicherung im Langzeitgedächtnis [4].

Die Reise vom Kurzzeitgedächtnis zum Langzeitgedächtnis (Konsolidierung)

Die Festigung von Gedächtnisinhalten wird Konsolidierung genannt und beschreibt die Bewegung von Kurzzeitinformation vom Hippocampus zum Cortex. Hier werden Gedächtnis-Engramme auf molekularer Ebene von Proteinen festgelegt [3]. Engramme sind Veränderungen des Nervengewebes zur Fixierung von Gelerntem. Es werden quasi „Bahnen“ in der Hirnstruktur gelegt, die später willkürlich oder unwillkürlich abrufbar sind und die physiologische Grundlage des Gedächtnisses bilden [2]. Dieser Vorgang findet nicht nur einmal bei der Einprägung statt, sondern immer wieder erneut, wenn die Erinnerung aus dem Langzeitgedächtnis abgerufen wird. Durch die erneute bzw. immer wieder auftretende Konsolidierung kann der Gedächtnisinhalt zwar gefestigt, jedoch auch verfälscht werden. Dies führt dazu, dass im Laufe der Jahre immer mehr Erinnerungen unbewusst abgewandelt werden. Ebenso sind neu gebildete Erinnerung anfälliger für Störungen und können leichter in Vergessenheit geraten [3].

Langzeitgedächtnistypen

Wenn es zu einer Speicherung im Langzeitgedächtnis kam, können diese Inhalte in verschiedene Kategorien unterteilt werden. Generell gibt es zwei Langzeitgedächtnistypen, nämlich das deklarative (explizite) und das prozedurale (implizite) Gedächtnis. Diese Typen sind in verschiedenen Gehirnarealen abgespeichert und dadurch physisch voneinander abgetrennt. Kommt es beispielsweise zu einer Beschädigung eines Gehirnareals, kann das betroffene Wissen nicht mehr abgerufen werden, während die anderen Inhalte problemlos genutzt werden können. Die zwei expliziten passieren bewusst, während die zwei impliziten Gedächtnistypen unbewusst passieren [5]:

  1. Episodisches Gedächtnis (explizit, bewusst):
    Hier sind biografische Daten abgespeichert, wie beispielsweise die Erinnerung an einen Urlaub, Erlebnisse mit Freunden oder unseren ersten Schultag.
  2. Semantisches Gedächtnis (explizit, bewusst):
    Erlernte Fakten, wie beispielsweise „die Hauptstadt von Frankreich ist Paris“, die Geburtsdaten der Eltern, Vokabeln usw.
  3. Prozedurales Gedächtnis (implizit, unbewusst):
    Das Gedächtnis für Bewegungsabfolgen wie Laufen, Fahrradfahren, Autofahren usw.
  4. Perzeptuelles Gedächtnis (implizit, unbewusst):
    Dieser Gedächtnistyp ist eng mit dem Prozeduralen Gedächtnis verbunden. Es hilft uns bekannte Personen, Orte, Gegenstände wieder zu erkennen.

Das Gedächtnis ist eine subjektive Repräsentation der objektiven Welt. Es kommt schnell zu Abweichungen, Überschreibungen oder Störungen. Je nach Queue werden Inhalte verschieden abgerufen. So kommt es je nach Wording oder Kontext zu verschiedenen Ergebnissen und ist somit stark fehlerbehaften. Beispielsweise könnte man beim schnellen Hinsehen eine Maus mit einem Maulwurf verwechseln, wenn man zuvor einen Maulwurfshügel gesehen hat.

Mit dem Wissen, wie Information verarbeitet und abgespeichert wird, möchte ich Verständnis dafür erlangen, wie man Inhalte als Designer, von beispielsweise Lernanwendungen, gezielter vermitteln kann. Nachdem erarbeitet wurde, was im Gehirn grob passiert, wenn Dinge erlebt und erlernt werden, kann betrachtet werden, welche äußeren und inneren Gegebenheiten diesen Vorgang leichter in Gang setzen. Dies soll helfen um aus dem flüchtigen Bedienen einer Anwendung, eine langanhaltende Erinnerung bzw. Wissen zu formen.

Quellen
[1] Stangl, W.: Mehrspeichermodelle – Online Lexikon für Psychologie und Pädagogik, 27.07.2021
https://lexikon.stangl.eu/5117/mehrspeichermodelle

[2] Spektrum.de: Engramm – Lexikon der Neurowissenschaft, 19.04.2019
https://www.spektrum.de/lexikon/neurowissenschaft/engramm/3495

[3] Spektrum.de: Konsolidierung – Lexikon der Neurowissenschaft, 14.01.2019
https://www.spektrum.de/lexikon/neurowissenschaft/konsolidierung/6663

[4] Ratgeber Neuropsychologie: Einteilung des Gedächtnisses, 01.03.2018
https://www.ratgeber-neuropsychologie.de/gedaechtnis/gedaechtnis2.html

[5] Die Ebenen des Gedächtnisses, 30.07.2017
https://www.gehirnlernen.de/lernen/grundlagen-des-lernens/ebenen-des-ged%C3%A4chtnisses/

Wie wir lernen – Auszug aus Psychologie, Pädagogik und Neurowissenschaft 1/3

Um Inhalte zu gestalten, die Information lehren oder eine Botschaft vermitteln sollen, müssen wir verstehen, wie der Mensch sich neues Wisseneurn aneignet. Um beispielsweise das Langzeitgedächtnis anzusprechen, müssen gewisse Gegebenheiten vorhanden sein. Im Interview mit meiner Freundin Ashley Huffer, die derzeit ihren Master in Psychologie in Freiburg absolviert, konnte ich ein wenig in das Thema einfinden und es mit eigener Recherche erweitern.

In der Psychologie muss zwischen Lernen und Gedächtnis unterschieden werden. Zwar hängen die beiden Dinge stark miteinander zusammen, müssen jedoch getrennt betrachtet werden.

Das Lernen

Die Definition vom Lernen, ist eine relativ dauerhafte Verhaltensänderung, die auf Erfahrung zurückgeht [1]. Während das Gedächtnis in drei Hauptprozesse untergliedert wird, worauf ich später weiter eingehen werde. Man unterscheidet beim Lernen zwischen dem assoziativen Lernen, wozu die klassische Konditionierung und die operante Konditionierung gehört, sowie zwischen dem Beobachtungslernen. Generell wird beim Assoziativen Lernen entweder ein Reiz (klassische Konditionierung) oder eine Reaktion mit den Folgen (operante Konditionierung) assoziiert.

Klassische Konditionierung
Hier werden zwei Stimulus miteinander verknüpft.  Man spricht dabei auch von einer Reiz-Reiz-Assoziation. Ein Beispiel wäre einen Hund darauf zu konditionieren, dass nach einem Glockenklingen, der Hund sein Essen bekommt. Anfangs wird das Glockenläuten vor dem Essen keinerlei Bedeutung für den Hund haben. Nach einer Weile sind Verhaltens Änderungen zu finden, da der Hund lernt, die Glocke mit dem Essen zu assoziieren. Somit wird ein Stimulus, nämlich ein Ton mit dem Stimulus vom Essen miteinander verknüpft [2]. Ein persönliches Beispiel wäre, dass ich beim Lesen unglaublich oft einschlafe. Da ich über viele Jahre meistens nur am Abend lese, habe ich mich selbst darauf konditioniert, vom Lesen müde zu werden. Das ist nicht immer praktisch.

Abb. 1 | Mögliches Beispiel zur klassischen Konditionierung für interaktive Anwendungen: Vibration zur Fehlermeldung oder Bestätigung einer Aktion

Die klassische Konditionierung kann für interaktive Anwendungen oder in der Informationsgestaltung verschieden angewendet werden. Beispielsweise wäre bereits das Vibrieren eines Gerätes in Verbindung mit einer Aktion (beispielsweise ein Error) ist meiner Meinung nach in interaktiven Anwendungen oder Informationsgestaltung eher schwierig anzuwenden, da diese „trainiert“ werden muss. Denkbar wäre eine Umsetzung in einem Serios Game oder einer Anwendung, die über einen längeren Zeitraum bedient werden kann. Ein typisches Beispiel aus dem Design-Bereich wäre jedoch die Gestaltung von Werbung. Hier werden oftmals neutrale Objekte, wie beispielsweise ein Parfüm mit gewissen Eigenschaften verknüpft. Ein Parfüm, das für den Nutzer keinerlei Bedeutung hat, kann durch Werbung mit Eigenschaften wie Erotik, Glück, Zufriedenheit und Wohlbefinden verknüpft werden. Die Bedeutung von kontextueller Information übertragen sich in Werbungen auf das ursprünglich neutrale Produkt.

Operante Konditionierung
Bei der operanten Konditionierung wird eine Reaktion mit einem Stimulus verknüpft. Es wird erlernt, dass eine Verhaltensweise eine bestimmte Konsequenz mit sich zieht. Dies bezieht sich auf negative Konsequenzen, wie eine Strafe, jedoch auch für positive Ereignisse. Wenn mein Verhalten in einer gewissen Situation eine positive Konsequenz ermöglicht, dann werde ich in der gleichen Situation auch wieder das gleiche Verhalten aufweisen. Eine Verhaltensweise kann also durch Belohnung verstärkt werden und durch Bestrafung abgeschwächt werden [2].

Abb. 2 | Ein oft genutztes Beispiel zur operanten Konditionierung im Ausstellungsraum wäre die Gamification von erlernbaren Informationen

Das Modell der operanten Konditionierung findet sich in den Grundsätzen der Gamification wieder. Hier werden bestimmte Ereignisse belohnt oder bestraft, um ein gewisses Ziel zu erreichen. Im Bereich der Wissensvermittlung kann dies gut umgesetzt werden, indem man den Nutzer beispielsweise bei einem Quiz Punkte für richtige Antworten gibt.

Quellen
[1] Springer Lehrbuch Psychologie: Wie lernen wir?
https://lehrbuch-psychologie.springer.com/content/myers-kapitel-8-lernen

[2] Springer Lehrbuch Psychologie: Assoziatives Lernen
https://lehrbuch-psychologie.springer.com/sites/default/files/atoms/files/leseprobe_lernen_motivation.pdf

Abb.1 | https://retaildesignblog.net/2015/10/18/hanergy-clean-energy-exhibition-center-by-triad-china-beijing-china/

Abb. 2 | https://www.behance.net/gallery/17501743/Istanbul-O-Matik

Print experiment: “reality is analog”, part VI–repro photography of print edition

After the printrun and final cut, I documented the print edition with a repro camera to find out about the fluctuation of the printing process.

The animated clip below shows that besides minimal changes of the position (also possible because of not 100% accurate positioning for repro photography), the print result of each poster varies slightly.

Differences in color application, but also minor flaws like particles on the printing rollers or inked blind material (in German printing jargon refered to as “Spieß”) that touches the paper in the print run, show a range of stuff that may happen during analog print production.

example for print flaws in letterpress printing.
colour application can variy, especially in printing with letterpress materials. however color application can be adjusted during print run.

Of course, for high quality printing jobs print operators are aware of these mistakes and know how to avoid them.

Still, for the experiment, the flaws add to the topic. On the one hand it shows what parameters have to be taken account, while on the other side minor mistakes can be seen as coincidental effects, adding an individual and unique note to each of the posters. Besides these little imperfections underline the characteristics of analog products.

Haptic Branding - Alexander Moser - User Experience Design - Grafikdesign

Aktive vs. passive Haptik

Aktives haptisches Feedback basiert auf elektromechanischen Komponenten im Inneren von Geräten. Die häufigsten Anwendungen sind Gaming-Controller, die virtuelle Umgebungen simulieren, oder das Summen Ihres Smartphones. Anstatt ein Objekt aktiv zu erkunden, wird das haptische Feedback durch passive Erkundung/Körperkontakt wahrgenommen.

Überblick

Aktuell liegt das Hauptaugenmerk der Branche darauf, Bildschirminteraktionen und virtuelle Umgebungen greifbarer zu machen. Gleichzeitig macht die Materialwissenschaft große Sprünge bei der Veränderung physikalischer Eigenschaften von Objekten wie der Steifigkeit oder der Oberflächenstruktur. Aktives haptisches Feedback hat sich in der Unterhaltungselektronik und bei Alltagsgegenständen neben Smartphone-Anwendungen erst seit kurzem durchgesetzt. Die Liste zeigt unterschiedliche Anwendungsgebiete und verdeutlicht gleichzeitig die Schwierigkeit, gemeinsame Begriffe und Definitionen zu finden.

Taktile Displays

Technische Anwendungen lassen sich in zwei Bereiche unterteilen: Taktile und haptische Displays. Taktile Displays simulieren taktiles Feedback an den Benutzer, das in drei Arten von Eingaben an die Haut erfolgen kann: Vibration, statischer Druck, bei dem die Haut eingerückt wird, und seitliche oder tangentiale Hautdehnung.

Haptische Anzeigen

Haptische Displays simulieren kinästhetisches Feedback (= Force-Feedback) und lassen sich in resistives (Begrenzung der Bewegung des Benutzers) oder aktives Feedback (Unterstützung/Führung der Bewegung des Benutzers) unterteilen. Beispiele sind motorisierte Slider oder Zifferblätter wie der BMW iDrive. Haptische Anzeigen sind im Vergleich zu taktilen Anzeigen komplexer und erfordern leistungsstarke Aktoren sowie ein geschlossenes Regelsystem.

Alexander Moser
https://www.alexander-moser.at/

06 | Understanding the user part 1

Interview with a high school teacher

In my previous blog entry (“05 // Online interaction scenario: Experience Map”) I wrote about the protopersona Sophie which is based on a real person, her experiences  mixed with my observation. In order to widen my perspective and not only examining the students/university view I am really happy to had the chance to interview Damaris about her online teaching experiences a german high school teacher.

The first question I asked was how she experienced the transition from presence to online lessons. She described that teaching in the first lockdown (around march 2020) was really hard because of the missing software and also missing equipment of teachers and students. Teachers mostly had to hand out printed homework packages and wait for them to be handed in later on. These experiences lead to a better preparation for the second lockdown (december 2020 – may 2021). The school then provided tablet for teachers and rental laptop for students without a device. They could held their lesson via video conferences in the software ‘Jitsi’ and used the platform ‘DiLer’ (= Digitale Lernplattform) for communication and data exchange. Teachers took their time to learn the software by themselves, then teach the students and let them practice the tool  to handle it properly. The teachers also learned how to use a visualiser which is a document camera for digitally recording printed media. 

The learning platform ‘DiLer’ – Developed by a german highschool

Next I asked her if she had to change something of her presence lesson curriculum for the online teaching. Damaris told me, that she had to digitize most of her teaching material in the first place to make online teaching possible. This included not only scanning printed material but also rework existing material to make it suitable. Furthermore she had to reorganise some exercises because group or partner work were difficult to implement in the first lockdown (without online support) but also in the online environment. The communication with students and parents changed from mainly verbal to mostly written communication which took a lot of time. 

I also asked Damaris, if online teaching made something easier or harder for her as a teacher. She answered that sadly there was nothing that online lessons made teaching for her easy. She explained that it was really hard for her to get the control back she needs as an educator. She didn’t know if the student actually work and couldn’t properly evaluate their performances – especially things like oral grades. Her own workload was extended due to the fact that she had to check each student’s (home)work instead of just discussing results orally in the classroom. 

In regard of the class Damaris observed that the online lesson environment worked well for students who already have been very structured and good in the presence lessons. The ones who need more attention from teachers in presence lessons were mostly even more behind in the online teaching environment because they couldn’t handle their self-management. One really interesting fact was that one of the students who was a rather quiet person in presence class started to become more outgoing in the online lectures. Maybe the online environment gave this person kind of a ‘safe place’ to express herself.

The fifth question I asked was if Damaris could imagine a continuation of online lessons or parts of it in the corona-free future. She answered that online teaching/communication could have some advantages in the future. One examples she mentioned was the advantage for getting more easily in touch with parents and having the opportunity to provide parents consultations late in the evening. She also observed that the students were able to develop a lot of new media literacy through the online lessons, which should definitely be encouraged in the future. 

I was really surprised when she told me that the teachers only had a software introduction of online teaching but no coaching for the didactic part of it like for example how to compensate/replace group work. The digitization of high school lessons during the pandemic and also in general times seems to me a bit neglected by the government and lies in the responsibility of the educators. 

By researching about the software ‘DiLer’ I came across the article “5 Fragen – 5 Antworten” with Mirko Sigloch on the platform ‘wissensschule.de’. In this article the authors explains the approach of his school to cope with digitizing of/and education now and in the future. He is sure that the current way of teaching will be insufficient to prepare the students for complex problems in the future. By developing the platform DiLer he and his colleagues wanted to create an open source platform that combines good usability and flexibility for an ideal online school environment. After their launch and testing phase they recognized how many school have been in need for such a platform. They presented the software to the ministry of culture of the federal state Baden-Württemberg but they wanted to hold on to the old structures. In the course of the article, he finally gets very emotional about the current status of digitalisation in school that seems to be rather regressive. His call for a hybrid teaching structure makes sense from my point of view when reading, but I am sure that the advantages of the present teaching structure should not be neglected. This discussion definitely needs more research from my side and I don’t see myself in the responsibility to take a position in it (but I am still curious about the different voices about this boundary topic). I already had a quick look into the theses of Lisa Rosa which I want to examine in another blog post.

Links

https://www.digitale-lernumgebung.de/

https://www.wissensschule.de/5-fragen-5-antworten-schule_digital-mit-mirko-sigloch/

https://shiftingschool.wordpress.com/about/

ML Sample Generator Project | Phase 2 pt3

Convolutional Networks

Convolutional networks include one or more convolutional layers. These layers are typically used for feature extraction. Stacking multiple on top of each other often can extract very detailed features. Depending on the input shape of the data, convolutional layers can be one- or multidimensional, but are usually 2D as they are mainly used for working with  images.  The  feature extraction can be achieved by applying filters to the input data. The image below shows a very simple black and white (or pink & white) image with a size 3 filter that can detect vertical left-sided edges. The resulting image can then be shrinked down without losing as much data as reducing the original’s dimensions would.

2D convolution with filter size 3 detecting vertical left edges

In this project, all models containing convolutional layers are based off of WavGAN. For this cutting the samples down to a length of 16384 was necessary, as WavGAN only works with windows of this size. In detail, the two models consist of five convolutional layers, each followed by a leaky rectified linear unit activation function and one final dense layer afterwards. Both models were again trained for 700 epochs.

Convolutional Autoencoder

The convolutional autoencoder produces samples only in the general shape of a snare drum. There is an impact and a tail but like the small autoencoders, it is clicky. In contrast to the normal autoencoders, the whole sound is not noisy though but rather a ringing sound. The latent vector does change the sound but playing the sound to a third party would not result in them guessing that this should be a snare drum.

Ringy conv ae sample
GAN

The generative adversarial network worked much better than the autoencoder. While still being far from a snare drum sound, it produced a continuous latent space with samples resembling the shape of a snare drum. The sound itself however very closely resembles a bitcrushed version of the original samples. It would be interesting to develop this further as the current results suggest that there is just something wrong with the layers, but the network takes very long to train which might be due to the need of a custom implementation of the train function.

Bitcrushed sounding GAN sample

Variational Autoencoder

Variational autoencoders are a sub-type of autoencoders. Their big difference to a vanilla autoencoder is the encoder’s last layer, the sampling layer. With this, variational autoencoders always provide a continuous latent space, which is much better for generative models than just to sample from what has been provided. This is achieved by having the encoder output two different vectors instead of one: one for standard deviation and one for the mean. This provides a distribution rather than a single point, leading to the decoder learning that an area is responsible for a feature and not a single sample.

Training the variational autoencoder was especially troublesome as it required a custom class with it’s own train step function. The difficulty with this type of model is that the right mix between reconstruction loss and kl loss has to be found, otherwise the model produces unhelpful results. The currently trained models all have a ramp up time of 30,000 batches until full effect of the kl loss. This value gets multiplied by a different actor depending on the model. The trained versions are with a factor of 0.01 (A), 0.001(B), as well as 0.0001(C). Model A produces a snare drum like sound, but is very metallic. Additionally instead of having a continuous latent space, the sample does not change at all. Model B produces a much better sample but still does not include much changes. The main changes are the volume of the sample as well as it getting a little bit more clicky towards the edges of the y axis. Model C has much more different sounds, but the continuity is more or less not present. In some areas the sample seems to get slightly filtered over one third of the vector’s axis but then rapidly changes the sound multiple times over the next 10%. But still, out of the three variational autoencoders model C produced the best results.

VAE with 0.01 contribution (A) sample
VAE with 0.001 contribution (B) sample
VAE with 0.0001 contribution (C) sample

Next Steps

As I briefly mentioned before, this project will ultimately run on a web server which means the next steps will be deciding how to run this app. Since all of the project has been written in python so far Django would be a good solution. But since TensorFlow offers a JavaScript Library as well this is not the only possible way to go. You will find out more about this in the next semester.

ML Sample Generator Project | Phase 2 pt2

Autoencoder Results

As mentioned in the post before I have trained nine autoencoders to (re)produce snare drum samples. For easier comparison I have visualized the results below. Each image shows the location of all ~7500 input samples.

Rectified Linear Unit
Small relu ae
Medium relu ae
Big relu ae

All three graphics portray how the samples are mostly close together but some are very far out. A continuous representation is with all three models not possible. Reducing the latent vector’s maximum on both axes definitely helps, but even then the resulting samples are not too pleasing to hear. The small network has clicks in the beginning and generates very silent but noisy tails after the initial impact. The medium network includes some quite okay samples but moving around in the latent space often   produces   similar  but  less   pronounced issues as the small network. And the big network produces the best sounding samples but has no continuous changes.

Clicky small relu sample
Noisy medium relu sample
Quite good big relu sample
Hyperbolic Tangent
Small tanh ae
Medium tanh ae
Big tanh ae

These three networks each produce different patterns with a cluster at (0|0). The similarities between the medium and the big network lead me to believe that there is a smooth transition between random noise, to forming small clusters, to turning 45° clockwise and refining the clusters when increasing the number of trainable parameters. Just like the relu version, the reproduced audio samples of the small network contain clicks. The samples are however much better. The medium sized network is the best one out of all the trained models. It produces  mostly  good  samples  and has a continuous latent space. One issue is however that there are still some clicky areas in the latent space. The big network is the second best overall as it mostly lacks a continuous latent space as well. The produced audio samples are however very pleasing to hear and resemble the originals quite well.

Clicky small tanh sample
Close-to-original medium tanh sample
Close-to-original big tanh sample
Sigmoid
Small sig ae
Medium sig ae
Big sig ae

This group shows a clear tendency to cluster up the more trainable parameters exist. While in the above two groups the medium and the big network produced better results, in this case the small network is by far the best. The big network delivers primarily noisy audio samples and the medium network very noisy ones as well but they are better identifiable as snare drum sounds. The small network has by far the closest sounds to the originals but produces clicks at the beginning as well.

Clicky small sigmoid sample
Noisy medium sigmoid sample
Super noisy big sigmoid sample

In the third part of this series we will take a closer look at the other models.

ML Sample Generator Project | Phase 2 pt1

A few months ago I already explained a little bit about machine learning. This was because I started working on a project involving machine learning. Here’s a quick refresh on what I want to do and why:

Electronic music production often requires gathering audio samples from different libraries, which, depending on the library and on the platform, can be quite costly as well as time consuming. The core idea of this project was to create a simple application with as few as possible parameters, that will generate a drum sample for the end user via unsupervised machine learning. The interface’s editable parameters enable the user to control the sound of the generated sample and a drag-and-drop space could map a dragged sample’s properties to the parameters. To simplify interaction with the program as much as possible, the dataset should only be learned once and not by the end user. Thus, the application would work with the models rather than the whole algorithm. This would be a benefit as the end result should be a web application where this project is run. Taking a closer look at the machine learning process, the idea was to train the network in the experimentation phase with snare drum samples from the library noiiz. With as many different networks as possible, this would then create a decently sized batch of models from which the best one could be selected for phase 3.

So far I have worked with four different models in different variations to gather some knowledge on what works and what does not. To evaluate them I created a custom GUI.

The GUI

Producing a GUI for testing purposes was pretty simple and straight-forward. Implementing a Loop Play option required the use of threads, which was a little bit of a challenge but working on the Interface was possible without any major problems thanks to the library PySimpleGUI. The application worked mostly bug free and enabled extensive testing of models and also already saving some great samples. However, as it can be seen below, this GUI is only usable for testing purposes and does not meet the specifications developed in the first phase of this project. For the final product a much simpler app should exist and instead of being standalone it should run on a web server.

Autoencoders

An autoencoder is an unsupervised learning method where input data is encoded into a latent vector (therefore the name autoencoder). To get from the input to the latent vector multiple dense layers reduce the dimensionality of the data, creating a bottleneck layer and forcing the encoder to get rid of less important information. This results in data loss but also in a much smaller representation of input data. The latent vector can then be decoded back to produce a similar data sample to the original. While training an autoencoder, the weights and biases of individual neurons are modified to reduce data loss as much as possible.

In this project autoencoders seemed to be a valuable tool as audio samples, even though as short as only 2 seconds, can add up to a huge size. Training with an autoencoder would reduce this information down to only a latent vector with a few dimensions and the trained model itself, which seems perfect for a web application. The past semester resulted in nine different autoencoders, each containing dense layers only. All autoencoders differ from each other by either the amounts of trainable parameters, or the activation functions, or both. The chosen activation functions are rectified linear unit, hyperbolic tangent and sigmoid. These are used in all of the layers of the encoder as well as all layers of the decoder except for the last one to get back to an audio sample (where individual data points are positive and negative). 

Additionally, the autoencoders’ size (as in the amount of trainable parameters) is one of the following three: 

  • Two dense layers with units 9 and 2 (encoder) or 9 and sample length (decoder) with trainable parameters
  • Three dense layers with units 96, 24 and 2 (encoder) or 24, 96 and sample length (decoder) with trainable parameters
  • Four dense layers with units 384, 96, 24 and 2 (encoder) or 24, 96, 384 and sample length (decoder) with trainable parameters

Combining these two attributes results in nine unique models, better understandable as a 3×3 matrix as follows:

Small (2 layers)Medium (3 layers)Big (4 layers)
Rectified linear unitAe small reluAe med reluAe big relu
Hyperbolic tangentAe small tanhAe med tanhAe big tanh
SigmoidAe small sigAe med sigAe big sig

All nine of the autoencoders above have been trained on the same dataset for 700 epochs. We will take a closer look on the results in the next post.

Pt. 1: Wer sind meine User?

Im Moment ist mein Instagram ein Haufen aus verschiedenen Design Disziplinen und verschiedenen Styles. Anfangs dachte ich, dass meine Followerschaft sich an der Vielfalt von verschiedenen Design Methoden und Designdisziplinen erfreut, jedoch merke ich, dass das Wachsen meiner Followerzahlen nur schleichend voran geht und ich wohl etwas an meinem Inhalt ändern muss.

Obwohl ich am Anfang meiner Instagram-Reise User Research gemacht habe (ein bisschen). Muss ich wohl etwas tiefer graben, um die wirklichen Bedürfnisse meiner Follower zu entdecken. Dazu gehört nicht nur, was sie mögen oder was in ihrer Freizeit gerne machen, sondern auch was ihre Pain Points sind und wie ich ihnen mit meinem Post helfen kann.

Dieter Rams hat mal gesagt „You cannot understand good design if you do not understand people; design is made for people.” 

Das selbst ich, als Design-Studentin mit Interesse für UX, die Wichtigkeit von guter User Research unterschätzt habe, zeigt auf, wie wichtig diese wirklich ist. Um also meine Follower und noch-nicht-Follower auf Instagram verstehen zu können, recherchiere ich zu aller erst nochmal welche Methoden man anwendet um user-zentriert planen und designen zu können.

Mental Models

Diese spiegeln die Gedanken(-Prozesse) und Assoziationen über ein gewissen Thema wieder. Diese beinhalten Erfahrungen, bestehendes Wissen und intuitive Wahrnehmungen und Ideen. Diese Erfahrungen und dieses Vorwissen beeinflussen wie eine Person denkt oder handelt. Deshalb können auch Rückschlüsse gezogen werden, wie Personen in gewissen Situationen auf zum Beispiel Probleme reagieren. Am Ende kann bei ‚Mental Models‘ auch eine Art Skript für die Vorgehensweise des Users entstehen. So weiß bzw. nimmt man an, welche Schritte der User als nächstes macht. 

Personas

Personas sind Profile, die anhand Informationen von mehreren Individuen aus der Zielgruppe erstellt werden und in einer fiktiven Person widergespiegelt werden. Eine Persona gibt immer die Kernpunkte einer Zielgruppe und sozio-demografische Daten wider. Anhand eines Profilbildes und einer kurzen Einführung in den Alltag der Persona, erzählt eine Geschichte und lässt uns leichter in die Zielgruppe einführen. 

Personenbezogenen Daten: Foto, Name
Sozio-demografische Daten: Alter, Geschlecht, Beruf, Beziehungsstatus, …
Psychografische Daten: Wünsche, Werte, Lebenstil, Hobbies
Technografische Daten: Geräte im Besitz des Users, User Verhalten, …
Geografische Daten: Stadt, Land, Kultur, …

Eine Zielgruppe besteht meist aus mehreren Untergruppen, die im Gesamten die Vielfältigkeit der Zielgruppe wiedergeben. 

Sozio-demografische Daten

Lifestyle
  • Herkunft
  • Job
  • Gehalt
  • Alter
  • Geschlecht
  • Interessen
  • Werte
Verhalten
  • Aufgabe des Users
  • Kontext der Situation
  • User Lifestyle
  • Anforderungen & Wünsche
  • Vorteile & Benefits
  • Nutzung von Medien
  • Häufigkeit der Nutzung
  • Nutzungs-Muster
  • User Experience
  • Verbindung mit der Marke

Sinus Mileus

Wurde von dem Sinus Institut in Deutschland gegründet und dient dazu, via Lifestyles oder Soziale Milieus, User in Gruppen einzuteilen. Die Segmentierung kann von mehreren Kriterien abhängen.

User, what’s in your bag

Was jemand in seiner Tasche hat, sagt viel über eine Person aus. Deshalb kann es helfen, darüber nachzudenken, was der User in seiner Tasche mit sich trägt. Diese Dinge sind oft sehr persönlich, wie zum Beispiel Bilder der Liebsten. Diese Methode dient als Art Moodboard um den User besser zu verstehen und leichter Empathie entwickeln zu können.