Zusammenfassung - Deep Learning - Deep Belief Networks PDF

Title	Zusammenfassung - Deep Learning - Deep Belief Networks
Author	Fabian R.
Course	Maschinelles Lernen 2 - Fortgeschrittene Verfahren
Institution	Karlsruher Institut für Technologie
Pages	3
File Size	236.3 KB
File Type	PDF
Total Downloads	11
Total Views	151

Preview

CLICK TO PREVIEW PDF

Summary

Professor Zöllner...

Description

Deep Belief Networks Boltzmann-Machine    

Einige Neuronen sind sichtbar, andere hidden Input-Neuronen werden zu Output-Neuronen am Ende eines Updates Neuronen sind binär, Gewichte symmetrisch Stochastisches Neuron i o

z i=bi + ∑ s j wij j

o o o o

bi : Bias s j : State / Zustand von Neuron j w ij : Gewicht zwischen Neuron i und 1 p( s i=1 )= 1+e− z

j

i

 

Sigmoide Regel! Hohe Wahrscheinlichkeit der Aktivierung, wenn Input groß

Restricted Boltzmann-Machine    

BM mit Einschränkungen Biparititer Graph (Eine Gruppe von Neuronen ist nur mit der anderen Gruppe verbunden) -> Sichtbar, Hidden Vorteil: Effizienz Energie (ohne Bias) o

E(v ,h)=−∑ h j vi w ij i,j



Die Wahrscheinlichkeit einer gemeinsamen Konfiguration von sichtbaren und unsichtbaren Einheiten: −E (v ,h)

o

p( v , h )=

e

e−E (u , g) ∑ u,g

hängt ab von der Energie einer Konfiguration in Vergleich zu allen anderen Konfigurationen Die Wahrscheinlichkeit einer Konfiguration von sichtbaren Einheiten: o



∑ e− E (v, h)

o o

p( v )=

h

e− E(u , g) ∑ u ,g

Summe der Wahrscheinlichkeiten aller gemeinsamen Konfigurationen die diese enthält

Maximum-Likelihood-Algorithmus 

Idee: Log - Wahrscheinlichkeit für Zustände (Konfigurationen) welche die Lerndaten in den sichtbaren Einheiten enthalten maximieren

log L= ∑ log p (v ) v∈D

 

Start mit einem Trainingsvektor an den sichtbaren Einheiten Alternieren zwischen update aller hidden und update aller sichtbaren Einheiten (parallel).



∆ w ij = o

∂ log p ( v ) ∞ 0 = ⟨ vi h j⟩ −⟨ v i h j ⟩ ∂ wij

Unendlich ist nicht realistisch …

Contrastive Divergence  

Annährung an Log-Likelihood -> schnell Ablauf o Start Trainingsvektor an den sichtbaren Einheiten o Update aller hidden Einheiten - parallel o Update aller sichtbaren Einheiten (parallel) um eine „Rekonstruktion“ zu erhalten o Update der hidden Einheiten o Update der Gewichte über die Differenz der Gradienten (gewichtet mit Lernrate):

Δ wij =ϵ (⟨ v i h j⟩ −⟨ vi h j ⟩ 0

1

)

Deep Belief Network     

 



Gestapelte RBMs Training Stack by Stack, jedes RBM soll das Encoding des vorherigen Netzes lernen Sind letztlich ähnlich wie Autoencoder Liefern eine einfache Methode um mehrere Ebenen von Merkmalen unüberwacht zu lernen. Fine-Tuning o Lösen der symmetrischen Bindung zwischen den aufund abwärts-Gewichten! o Wake: Aufwärtsschrit  Anpassen der top-down Gewichte um die Aktivität der Merkmale in tiefere Ebenen zu rekonstruieren. o Einige Iterationen in der höchsten RBM  Anpassen der Gewichte in der obersten RBM. o Sleep: Abwärtsschrit  Anpassen der botom-up Gewichte um die Aktivität der Merkmale in die höheren Ebenen zu rekonstruieren. Die oberste(n) Ebene(n) der RBM bildet die relativ niedrig-dimensionale Mannigfaltigkeit der Daten ab. - Diese Einheiten sind die „Klassen“ Generative Verwendung o Anlegen Daten obere Schicht o Einstellen eines Gleichgewichts der obersten RBM o Ein Abwärtsschrit um Zustand der anderen Ebenen zu erhalten Diskriminative Verwendung o Unüberwacht  Lernen je eines layers – „greedily“.  Fine-tuning durch contrastive wake-sleep o Überwacht  Zusätzliche Ebene der Entscheidung: Wende für die oberste Ebene backpropagation (überwacht) an...