Moderne Architekturen: Neuronale Netze, Attention und Transformer
Schichten stapeln lineare Transformationen und Nichtlinearitäten, lernen Merkmale zunehmend abstrakt. Tiefe Netze erfassen komplexe Muster, brauchen aber gute Regularisierung. Welche Aktivierungsfunktion ist dein Standard, und warum?
Moderne Architekturen: Neuronale Netze, Attention und Transformer
Attention gewichtet relevante Teile einer Eingabe dynamisch. Dadurch werden lange Abhängigkeiten handhabbar. Teile ein Beispiel, in dem Attention dir half, Beziehungen zu erfassen, die klassische Sequenzmodelle übersehen hätten.