Ein in der Künstlichen Intelligenz lange verfolgtes Ziel ist die natürlichsprachliche Kommunikation zwischen Mensch und Maschine. Bislang ist kein Computer-Programm bekannt, mit dem eine Kommunikation auf höherem Niveau durchgeführt werden könnte.

Abstrakt#

Unser Ansatz zur maschinellen Sprachverarbeitung besteht in Analyse und Synthese von Sequenzen von Symbolen. Basis ist die Wahrscheinlichkeit, mit der eine Kombination von Symbolen auftritt. Darauf setzt die Wahrscheinlichkeit auf, mit der eine Kombination von Kombinationen auftritt. Folge ist eine Hierarchie von Kombinationen zur Beschreibung der Semantik der Sprache.

Kombination von Symbolen#

Basis unserer Sprachverarbeitung ist die Kombination von Symbolen. Die Wahrscheinlichkeit, dass die Symbole A und B gemeinsam auftreten ist hypergeometrisch verteilt.

Gegeben sei eine Sequenz von n Symbolen vor, in der Symbol A mit der Zahl nA und Symbol B mit der Zahl nB und die Kombination AB mit der Zahl nAB auftritt. Die Wahrscheinlichkeit, dass dies zufällig passiert ist genau hypergeom(n, nA, nB, nAB). In der Praxis approximieren wir die hypergeometrische Verteilung durch die Gauß-Verteilung.