Textanalyse und Textgenerierung/Tippfehler und Ähnlichkeitsmaße

Einführung Bearbeiten

Sie kennen bestimmt aus Suchmaschinen bei Tippfehlern die Meldung: "Meinten Sie ...". Als Beispiel betrachtet man den Begriff "Textanalyse" und die folgenden eingegebenen Wörter mit Tippfehlern

  • "Texanalyse",
  • "Textannalyse",
  • "Textanalüse"

Definition - Halbmetrik Bearbeiten

Sei   eine beliebige Menge. Eine Abbildung   heißt Pseudometrik, Halbmetrik oder Spanne, wenn für beliebige Elemente  ,   und   von   die folgenden Bedingungen erfüllt sind:

  • (HM1)  ,
  • (HM2)   (Symmetrie) und
  • (HM3)   (Dreiecksungleichung).

Unterschied - Metrik - Halbmetrik Bearbeiten

Bei einer Metrik folgt aus  , dass  . Bei einer Halbmetrik kann es im Grundraum Punkte   mit   geben, für die   gilt. Mit einer Halbmetrik kann man also nicht die Punkte trennen (Hausdorff-Eigenschaft).

Bemerkung - Halbmetrik Bearbeiten

  • (HM1)   bedeutet, dass „die Spanne zwischen einem Punkt und dem Punkt selbst immer 0 ist.“),
  • (HM2)   liefert eine Symmetrieeigenschaft für die Messung mit der Spanne, die mit dem Axiom nicht von der Reihenfolge abhängt, wie man die Spanne zwischen zwei Punkten messen kann.“)
  • (HM3)   (Dreiecksungleichung: „Die Spanne ist auf dem direkten Weg am kürzesten.“).

Einführende Beispiele für Halbmetriken Bearbeiten

Sei   ein Alphabet und   die Menge aller (auch sinnfreier) Wörter, die mit dem Alphabet gebildet werden können. Ferner   die Abbildung, die jedem Wort seine Länge in Zeichen zuordnet (z.B.  ).

Aufgabe - Halbmetrik - Wortlänge Bearbeiten

Zeigen Sie, dass die   eine Halbmetrik auf   liefert. Geben Sie ein Gegenbeispiel an, dass   keine Metrik auf   ist!

Aufgaben Bearbeiten

  • Wie kann man eine Metrik definieren, die den Abstand zwischen dem gemeinten Wort und dem Wort mit dem Tippfehler angibt?Hausdorff-Eigenschaft
  • Nehmen wir nun an, wir haben ein zufällig generiertes Wort aus unserem Alphabet gegeben und müssen eine Wahrscheinlichkeitsverteilung angeben, welches Wort aus einer Enzyklopädie damit gemeint ist. Wie können wir diese Verteilung statistisch bestimmen oder deterministisch festlegen?

Siehe auch Bearbeiten


Seiteninformation Bearbeiten

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal Bearbeiten

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Textanalyse und Textgenerierung' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.