Textanalyse und Textgenerierung/Tippfehler und Ähnlichkeitsmaße
Einführung
BearbeitenSie kennen bestimmt aus Suchmaschinen bei Tippfehlern die Meldung: "Meinten Sie ...". Als Beispiel betrachtet man den Begriff "Textanalyse" und die folgenden eingegebenen Wörter mit Tippfehlern
- "Texanalyse",
- "Textannalyse",
- "Textanalüse"
Definition - Halbmetrik
BearbeitenSei eine beliebige Menge. Eine Abbildung heißt Pseudometrik, Halbmetrik oder Spanne, wenn für beliebige Elemente , und von die folgenden Bedingungen erfüllt sind:
- (HM1) ,
- (HM2) (Symmetrie) und
- (HM3) (Dreiecksungleichung).
Unterschied - Metrik - Halbmetrik
BearbeitenBei einer Metrik folgt aus , dass . Bei einer Halbmetrik kann es im Grundraum Punkte mit geben, für die gilt. Mit einer Halbmetrik kann man also nicht die Punkte trennen (Hausdorff-Eigenschaft).
Bemerkung - Halbmetrik
Bearbeiten- (HM1) bedeutet, dass „die Spanne zwischen einem Punkt und dem Punkt selbst immer 0 ist.“),
- (HM2) liefert eine Symmetrieeigenschaft für die Messung mit der Spanne, die mit dem Axiom nicht von der Reihenfolge abhängt, wie man die Spanne zwischen zwei Punkten messen kann.“)
- (HM3) (Dreiecksungleichung: „Die Spanne ist auf dem direkten Weg am kürzesten.“).
Einführende Beispiele für Halbmetriken
BearbeitenSei ein Alphabet und die Menge aller (auch sinnfreier) Wörter, die mit dem Alphabet gebildet werden können. Ferner die Abbildung, die jedem Wort seine Länge in Zeichen zuordnet (z.B. ).
Aufgabe - Halbmetrik - Wortlänge
BearbeitenZeigen Sie, dass die eine Halbmetrik auf liefert. Geben Sie ein Gegenbeispiel an, dass keine Metrik auf ist!
Aufgaben
Bearbeiten- Wie kann man eine Metrik definieren, die den Abstand zwischen dem gemeinten Wort und dem Wort mit dem Tippfehler angibt?Hausdorff-Eigenschaft
- Nehmen wir nun an, wir haben ein zufällig generiertes Wort aus unserem Alphabet gegeben und müssen eine Wahrscheinlichkeitsverteilung angeben, welches Wort aus einer Enzyklopädie damit gemeint ist. Wie können wir diese Verteilung statistisch bestimmen oder deterministisch festlegen?
Siehe auch
Bearbeiten
Seiteninformation
BearbeitenDiese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.
Wiki2Reveal
BearbeitenDieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Textanalyse und Textgenerierung' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.
- Die Seite wurde als Dokumententyp PanDocElectron-SLIDE erstellt.
- Link zur Quelle in Wikiversity: https://de.wikiversity.org/wiki/Textanalyse%20und%20Textgenerierung/Tippfehler%20und%20%C3%84hnlichkeitsma%C3%9Fe
- siehe auch weitere Informationen zu Wiki2Reveal und unter Wiki2Reveal-Linkgenerator.