Textanalyse und Textgenerierung/Rangordnung
Einleitung
BearbeitenDie Rangordnung von Texten oder auch digitalen Objekte kennen Sie sicher aus Suchmaschinen, bei denen man eine Suchanfrage stellt und die Suchergebnisse Ihnen die Ergebnnisse in einer bestimmten Reihenfolge ausgibt. Die Lerneinheit beschäftigt sich mit einer Einführung in die mathematischen Aspekte der Statistik, Stochastik und Wahrscheinlichkeitstheorie), die man für die Rangordnung von Texten verwenden kann.
Aufgabe für Lernende
BearbeitenDie folgenden Aufgaben beziehen sich auf ein grundlegendes Verständnis zu Anordnung von Suchergebnissen und den Konsequenzen, die sich im Kontext der Medienwissenschaften ergeben.
Aufgabe 1 - Kriterien zur Reihung von Suchergebnissen
BearbeitenVersuchen Sie in einer Gruppe Kriterien zu sammeln, mit denen Sie eine Reihung für Suchergebnisse festlegen können (z.B. Anzahl der bisherigen Klicks auf der Seite, Verweilzeit auf der Seite bis ein weiteres Suchergebnis aus der Liste ausgewählt wird, ...)?
Aufgabe 2 - Individualisierte Suchergebnisse
BearbeitenSind die Reihenfolgen für unterschiedliche Personen unterschiedlich bei Suchmaschine? (z.B. abhängig vom Ort oder von anderen bisher gesuchten Informationen)
Aufgabe 3 - Individualisierte Suchergebnisse
BearbeitenWie kann man diese Unterschiede mit statistischen Verfahren festlegen? Schlagen Sie ein Verfahren vor, wie man geographisch relevante Suchergebnisse erzeugt, die für bestimmte Orte eine höhere Relevanz haben als für andere andere Orte?
- Betrachten Sie als Suchbegriff "interessante Bauwerke" und
- mögliche Suchergebnisse "Brandenburger Tor", "Eiffelturm", "Golden Gate Bridge", ...
Aufgabe 4 - Filterblase
BearbeitenBetrachten Sie den Begriff der Filterblase[1] und erörtern Sie den Zusammenhang mit einer algorithmischen Festlegung der Rangordnung für Suchergebnisse. Diskutieren Sie die gesellschaftlichen Konsequenzen für den Zugriff von Informationen, die bzgl. eines individuellen Profils gefiltert bzw. algorithmisch selektiert werden.
Aufgabe 5 - Up-Down-Ranking
BearbeitenWir betrachten nur Suchergebnisse bei einem intransparent Ranking-Algorithmus[2], wobei den Nutzer:innen nicht bekannt ist, in folgenden Fällen:
- (Up-Ranking) ein Suchergebnis, dessen Relevanz (z.B. nach Klickzahl und Verweildauer gemessen) sehr gering ist und weiter nach oben in der Reihenfolge gesetzt wird (z.B. zu Werbezwecken).
- (Down-Ranking) ein Suchergebnis, dessen Relevanz (z.B. nach Klickzahl und Verweildauer gemessen) sehr groß ist und weiter nach unten in der Reihenfolge gesetzt wird.
Aufgabe 5 - Wahrscheinlichkeitsverteilung
BearbeitenBetrachten Sie eine Liste von 100 Suchergebnissen, die idealisierterweise von allen Nutzerinnen und Nutzern ohne Unterschiede in gleicher Weise inhaltlich präferiert werden. Die Suchergebnisse werden auf 5 Seiten (S1, ... S5) zu je 20 Suchergebnissen verteilt.
- Geben Sie die Prozentzahl an, mit denen die Klicks auf die 5 Seiten verteilt werden.
- Wie schätzen Sie die Klickverteilung auf den einzelnen Seiten vom 1. bis zum 20. Suchergebnis ein?
Aufgabe 6 - Gesetz der großen Zahlen
BearbeitenBetrachten Sie die Gesetze der großen Zahlen und beschreiben Sie, wie man durch Klickhäufigkeiten der Nutzer:innenauswahl von Seiten, die Präferenzen von Nutzer:innen festlegen kann! Gibt es selbstverstärkende Prozesse, z.B. wenn Seiteninhalte eine künstlich nach oben (z.B. durch Werbung) bzw. nach unten in der Rangfolge von Suchresultaten verschoben werden. Wie verändern sich dadurch ggf. die Häufigkeit von Suchwörtern und damit auch das Finden von spezifischen Inhalten verändern. Wie kann man solche Effekte wissenschaftlich untersuchen bzgl. wahrscheinlichkeitstheoretischer Modelle?
Quellennachweise
Bearbeiten- ↑ Bozdag, E., & Van Den Hoven, J. (2015). Breaking the filter bubble: democracy and design. Ethics and information technology, 17, 249-265.
- ↑ Kamvar, S. D., Haveliwala, T. H., Manning, C. D., & Golub, G. H. (2003, May). Extrapolation methods for accelerating PageRank computations. In Proceedings of the 12th international conference on World Wide Web (pp. 261-270).