Worthäufigkeit

Autor: Silvan Maaß

Im Wörterbuch: Worthäufigkeit

Wörter sind die Bausteine jeder Sprache. Doch nicht alle werden gleich oft verwendet. Während einige Wörter wie "und" oder "in" in nahezu jedem Satz auftauchen, bleiben andere seltene Perlen, die nur gelegentlich ans Licht kommen. Warum ist das so? Und was verrät uns die Häufigkeit von Wörtern über unsere Sprache, unsere Kultur und sogar über uns selbst? Die Untersuchung der Worthäufigkeit im Deutschen eröffnet faszinierende Einblicke in die Struktur unserer Kommunikation und zeigt, wie sich Sprache im Alltag und in der Literatur entfaltet.

1. Definition: Worthäufigkeit

Die Worthäufigkeit - auch Wortfrequenz genannt - bezeichnet die Anzahl des Vorkommens eines Wortes in Texten oder in gesprochener Sprache. Sie ist eine zentrale Größe für Sprachwissenschaftler, Sprachlernende, Lexikografen und für viele andere Anwendungsfälle. Im Deutschen, wie in allen Sprachen, folgt die Verteilung von Wörtern bestimmten Gesetzmäßigkeiten.

2. Grundlegende Gesetzmäßigkeiten der Worthäufigkeit

2.1 Das Zipfsche Gesetz

Eine der fundamentalsten Entdeckungen zur Worthäufigkeit ist das nach dem Linguisten "George Kingsley Zipf" benannte Zipfsche Gesetz. Dieses Gesetz besagt, dass in natürlichen Sprachen die Häufigkeit eines Wortes umgekehrt proportional zu seinem Rang in der Häufigkeitstabelle ist. Konkret bedeutet dies: Das häufigste Wort einer Sprache tritt etwa doppelt so oft auf wie das zweithäufigste, dreimal so oft wie das dritthäufigste und so weiter.

2.2 Wenige Wörter, große Wirkung

Für das Deutsche lässt sich ein interessantes Phänomen beobachten. In deutschen Texten werden nämlich wenige Wörter sehr häufig verwendet, während die große Mehrheit der Wörter nur selten vorkommt. Oder anders ausgedrückt: Die häufigsten Wörter machen einen beträchtlichen Teil eines Gesamttextvolumens aus. Dies ist durch verschiedene Studien belegt.

So kam die Professorin für Didaktik der deutschen Sprache "Gudrun Spitta" in ihrem im Jahr 2000 erschienenen Werk "Welche Lernvorteile bietet die Arbeit mit einem Grundwortschatz?" zu der Erkenntnis, dass die 100 häufigsten Wörter ungefähr 50% eines durchschnittlichen deutschen Textes ausmachen, während die 1.000 häufigsten Wörter bereits 80% abdecken.

Zu einem ähnlichen Ergebnis kam der Duden: Die 100 häufigsten Wörter machen bereits fast 50% aller Wörter in den Texten des Dudenkorpus aus. Mit den häufigsten 2.475 Wörtern kann man sogar 75% aller Texte abdecken. Die restlichen 25% verteilen sich auf die übrigen Wörter der insgesamt 20,6 Millionen Wörter im Dudenkorpus.

3. Inhaltswörter vs. Funktionswörter

Bei der Betrachtung der Worthäufigkeit ist die Unterscheidung zwischen Inhaltswörtern und Funktionswörtern wesentlich:

3.1 Inhaltswörter

Inhaltswörter (oder lexikalische Wortarten) tragen die inhaltliche Bedeutung und umfassen Substantive, Verben, Adjektive und Adverbien. Sie sind in der Regel seltener, aber zahlreicher in ihren Varianten (siehe z. B. Komposita oder Flexionsreichtum).

3.2 Funktionswörter

Funktionswörter sind Wörter, die keine Inhaltswörter sind. Sie dienen der grammatischen Strukturierung und haben nur im Satzzusammenhang eine Bedeutung für das Verständnis von Sätzen. Dazu zählen etwa Artikel, Präpositionen, Konjunktionen, Pronomen und Hilfsverben. Sie bilden typischerweise die häufigsten Wörter einer Sprache.

4. Methoden zur Ermittlung von Worthäufigkeiten

4.1 Korpusbasierte Verfahren

Die moderne Linguistik stützt sich bei der Ermittlung von Worthäufigkeiten auf Korpora. Das sind große, systematisch gesammelte Textmengen, die als repräsentativ für eine bestimmte Sprache oder Sprachvarietät gelten. Für das Deutsche gibt es mehrere bedeutende Korpora:

  1. DeReKo (Deutsches Referenzkorpus): Das am Institut für Deutsche Sprache (IDS) in Mannheim geführte DeReKo ist mit über 61 Milliarden Wörtern (Stand: 2025) das weltweit größte Korpus für die deutsche Schriftsprache. Es umfasst Zeitungstexte, Belletristik, wissenschaftliche Texte und viele weitere Textarten.
  2. DWDS-Korpus: Das Digitale Wörterbuch der deutschen Sprache (DWDS) verfügt über zahlreiche Korpora mit unterschiedlichsten Texten wie bspw. erweiterte Korpora mit Zeitungstexten, Internet-Texten und historischen Texten.
  3. Leipzig Corpora Collection: Die Universität Leipzig stellt Nachrichten-Korpora in verschiedenen Sprachen zur Verfügung.
  4. Dudenkorpus: Das Dudenkorpus ist die Basis für die lexikografische Arbeit des Dudenverlags, das unter anderem zur Bestimmung der Aufnahme neuer Wörter in den Duden dient.

Bei der korpusbasierten Ermittlung von Worthäufigkeiten sind einige methodische Besonderheiten zu beachten:

  • Lemmatisierung: Die Zusammenfassung verschiedener Flexionsformen eines Wortes zu einer Grundform (Lemma). Aufgrund des reichen Flexionssystems ist dieser Prozess im Deutschen besonders wichtig.
  • Tokenisierung: Die Zerlegung von Texten in einzelne Wörter (Tokens), wobei Entscheidungen über die Behandlung von Satzzeichen, Zahlen, Abkürzungen usw. getroffen werden müssen.
  • Repräsentativität: Die Auswahl von Texten für ein Korpus sollte ausgewogen sein, um ein möglichst getreues Bild des Sprachgebrauchs zu liefern.

5. Die häufigsten Wörter im Deutschen

Basierend auf der Analyse mehrerer zeitgenössischer Sprachkorpora des Digitalen Wörterbuchs der deutschen Sprache (DWDS), lassen sich Häufigkeitswörter ermitteln. Die 50 häufigsten Wörter im Deutschen sind:

  1. und
  2. eine
  3. sein
  4. in
  5. werden
  6. mit
  7. haben
  8. die
  9. von
  10. zu
  11. für
  12. im
  13. auf
  14. sich
  15. nicht
  16. es
  17. auch
  18. sie
  19. ich
  20. diese
  21. an
  22. können
  23. er
  24. als
  25. am
  26. bei
  27. aus
  28. nach
  29. ihr
  30. wir
  31. dass
  32. wie
  33. so
  34. um
  35. Uhr
  36. noch
  37. zum
  38. aber
  39. Jahr
  40. seine
  41. alle
  42. oder
  43. bis
  44. über
  45. vor
  46. nur
  47. man
  48. geben
  49. müssen
  50. gut

Diese Liste verdeutlicht die Dominanz der Funktionswörter unter den häufigsten Wörtern. Erst deutlich später in der Rangliste erscheinen die ersten Inhaltswörter wie "können", "Uhr" oder "Jahr".

6. Einflussfaktoren auf die Worthäufigkeit

Die Häufigkeitsverteilung von Wörtern ist nicht statisch, sondern wird von verschiedenen Faktoren beeinflusst:

6.1 Textsorte und Register

Je nach Textsorte variieren die Worthäufigkeiten erheblich. In wissenschaftlichen Texten finden sich beispielsweise mehr Fachbegriffe und Substantivierungen, während literarische Texte einen vielfältigeren Wortschatz mit mehr seltenen Wörtern aufweisen. Zeitungstexte tendieren zu einem mittleren Niveau mit einem Mix aus häufigen und weniger häufigen Wörtern.

6.2 Historische Entwicklung

Der Wortschatz und die Häufigkeit einzelner Wörter unterliegen einem stetigen Wandel. So hat beispielsweise das Wort "Handy" erst in den 1990er Jahren Eingang in den deutschen Sprachgebrauch gefunden, während Wörter wie "Fernsprecher" oder "Fräulein" deutlich seltener geworden sind.

6.3 Dialekt und regionale Variation

Dialekte und regionale Varietäten des Deutschen weisen unterschiedliche Worthäufigkeiten auf. Zum Beispiel sind Wörter wie "Semmel" (in Bayern und Österreich) oder "Brötchen" (in Norddeutschland) regional unterschiedlich verteilt.

6.4 Themenbezogene Häufigkeiten

In themenspezifischen Texten treten bestimmte Wörter gehäuft auf. In Texten über Sport werden Begriffe wie "Tor", "Meisterschaft" oder "Spieler" häufiger vorkommen als in anderen Kontexten.

7. Praktische Anwendungen von Worthäufigkeitsdaten

Die Kenntnis der Worthäufigkeit im Deutschen ist für verschiedene Bereiche von großer praktischer Bedeutung:

7.1 Sprachdidaktik und Fremdsprachenunterricht

Für den Deutschunterricht, insbesondere für Deutsch als Fremd- oder Zweitsprache, sind Worthäufigkeitsdaten ein wichtiges Instrument:

  • Sie helfen bei der Auswahl des zu vermittelnden Wortschatzes nach dem Prinzip "Das Häufigste zuerst".
  • Sie ermöglichen die Erstellung von Lehrmaterialien, die dem Sprachniveau der Lernenden entsprechen.
  • Sie bieten Orientierung für die Wortschatzprogression in Lehrwerken.

Der Gemeinsame Europäische Referenzrahmen für Sprachen (GER) berücksichtigt Worthäufigkeiten bei der Definition der verschiedenen Sprachniveaus. So sollten Lernende auf dem Niveau A1 beispielsweise die 500 - 1.000 häufigsten Wörter des Deutschen beherrschen, auf B1 etwa 2.000 - 3.000 Wörter.

7.2 Lexikografie und Wörterbucherstellung

Für Lexikografen sind Häufigkeitsdaten ein wichtiges Kriterium bei der Entscheidung:

  • Welche Wörter in ein Wörterbuch aufgenommen werden.
  • Welche Bedeutungsvarianten eines Wortes bevorzugt dargestellt werden.
  • Welche Beispielsätze und Kollokationen illustriert werden.

Der Duden-Verlag beispielsweise nutzt sein umfangreiches Korpus, um zu entscheiden, ob neue Wörter in den Rechtschreibduden aufgenommen werden sollen. Ein Kriterium ist dabei, dass ein Wort eine gewisse Häufigkeit über einen längeren Zeitraum hinweg aufweisen muss.

7.3 Computerlinguistik und Natürliche Sprachverarbeitung

Im Bereich der Computerlinguistik sind Worthäufigkeitsdaten unerlässlich für:

  • Spracherkennung und Sprachsynthese
  • Maschinelle Übersetzung
  • Automatische Textzusammenfassung
  • Rechtschreibprüfung und -korrektur
  • Autovervollständigung und Vorschlagssysteme

Moderne KI-Sprachmodelle wie "GPT" oder "BERT" nutzen Modelle, die mit Wahrscheinlichkeiten von Worthäufigkeiten arbeiten, um natürlichsprachliche Texte zu generieren oder zu analysieren.

7.4 Lesbarkeitsforschung und Textvereinfachung

Worthäufigkeitsdaten spielen eine zentrale Rolle bei der Entwicklung von Lesbarkeitsformeln und bei der Vereinfachung von Texten:

  • Texte mit einem höheren Anteil häufiger Wörter sind in der Regel leichter zu lesen und zu verstehen.
  • Für "Leichte Sprache" oder "Einfache Sprache" werden bewusst häufigere Wörter verwendet.
  • Die Wiener Sachtextformel und andere Lesbarkeitsindizes berücksichtigen den Anteil seltener Wörter als Indikator für die Textschwierigkeit.

7.5 Psycholinguistik und Neurolinguistik

In der Erforschung der Sprachverarbeitung im Gehirn sind Worthäufigkeiten ein wichtiger Faktor:

  • Häufigere Wörter werden schneller erkannt und verarbeitet als seltene.
  • Der "Wortfrequenzeffekt" ist ein gut dokumentiertes Phänomen in Experimenten zur Wortverarbeitung.
  • Bei Sprachstörungen wie Aphasie bleiben häufigere Wörter oft besser erhalten als seltenere.

8. Sonderfälle und Besonderheiten im Deutschen

Das Deutsche weist einige Besonderheiten auf, die bei der Analyse von Worthäufigkeiten zu berücksichtigen sind:

8.1 Komposita

Die deutsche Sprache ist bekannt für ihre produktive Wortbildung, insbesondere die Bildung von Komposita (zusammengesetzten Wörtern). Dies führt dazu, dass viele komplexe Begriffe wie Donaudampfschifffahrtsgesellschaftskapitän theoretisch bildbar, aber in der Praxis sehr selten sind. Bei der Korpusanalyse stellt sich die Frage, ob solche Komposita als eigenständige Wörter gezählt werden sollen oder ob eine Zerlegung in ihre Bestandteile sinnvoller wäre.

8.2 Großschreibung der Substantive

Im Deutschen werden alle Substantive großgeschrieben, was bei der Korpusanalyse zu berücksichtigen ist. Viele Analyseprogramme unterscheiden zwischen groß- und kleingeschriebenen Wörtern, was ohne entsprechende Anpassung zu Verzerrungen führen kann.

8.3 Flexionsreichtum

Das Deutsche verfügt über ein reiches Flexionssystem, insbesondere bei Verben und Substantiven. Ohne Lemmatisierung würden verschiedene Formen desselben Wortes (z.B. "gehen", "geht", "ging", "gegangen") als separate Einträge gezählt, was die tatsächliche Häufigkeit des Grundworts unterschätzen würde.

8.4 Rechtschreibreform

Die Rechtschreibreform von 1996 hat zu Änderungen in der Schreibweise vieler Wörter geführt. Bei der Analyse historischer Korpora ist zu beachten, dass Wörter wie "dass" / "daß" oder "Fluss" / "Fluß" als Varianten desselben Wortes zu betrachten sind.

Über den Autor
Silvan Maaß ist Diplom-Kommunikationswirt (dab) sowie Mitbegründer der Sprachnudel, wodurch er sich seit 20 Jahren beinahe täglich mit theoretischer und angewandter Linguistik beschäftigt. Die Lebendigkeit der Sprache hat es ihm besonders angetan. Daher interessiert er sich insbesondere für Okkasionalismen und Neologismen - zwei kreative Themenfelder der Linguistikforschung, die in unserer Gesellschaft relevanter denn je sind.

Ukraine-Hilfe → Deutsch lernen
Deutsch lernen
  • Alles, was ihr zum Deutschlernen braucht – ausführliche Erklärungen, Tipps, Übungen und Ressourcen → Deutsch lernen

Wörter nach Anfangsbuchstabe

A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
Ä
Ö
Ü
Suchen & Finden
  • Mit Hilfe der Wortsuche oder von unserem Wortfinder lassen sich Wörter nach bestimmten Mustern filtern.
Wörterverzeichnis
  • Nutzt unsere zahlreichen Wortlisten in unserem Wörterverzeichnis, um gezielt deutsche Wörter zu finden!

Statistiken

Geburtstag

Beliebte Begriffe