Neues deutsch-tschechisches Online-Wörterbuch von linguatools

Treue Leser werden wissen, dass ich mit Peter unter linguatools.de Kontext-Wörterbücher für zehn verschiedene Sprachpaare betreibe. Jetzt haben wir eine neue – deutlich verbesserte – Version des deutsch-tschechischen Wörterbuchs online gestellt. Es enthält 49.000 Übersetzungen und – das ist das besondere an diesem Wörterbuch – noch 1,3 Mio. zweisprachige Beispielsätze, aus denen ersichtlich ist, wie ein Wort im Kontext richtig verwendet wird.

Die Übersetzungen kommen zum Teil aus der Wikipedia und zum Teil aus dem Wiktionary.  Zusätzlich haben wir die 12.000 meistverwendeten tschechischen Wortformen ins Deutsche manuell übersetzt. Diese haben wir aus unserem gecrawlten Tschechisch-Korpus berechnet.

Da wir die häufigsten Wortformen, also die Flexionsformen zu einem Grundwort übersetzt haben und nicht unbedingt das Grundwort selbst, findet man im Wörterbuch z.B. für Haus nicht nur dům, sondern auch domě und domu. Das ist für ein Wörterbuch sicher ungewöhnlich,  aber für eine hochflektierende Sprache wie Tschechisch von Bedeutung.

Wir haben außerdem nicht nur die einzelnen Wortformen, sondern auch die 7.000 häufigsten n-gramme (3-5 Gramme) extrahiert und diese ins Deutsche übersetzt. Die angegebene Zahl gibt an, wie oft dieses n-Gramm im Korpus vorgefunden wurde. Zunächst ein paar 3-Gramme:

na rozdíl od (4.363)
jedná se o (4.109)
v souvislosti s (4.628)
v současné době (4.192)
druhé světové války (3.741)
za druhé světové (1.090)
během druhé světové (405)

Zu den zwei letzten 3-Grammen führe ich noch ein paar ähnliche 4- und 5-Gramme auf, die ich händisch bis zu einer Frequenz von 175 übersetzt habe – danach konnte ich einfach nicht mehr *schwitz*

za druhé světové války (1.082)
během druhé světové války (405)
během druhé světové války osvobozena (24)

Bei der Frequenz 405 oder auch bei 1.092/1.082 sieht man wie stark die Verbindung „… druhé světové války …“ ist. So etwas nennt man dann „feste Wortverbindung“ 🙂

Wer möchte, kann auch neue Übersetzungen hinzufügen, denn natürlich ist das Wörterbuch weit davon entfernt vollständig zu sein, auch wenn die häufigsten Wörter jetzt drin sein sollten. Zumindest die, die schriftlich verwendet werden. Unter den zahlreichen Beispielsätzen findet man aber neben EU-Dokumenten und Zeitungskommentaren auch Untertitel, die mündliches Vokabular bereitstellen.

Wer Firefox verwendet, kann sich schon das passende Suchplugin von der Mozilla-Add-on-Seite zum schnellen Nachschlagen downloaden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

*

Werde Fan von Tschechisch in Häppchenschliessen
Script by LikeJS
oeffnen