Umlaute und Trunkierung
Trunkierung und Umlaute stellten bislang ein Problem in TUBfind dar. Das Problem resultierte aus dem komplexen Zusammenspiel verschiedener Suchmaschinen-Technologien im Hintergrund. Für die einfache Suche in vufind ist Dismax zuständig, die erweiterte Suche wird aber über Lucene abgewickelt. Dismax unterstützt allerdings nicht die Suche mit Wildcards. Daher schaltet vufind trunkierte Anfragen auf Lucene um.
Dies zu vermeiden bringt allerdings keine Abhilfe. Die Suchanfrage wird bei Benutzung von Wildcards auf Seiten von Lucene keiner Analyse unterzogen und so unmodifiziert an den Index geschickt. Beim Indizieren werden die Felder jedoch analysiert und normalisiert, und dabei verschwinden die Umlaute in vielen Fällen. Wird nun eine Suchanfrage mit einem Umlaut an den Index geschickt und diese Suchanfrage wird nicht modifiziert, ist klar, dass nichts gefunden wird.
Wir dachten uns nun: wenn Lucene es nicht tut, dann tun wir es und unterziehen die Suchanfrage einer Umwandlung. Alle Umlaute werden in normale Zeichen umgewandelt und der gesamte Suchbegriff wird zu Kleinbuchstaben gemacht.
Da boolesche Operatoren nur in Großbuchstaben anerkannt werden (zumindest bei unserer Solr-Konfiguration), müssen die soeben umgewandelten Operatoren AND, OR und NOT wieder in Großbuchstaben umgeschaltet werden. Und damit das alles nur passiert, wenn es auch notwendig ist, fragen wir noch ab, ob die Suchanfrage Trunkierungszeichen enthält.
Eine weniger quick-and-dirty-Lösung ist in Aussicht, sobald Solr 1.5 rauskommt. Ab dieser Version soll Dismax auch mit der Trunkierung umgehen können. Ob damit auch die Problematik mit den Umlauten behoben ist, bleibt aber abzuwarten.
Suchbeispiele:
Kälte OR Wärme
Komplexitätstheo*
1 Comment
[…] den alternative Katalog der TUB HH informiert wird. Im letzten Posting geht es um die Probleme mit Umlauten und Trunkierung inklusive Vorschläge zur Umgehung eben dieser Probleme. Das TUBfind-Blog richtet sich also […]