Hinter den Kulissen: Volltextsuche auf TUBdok

Logo Open Access WeekAnlässlich der Open Access Week soll hier mal ein Blick hinter die Kulissen unseres Open-Access-Dokumentenservers TUBdok gegeben werden. Eine Möglichkeit, die Dokumente auf TUBdok zu durchstöbern, ist die integrierte Volltextsuche. Alle auf TUBdok publizierten Dokumente werden nach Möglichkeit automatisch indiziert und so alle Begriffe, die im Text stehen, suchbar gemacht. Dazu werden aus den zumeist im PDF-Format vorliegenden Dateien die Texte extrahiert und in einen Lucene-Index eingetragen. Bei Dokumenten, wo der Text nicht extrahiert werden kann, ist eine Indizierung derzeit nicht möglich; eine Behandlung mit OCR-Software findet noch nicht statt.

Lucene-LogoTechnisch liegt hinter der Volltextsuche eine auf Lucene (unter Zuhilfenahme von Zend_Lucene) basierende Suchmaschine, die selbst entwickelt wurde. Damit greift TUBdok der noch laufenden Entwicklung des Dokumentenservers OPUS4 vor, bei dem auch eine Lucene-Index-basierte Suche genutzt wird. In OPUS4 wird auch eine OCR-Funktionalität zur Indizierung nicht extrahierbarerer Texte enthalten sein. Wer an einer technisch detaillierteren Dokumentation der Entwicklung interessiert ist, findet eine solche in meinem Bachelor-Report. Die Dokumentation beschreibt den aktuellen Stand der auf TUBdok genutzten Entwicklung, im Rahmen von OPUS4 wurden einige Funktionsweisen der Suchmaschine nochmal überarbeitet und angepasst.

metagerÜbrigens wird die TUBdok-Suchmaschine auch von der Metasuchmaschine MetaGer mit durchsucht. Dazu muss nur TUBdok in der Liste der genutzten Suchdienste angekreuzt und damit aktiviert werden (dies ist derzeit nicht standardmäßig der Fall). Die Verknüpfung zu MetaGer funktioniert über eine OpenSearch-Schnittstelle, die Suchanfragen mit einem um OpenSearch-Elemente erweiterten RSS-Feed beantwortet. Natürlich können auch andere Suchmaschinenbetreiber über diese Schnittstelle auf TUBdok zugreifen – oder auch Sie selbst als Anwender. Denn über diese Schnittstelle ist es auch möglich, Suchergebnisse als RSS-Feed zu abonnieren und sich so automatisiert über neue Publikationen zu bestimmten Suchbegriffen zu informieren. Um sich einen solchen Feed zu erstellen, geben Sie als Feedadresse http://doku.b.tu-harburg.de/lucene/opensearch.php?format=rss&q=<Ihre Suchanfrage> an.