Credits

Inhalte dieser Seite wurde von apache.org übersetzt
http://lucene.apache.org/solr/features.html

Apache Solr Features

Solr zählt zu den stand-alone Enterprise Search Server mit einem Web-Service wie API. Dabei werden Dokumente mittels XML über HTTP eingestellt. Diesen Vorgang nennt man Indexierung. Die Such-Abfrage läuft dabei über HTTP GET während die Ergebnisliste über XML empfangen wird.

Zu den wichtigsten Eigenschaften dieses Enterprise Search Servers zählen:

  • Erweiterte Einsatzmöglichkeiten der Voll-Text Suche
  • Optimiert für High Volume Web Traffic
  • Standards Based Open Interfaces - XML und HTTP
  • Umfangreiche HTML Administration Interfaces
  • Server Statistiken zur Beaobachtung durch JMX dargestellt
  • Skalierbarkeit – effiziente Replikation zu anderen Solr Search Servers
  • Flexibel and Anpassungsfähig durch XML Konfiguration
  • Erweiterbare Plugin Architektur

Solr nutzt die Lucene Such Bibliothek und erweitert Sie!

  • Ein echtes Data Schema mit numerischen und dynamischen Feldern und Unique Keys
  • Leistungsstarke Extensions zu der Lucene Query Sprache
  • Support für den Dynamic Faceted Browsing und der Filterung
  • Erweiterter, konfigurierbarer Text Analyse
  • Hoch konfigurierbar und User Extensible Caching
  • Performance Optimierung
  • Externe Konfiguration via XML
  • Ein Administration Interface
  • Sichtbare Datensammlung
  • Schnelle schrittweise Updates und Snapshot Distribution
  • Dezentrale Suche mit mehrfach genutztem Index auf mehreren Hosts
  • XML und CSV begrenztes Textupdate Format
  • Einfache Stoppung der Daten von Databases und XML Dateien von der lokalen disk und HTTP Quellen
  • Multiple Such Indexierung


Detailierte Features Schema

  • Definition der Felder Arten und Felder Dokumente
  • Stärkeres Intelligent Processing
  • Erklärende Lucene Analysator Spezifikation
  • Dynamische Felder ermöglichen schnelles Hinzufügen neuer Felder
  • CopyField Funktionalität erlaubt das Indezieren einzelner Felder über verschiedene Wege oder die Kombination verschiedener Felder in ein einzelnes durchsuchbares Feld
  • Eindeutige Arten ersetzten ungenaue Schätzungen über die Arten der Felder
  • Externe, datenbasierte Konfiguration von Stopword-, Synonym- und geschützter Wort Listen
  • Viele zusätzliche Textanalyse-Elemente wie beispielsweise die Wort Trennung, Regex und "Hört-sich-an-wie" Filtern



Abfrage

  • HTTP Interface mit konfigurierbarem Antwort Format (XML/XSLT, JSON, Python, Ruby)
  • Sortiert nach beliebiger Anzahl von Kriterien
  • Erweiterte DisMax Abfrage Parser für die besten Ergebnisse zu dem eingegeneben Suchbegriff
  • Hervorgehobene Kontextteile
  • Facettierte Suche basiert auf einzelnen Feldwerten und bestimmten Abragen
  • Rechtschreibprüfung der Suchbegriff-Eingabe
  • Dokumentenvorschläge
  • Konstante Scoring Range und Prefix Abfragen - kein idf, coord oder lengthNorm Faktoren und keine Begenzung in der Anzahl der auf die Abfrage passenden Begriffe
  • Functions Query - influence the score by a function of a field's numeric value or ordinal
  • Daten Mathe – spezielle Dates beziehen sich auf das "Jetzt" in den Abfragen und Updates
  • Performance Optimierung


Core

  • Ansteckbare Abfrager und erweiterbares XML Data Format
  • Durchsetzung der Dokumenten-Einzigartigkeit basiert auf dem Unique Key Feld
  • Viele Updates and Änderungen für eine bessere Performance
  • Vom User konfigurierbare Befehle stoßen den Index Wechsel an
  • Kontrolle gleichzeitiger Such-Zugriffe
  • Richtige Handhabung numerischer Datentypen sowohl für die Sortierung als auch die Anzeige der Abfragen
  • Möglichkeit auch die Bereiche zu kontrollieren, wo docs, bei denen die Sortierfelder fehlen, liegen
  • "Luke" Abfragehandler für den Großteil der Informationen


Caching

  • Konfigurierbare Abfrage Ergebnisse, Filter und Dokument Cache Instances
  • Ansteckbare Cache Implementierungen
  • Cache warming im Hintergrund
  • Wenn ein neuer Sucher geöffnet wird, laufen konfigurierte Sucher gegen die Anfrage, um Ihn vorzubereiten, um langsame erste Treffer zu vermeiden. Während diesem "Warming" bearbeitet der aktuelle Sucher die live Suchanfrage.
  • Autowarming im Hintergrund
  • Mit dem zuletzt aufgerufenen Begriffe im Caches des aktuellen Suchers wird der neuen Sucher bestückt und ermöglicht hohe Cache Treffer jendseits des Index und dem Server Wechsel 
  • Kleine aber schnelle Filter Implementierungen
  • User level caching mit Autowarming Support


Replikation

  • Effiziente Distribution der Index Teile, die via rsync transport gewechselt wurden
  • Pull Strategie erlaubt ein leichtes Hinzufügen von Suchern
  • Konfigurierbarer Distribution Interval erlaubt einen Tradeoff zwischen Akutalität und Cache Auslastung.


Admin Interface

  • Umfangreiche Statistiken über die Cache Auslastung, Updates und Suchanfragen
  • Text Analyse Fehlersuchprogramm, das Ergebnisse auf jeder Stufe der Analyse zeigt
  • Web Abfrage Interface w/ Fehlerbeseitigung
  • Analyse der Abfrage Ergebnisse
  • Lucene erklärt Dokumente und beschreibt die Ergebnisse ausführlich
  • Erklärung eines Ergebnisses für Dokumente ausserhalb des abgefragten Bereichs zur Fehlerbeseitigung, warum bestimmte Dokumenten nicht höher gerankt werden