Nutch ist eine Open-Sorce-Web-Suche. Es basiert auf Apache Lucene und fügt diesem die nötigen Funktionaliäten hinzu. Damit sind vor allem Crawler, die Link-Graph-Datenbank, HTML-Parser und natürlich auch die Fähigkeit weitere Dokumenten-Formate zu verstehen gemeint.
Apache Lucene ist einfach nur die programmtechnische Nutzung von Indizierungsfunktionen. Der Funktionsumpfang ist dabei sehr eingeschränkt. – Das ermöglicht allerding Projekten wie Nutch sich auf diesem Spielplatz zu profilieren.
Über die spezifischen Webfunktionalitäten bringt Nutch auch ein Erkennungssystem für Sprachen und den verwendeten Zeichensatz mit. Das ist recht sinnvoll, da das Internet sehr International ist.
Darüber hinaus kann Nutch sich der Möglichkeiten des Hadopp-Projektes bedienen. Das bedeutet, dass, ähnlich wie bei Google, die Daten auf mehreren physisch getrennten Maschinen abgelegt und genutzt werden können. So entsteht ein Index, der sich fast unendlich wachsen kann.
Wie Lucene benötigt selbstverständlich auch Nutch eine aktuelle Java-Version. Diese muss installiert sein!
Will man Nutch als Suchmaschniene betreiben, so liegt es nahe, auch eine Web-Abfrage zu ermöglichen. Dies’ wird mit hilfe von Tomcat – einem sogenannten Servlet-Container – realisiert.