Más sobre Lucene
Sencillamente pura crema. Esta librería debería estar portada a todos los lenguajes que usamos día a día en la web…Pongamos un ejemplo de uso integrándolo con otra librería, pdfbox:
import org.pdfbox.searchengine.lucene.LucenePDFDocument;
Document luceneDocument = LucenePDFDocument("foo.pdf");
y ya podríamos añadir el documento pdf indexado a nuestro índice Lucene creado previamente. Automáticamente crearía una serie de campos en el índice con metadatos asociados a dicho documento. fácil ¿eh?.

