Lucene Search v0.1

Bueno, pues ya tengo implementado un sistema ‘sencillo’ de búsqueda basado en Lucene. Como ya os conté, uso php-java-bridge y WDDX para devolver los resultados desde Java a Php.

Algunos resultados numéricos que puedo comentar:

Sistema operativo: Windows XP.
Apache + PHP 5.0.4.
Sun JDK 1.5.0.
Tipos de ficheros comtemplados hasta ahora: TXT, HTML, PDF.
Tiempo en indexar mi disco duro: 2 minutos, 36 segundos.
1 consulta y devolver 600 resultados segun el sistema de puntuación lucene: menos de 1 segundo.

Y ahora que me venga Billy con WinFS y búsquedas por metadatos…

4 comentarios en “Lucene Search v0.1

  1. Lavin nene, suena cañero pero… faltan datos!. Entre otros:
    ¿Qué disco duro tienes?, ¿cómo de lleno está?…
    ayyy, pillín que quieres quitarme a mis clientes sin dar toda la información necesaria…

    Billy

  2. En cualquiera de los casos Jaime, lo que quiero dejar patente es que no se tarda tanto en implementar un sistema de búsqueda medianamente decente para un ordenador personal (que no estoy hablando de indexar como google, ojo).

    Nuevos datos: indexando ficheros HTML (ahora sí lo hago bien, antes no), PDF, WORD y TXT, un total de 4900 ficheros indexados, tardó unos 8 minutos en crear un índice de tamaño 16 Mb. Las búsquedas siguen siendo igual de rápidas sobre ese índice más o menos (Ahora devuelvo también el título y una pequeña descripción del contenido, lo q enlentece la transmisión por XML).

    Las búsquedas simultáneas, dado que no uso un entorno servlet y no puedo reutilizar las instancias java que creo, pues algunas pruebas hice con ab (apache benchmark). Haciendo 1000 consultas con una concurrencia de 50 conexiones simultáneas, las consultas tardaban unos 11 segundos en media. Ahí ya empieza a notarse que mi implementación no es en absoluto óptima…Pero sigue siendo aceptable.

    Espero haberte ayudao con esos datos🙂.

    Y supongo que WinFS hará más cosas además de facilitar las búsquedas (¡espero!).

    Que me gusta meter cizaña y que me contesten… aish😀

  3. Hola, tienes alguna guia de instalacion, ya que me interesa tener una aplicacion para indexar archivos pdf de libros con que cuento.

    De antemano, muchas gracias.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s