Elastic Open Web Crawler

Una herramienta de indexación inteligente e intuitiva

La forma más rápida de indexar contenido web en Elasticsearch en un entorno sin servidor, en el cloud o en instalaciones locales

Video thumbnail

¡Empieza a rastrear ahora!

Configura y despliega un rastreador para tu contenido web con un terminal y Elasticsearch.

  • Ejecuta la imagen de Docker

    Despliega el código del rastreador web en tu propia infraestructura ejecutándolo desde la fuente o desde Docker.

  • Configura la URL para el rastreo

    Configura una o varias URL que quieras rastrear.

  • Configura y conéctate

    Configura tu rastreador y conéctalo a Elasticsearch.

Elasticsearch: la base de datos vectorial más ampliamente desplegada

Copia para probar localmente en dos minutos

curl -fsSL https://elastic.co/start-local | sh
Leer documentos
O

Toma el control con código abierto

Personaliza el Open Web Crawler de Elastic (Open Crawler) para que se ajuste a tus necesidades. Inspecciona, modifica y contribuye a tu proyecto mientras manejas documentos grandes, ejecutas transformaciones y recuperas datos en el formato que prefieras.

Flexible y rápido: la ventaja de Open Crawler

Aprovecha la nomenclatura de índices sin restricciones y la posibilidad de usar mapping personalizado antes del rastreo. Mejora el rendimiento indexando masivamente los resultados del rastreo en Elasticsearch, en lugar de hacerlo página por página.

Gestiona los despliegues con facilidad

Gestiona tu rastreador web abierto de forma programática con comandos CLI sencillos. Escala los despliegues fácilmente con Terraform o Puppet, y aumenta o disminuye según sea necesario. Elimina las dependencias innecesarias para una gestión simplificada. Despliega en cualquier lugar, incluidos los entornos sin servidor, y conéctate fácilmente con herramientas pequeñas y sencillas.

  • Simple

    Código abierto

    Trabaja con una base de código completamente transparente y modificable en GitHub.

  • PERSONALIZABLE

    Rastrea según tus condiciones

    Obtén precisión con los selectores xPath y CSS para refinar exactamente lo que necesitas de tus páginas.

  • EXHAUSTIVO

    Extrae todos los datos, incluidos los PDF

    Mediante la extracción de contenido binario, todos los tipos de datos requeridos pueden extraerse, incorporarse y convertirse en contenido que se pueda buscar.

  • BUSCABLE

    Realiza una búsqueda semántica

    Integra fácilmente para potenciar experiencias de búsqueda híbridas y conversacionales.