Elasticsearch: Einführung in Retriever – Alles durchsuchen

2024-07-12

Autor: von ElasticJeff Vestal, Jack Conradson

In 8.14 führte Elastic in Elasticsearch eine neue Suchfunktion namens „Retriever“ ein. Lesen Sie weiter, um mehr über ihre Einfachheit und Effizienz zu erfahren und wie sie Ihre Suchvorgänge verbessern können.

Retriever sind eine neue Abstraktionsschicht, die der Such-API in Elasticsearch hinzugefügt wurde. Sie bieten die Möglichkeit, mehrstufige Abrufpipelines in einem einzigen _search-API-Aufruf zu konfigurieren. Diese Architektur vereinfacht die Suchlogik in Ihrer Anwendung, indem sie die Notwendigkeit mehrerer Elasticsearch-API-Aufrufe für komplexe Suchabfragen überflüssig macht. Es reduziert auch den Bedarf an clientseitiger Logik, die häufig die Kombination von Ergebnissen aus mehreren Abfragen erfordert.

Der ursprüngliche Typ des Retrievers

In der ersten Version sind drei Arten von Retrievern enthalten. Jeder Retriever ist für einen bestimmten Zweck konzipiert und kann in Kombination komplexe Suchvorgänge durchführen.

Zu den verfügbaren Typen gehören:

Standard – Gibt Dokumente der obersten Ebene in herkömmlichen Abfragen zurück. Diese Typen sind abwärtskompatibel, indem sie die vorhandene Abfrage-DSL-Anfragesyntax unterstützen, sodass Sie in Ihrem eigenen Tempo auf das Crawler-Framework migrieren können.
kNN - Gibt Top-Dokumente in der kNN-Suche zurück.
RRF - Verwenden Sie den reziproken Fusionsalgorithmus, um mehrere Retriever der ersten Stufe ohne oder mit minimalen Benutzeranpassungen in einem einzigen Ergebnissatz zu kombinieren und einzustufen. Ein RRF-Retriever ist ein zusammengesetzter Retriever, dessen Filterelemente an seine untergeordneten Retriever weitergegeben werden.

Wie unterscheiden sich Retriever? Warum sind sie nützlich?

Bei herkömmlichen Abfragen ist die Abfrage Teil eines allgemeinen Such-API-Aufrufs. Der Unterschied zwischen Retrievern besteht darin, dass sie als eigenständige Einheiten konzipiert sind, die einzeln verwendet oder problemlos kombiniert werden können. Dieser modulare Ansatz bietet eine größere Flexibilität bei der Gestaltung von Suchstrategien.

Retriever sind als Teil eines „Retriever-Baums“ konzipiert, einer hierarchischen Struktur, die Suchvorgänge definiert, indem sie deren Reihenfolge und Logik klärt. Diese Struktur macht komplexe Suchvorgänge einfacher zu handhaben, für Entwickler leichter verständlich und ermöglicht das einfache Hinzufügen neuer Funktionen in der Zukunft.

Retriever unterstützen die Zusammensetzbarkeit und ermöglichen Ihnen den Aufbau von Pipelines und die Integration verschiedener Abrufstrategien. Dies ermöglicht ein einfaches Testen verschiedener Abrufkombinationen. Sie bieten außerdem eine bessere Kontrolle darüber, wie Dokumente bewertet und gefiltert werden. Sie können beispielsweise einen Mindestschwellenwert für die Punktzahl festlegen, komplexe Filter anwenden, ohne die Punktzahl zu beeinflussen, und Parameter wie „terminate_after“ zur Leistungsoptimierung verwenden.

Behält die Abwärtskompatibilität mit älteren Abfrageelementen bei und konvertiert sie automatisch in geeignete Retriever.

Beispiel für die Verwendung beim Abrufen

Schauen wir uns einige Beispiele für die Verwendung von Retrievern an. Wir verwenden den IMDB-Beispieldatensatz.

Sie können das enthaltene ausführen Jupiter-Notizbuch, importieren Sie IMDB-Daten in Ihr serverloses Suchprojekt und führen Sie die folgenden Beispiele selbst aus!

Die übergeordneten Einstellungen sind:

Übersicht – eine kurze Zusammenfassung des Films
Namen – die Namen der Filme
Overview_Dense – Dense_Vector, generiert aus dem e5-small-Modell
Overview_sparse – Sparse-Vektoren unter Verwendung des ELSER-Modells von Elastic.
Wenn Sie nur Felder verwenden und _source:false festlegen, wird die Textversion von Namen und Übersicht zurückgegeben

Standard – Gesamten Text durchsuchen!


GET /imdb_movies/_search?pretty
{
  "retriever": {
    "standard": {
      "query": {
        "term": {
          "overview": "clueless"
        }
      }
    }
  },
  "size": 3,
  "fields": [
    "names",
    "overview"
  ],
  "_source": false
}

kNN – Alle dichten Vektoren durchsuchen!


GET /imdb_movies/_search?pretty
{
  "retriever": {
    "knn": {
      "field": "overview_dense",
      "query_vector_builder": {
        "text_embedding": {
          "model_id": ".multilingual-e5-small_linux-x86_64",
          "model_text": "clueless slackers"
        }
      },
      "k": 5,
      "num_candidates": 5
    }
  },
  "size": 3,
  "fields": [
    "names",
    "overview"
  ],
  "_source": false
}

text_expansion – Alle dünn besetzten Vektoren durchsuchen!


GET /imdb_movies/_search?pretty
{
  "retriever": {
    "standard": {
      "query": {
        "text_expansion": {
          "overview_sparse": {
            "model_id": ".elser_model_2_linux-x86_64",
            "model_text": "clueless slackers"
          }
        }
      }
    }
  },
  "size": 3,
  "fields": [
    "names",
    "overview"
  ],
  "_source": false
}

rrf – vereint alles!


GET /imdb_movies/_search?pretty
{
  "retriever": {
    "rrf": {
      "retrievers": [
        {
          "standard": {
            "query": {
              "term": {
                "overview": "clueless slackers"
              }
            }
          }
        },
        {
          "knn": {
            "field": "overview_dense",
            "query_vector_builder": {
              "text_embedding": {
                "model_id": ".multilingual-e5-small_linux-x86_64",
                "model_text": "clueless slackers"
              }
            },
            "k": 5,
            "num_candidates": 5
          }
        },
        {
          "standard": {
            "query": {
              "text_expansion": {
                "overview_sparse": {
                  "model_id": ".elser_model_2_linux-x86_64",
                  "model_text": "clueless slackers"
                }
              }
            }
          }
        }
      ],
      "rank_window_size": 5,
      "rank_constant": 1
    }
  },
  "size": 3,
  "fields": [
    "names",
    "overview"
  ],
  "_source": false
}

Das aktuelle Limit des Retrievers

Der Retriever weist bestimmte Einschränkungen auf, die Benutzer beachten sollten. Wenn Sie beispielsweise einen Compound-Retriever verwenden, können nur Elemente abgefragt werden. Dies erzwingt eine klarere Trennung der Anliegen und verhindert die Komplexität, die mit einer übermäßigen Verschachtelung oder unabhängigen Konfiguration einhergeht. Darüber hinaus dürfen untergeordnete Retriever keine Elemente verwenden, die einen zusammengesetzten Retriever darauf beschränken, Teil eines Retriever-Baums zu sein.

Diese Einschränkungen verbessern die Leistung und Zusammensetzbarkeit, selbst wenn komplexe Abrufstrategien verwendet werden.

Der Retriever wird zunächst als technische Vorschau veröffentlicht, daher kann sich seine API ändern

abschließend

Suchfunktionen stellen einen wichtigen Fortschritt in der Suchfunktionalität und Benutzerfreundlichkeit von Elasticsearch dar. Sie können in einer Pipeline-Methode verkettet werden, wobei jeder Retriever seine eigene Logik anwendet und die Ergebnisse an das nächste Element in der Kette weitergibt. Retriever können das Sucherlebnis erheblich verbessern, indem sie strukturiertere, flexiblere und effizientere Suchvorgänge ermöglichen.

Die folgenden Ressourcen bieten weitere Details zu Retrievern.

Probieren Sie den obigen Code selbst aus!Du kannst rennenbegleitendes Jupiter-Notizbuch, IMDB-Daten in das Elastic Serverless Search-Projekt importieren!

Bereit, es selbst auszuprobieren?StartKostenlose Testphase。
Möchten Sie sich von Elastic zertifizieren lassen?Finden Sie es beim nächsten Mal herausAusbildung zum Elasticsearch-IngenieurWann anfangen?

Original:Elasticsearch-Retriever – So verwenden Sie Such-Retriever in Elasticsearch – Elastic Search Labs

Technologieaustausch