Precise Zero-Shot Dense Retrieval without Relevance Labels

Mots clés générés par l'IA : HyDE Apprentissage zéro-shot Embeddings Hypothétiques de Document Contriever Modèle linguistique

Points clés générés par l'IA

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

  • Les systèmes de recherche dense sont efficaces et efficients dans différentes tâches et langues.
  • Il est difficile de créer des systèmes de recherche dense entièrement zéro-shot sans étiquette de pertinence disponible.
  • Les auteurs proposent d'utiliser les Embeddings Hypothétiques de Document (HyDE).
  • HyDE utilise un modèle linguistique pour générer un document hypothétique qui capture les motifs pertinents mais peut contenir des informations fausses ou inexactes.
  • Un encodeur non supervisé appris par contraste encode le document en un vecteur d'embedding pour identifier un voisinage dans l'espace d'embedding du corpus où des documents réels similaires sont récupérés en fonction de la similarité vectorielle.
  • HyDE surpasse significativement le retriever dense non supervisé state-of-the-art Contriever et présente une performance solide comparable aux retrievers fine-tuned sur diverses tâches (recherche web, QA, vérification des faits) et langues (swahili, coréen, japonais).
Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callan

Résumé : While dense retrieval has been shown effective and efficient across tasks and languages, it remains difficult to create effective fully zero-shot dense retrieval systems when no relevance label is available. In this paper, we recognize the difficulty of zero-shot learning and encoding relevance. Instead, we propose to pivot through Hypothetical Document Embeddings~(HyDE). Given a query, HyDE first zero-shot instructs an instruction-following language model (e.g. InstructGPT) to generate a hypothetical document. The document captures relevance patterns but is unreal and may contain false details. Then, an unsupervised contrastively learned encoder~(e.g. Contriever) encodes the document into an embedding vector. This vector identifies a neighborhood in the corpus embedding space, where similar real documents are retrieved based on vector similarity. This second step ground the generated document to the actual corpus, with the encoder's dense bottleneck filtering out the incorrect details. Our experiments show that HyDE significantly outperforms the state-of-the-art unsupervised dense retriever Contriever and shows strong performance comparable to fine-tuned retrievers, across various tasks (e.g. web search, QA, fact verification) and languages~(e.g. sw, ko, ja).

Soumis à arXiv le 20 Déc. 2022

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2212.10496v1

La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Les systèmes de recherche dense ont prouvé leur efficacité et leur efficience dans diverses tâches et langues. Cependant, il est difficile de créer des systèmes de recherche dense entièrement zéro-shot lorsqu'aucune étiquette de pertinence n'est disponible. Dans cet article, les auteurs reconnaissent la difficulté liée à l'apprentissage zéro-shot et au codage de la pertinence. Au lieu de cela, ils proposent d'utiliser les Embeddings Hypothétiques de Document (HyDE). Lorsqu'une requête est soumise, HyDE utilise un modèle linguistique qui suit des instructions (par exemple InstructGPT) pour générer un document hypothétique. Ce document capture les motifs pertinents mais peut contenir des informations fausses ou inexactes. Ensuite, un encodeur non supervisé appris par contraste (par exemple Contriever) encode le document en un vecteur d'embedding. Ce vecteur identifie un voisinage dans l'espace d'embedding du corpus où des documents réels similaires sont récupérés en fonction de la similarité vectorielle. Cette seconde étape permet d'ancrer le document généré au corpus réel tout en filtrant les informations incorrectes grâce à l'encodeur à bottleneck dense. Les expériences montrent que HyDE surpasse significativement le retriever dense non supervisé state-of-the-art Contriever et présente une performance solide comparable aux retrievers fine-tuned sur diverses tâches (recherche web, QA, vérification des faits) et langues (swahili, coréen, japonais).
Créé le 05 Avr. 2023

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Pourquoi avons-nous besoin de votes ?

Les votes sont utilisés pour déterminer si nous devons réexécuter nos outils de synthèse. Si le compte atteint -10, nos outils peuvent être redémarrés.

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.

Articles similaires résumés avec nos outils d'IA

Naviguez à travers encore plus d'articles similaires en utilisant une

représentation arborescente

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.