TURL: Table Understanding through Representation Learning

Mots clés générés par l'IA : Tables relationnelles connaissances pré-entraînement/affinage représentations contextualisées profondes modèle universel

Points clés générés par l'IA

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et les points clés sont générés à l'aide des métadonnées de l'article plutôt que de l'article complet.

Les tables relationnelles sur le Web stockent une vaste quantité de connaissances.
TURL introduit le paradigme de pré-entraînement/affinage aux tables relationnelles du Web.
Le cadre apprend des représentations contextualisées profondes sur les tables de manière non supervisée.
Il propose un encodeur Transformer conscient de la structure pour modéliser la structure ligne-colonne des tables.
Un nouvel objectif de récupération d'entités masquées (MER) est présenté pour le pré-entraînement.
TURL est évalué avec succès sur 6 tâches différentes pour la compréhension des tables, surpassant nettement les méthodes existantes.

Accédez également à nos autres résultats générés par IA : Résumé complet, Résumé vulgarisé, Article de type blog; ou posez des questions sur cet article à notre Assistant IA.

Auteurs : Xiang Deng, Huan Sun, Alyssa Lees, You Wu, Cong Yu

arXiv: 2006.14806v1 - DOI (cs.IR)

Our source code, benchmark, as well as pre-trained models will be available on https://github.com/sunlab-osu/TURL

Licence : CC BY-NC-ND 4.0

Résumé : Relational tables on the Web store a vast amount of knowledge. Owing to the wealth of such tables, there has been tremendous progress on a variety of tasks in the area of table understanding. However, existing work generally relies on heavily-engineered task specific features and model architectures. In this paper, we present TURL, a novel framework that introduces the pre-training/finetuning paradigm to relational Web tables. During pre-training, our framework learns deep contextualized representations on relational tables in an unsupervised manner. Its universal model design with pre-trained representations can be applied to a wide range of tasks with minimal task-specific fine-tuning. Specifically, we propose a structure-aware Transformer encoder to model the row-column structure of relational tables, and present a new Masked Entity Recovery (MER) objective for pre-training to capture the semantics and knowledge in large-scale unlabeled data. We systematically evaluate TURL with a benchmark consisting of 6 different tasks for table understanding (e.g., relation extraction, cell filling). We show that TURL generalizes well to all tasks and substantially outperforms existing methods in almost all instances.

Soumis à arXiv le 26 Jui. 2020

Posez des questions sur cet article à notre assistant IA

Vous pouvez aussi discutez avec plusieurs papiers à la fois ici.

⚠La licence de l'article ne nous permet pas de nous appuyer sur son contenu et l'assistant IA ne peut se servir que des métadonnées de l'article plutôt que de l'article complet.

Instructions pour utiliser l'assistant IA ?

Résultats du processus de synthèse de l'article arXiv : 2006.14806v1

⚠La licence de cet article ne nous permet pas de nous appuyer sur son contenu et le processus de synthèse est ici effectué avec les métadonnées de l'article plutôt qu'avec l'article en tant que tel.

Résumé Complet
Points clés
Résumé vulgarisé
Article de blog

Les tables relationnelles sur le Web stockent une vaste quantité de connaissances. Cela a conduit à des progrès considérables dans diverses tâches liées à la compréhension des tables. Cependant, les travaux existants reposent généralement sur des fonctionnalités spécifiques aux tâches et des architectures de modèles fortement conçues. Dans cet article, nous présentons TURL, un nouveau cadre qui introduit le paradigme de pré-entraînement/affinage aux tables relationnelles du Web. Pendant la phase de pré-entraînement, notre cadre apprend des représentations contextualisées profondes sur les tables relationnelles de manière non supervisée. Sa conception de modèle universel avec des représentations pré-entraînées peut être appliquée à une large gamme de tâches avec un affinage spécifique à la tâche minimal. Plus précisément, nous proposons un encodeur Transformer conscient de la structure pour modéliser la structure ligne-colonne des tables relationnelles. Nous présentons également un nouvel objectif de récupération d'entités masquées (MER) pour le pré-entraînement afin de capturer la sémantique et les connaissances dans des données non étiquetées à grande échelle. Nous évaluons systématiquement TURL avec un benchmark composé de 6 tâches différentes pour la compréhension des tables (par exemple, l'extraction de relations, le remplissage cellulaire). Nous montrons que TURL généralise bien à toutes les tâches et surpasse nettement les méthodes existantes dans presque toutes les instances. Cette approche novatrice ouvre la voie à une meilleure compréhension et utilisation des données tabulaires sur le Web grâce à l'apprentissage automatique avancé et au traitement efficace des informations structurées.

- Les tables relationnelles sur le Web stockent une vaste quantité de connaissances.
- TURL introduit le paradigme de pré-entraînement/affinage aux tables relationnelles du Web.
- Le cadre apprend des représentations contextualisées profondes sur les tables de manière non supervisée.
- Il propose un encodeur Transformer conscient de la structure pour modéliser la structure ligne-colonne des tables.
- Un nouvel objectif de récupération d'entités masquées (MER) est présenté pour le pré-entraînement.
- TURL est évalué avec succès sur 6 tâches différentes pour la compréhension des tables, surpassant nettement les méthodes existantes.

SummaryLes tables relationnelles sur le Web stockent beaucoup de connaissances. TURL introduit une nouvelle façon d'apprendre des choses sur ces tables. Un cadre apprend des représentations profondes sur les tables sans aide. Il utilise un encodeur spécial pour comprendre la structure des tables. Une nouvelle méthode appelée MER est utilisée pour apprendre encore plus. Definitions- Tables relationnelles: Des données organisées en lignes et colonnes qui stockent des informations. - Pré-entraînement/affinage: Apprendre quelque chose avant de l'utiliser dans des tâches spécifiques. - Contextualisées: Informations qui dépendent du contexte ou de la situation actuelle. - Encodeur Transformer: Un outil informatique qui convertit des données d'un format à un autre. - Récupération d'entités masquées (MER): Trouver des informations cachées dans les données.

Les tables relationnelles sur le Web sont une source importante de connaissances, ce qui a permis des avancées significatives dans diverses tâches liées à la compréhension des tables. Cependant, les méthodes actuelles se basent souvent sur des fonctionnalités spécifiques aux tâches et des architectures de modèles rigides. Dans cet article, nous présentons TURL, un nouveau cadre qui utilise le paradigme de pré-entraînement/affinage pour améliorer la compréhension des tables relationnelles du Web. Pendant la phase de pré-entraînement, notre cadre apprend des représentations profondes contextualisées pour les tables relationnelles sans supervision. Son modèle universel avec représentations pré-entraînées peut être appliqué à une large gamme de tâches avec un affinage minimal spécifique à chaque tâche. Nous proposons un encodeur Transformer conscient de la structure pour modéliser la structure ligne-colonne des tables relationnelles. De plus, nous introduisons un nouvel objectif appelé récupération d'entités masquées (MER) pour le pré-entraînement afin de capturer la sémantique et les connaissances dans les données non étiquetées à grande échelle. Nous avons évalué systématiquement TURL en utilisant un benchmark composé de 6 tâches différentes pour la compréhension des tables telles que l'extraction de relations et le remplissage cellulaire. Les résultats montrent que TURL généralise bien à toutes les tâches et dépasse largement les méthodes existantes dans presque tous les cas. Cette approche novatrice ouvre la voie à une meilleure compréhension et utilisation des données tabulaires sur le Web grâce à l'apprentissage automatique avancé et au traitement efficace des informations structurées. TURL peut être appliqué dans de nombreux domaines tels que la recherche d'informations, l'extraction de connaissances et la fouille de données pour améliorer la précision et l'efficacité du traitement des tables relationnelles sur le Web. En outre, notre cadre peut également être étendu pour prendre en compte les langues multiples présentes dans les tables relationnelles du Web, ce qui pourrait conduire à une meilleure compréhension globale des données tabulaires en ligne.

Créé le 17 Avr. 2024

Évaluez la qualité du contenu généré par l'IA en votant

Note : 0

Le résumé précédent a été créé il y a plus d'un an et peut être réexécuté (si nécessaire) en cliquant sur le bouton Exécuter ci-dessous.

⚠La licence de cet article spécifique ne nous permet pas de nous appuyer sur son contenu et les outils de synthèse seront exécutés en utilisant les métadonnées de l'article plutôt que l'article complet. Cependant, l'outil produira quand même un bon résultat, et vous pouvez également essayer nos outils sur des papiers avec des licences plus ouvertes.

Recherchez des articles similaires (en version bêta)

En cliquant sur le bouton ci-dessus, notre algorithme analysera tous les articles de notre base de données pour trouver le plus proche en fonction du contenu des articles complets et pas seulement des métadonnées. Veuillez noter que cela ne fonctionne que pour les articles pour lesquels nous avons généré des résumés et que vous pouvez le réexécuter de temps en temps pour obtenir un résultat plus précis pendant que notre base de données s'agrandit.

Avertissement : Notre outil de synthèse basé sur l'IA et l'assistant virtuel fournis sur ce site Web peuvent ne pas toujours fournir des résumés complets ou des réponses exactes. Nous vous encourageons à examiner attentivement et à évaluer le contenu généré pour vous assurer de sa qualité et de sa pertinence par rapport à vos besoins.