NARD Intelligence est ravie d’annoncer qu’un projet de recherche en collaboration entre des chercheurs du département Informatique de l’Institut Supérieur des Technologies de l’Information (Tunisie) et de la Communication (Tunisie) et du Big Data Institute de l’Université de Shenzhen (Chine) a été accepté pour publication dans la conférence International Conference on Big Data Analytics (BDA 2022) qui se tiendra du 19 au 22 décembre 2022 à Hederabad, en Inde.
Liste de tous les papiers acceptées à la conférence : BDA Accepted Papers List
Ce travail présente une nouvelle approche pour l’apprentissage des plongements (embeddings) des tranactions sur la base des ‘Itemsets’ à haute valeur utile. Il s’agit d’une adaptation de Word2vec, la très célèbre technique de Natural Language Processing (NLP) qui utilise un modèle de réseau de neurones pour apprendre les plongements de mots (word embeddings) à partir d’un grand corpus de texte, au domaine pattern/itemset mining.
Abstract
Mining frequent itemsets (FIs) in transaction databases is a very popular task in data mining. It helps create meaningful and effective representations for customer transactions which is a key step in the process of transaction classification and clustering. To improve the quality of these representations, previous studies have adapted vector embedding methods to learn transaction embeddings from items and FIs.
However, FIs are still a simple pattern type that ignores important information about transactions such as the purchase quantities of items and their unit profits.
To address this issue, we propose to learn transaction embeddings from items and high-utility itemsets (HUIs), a more general pattern type. Since HUIs were shown to be more appropriate than FIs for a wide range of applications, we take for hypothesis that transaction embeddings learned from HUIs will be more representative and meaningful. We introduce an unsupervised method, named Hui2Vec, to learn transaction embeddings by combining both singleton items and HUIs. We demonstrate the superior quality of the embedding achieved with the proposed method compared to the embeddings learned from items and FIs on four datasets.
#word-embedding #machine-learning #ml #ai #high-utility #data-mining