KHAI THÁC TOP-K TẬP HỮU ÍCH CAO CÓ TƯƠNG QUAN TRÊN CƠ SỞ DỮ LIỆU GIAO DỊCH
Corresponding Author(s) : Mạnh Thiên Lý
Tạp chí Khoa học Đại học Công Thương,
T. 23 S. 1 (2023)
Tóm tắt
Trong bài báo này, nhóm tác giả đề xuất một hướng nghiên cứu mới, đó là khai thác top-k tập hữu ích cao có tương quan (Top-k Correlated High Utility Itemset –TCHUI) trên cơ sở dữ liệu giao dịch. Kết hợp giữa bài toán khai thác tập hữu ích cao có tương quan và bài toán khai thác top-k nhằm tìm top-k tập mặt hàng có tính tương quan mà có độ hữu ích cao trong cơ sở dữ liệu giao. Để tìm kiếm tập , chúng tôi kết hợp khai thác tập hữu ích cao có tương quan (Correlated High Utility Itemset - CoHUI) với các chiến lược nâng ngưỡng và đề xuất thuật toán . Thuật toán này sử dụng cấu trúc dữ liệu Utility List để lưu trữ thông tin về độ hữu ích của các tập mặt hàng, sử dụng độ đo để đo lường tính tương quan và áp dụng các chiến lược tỉa: U-Prune, TWU-Prune, LA-Prune giúp giảm không gian tìm kiếm. Đồng thời, các chiến lược nâng ngưỡng như RIU, LIU-E, RUC cũng được sử dụng để khai thác tập một cách hiệu quả. Thực nghiệm trên các bộ dữ liệu lớn gồm Chess, Mushroom, Retail, Chainstore và so sánh hiệu suất thực thi giữa thuật toán với thuật toán gần đây là . Kết quả thực nghiệm cho thấy thuật toán đề xuất có hiệu suất thực thi tốt hơn thuật toán về thời gian thực thi và bộ nhớ sử dụng.
Từ khóa
Tải xuống trích dẫn
Kiểu Endnote/Zotero/Mendeley (RIS)BibTex