Mã số | Tác giả | Tiêu đề |
3809 |
Van Tong (School of Information and Communication Technology, Hanoi University of Science and Technology, Vietnam), Viet Cuong Dao (Faculty of Information Technology, Hanoi University of Civil Engineering, Vietnam) and Duc Tran (School of Information and Communication Technology, Hanoi University of Science and Technology, Vietnam). |
MultiCloneBERT: A Novel Semantic Code Clone Detection Mechanism Leveraging Graph-Based Large Language Model In the field of software development, code clones are a common occurrence. These duplicates, while sometimes useful, often lead to challenges in maintaining and ensuring the reliability of the software. The issue is further complicated by the fact that these clones can be of various types, with Type-4 or semantic clones being particularly difficult to detect due to their nuanced nature. The problem at hand is the detection and classification of these code clones, especially the semantic ones. Existing methods, both traditional and machine learning-based, have shown limitations in effectively addressing this issue. Our solution is MultiCloneBERT, a novel framework designed to tackle this problem. This framework enhances the existing GraphCodeBERT model, enabling it to detect and classify code clones across all four types, with a special emphasis on semantic clones. MultiCloneBERT leverages a transformer-based architecture, coupled with a graph-guided masked attention mechanism. This combination allows the model to effectively understand the context and semantics of the code, thereby improving its clone detection capabilities. Furthermore, the framework is scalable and adaptable, making it a promising tool for automating clone detection in real-world software systems. When evaluated on the BigCloneBench dataset, MultiCloneBERT outperformed other methods in terms of precision, recall, and f1-score metrics with all values reaching above 99%. It demonstrated high accuracy levels and robustness across varying dataset sizes, underscoring its effectiveness and potential for practical applications. |
9632 | Lộc Lê Phước (Viện Cơ học và Tin học Ứng dụng VAST), Hùng Trần Công (Saigon International University), Tuyet Dao Van (Saigon International University), Huy Ngo Hoang (CMC University), Quyền Nguyễn Văn (Đại học Hải Phòng), Ý Nguyễn Thành (FPT University - Hoa Lac Campus), Lâm Chung Tấn (http://siu.edu.vn) and Phong Phạm Đình (Đại học Gaio thông Vận tải). |
NHẬN DẠNG MẶT HÀNG BẰNG HỌC SÂU VỚI TRI THỨC NGỮ NGHĨA Thông qua bài toán nhận dạng các mặt hàng trong siêu thị, bài báo này trình bày kết quả việc áp dụng tri thức ngữ nghĩa vào phương pháp phát hiện đối tượng dựa trên kỹ thuật học sâu. Nghiên cứu được tiến hành trên một tập dữ liệu nhỏ gồm hình ảnh các mặt hàng nước giải khát trên các kệ hàng trong một số siêu thị. Bài báo sử dụng phương pháp phát hiện mối tương quan về ngữ nghĩa của các đối tượng và nhóm đối tượng |
8906 |
Pham Thanh Trang (Posts and Telecommunications Institute of Technology) and Nguyen Kieu Linh (Posts and Telecommunications Institute of Technology). |
SONG SONG HOÁ THUẬT TOÁN TÌM BAO LỒI TRỰC GIAO LIÊN THÔNG CỦA TẬP HỮU HẠN ĐIỂM Xuất phát từ bài toán nhận dạng mẫu (xác định hình dạng của đối tượng đầu vào có cùng kiểu với một trong các nhóm đối tượng nhất định hay không?), bài toán tìm bao lồi trực giao được quan tâm và phát triển trong nhiều lĩnh vực khác nhau, đặc biệt trong lĩnh vực ảnh kỹ thuật số và thị giác máy tính. Từ năm 1983 đến nay định nghĩa về tập lồi trực giao, bao lồi trực giao, các lý thuyết liên quan và các thuật toán giải được đề xuất và phát triển mạnh mẽ. Trong các thuật toán tìm bao lồi trực giao, thuật toán -Quickhull được đánh giá là có thời gian chạy nhanh hơn các thuật toán khác ở hầu hết các kiểu dữ liệu thử nghiệm [22]. Bởi vậy, trong bài báo này chúng tôi trình bày một phương pháp song song nhằm tăng tốc cho thuật toán O-Quickhull. Các thử nghiệm số chỉ ra phương pháp tính toán song song của chúng tôi là thực sự có hiệu quả. |
4454 |
Nguyễn Thị Định (Trường Đại học Công Thương TP. HCM), Văn Thế Thành (Trường Đại học Sư phạm TP. HCM) and Lê Mạnh Thạnh (Trường Đại học Khoa học, Đại học Huế). |
MỘT KỸ THUẬT XÂY DỰNG KNOWLEDGE GRAPH ÁP DỤNG CHO BÀI TOÁN TÌM KIẾM ẢNH Knowledge Graph xây dựng trên tập dữ liệu hình ảnh được ứng dụng cho một số bài toán như tìm kiếm ảnh, phân lớp ảnh, phát hiện đối tượng và chú thích hình ảnh, v.v. Trong bài báo này, một cấu trúc Knowledge Graph được tập trung thiết kế từ nhiều đồ thị bộ phận và áp dụng cho bài toán tìm kiếm ảnh. Mỗi đồ thị bộ phận gọi là Partial Graph được xây dựng bằng phương pháp thống kê đối tượng, mối quan hệ trực tiếp từ các bộ dữ liệu ảnh bằng cấu trúc Relationship KD-Tree kết hợp mạng học sâu. Một Partial Graph bao gồm một đối tượng chính và nhiều đối tượng liên quan, mỗi đối tượng liên quan trên Partial Graph này lại trở thành đối tượng chính cho một Partial Graph khác. Quá trình loang rộng và kết hợp nhiều Partial Graph để hình thành một cấu trúc Knowledge Graph. Trên cơ sở cấu trúc Knowledge Graph được xây dựng, pha tìm kiếm ảnh được thực hiện bằng cách tạo đồ thị Relationship Graph cho ảnh đầu vào. Sau đó, câu truy vấn SPARQL được phát sinh để tìm kiếm trên Knowledge Graph và trích xuất tập hình ảnh liên quan. Thực nghiệm được tiến hành trên bộ ảnh MS-COCO và Flickr với độ chính xác tìm kiếm ảnh lần lượt là 0.8689, 0.8879. Theo kết quả thực nghiệm, phương pháp xây dựng cấu trúc Knowledge Graph đề xuất và áp dụng cho bài toán tìm kiếm ảnh của chúng tôi được đánh giá là hiệu quả khi so sánh với một số công trình khác; đồng thời áp dụng mở rộng được cho các tập dữ liệu ảnh thuộc nhiều chủ đề khác nhau bằng cách mở rộng nhiều Partial Graph. |
2973 |
Nguyễn Thế Thủy (Information and Communication Technology Center, Department of Information and Communications, Bacninh, Vietnam), Nguyễn Long Giang (Institute of Information Technology, Vietnam Academy of Science and Technology, Vietnam), Nguyễn Ngọc Thủy (Faculty of Information Technology, University of Sciences, Hue University, Hue, Vietnam), Vũ Đức Thi (VNU Information Technology Institute, Vietnam National University, Hanoi, Vietnam) and Phạm Việt Anh (HaUI Institute of Technology, Hanoi University of Industry, Hanoi, Vietnam). |
THUẬT TOÁN GIA TĂNG RÚT GỌN THUỘC TÍNH TRÊN BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP LÂN CẬN MỜ TRỰC CẢM Rút gọn cũng như trích chọn các thuộc tính trên bảng thông tin quyết định từ lâu đã trở thành một hướng nghiên cứu quan trọng trong học máy với mục tiêu giảm thiểu số chiều trên không gian dữ liệu ban đầu. Một số nghiên cứu gần đây đã tập trung xây dựng các thuật toán theo hướng tiếp cận mô hình tập mờ trực cảm. Mô hình này với sự bổ sung của thành phần không thuộc có khả năng giảm thiểu nhiễu một cách rất tốt trên các hệ thông tin có tính không đảm bảo (chắc chắn) cũng như có hiệu quả phân lớp gốc thấp. Mặc dù vậy, cũng chính sự bổ sung này mà các thuật toán theo hướng tiếp cận tập mờ trực cảm có không gian lưu trữ và thời gian tính toán phức tạp. Do đó, nghiên cứu này ban đầu sẽ xây dựng một hướng tiếp cận mới từ không gian tập lân cận mờ trực cảm để thiết kế một thuật toán rút gọn các thuộc tính dư thừa trên bảng quyết định cố định. Sau đó, nghiên cứu sẽ mở rộng theo hướng tính toán gia tăng để xác định một rút gọn xấp xỉ trên bảng quyết định khi có sự bổ sung tập đối tượng. Một số kết quả trong quá trình thực nghiệm của chúng tôi đã cho thấy các phương pháp đề xuất có hiệu quả tốt hơn một số phương pháp theo tiếp cận trên không gian tập thô mờ và tập thô. |
6349 |
Cù Việt Dũng (Khoa Công nghệ thông tin, Đại học Thủy Lợi), Nguyễn Hữu Quỳnh (Khoa Công nghệ thông tin, Đại học Thủy Lợi), Vũ Thanh Sơn (Khoa Công nghệ thông tin, Đại học Thủy Lợi), Châu Văn Vân (Nguyen Hoang Education Group) and Ngô Minh Hương (Viện Trí tuệ nhân tạo, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội). |
Một phương pháp biểu diễn ảnh và tăng tốc độ hiệu quả cho tra cứu ảnh Số lượng hình ảnh đang tăng lên một cách đáng kể, đòi hỏi cần có một hệ thống lưu trữ và truy xuất hiệu quả. Bài toán tra cứu ảnh theo nội dung đã ra đời để giải quyết vấn đề này. Trong những năm gần đây, đã có nhiều phương pháp tra cứu ảnh được đông đảo các nhóm tác giả nghiên cứu và đề xuất. Các phương pháp này thường dùng sử dụng mạng nơ ron sâu có giám sát học các đặc trưng giúp cải thiện độ chính xác. Tuy nhiên, do tập dữ liệu ảnh thực tế khi tra cứu thường không có nhãn, có số lượng lớn nên việc sử dụng các mạng nơ ron sâu có giám sát học đặc trưng là khó khăn và tìm kiếm trên toàn bộ không gian đặc trưng trở nên tốn rất nhiều thời gian. Trong bài báo này, chúng tôi đề xuất một mô hình tra cứu ảnh ViT-RBTFIR (Vision Transformer and Randomized Binary Tree Forest for Image Retrieval) sử dụng một mô hình học sâu tiền huấn luyện hiện đại ViT (Vision Transformer) để trích xuất đặc trưng ảnh và một kỹ thuật rừng cây nhị phân với chiếu ngẫu nhiên cho phép giảm không gian tìm kiếm để tìm ra số lượng ảnh tương tự cần thiết. Các thực nghiệm được so sánh, đánh giá trên tập dữ liệu Corel, Cifar10, Cifar100 để chỉ ra sự hiệu quả về độ chính xác và tốc độ của mô hình tra cứu đề xuất. |
4201 |
Nguyễn Dũng (University of Sciences, Hue University, Hue city, Viet Nam), Hoàng Văn Dũng (Ho Chi Minh City University of Technology and Education) and Lê Văn Tường Lân (Hue University). |
ENHANCING THE DETR OBJECT DETECTION MODEL BY INTEGRATING LINFORMER In this study, we introduce an enhancement for the DETR (DEtection TRansformer) object detection model by integrating Linformer, a variant of the Transformer with linear complexity. Linformer reduces the computational complexity of the self-attention mechanism from O(n^2) to O(n) by using a projection matrix to approximate the attention matrix. This allows for more efficient processing of longer data sequences in terms of computational resources and memory. We replace the Transformer encoder layers in DETR with Linformer encoder layers, modify the feature extraction backbone from ResNet to Swin, and retain other components such as the heads for object detection and bounding box prediction. Experimental results on the PASCAL dataset show that the DETRWithLinformer model achieves performance comparable to the original DETR model while requiring fewer computational resources and achieving faster training speeds. Integrating Linformer into DETR not only improves computational efficiency but also opens new avenues for applying Transformers to more complex tasks with lower costs |
8841 |
Nam Nguyen (University of Information Technology, VNU-HCM), Thang Phan (University of Information Technology, VNU-HCM) and Kiet Nguyen (University of Information Technology, VNU-HCM). |
Cải tiến mô hình đồ thị nơ-ron tích chập với mô hình ngôn ngữ chuyên biệt cho các bài toán xử lý văn bản truyền thông xã hội tiếng Việt Xử lý mạng xã hội là một nhiệm vụ cơ bản trong xử lý ngôn ngữ tự nhiên (NLP) với nhiều ứng dụng khác nhau. Khi mạng xã hội và khoa học thông tin ở Việt Nam phát triển nhanh chóng, việc khai thác thông tin dựa trên mạng xã hội Việt Nam trở nên cực kỳ quan trọng. Tuy nhiên, các nghiên cứu tiên tiến hiện nay gặp phải một số hạn chế đáng kể, bao gồm dữ liệu không cân bằng và dữ liệu nhiễu trên các nền tảng mạng xã hội. Dữ liệu không cân bằng và nhiễu là hai vấn đề cần được giải quyết trong văn bản mạng xã hội tiếng Việt. Mạng Convolutional Đồ thị có thể giải quyết các vấn đề về dữ liệu không cân bằng và nhiễu trong phân loại văn bản trên mạng xã hội bằng cách tận dụng cấu trúc đồ thị của dữ liệu. Bài báo này trình bày một phương pháp mới dựa trên ViSoBERT và phương pháp dựa trên đồ thị (GCN). Cụ thể, phương pháp được đề xuất, ViSoGCN, kết hợp sức mạnh của các biểu diễn ngữ cảnh hóa với khả năng của Mạng Convolutional Đồ thị để nắm bắt nhiều phụ thuộc cú pháp và ngữ nghĩa hơn nhằm giải quyết các hạn chế đó. Chúng tôi đã tiến hành các thí nghiệm rộng rãi trên các tập dữ liệu tiêu chuẩn Việt Nam khác nhau để xác minh phương pháp của mình. Kết quả quan sát cho thấy việc áp dụng GCN vào các mô hình BERTology làm lớp cuối cùng cải thiện đáng kể hiệu suất. Hơn nữa, các thí nghiệm chứng minh rằng ViSoGCN vượt trội hơn 12 mô hình cơ bản mạnh mẽ. ViSoGCN đã chứng minh được hiệu suất vượt trội so với các phương pháp hiện có và mở ra tiềm năng ứng dụng rộng rãi trong các nghiên cứu và ứng dụng thực tế. |
9017 |
Thái Hoàng Lâm (Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia TP. HCM) and Đinh Điền (Khoa Công nghệ Thông tin, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia TP. HCM). |
LEVERAGING SINO-VIETNAMESE TRANSCRIPTION WITH APPROPRIATE TRANSFORMER ARCHITECTURE FOR INTERPRETATION OF VIETNAMESE CHINESE LITERARY WORKS INTO MODERN VIETNAMESE Decoding Vietnamese Chinese literary works – a part of Sino-Nom heritage – into modern Vietnamese is the crucial way to convey tons of precious lessons and messages from the past to the current Vietnamese generation. However, interpretation of literary language is always the challenge as it required the ability to comprehend not only both source and target language but also the background, author’s feelings... leading to the birth of that work. Therefore, this task has usually done by Sino-Nom experts. Nevertheless, with the rapid growth of Artificial Intelligence and Natural Language Processing, we should try to apply these cutting-edge technologies to the journey of interpreting these masterpieces. In this research, we chose Transformer encoder-decoder for the interpretation task. However, instead of using default architecture, we carried out several experiments to find an appropriate hyper-parameter set for our interpretation model. Moreover, based on the knowledge about the profound relationship among Chinese character, Sino-Vietnamese readings and Sino-Vietnamese words in modern Vietnamese, we also study the effectiveness of leveraging the Sino-Vietnamese transcriptions with different ways for improving the interpretation quality. Our experimental results found out an appropriate Transformer model for the interpretation of Vietnamese Chinese literary works into modern Vietnamese and provided the best way to make use of Sino-Vietnamese transcription for training corpus. Our outcome improved the quality of interpretation by 1.34 BLEU score compared to previous work. |
1565 |
Le Huu Binh (Faculty of Information Technology, University of Sciences, Hue University), Vo Thanh Tu (Faculty of Information Technology, University of Sciences, Hue University), Nguyen Hoang Ha (Faculty of Information Technology, University of Sciences, Hue University) and Tran Thi Phuong Chi (Faculty of Information Technology, University of Sciences, Hue University). |
MỘT GIẢI PHÁP NÂNG CAO HIỆU QUẢ SỬ DỤNG NĂNG LƯỢNG TRONG MẠNG CẢM BIẾN KHÔNG DÂY BẰNG KỸ THUẬT ĐỊNH TUYẾN KẾT HỢP ĐIỀU KHIỂN TÔ-PÔ Một trong những yếu tố có ảnh hưởng lớn đến hiệu năng của mạng cảm biến không dây (WSN) là hiệu quả sử dụng năng lượng tại các nút cảm biến. Trong bài báo này, chúng tôi đề xuất một giải pháp kết hợp giữa định tuyến và điều khiển tô-pô nhằm giảm thiểu mức tiêu thụ năng lượng tại các nút cảm biến, kéo dài thời gian hoạt động của hệ thống mạng. Ý tưởng của giải pháp là dựa trên bảng định tuyến, các nút cảm biến điều chỉnh công suất phát phù hợp, đủ để duy trì kết nối đến các nút láng giềng có sử dụng trong bảng định tuyến. Kết quả mô phỏng cho thấy rằng, giải pháp được đề xuất mang lại hiệu quả cao về mặt sử dụng năng lượng, kéo dài thời gian hoạt động của hệ thống mạng. |
7074 |
Văn Vạn Tống (Trường Công nghệ Thông tin và Truyền thông, Đại học Bách khoa Hà Nội), Gang Thép Đồng (Trường Công nghệ Thông tin và Truyền thông, Đại học Bách khoa Hà Nội), Minh Hà Chử (Trường Công nghệ Thông tin và Truyền thông, Đại học Bách khoa Hà Nội) and Quang Đức Trần (Trường Công nghệ Thông tin và Truyền thông, Đại học Bách khoa Hà Nội). |
CẢI THIỆN BÀI TOÁN PHÁT HIỆN LỖ HỔNG ĐA NHÃN TRONG HỢP ĐỒNG THÔNG MINH SỬ DỤNG MÔ HÌNH NGÔN NGỮ LỚN Hợp đồng thông minh là một chương trình máy tính tự động hóa các giao thức giao dịch và thực thi các điều khoản được thỏa thuận trong hợp đồng, chạy trên các nền tảng chuỗi khối như Ethereum. Khi được triển khai trên các nền tảng chuối khối, các hợp đồng thông mình này không thể thay đổi được nữa. Do sự phức tạp trong quá trình triển khai, khi hợp đồng thông minh chứa các lỗ hổng có khả năng bị khai thác, điều này có thể dẫn tới những thiệt hại nghiêm trọng cho các ứng dụng triển khai các hợp đồng thông minh này. Để giải quyết vấn đề này, đã có rất nhiều nghiên cứu tập trung vào việc phát hiện lỗ hổng trong hợp đồng thông minh của chuỗi khối như các giải pháp truyền thống (Oyente, Slither, v.v) và các giải pháp sử dụng học sâu. Tuy nhiên, các giải pháp này tồn tại hai điểm hạn chế. Thứ nhất, các giải pháp truyền thống thường yêu cầu thời gian xử lí lớn trong khi số lượng lỗ hổng có thể phát hiện khá hạn chế. Thứ hai, các giải pháp học sâu thường tập trung vào bài toán phân loại đa lớp để phát hiện một lỗ hổng trong hợp đồng thông minh trong khi có thể tồn tại nhiều lỗ hổng trong những hợp đồng thông minh này. Để giải quyết những hạn chế trên, nhóm nghiên cứu đề xuất giải pháp phát hiện lỗ hổng đa nhãn trong hợp đồng thông minh sử dụng mô hình ngôn ngữ lớn CodeBERT. Trong nghiên cứu này, nhóm nghiên cứu cũng đề xuất phương pháp trích xuất vectơ sử dụng token đầu tiên của mô hình CodeBERT. Giải pháp phát hiện lỗ hổng đề xuất được đánh trên một bộ dữ liệu uy tín gồm 65,887 hợp đồng thông minh với bốn kiểu lỗ hổng. Kết quả thực nghiệm cho thấy rằng giải pháp đề xuất vượt trội hơn so với các nghiên cứu liên quan và đạt độ chính xác đạt 85% trong khi yêu cầu thời gian xử lí hợp lí với 0.38 mili giây. |