(Google Translate) Sự kết hợp có trọng số của các Tính năng Bản thể học và Từ khóa cho Phân cụm Tài liệu
Email tác giả liên hệ:
tapchikhgkdt@hcmute.edu.vnTừ khóa:
named entity, latent semantics, clustering qualityTóm tắt
(Google Translate) Việc xử lý thông tin dựa trên từ khóa có những hạn chế do việc xử lý các từ đơn giản. trong bài báo này, chúng tôi giới thiệu các thực thể được đặt tên là mục tiêu vào phân cụm tài liệu, là các yếu tố chính xác định ngữ nghĩa tài liệu và trong nhiều trường hợp là mối quan tâm của người dùng. Đầu tiên, mô hình không gian vectơ dựa trên từ khóa truyền thống được điều chỉnh với các vectơ được xác định trên không gian của tên thực thể, kiểu, cặp kiểu tên và số nhận dạng, thay vì từ khóa. Sau đó, phân nhóm tài liệu phân cấp có thể được thực hiện bằng cách sử dụng thước đo độ tương tự được xác định là khoảng cách giữa các vectơ đại diện cho tài liệu. Kết quả thí nghiệm được trình bày và thảo luận. Phân cụm tài liệu theo thông tin của các thực thể được đặt tên có thể hữu ích để quản lý tài liệu rò rỉ dựa trên web liên quan đến các đối tượng liên quan.
Tải xuống: 0
Tài liệu tham khảo
Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Addison-Wesley (1999).
Berners-Lee, T., Hendler, J., Lassila, 0.: The Semantic Web. Scientific American (2001).
cao, T.H., Do, H.T., Hong, D.T., Quan, T.T.: Fuzzy Named Entity-Based Document Clustering. In: Proceedings of the 17th IEEE International Conference on Fuzzy Systems (2008) 2028-2034.
cao, T.H. (2008) PRICA1'08
Castells, P., Fernåndez, M., Vallet, D.: An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval. IEEE Transactions on Knowledge and Data Engineering 19 (2006) 261-272.
Dill, S. et al.: SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation. In: Proceedings of the 12th Int. Conference on the WWW (2003).
Goncalves, A., Zhu, J., song, D., Uren, V., Pacheco, R.: LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval. In: Proceedings of the 7th International Conference on Web-Age Information Management (2006).
Hartigan, J., Wong, M.: Algorithm AS 136: A K-means Clustering Algorithm. Applied Statistics 28 (1979) 100-108.
He, J., Tan, A.-H., Tan, C.-L., Sung, S.-Y.: On Quantitative Evaluation of Clustering Algorithms. In: Wu, W. et al. (eds.): Clustering and Information Retrieval. Kluwer Academic (2003) 105-133.
Kiryakov, A., Popov, B., Terziev, 1., Manov, D., Ognyanoff, D.: Semantic Annotation, Indexing, and Retrieval. Journal of Web Semantics 2 (2005).
Meilä, M.: Compare Clusterings - An Information Based Distance. Journal of Multivariate Analysis (2007) 873-895.
Sekine, S.: Named Entity: History and Future. Proteus Project Report (2004).Toda, H. , Kataoka, R.: A Search Result Clustering Method Using Informatively Named Entities. In: Proceedings of the 7th ACM International Workshop on Web Information and Data Management (2005) 81-86.
Tải xuống
Đã Xuất bản
Cách trích dẫn
Giấy phép
Tác phẩm này được cấp phép theo Giấy phép quốc tế Creative Commons Attribution-NonCommercial 4.0 .
Bản quyền thuộc về JTE.


