Weighted Combinations of Ontological Features and Keywords for Document Clustering

Van T.T. Duong

Các tác giả

Van T.T. Duong Trường đại học Tôn Đức Thắng, Việt Nam

Email tác giả liên hệ:

tapchikhgkdt@hcmute.edu.vn

Từ khóa:

named entity, latent semantics, clustering quality

Tóm tắt

(Google Translate) Việc xử lý thông tin dựa trên từ khóa có những hạn chế do việc xử lý các từ đơn giản. trong bài báo này, chúng tôi giới thiệu các thực thể được đặt tên là mục tiêu vào phân cụm tài liệu, là các yếu tố chính xác định ngữ nghĩa tài liệu và trong nhiều trường hợp là mối quan tâm của người dùng. Đầu tiên, mô hình không gian vectơ dựa trên từ khóa truyền thống được điều chỉnh với các vectơ được xác định trên không gian của tên thực thể, kiểu, cặp kiểu tên và số nhận dạng, thay vì từ khóa. Sau đó, phân nhóm tài liệu phân cấp có thể được thực hiện bằng cách sử dụng thước đo độ tương tự được xác định là khoảng cách giữa các vectơ đại diện cho tài liệu. Kết quả thí nghiệm được trình bày và thảo luận. Phân cụm tài liệu theo thông tin của các thực thể được đặt tên có thể hữu ích để quản lý tài liệu rò rỉ dựa trên web liên quan đến các đối tượng liên quan.

Tải xuống: 0

Dữ liệu tải xuống chưa có sẵn.

Tài liệu tham khảo

Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Addison-Wesley (1999).

Berners-Lee, T., Hendler, J., Lassila, 0.: The Semantic Web. Scientific American (2001).

cao, T.H., Do, H.T., Hong, D.T., Quan, T.T.: Fuzzy Named Entity-Based Document Clustering. In: Proceedings of the 17th IEEE International Conference on Fuzzy Systems (2008) 2028-2034.

cao, T.H. (2008) PRICA1'08

Castells, P., Fernåndez, M., Vallet, D.: An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval. IEEE Transactions on Knowledge and Data Engineering 19 (2006) 261-272.

Dill, S. et al.: SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation. In: Proceedings of the 12th Int. Conference on the WWW (2003).

Goncalves, A., Zhu, J., song, D., Uren, V., Pacheco, R.: LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval. In: Proceedings of the 7th International Conference on Web-Age Information Management (2006).

Hartigan, J., Wong, M.: Algorithm AS 136: A K-means Clustering Algorithm. Applied Statistics 28 (1979) 100-108.

He, J., Tan, A.-H., Tan, C.-L., Sung, S.-Y.: On Quantitative Evaluation of Clustering Algorithms. In: Wu, W. et al. (eds.): Clustering and Information Retrieval. Kluwer Academic (2003) 105-133.

Kiryakov, A., Popov, B., Terziev, 1., Manov, D., Ognyanoff, D.: Semantic Annotation, Indexing, and Retrieval. Journal of Web Semantics 2 (2005).

Meilä, M.: Compare Clusterings - An Information Based Distance. Journal of Multivariate Analysis (2007) 873-895.

Sekine, S.: Named Entity: History and Future. Proteus Project Report (2004).Toda, H. , Kataoka, R.: A Search Result Clustering Method Using Informatively Named Entities. In: Proceedings of the 7th ACM International Workshop on Web Information and Data Management (2005) 81-86.

(Google Translate) Sự kết hợp có trọng số của các Tính năng Bản thể học và Từ khóa cho Phân cụm Tài liệu

Các tác giả

Email tác giả liên hệ:

Từ khóa:

Tóm tắt

Tải xuống: 0

Tài liệu tham khảo

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

Categories

Giấy phép

Các bài báo tương tự

Gửi bài mới

Thông báo

Tạp chí được nâng điểm ở một số ngành theo công bố mới nhất của Hội đồng Giáo sư Nhà nước

Thông báo về việc thay đổi kỳ hạn xuất bản các số tạp chí JTE

Kính mời gửi bài: Số Đặc Biệt chuyên ngành Công nghệ Thông tin

Ngôn ngữ

Thông tin

Trang liên kết

Keywords

Lượt truy cập

Số hiện tại