(Google Translate) Sự kết hợp có trọng số của các Tính năng Bản thể học và Từ khóa cho Phân cụm Tài liệu

Các tác giả

  • Van T.T. Duong Trường đại học Tôn Đức Thắng, Việt Nam

Email tác giả liên hệ:

tapchikhgkdt@hcmute.edu.vn

Từ khóa:

named entity, latent semantics, clustering quality

Tóm tắt

(Google Translate) Việc xử lý thông tin dựa trên từ khóa có những hạn chế do việc xử lý các từ đơn giản. trong bài báo này, chúng tôi giới thiệu các thực thể được đặt tên là mục tiêu vào phân cụm tài liệu, là các yếu tố chính xác định ngữ nghĩa tài liệu và trong nhiều trường hợp là mối quan tâm của người dùng. Đầu tiên, mô hình không gian vectơ dựa trên từ khóa truyền thống được điều chỉnh với các vectơ được xác định trên không gian của tên thực thể, kiểu, cặp kiểu tên và số nhận dạng, thay vì từ khóa. Sau đó, phân nhóm tài liệu phân cấp có thể được thực hiện bằng cách sử dụng thước đo độ tương tự được xác định là khoảng cách giữa các vectơ đại diện cho tài liệu. Kết quả thí nghiệm được trình bày và thảo luận. Phân cụm tài liệu theo thông tin của các thực thể được đặt tên có thể hữu ích để quản lý tài liệu rò rỉ dựa trên web liên quan đến các đối tượng liên quan.

Tải xuống: 0

Dữ liệu tải xuống chưa có sẵn.

Tài liệu tham khảo

Baeza-Yates, R., Ribeiro-Neto, B.: Modern Information Retrieval. Addison-Wesley (1999).

Berners-Lee, T., Hendler, J., Lassila, 0.: The Semantic Web. Scientific American (2001).

cao, T.H., Do, H.T., Hong, D.T., Quan, T.T.: Fuzzy Named Entity-Based Document Clustering. In: Proceedings of the 17th IEEE International Conference on Fuzzy Systems (2008) 2028-2034.

cao, T.H. (2008) PRICA1'08

Castells, P., Fernåndez, M., Vallet, D.: An Adaptation of the Vector-Space Model for Ontology-Based Information Retrieval. IEEE Transactions on Knowledge and Data Engineering 19 (2006) 261-272.

Dill, S. et al.: SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation. In: Proceedings of the 12th Int. Conference on the WWW (2003).

Goncalves, A., Zhu, J., song, D., Uren, V., Pacheco, R.: LRD: Latent Relation Discovery for Vector Space Expansion and Information Retrieval. In: Proceedings of the 7th International Conference on Web-Age Information Management (2006).

Hartigan, J., Wong, M.: Algorithm AS 136: A K-means Clustering Algorithm. Applied Statistics 28 (1979) 100-108.

He, J., Tan, A.-H., Tan, C.-L., Sung, S.-Y.: On Quantitative Evaluation of Clustering Algorithms. In: Wu, W. et al. (eds.): Clustering and Information Retrieval. Kluwer Academic (2003) 105-133.

Kiryakov, A., Popov, B., Terziev, 1., Manov, D., Ognyanoff, D.: Semantic Annotation, Indexing, and Retrieval. Journal of Web Semantics 2 (2005).

Meilä, M.: Compare Clusterings - An Information Based Distance. Journal of Multivariate Analysis (2007) 873-895.

Sekine, S.: Named Entity: History and Future. Proteus Project Report (2004).Toda, H. , Kataoka, R.: A Search Result Clustering Method Using Informatively Named Entities. In: Proceedings of the 7th ACM International Workshop on Web Information and Data Management (2005) 81-86.

Tải xuống

Đã Xuất bản

2009-12-28

Cách trích dẫn

[1]
Van T.T. Duong, “(Google Translate) Sự kết hợp có trọng số của các Tính năng Bản thể học và Từ khóa cho Phân cụm Tài liệu”, JTE, vol 4, số p.h 3, tr 21–30, tháng 12 2009.

Số

Chuyên mục

Bài báo khoa học

Categories

Các bài báo tương tự

1 2 3 4 > >> 

Bạn cũng có thể bắt đầu một tìm kiếm tương tự nâng cao cho bài báo này.