Dự đoán thời gian hoàn thành Marathon bằng mô hình học máy tổng hợp: Một nghiên cứu thực nghiệm trên dữ liệu Boston Marathon

Các tác giả

Email tác giả liên hệ:

phuongttn@hcmute.edu.vn

DOI:

https://doi.org/10.54644/jte.2025.1924

Từ khóa:

Học kết hợp, Dự đoán Marathon, Marathon ở Boston, Học máy, Dự đoán hiệu suất

Tóm tắt

Nghiên cứu này đề xuất một mô hình học máy tổng hợp (ensemble) nhằm dự đoán thời gian hoàn thành cuộc thi Boston Marathon dựa trên dữ liệu thực nghiệm từ các năm 2015–2017. Sau khi tiến hành tiền xử lý và xây dựng đặc trưng bao gồm thời gian tại các mốc (5K, 10K, Half), tuổi, giới tính, quốc tịch và năm thi đấu, nhóm tác giả đã triển khai sáu mô hình: KNN, ANN, CBR, FA-PP-R-ML, LSTM và một mô hình Ensemble mới kết hợp Linear Regression, Random Forest và MLPRegressor thông qua một meta-model. Kết quả thực nghiệm trên tập kiểm tra cho thấy mô hình Ensemble đạt hiệu năng vượt trội với MAE = 7,32 phút, RMSE = 11,06 phút và R² = 0,928, vượt trội so với các mô hình còn lại cả về độ chính xác và tính ổn định. Các biểu đồ trực quan như scatter plot và boxplot cũng cho thấy sự phù hợp cao giữa giá trị dự đoán và thực tế. Tuy nhiên, nghiên cứu vẫn còn một số hạn chế về quy mô dữ liệu, phạm vi so sánh mô hình, giả định đơn giản hóa trong thiết kế thuật toán và mức độ tinh chỉnh tham số còn cơ bản. Từ đó, nghiên cứu đề xuất mở rộng đánh giá trên các bộ dữ liệu đa dạng hơn, tích hợp thêm dữ liệu ngoại sinh và áp dụng các kỹ thuật hiện đại như attention, học sâu đồ thị (graph-based learning) và AutoML, đồng thời tăng cường khả năng diễn giải nhằm hướng đến ứng dụng thực tiễn trong huấn luyện thể thao và dự báo thi đấu.

Tải xuống: 0

Dữ liệu tải xuống chưa có sẵn.

Tiểu sử của Tác giả

Mai Anh Khoa, Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh, Việt Nam

Anh Khoa Mai is a fourth-year student in Information Technology, majoring in Artificial Intelligence at Ho Chi Minh City University of Technology and Education. Currently, he is working as an intern at FPT Software Co., Ltd., Ho Chi Minh City. This paper is his first publication, developed from the idea of his undergraduate thesis. It provides him with an opportunity to further study Artificial Intelligence and Deep Learning, while practicing scientific research skills in an academic environment. Research areas: machine learning, deep learning, reinforcement learning, chatbot.

Email: anhkhoamai11040307@gmail.com. ORCID : https://orcid.org/0009-0007-2204-2040

Nguyễn Hà Quỳnh Giao, Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh, Việt Nam

Giao Quynh Ha Nguyen is currently a fourth-year student in Information Technology, majoring in Software Engineering at Ho Chi Minh City University of Technology and Education. Currently, she is working as an intern at FPT Software Co., Ltd., Ho Chi Minh City.

This paper is her first publication during her studies at HCMUTE, serving as an opportunity for her to practice research skills and synthesize specialized knowledge.

Research areas: Mobile Programming, Deep Learning.

Email: nguyenhaquynhgiao9569@gmail.com. ORCID : https://orcid.org/0009-0004-5643-207X

Hoàng Công Mạnh, Trường Đại học Sư phạm Kỹ thuật Hưng Yên, Việt Nam

Cong Manh Hoang is currently a fourth-year student in Information Technology, majoring in Software Engineering at Ho Chi Minh City University of Technology and Education. This report is his first academic work during his studies, serving as an opportunity to practice research skills and synthesize specialized knowledge. Research areas: Mobile Programming, Web Programming.

Email: hoangmanh6889@gmail.com . ORCID:  https://orcid.org/0009-0005-6456-2613

Trương Thị Ngọc Phượng, Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh, Việt Nam

Phuong Thi Ngoc Truong is currently a lecturer at Ho Chi Minh City University of Technology and Education. She graduated from the University of Science, Ho Chi Minh City, in 2005 and pursued a Master’s degree in Information Technology at Kookmin University, South Korea. She is now a Ph.D. candidate at the Computer Science Laboratory, University of Information Technology.

Her research interests include Computer Vision, Deep Learning, and Mobile Programming.

Email: phuongttn@hcmute.edu.vn. ORCID:  https://orcid.org/0009-0003-9963-9874. Phone: +84 – 942920912.

Tài liệu tham khảo

A. Keogh, O. Sheridan, O. McCaffrey, S. Dunne, A. Lally, and C. Doherty, “The determinants of marathon performance: An observational analysis of anthropometric, pre-race and in-race variables,” Int. J. Exerc. Sci., vol. 13, no. 6, pp. 1132–1142, 2020. DOI: https://doi.org/10.70252/JCGI6091

W. Yong, P. Lingyun, and W. Jia, “Statistical analysis and ARMA modeling for the big data of marathon score,” Sci. Sports, vol. 35, no. 6, pp. 375–385, 2020. DOI: https://doi.org/10.1016/j.scispo.2020.01.009

Rojour, “Finishers Boston Marathon 2015, 2016 & 2017,” Kaggle, 2017. [Online]. Available: https://www.kaggle.com/datasets/rojour/boston-results. Accessed: 2025.

L. Lerebourg, D. Saboul, M. Clémençon, and J. B. Coquart, “Prediction of marathon performance using artificial intelligence,” Int. J. Sports Med., vol. 44, no. 5, pp. 352–360, 2023. DOI: https://doi.org/10.1055/a-1993-2371

C. Feely, B. Caulfield, A. Lawlor, and B. Smyth, “Using case-based reasoning to predict marathon performance and recommend tailored training plans,” in Proc. 28th Int. Conf. Case-Based Reasoning (ICCBR 2020), 2020. DOI: https://doi.org/10.1007/978-3-030-58342-2_5

J. Chen, “Factor and correlation analysis for predicting marathon race performance using machine learning algorithms,” J. Electr. Syst., pp. 1948–1958, 2024. DOI: https://doi.org/10.52783/jes.3110

H. Muijlwijk, B. Smyth, M. C. Willemsen, and W. A. IJsselsteijn, “Benefits of human-AI interaction for expert users interacting with prediction models: A study on marathon running,” in Proc. 29th Int. Conf. Intell. User Interfaces (IUI ’24), Greenville, SC, USA, 2024. DOI: https://doi.org/10.1145/3640543.3645205

Y. Ding, “Analyzing athletes’ physical performance and trends in athletics competitions using time series data mining algorithms,” J. Electr. Syst., pp. 736–746, 2024.

K. K. El-Kassabi and M. A. S. H. Taha, “Deep learning approach for forecasting athletes’ performance in sports tournaments,” unpublished.

R. Huang, Z. Qian, H. Ma, Z. Han, and Y. Xie, “Sports performance prediction for college students through ensemble learning algorithm,” IEICE Trans. Inf. Syst., vol. E108.D, no. 7, pp. 776–783, 2025. DOI: https://doi.org/10.1587/transinf.2023EDP7250

T. Anande, S. Alsaadi, and M. Leeson, “Enhanced modelling performance with boosting ensemble meta learning and Optuna optimization,” SN Comput. Sci., vol. 6, Art. no. 12, 2024. DOI: https://doi.org/10.1007/s42979-024-03544-3

Rojour, “boston_results: Scrapping and visualizing Boston Marathon results,” GitHub, 2017. [Online]. Available: https://github.com/rojour/boston_results. Accessed: 2025.

D. H. Wolpert, “Stacked generalization,” Neural Netw., vol. 5, no. 2, pp. 241–259, 1992. DOI: https://doi.org/10.1016/S0893-6080(05)80023-1

D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning representations by back-propagating errors,” Nature, vol. 323, pp. 533–536, 1986. DOI: https://doi.org/10.1038/323533a0

T. M. Cover and P. E. Hart, “Nearest neighbor pattern classification,” IEEE Trans. Inf. Theory, vol. 13, no. 1, pp. 21–27, 1967. DOI: https://doi.org/10.1109/TIT.1967.1053964

J. L. Kolodner, “An introduction to case-based reasoning,” Artif. Intell. Rev., vol. 6, pp. 3–34, 1992. DOI: https://doi.org/10.1007/BF00155578

S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997. DOI: https://doi.org/10.1162/neco.1997.9.8.1735

A. K. Kuchibhotla and L. D. Brown, “Model-free study of ordinary least squares linear regression,” arXiv preprint arXiv:1809.05296, Sep. 2018.

S. Lee, “7 surprising stats where linear regression shapes sports data analysis,” Number Analytics, LLC, Mar. 19, 2025. [Online]. Available: https://www.numberanalytics.com/blog/surprising-stats-linear-regression-sports-data-analysis. Accessed: Apr. 29, 2025.

TechGoGreen, “Random forest algorithm,” TechGoGreen, Jun. 20, 2023. [Online]. Available: https://techgogreen.com/random-forest-algorithm/?utm_source=chatgpt.com. Accessed: Apr. 29, 2025.

A. Kumar, “Sklearn neural network example – MLPRegressor,” Analytics Yogi, May 2, 2023. [Online]. Available: https://vitalflux.com/sklearn-neural-network-regression-example-mlpregressor/. Accessed: Apr. 29, 2025.

V. Hua, N. T. Dang, M. S. Nguyen, H. N. Bui, and A. B. Arun, “The impact of data imputation on air quality prediction problem,” PLoS One, vol. 19, no. 9, Art. no. e0306303, 2024. DOI: https://doi.org/10.1371/journal.pone.0306303

A. Vaswani et al., “Attention is all you need,” in Proc. 31st Conf. Neural Inf. Process. Syst. (NeurIPS 2017), Long Beach, CA, USA, 2017.

Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, and P. S. Yu, “A comprehensive survey on graph neural networks,” IEEE Trans. Neural Netw. Learn. Syst., vol. 32, no. 1, pp. 4–24, 2021. DOI: https://doi.org/10.1109/TNNLS.2020.2978386

X. He, K. Zhao, and X. Chu, “AutoML: A survey of the state of the art,” Knowl.-Based Syst., vol. 212, Art. no. 106622, 2021. DOI: https://doi.org/10.1016/j.knosys.2020.106622

Tải xuống

Đã Xuất bản

2025-11-28

Cách trích dẫn

[1]
Mai Anh Khoa, Nguyễn Hà Quỳnh Giao, Hoàng Công Mạnh, và Trương Thị Ngọc Phượng, “Dự đoán thời gian hoàn thành Marathon bằng mô hình học máy tổng hợp: Một nghiên cứu thực nghiệm trên dữ liệu Boston Marathon”, JTE, vol 20, số p.h 04(V), tr 87–97, tháng 11 2025.

Số

Chuyên mục

Bài báo khoa học

Categories