Dự đoán thời gian hoàn thành Marathon bằng mô hình học máy tổng hợp: Một nghiên cứu thực nghiệm trên dữ liệu Boston Marathon
Email tác giả liên hệ:
phuongttn@hcmute.edu.vnDOI:
https://doi.org/10.54644/jte.2025.1924Từ khóa:
Học kết hợp, Dự đoán Marathon, Marathon ở Boston, Học máy, Dự đoán hiệu suấtTóm tắt
Nghiên cứu này đề xuất một mô hình học máy tổng hợp (ensemble) nhằm dự đoán thời gian hoàn thành cuộc thi Boston Marathon dựa trên dữ liệu thực nghiệm từ các năm 2015–2017. Sau khi tiến hành tiền xử lý và xây dựng đặc trưng bao gồm thời gian tại các mốc (5K, 10K, Half), tuổi, giới tính, quốc tịch và năm thi đấu, nhóm tác giả đã triển khai sáu mô hình: KNN, ANN, CBR, FA-PP-R-ML, LSTM và một mô hình Ensemble mới kết hợp Linear Regression, Random Forest và MLPRegressor thông qua một meta-model. Kết quả thực nghiệm trên tập kiểm tra cho thấy mô hình Ensemble đạt hiệu năng vượt trội với MAE = 7,32 phút, RMSE = 11,06 phút và R² = 0,928, vượt trội so với các mô hình còn lại cả về độ chính xác và tính ổn định. Các biểu đồ trực quan như scatter plot và boxplot cũng cho thấy sự phù hợp cao giữa giá trị dự đoán và thực tế. Tuy nhiên, nghiên cứu vẫn còn một số hạn chế về quy mô dữ liệu, phạm vi so sánh mô hình, giả định đơn giản hóa trong thiết kế thuật toán và mức độ tinh chỉnh tham số còn cơ bản. Từ đó, nghiên cứu đề xuất mở rộng đánh giá trên các bộ dữ liệu đa dạng hơn, tích hợp thêm dữ liệu ngoại sinh và áp dụng các kỹ thuật hiện đại như attention, học sâu đồ thị (graph-based learning) và AutoML, đồng thời tăng cường khả năng diễn giải nhằm hướng đến ứng dụng thực tiễn trong huấn luyện thể thao và dự báo thi đấu.
Tải xuống: 0
Tài liệu tham khảo
A. Keogh, O. Sheridan, O. McCaffrey, S. Dunne, A. Lally, and C. Doherty, “The determinants of marathon performance: An observational analysis of anthropometric, pre-race and in-race variables,” Int. J. Exerc. Sci., vol. 13, no. 6, pp. 1132–1142, 2020. DOI: https://doi.org/10.70252/JCGI6091
W. Yong, P. Lingyun, and W. Jia, “Statistical analysis and ARMA modeling for the big data of marathon score,” Sci. Sports, vol. 35, no. 6, pp. 375–385, 2020. DOI: https://doi.org/10.1016/j.scispo.2020.01.009
Rojour, “Finishers Boston Marathon 2015, 2016 & 2017,” Kaggle, 2017. [Online]. Available: https://www.kaggle.com/datasets/rojour/boston-results. Accessed: 2025.
L. Lerebourg, D. Saboul, M. Clémençon, and J. B. Coquart, “Prediction of marathon performance using artificial intelligence,” Int. J. Sports Med., vol. 44, no. 5, pp. 352–360, 2023. DOI: https://doi.org/10.1055/a-1993-2371
C. Feely, B. Caulfield, A. Lawlor, and B. Smyth, “Using case-based reasoning to predict marathon performance and recommend tailored training plans,” in Proc. 28th Int. Conf. Case-Based Reasoning (ICCBR 2020), 2020. DOI: https://doi.org/10.1007/978-3-030-58342-2_5
J. Chen, “Factor and correlation analysis for predicting marathon race performance using machine learning algorithms,” J. Electr. Syst., pp. 1948–1958, 2024. DOI: https://doi.org/10.52783/jes.3110
H. Muijlwijk, B. Smyth, M. C. Willemsen, and W. A. IJsselsteijn, “Benefits of human-AI interaction for expert users interacting with prediction models: A study on marathon running,” in Proc. 29th Int. Conf. Intell. User Interfaces (IUI ’24), Greenville, SC, USA, 2024. DOI: https://doi.org/10.1145/3640543.3645205
Y. Ding, “Analyzing athletes’ physical performance and trends in athletics competitions using time series data mining algorithms,” J. Electr. Syst., pp. 736–746, 2024.
K. K. El-Kassabi and M. A. S. H. Taha, “Deep learning approach for forecasting athletes’ performance in sports tournaments,” unpublished.
R. Huang, Z. Qian, H. Ma, Z. Han, and Y. Xie, “Sports performance prediction for college students through ensemble learning algorithm,” IEICE Trans. Inf. Syst., vol. E108.D, no. 7, pp. 776–783, 2025. DOI: https://doi.org/10.1587/transinf.2023EDP7250
T. Anande, S. Alsaadi, and M. Leeson, “Enhanced modelling performance with boosting ensemble meta learning and Optuna optimization,” SN Comput. Sci., vol. 6, Art. no. 12, 2024. DOI: https://doi.org/10.1007/s42979-024-03544-3
Rojour, “boston_results: Scrapping and visualizing Boston Marathon results,” GitHub, 2017. [Online]. Available: https://github.com/rojour/boston_results. Accessed: 2025.
D. H. Wolpert, “Stacked generalization,” Neural Netw., vol. 5, no. 2, pp. 241–259, 1992. DOI: https://doi.org/10.1016/S0893-6080(05)80023-1
D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning representations by back-propagating errors,” Nature, vol. 323, pp. 533–536, 1986. DOI: https://doi.org/10.1038/323533a0
T. M. Cover and P. E. Hart, “Nearest neighbor pattern classification,” IEEE Trans. Inf. Theory, vol. 13, no. 1, pp. 21–27, 1967. DOI: https://doi.org/10.1109/TIT.1967.1053964
J. L. Kolodner, “An introduction to case-based reasoning,” Artif. Intell. Rev., vol. 6, pp. 3–34, 1992. DOI: https://doi.org/10.1007/BF00155578
S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Comput., vol. 9, no. 8, pp. 1735–1780, 1997. DOI: https://doi.org/10.1162/neco.1997.9.8.1735
A. K. Kuchibhotla and L. D. Brown, “Model-free study of ordinary least squares linear regression,” arXiv preprint arXiv:1809.05296, Sep. 2018.
S. Lee, “7 surprising stats where linear regression shapes sports data analysis,” Number Analytics, LLC, Mar. 19, 2025. [Online]. Available: https://www.numberanalytics.com/blog/surprising-stats-linear-regression-sports-data-analysis. Accessed: Apr. 29, 2025.
TechGoGreen, “Random forest algorithm,” TechGoGreen, Jun. 20, 2023. [Online]. Available: https://techgogreen.com/random-forest-algorithm/?utm_source=chatgpt.com. Accessed: Apr. 29, 2025.
A. Kumar, “Sklearn neural network example – MLPRegressor,” Analytics Yogi, May 2, 2023. [Online]. Available: https://vitalflux.com/sklearn-neural-network-regression-example-mlpregressor/. Accessed: Apr. 29, 2025.
V. Hua, N. T. Dang, M. S. Nguyen, H. N. Bui, and A. B. Arun, “The impact of data imputation on air quality prediction problem,” PLoS One, vol. 19, no. 9, Art. no. e0306303, 2024. DOI: https://doi.org/10.1371/journal.pone.0306303
A. Vaswani et al., “Attention is all you need,” in Proc. 31st Conf. Neural Inf. Process. Syst. (NeurIPS 2017), Long Beach, CA, USA, 2017.
Z. Wu, S. Pan, F. Chen, G. Long, C. Zhang, and P. S. Yu, “A comprehensive survey on graph neural networks,” IEEE Trans. Neural Netw. Learn. Syst., vol. 32, no. 1, pp. 4–24, 2021. DOI: https://doi.org/10.1109/TNNLS.2020.2978386
X. He, K. Zhao, and X. Chu, “AutoML: A survey of the state of the art,” Knowl.-Based Syst., vol. 212, Art. no. 106622, 2021. DOI: https://doi.org/10.1016/j.knosys.2020.106622
Tải xuống
Đã Xuất bản
Cách trích dẫn
Giấy phép
Bản quyền (c) 2025 Tạp chí Khoa học Giáo dục Kỹ Thuật
Tác phẩm này được cấp phép theo Giấy phép quốc tế Creative Commons Attribution-NonCommercial 4.0 .
Bản quyền thuộc về JTE.


