方法论

数据来源、模型与验证方法的公开说明

1. 数据来源

事件数据：API-Football 提供的逐场结构化事件流（射门、传球、抢断、定位球等）。
市场数据：The Odds API 多家做市商的客观赔率快照，仅作为市场预期的参考变量纳入模型。
环境数据：OpenWeatherMap 比赛日的气温、降水与风速。
历史档案：5–8 年、约 10 万场公开历史比赛，用于模型训练。

2. 特征工程

每场比赛抽取 40–60 个特征，分布在五个层级：

实力层：Elo 评分、近 10 场胜率、xG（期望进球）。
形态层：W/D/L 序列、进失球趋势、连胜连败长度。
对位层：历史交锋胜率、平均进球、风格匹配指标。
市场层：开盘到当前赔率位移幅度、盘口一致性评分。
情境层：赛事重要性、轮换密度、关键球员可用性、天气。

3. 模型

主模型：XGBoost 多分类与二分类，输出主胜 / 平 / 客胜以及让分、进球数的离散概率分布。
辅助模型：LightGBM 用于集成与对照。
验证：严格按时间序列切分（用历史训练、未来验证），不做随机切分。
评估指标：对数损失（log loss）、概率校准曲线、回测准确率。
训练频率：每周用最新比赛数据增量训练。

4. 报告生成

模型输出的概率分布与结构化指标作为输入，由大语言模型（Claude Sonnet）基于固定模板生成中文赛事报告。模板严格限定为 6 个章节：赛事背景与对位历史、双方近期形态与阵容、战术风格画像对比、关键变量与不确定性、概率分布与情景推演、数据来源与方法论说明。

报告中所有结论均以概率、分布、置信区间、历史对照的形式呈现，不包含方向性建议。

5. 不确定性与局限

足球比赛存在大量不可建模的随机性。模型预期准确率为 55–65%，符合学术文献的合理区间。
赛前阵容、伤病、临时变化可能在比赛前数小时才公布，模型在此类信息发布后会触发增量更新。
所有概率输出附带样本量与置信区间，使用者应结合自身研究语境判断。

所有数据与分析结果仅供研究、教学与内容创作参考，不构成任何形式的投资或博彩建议。