方法论
数据来源、模型与验证方法的公开说明
1. 数据来源
- 事件数据:API-Football 提供的逐场结构化事件流(射门、传球、抢断、定位球等)。
- 市场数据:The Odds API 多家做市商的客观赔率快照,仅作为市场预期的参考变量纳入模型。
- 环境数据:OpenWeatherMap 比赛日的气温、降水与风速。
- 历史档案:5–8 年、约 10 万场公开历史比赛,用于模型训练。
2. 特征工程
每场比赛抽取 40–60 个特征,分布在五个层级:
- 实力层:Elo 评分、近 10 场胜率、xG(期望进球)。
- 形态层:W/D/L 序列、进失球趋势、连胜连败长度。
- 对位层:历史交锋胜率、平均进球、风格匹配指标。
- 市场层:开盘到当前赔率位移幅度、盘口一致性评分。
- 情境层:赛事重要性、轮换密度、关键球员可用性、天气。
3. 模型
- 主模型:XGBoost 多分类与二分类,输出主胜 / 平 / 客胜以及让分、进球数的离散概率分布。
- 辅助模型:LightGBM 用于集成与对照。
- 验证:严格按时间序列切分(用历史训练、未来验证),不做随机切分。
- 评估指标:对数损失(log loss)、概率校准曲线、回测准确率。
- 训练频率:每周用最新比赛数据增量训练。
4. 报告生成
模型输出的概率分布与结构化指标作为输入,由大语言模型(Claude Sonnet)基于固定模板生成中文赛事报告。 模板严格限定为 6 个章节:赛事背景与对位历史、双方近期形态与阵容、战术风格画像对比、关键变量与不确定性、 概率分布与情景推演、数据来源与方法论说明。
报告中所有结论均以概率、分布、置信区间、历史对照的形式呈现,不包含方向性建议。
5. 不确定性与局限
- 足球比赛存在大量不可建模的随机性。模型预期准确率为 55–65%,符合学术文献的合理区间。
- 赛前阵容、伤病、临时变化可能在比赛前数小时才公布,模型在此类信息发布后会触发增量更新。
- 所有概率输出附带样本量与置信区间,使用者应结合自身研究语境判断。
所有数据与分析结果仅供研究、教学与内容创作参考,不构成任何形式的投资或博彩建议。