方法论

数据来源、模型与验证方法的公开说明

1. 数据来源

  • 事件数据:API-Football 提供的逐场结构化事件流(射门、传球、抢断、定位球等)。
  • 市场数据:The Odds API 多家做市商的客观赔率快照,仅作为市场预期的参考变量纳入模型。
  • 环境数据:OpenWeatherMap 比赛日的气温、降水与风速。
  • 历史档案:5–8 年、约 10 万场公开历史比赛,用于模型训练。

2. 特征工程

每场比赛抽取 40–60 个特征,分布在五个层级:

  • 实力层:Elo 评分、近 10 场胜率、xG(期望进球)。
  • 形态层:W/D/L 序列、进失球趋势、连胜连败长度。
  • 对位层:历史交锋胜率、平均进球、风格匹配指标。
  • 市场层:开盘到当前赔率位移幅度、盘口一致性评分。
  • 情境层:赛事重要性、轮换密度、关键球员可用性、天气。

3. 模型

  • 主模型:XGBoost 多分类与二分类,输出主胜 / 平 / 客胜以及让分、进球数的离散概率分布。
  • 辅助模型:LightGBM 用于集成与对照。
  • 验证:严格按时间序列切分(用历史训练、未来验证),不做随机切分。
  • 评估指标:对数损失(log loss)、概率校准曲线、回测准确率。
  • 训练频率:每周用最新比赛数据增量训练。

4. 报告生成

模型输出的概率分布与结构化指标作为输入,由大语言模型(Claude Sonnet)基于固定模板生成中文赛事报告。 模板严格限定为 6 个章节:赛事背景与对位历史、双方近期形态与阵容、战术风格画像对比、关键变量与不确定性、 概率分布与情景推演、数据来源与方法论说明。

报告中所有结论均以概率、分布、置信区间、历史对照的形式呈现,不包含方向性建议。

5. 不确定性与局限

  • 足球比赛存在大量不可建模的随机性。模型预期准确率为 55–65%,符合学术文献的合理区间。
  • 赛前阵容、伤病、临时变化可能在比赛前数小时才公布,模型在此类信息发布后会触发增量更新。
  • 所有概率输出附带样本量与置信区间,使用者应结合自身研究语境判断。

所有数据与分析结果仅供研究、教学与内容创作参考,不构成任何形式的投资或博彩建议。

本平台提供足球赛事数据分析与信息订阅服务,所有数据与分析结果仅供研究、教学与内容创作参考, 不构成任何形式的投资或博彩建议。

运营主体:上海壹威科技有限公司