2023 MCM Problem C Predicting Wordle Results

2023 MCM Problem C: Predicting Wordle Results

一、问题介绍

背景

Wordle 是纽约时报目前每天提供的流行拼图。 玩家尝试通过在六次或更少的尝试中猜测一个五个字母的单词来解决这个难题,每次猜测都会收到反馈。对于这个版本,每个猜测都必须是一个实际的英语单词。 不被比赛识别为单词的猜测是不允许的。 Wordle 越来越受欢迎,该游戏的版本现已支持 60 多种语言。

纽约时报网站上的 Wordle 说明中介绍,在您提交单词后,图块的颜色会发生变化。 黄色方块表示该方块中的字母在单词中,但位置错误。 绿色方块表示该方块中的字母在单词中并且位于正确的位置。 灰色方块表示该方块中的字母根本不包含在单词中(见附件 2)[2]。 图 1 是一个示例解决方案,其中在三次尝试中找到了正确的结果。

玩家可以在常规模式或“困难模式”下玩。 Wordle 的困难模式要求玩家一旦在单词中找到正确的字母(方块为黄色或绿色),就必须在随后的猜测中使用这些字母,从而使游戏变得更加困难。 图 1 中的示例是在困难模式下运行的。

许多(但不是全部)用户在 Twitter 上报告他们的分数。 针对这个问题,MCM 生成了一份 2022 年 1 月 7 日至 2022 年 12 月 31 日的每日结果文件(见附件 1)。 此文件包括日期、比赛编号、当天的单词、当天报告分数的人数、困难模式下的玩家人数以及一次、两次、三次、四次猜中单词的百分比 、五次尝试、六次尝试或无法解决难题(用 X 表示)。 例如图2中2022年7月20日的词是“TRITE”,结果是通过挖掘推特得到的。 尽管图 2 中的百分比总和为 100%,但在某些情况下,由于四舍五入的原因,这可能并非如此。

要求

《纽约时报》要求您对本文件中的结果进行分析,以回答几个问题。

  • 报告结果的数量每天都在变化。 开发一个模型来解释这种变化,并使用您的模型为 2023 年 3 月 1 日的报告结果数创建一个预测区间。是否存在单词的一些属性会影响报告在困难模式下游玩的分数的百分比? 如果是这样,是什么? 如果不是,为什么不呢?
  • 对于未来日期的给定未来解决方案词,开发一个模型,使您能够预测报告结果的分布。 换句话说,预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。 哪些不确定性与您的模型和预测相关? 举一个你对 2023 年 3 月 1 日 EERIE 这个词的预测的具体例子。你对你的模型的预测有多自信?
  • 开发并总结一个模型来按难度对解决方案单词进行分类。 识别与每个分类关联的给定词的属性。 使用您的模型,EERIE 这个词有多难? 讨分类模型的准确性。
  • 列出并描述这个数据集的其他一些有趣的特征。

最后,用一到两页的信总结你的结果给纽约时报的拼图编辑。

总页数不超过 25 页的 PDF 解决方案应包括:

  • 一页摘要表。
  • 目录。
  • 您的完整解决方案。
  • 一到两页的信件。
  • 参考文献列表。

注意:MCM 竞赛有 25 页的限制。 您提交的所有方面都计入 25 页的限制(摘要表、目录、报告、参考列表和任何附录)。您必须为您的想法、图像和报告中使用的任何其他材料引用来源。

附件

  1. 数据文件。Problem C Data Wordle.xlsx

    附加的数据文件包含您应对此问题使用的唯一数据。 这个问题所需的所有信息都在问题陈述和数据文件中给出。您无需访问纽约时报网站或 Twitter 网站。 在这些站点上找不到其他信息。

    数据文件条目说明:

    • 日期:给定 Wordle 谜题的 mm-dd-yyyy(月-日-年)格式的日期。
    • 赛号:Wordle拼图索引,2022年1月7日202开头。
    • 单词:玩家试图猜测有关于相关日期和比赛编号的单词。
    • 报告结果数:当天在推特上记录的总分数。
    • Hard mode Number:当天在推特上记录的Hard mode分数。

    1 次尝试:玩家一次猜出谜题的百分比。
    2 次尝试:玩家在两次猜测中解决难题的百分比。
    3 次尝试:玩家在三次猜测中解决难题的百分比。
    4 次尝试:玩家在四次猜测中解决难题的百分比。
    5 次尝试:玩家在五次猜测中解决难题的百分比。
    6 次尝试:玩家在六次猜测中解决难题的百分比。
    7 次或更多次尝试 (X):在 6 次或更少的情况下无法解决难题的玩家百分比尝试。 注:由于四舍五入,百分比之和可能并不总是 100%。

  2. 《纽约时报》网站上发布的 Wordle 说明。[2]

词汇表

纽约时报:一份位于美国纽约州纽约市的日报,有印刷版和在线版。

Twitter:一个社交网站,允许用户广播不超过 280 个字符的短文(从最初的 140 个字符增加)。

解决(Wordle 难题):以正确的顺序输入正确的字母,形成当天的 Wordle 单词。

参考

注意:我们提供以下引用来支持问题陈述。 我们从这些资源中提取了重要的想法。 这些网站上没有解决此 MCM 问题所需的其他信息。 无需访问纽约时报或 Twitter 网站即可解决此问题。

[1] 来自纽约时报网站的 Wordle 标志。 于 2022 年 12 月 13 日访问 https://nytco-assets.nytimes.com/2022/08/cropped-Screen-Shot-2022-08-24-at-8.49.39-AM.png。

[2] “世界 - 纽约时报”。 《纽约时报》,2022 年。2022 年 12 月 13 日访问 https://www.nytimes.com/games/wordle/index.html。

[3] “世界 - 纽约时报”。 《纽约时报》,2022 年 7 月 21 日。

[4] “世界统计”。 推特,2022 年 7 月 20 日

二、问题分析

  1. 报告结果的数量每天都在变化。 开发一个模型来解释这种变化,并使用您的模型为 2023 年 3 月 1 日的报告结果数创建一个预测区间。是否存在单词的一些属性会影响报告在困难模式下游玩的分数的百分比? 如果是这样,是什么? 如果不是,为什么不呢?
  2. 对于未来日期的给定未来解决方案词,开发一个模型,使您能够预测报告结果的分布。 换句话说,预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。 哪些不确定性与您的模型和预测相关? 举一个你对 2023 年 3 月 1 日 EERIE 这个词的预测的具体例子。你对你的模型的预测有多自信?
  3. 开发并总结一个模型来按难度对解决方案单词进行分类。 识别与每个分类关联的给定词的属性。 使用您的模型,EERIE 这个词有多难? 讨分类模型的准确性。
  4. 列出并描述这个数据集的其他一些有趣的特征。

问题一

Q1:报告结果的数量每天都在变化。 开发一个模型来解释这种变化,并使用您的模型为 2023 年 3 月 1 日的报告结果数创建一个预测区间。是否存在单词的一些属性会影响报告在困难模式下游玩的分数的百分比? 如果是这样,是什么? 如果不是,为什么不呢?

1.简单数据清洗
  • 单词长度不为五(contest number):525、314、545
  • 报告数量单个变化浮动过大(contest number):529
  • 部分单词拼写错误:naïve修改为naive、marxh修改为march
  • 概率超百(contest number):281
报告数量随时间变化
2.数据分析

通过对前期数据的分析,我们发现每天分享评分的人数变化符合生命周期发展的规律。 我们使用经验模态分解(EMD)将共享分数的人数分解为一系列相对稳定的分量,以减少不同特征信息之间的交互作用; 然后,采用具有误差改进机制的时间序列预测(ARIMA)方法,建立各分量的预测模型,对各分量进行预测并修正误差; 计算各分量的预测误差的平均值,得到各分类的预测区间值。 最后将各分量的预测区间结果相加,得到共享分数人数的预测区间值。

报告游戏玩家人数序列具有较强的非线性、非平稳性与随机性,因此我们利用EMD技术在非平稳数据处理中的突出优势,建立了一种基于EMD-灰色神经网络的未来三个月内报告游戏玩家人数的预测模型。

首先对报告游戏玩家人数序列进行EMD分解,使其产生一系列不同尺度的IMF分量,实现报告游戏玩家人数序列平稳化。然后针对各分量特点选取最优的模型参数和核函数,分别建立适合自身的灰色神经网络预测模型。最后将各分量的预测值叠加得到报告游戏玩家人数预测值。

对实验样本报告游戏玩家人数序列进行EMD分解,逐个分离出相应的IMF分量,通过给出终止条件作为迭代终止的依据。从图3可以看出,原本的非线性报告游戏玩家人数序列被分解为4个波动较小的时间序列分量IMF(C1—C4)分量和1个剩余分量r5。根据不同IMF分量的自身特点,分别建立时间序列预测模型,将分解后的子序列分别带入灰色神经网络预测模型中,对各个子序列趋势进行预测。

图3 EMD分解图

处理后的每日结果文件共354组数据,我们去掉前面影响较大的前154个数据,即本文以2022年后200组每日实际为实验数据样本。该模型输入样本第155组-304组报告游戏玩家人数,50组报告游戏玩家人数为测试样本,预测后三个月的报告游戏玩家人数。

上图为时间序列分量IMF(C1—C4)分量和1个剩余分量r5预测结果对比图。从图中可以观察到EMD- 灰色神经网络预测模型后50组报告分数玩家人数预测值与实际值误差区间较小,吻合较好,这表明使用EMD法对报告分数玩家人数进行分解能够在一定程度上提高报告分数玩家人数预测的准确性。

通过预测方法获得预测结果后,本文采用平均绝对百分误差(MAPE),根均方误差、平均绝对误差(MAE)、绝对误差标准差(AESD)这几个误差指标来评价预测效果:

MAPE RMSE MAE AESD
Imf1 1.666 847.857 1147.857 718.758
Imf2 2.893 550.036 1550.036 1051.340
Imf3 33.470 383.1953 383.195 329.780
Imf4 1.499 413.086 413.086 218.585
Residual 0.133 993.881 2893.881 2402.859

MAPE、RMSE、MAE越小,表示预测精度越高;AESD越小,表示模型的预测平稳性越好。

由以上指标得出,我们可以看出该模型预测效果良好,可以用来预测未来三个月报告游戏玩家人数,我们将时间序列分量IMF(C1—C4)分量和1个剩余分量r5累加起来,即得到最终预测图。

由上述预测图,我们可以看出未来一月到三月Wordle玩家人数逐渐减少。这一现象与之前在社交媒体上就有许多Wordle玩家发文表示,他们认为被《纽约时报》买下后的Wordle每天要猜的单词太过于生僻,质疑《纽约时报》增加了游戏的难度,是一致的。Wordle每天要猜的单词难度加大,影响了玩家的体验,玩家热情消退。受到种种因素影响,玩家对Wordle词汇游戏的热情下降,游戏热度下降也是必然的趋势。现在已经开始出现了这样的苗头。

问题二

Q2:对于未来日期的给定未来解决方案词,开发一个模型,使您能够预测报告结果的分布。 换句话说,预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。 哪些不确定性与您的模型和预测相关? 举一个你对 2023 年 3 月 1 日 EERIE 这个词的预测的具体例子。你对你的模型的预测有多自信?

1.方法概述

我们把一个单词的属性大致分为6类:单词词频、单词前缀、单词后缀、单词词根、单词字母、重复字母。

采取自组织映射神经网络从每日结果文件中提取价值信息,研究每个单词各种属性的指标。SOM是一种无监督人工神经网络,由于对大数据集有优秀的处理和解释能力,本文采用自组织映射神经网络以及机器学习和模式识别领域常用的K均值聚类算法,通过对每日结果文件的每个单词属性指标的相关性分析和聚类分析。

单词被使用频率:通过查询人们日常对于英文单词使用情况,我们发现有的单词会被经常性的使用到,那么这些单词更容易才游戏过程中被想到并被猜对。因此我们选则单词日常被使用频率作为其中一项属性指标。

其中,P1 i表示第i个单词在日常生活中被使用到的频率,a1 i表示单词频率属性指标。

含有高频前缀:英语单词中部分词汇是经过前缀添加而构成的,通过添加前缀改变单词意思。单词中相同前缀出现的概率较大,人们在猜词时会优先想到熟悉的前缀,例如:co、exo、di、re、tri等。因此我们采用单词中含有高频前缀的概率作为其属性之一。

其中,q1 m表示第m个前缀在词库中被使用到的频率,bi 1jm表示第m个前缀在第i个单词中出现状态,出现则为1,否则为0。

含有高频后缀:以前缀原理相似,单词中同样含有大量的后缀,许多后缀在人们日常生活中被使用,例如:et、fy、id、tic等。因此我们采用单词中含有高频后缀的概率作为其属性之一。

其中,q1 m表示第m个后缀在词库中被使用到的频率。

含有高频词根:词根在英文单词中具有实质含义,可单独成为一个字,也可搭配前缀和后缀组成词。因此我们采用单词中含有高频词根的概率作为其属性之一。

含有相同位置字母的概率:在本游戏中,玩家在进行第一次猜词后,会根据提示进行第二次猜词,猜测词与答案词在相同位置字母相同则提示为绿色。而高频词汇往往被首先猜测,与高频词汇在相同位置上字母重复越高的词汇,往往会被根据提示首先猜出。因此我们设置单词与高频词汇相同位置重复的字母概率作为其属性值一:

含有不同位置字母的概率:玩家在进行第一次猜词后,会根据提示进行第二次猜词,猜测词与答案词含有同样的字母,但字母位置不同时则提示为黄色。因此我们设置单词与高频词汇相同位置重复的字母概率作为其属性值一:

含有重复字母的个数:困难模式下,单词中含有重复字母的个数将会加大选手通关的难度,五个字母的单词最多含有5个重复字母,最少不含有重复字母。对单词中含有重复字母的个数属性建模如下:

​ 其中,mi表示第i个单词中含有重复字母的个数,a4 i表示第i个单词的重复字母个数属性指标。

2.自组织映射(SOM)模型

采用自组织映射神经网络结合K均值聚类算法对单词属性指标进行相关性分析和聚类分析。自组织映射(self-organizing map, SOM)是一种竞争学习型的无监督神经网络,如下图所示。其使用无监督训练将高维输入数据映射到低维空间,同时保留输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到二维输出层中的邻近神经元,因此被广泛应用于数据降维。

SOM网络中的输出层神经元以矩阵方式排列在二维空间中,每个神经元具有与之相连接的权向量,在接收到一个训练样本后,每个输出层神经元会计算该样本与自身携带的权向量间的距离,距离最近的神经元成为竞争获胜者,称为最佳匹配单元(best matching unit, BMU)。然后,最佳匹配单元及其邻近神经元的权向量将被重新调整,以缩小权向量与当前样本的距离。此过程不断迭代,直至收敛。

K均值算法(k-means clustering)是流行于数据挖掘领域的聚类算法。其步骤是预先随机选取K个对象作为初始聚类中心,随后计算每个对象与各个聚类中心的距离,将每个对象分配到最近的聚类中心,聚类中心及其分配的对象代表一个聚类。一旦全部对象完成分配,每个聚类的聚类中心会根据聚类中现有的的对象被重新计算。此过程不断重复直至聚类中心不再变化。

3.结果分析

我们对最终模型分析出的单词属性(单词被使用频率、含有高频前缀、含有高频后缀、含有高频词根、含有相同位置字母的概率、含有不同位置字母的概率、含有重复字母的个数)的结果进行相关性分析,如下图所示:

相关性:0.1-0.3,相关性较弱;0.3-0.6,相关性一般;>0.6,相关性较强。

根据上图,我们可以看出,含有相同位置字母的概率的单词属性相关性较强,当我们得到Wordle反馈绿色时,即该字母存在而且位置正确,玩家会自动关联想到含有相同位置的字母的单词,猜中单词的正确率高。单词被使用频率这一单词属性相关性还可以,说明单词使用频率越高,玩家做游戏时越容易想到,当天单词答案为使用高频词时,玩家的通关率高。含有重复字母的个数这一单词属性呈现负相关,即单词重复字母阅读,单词难度更大,更不易猜中,通关难度更大。

问题三

Q3:开发并总结一个模型来按难度对解决方案单词进行分类。 识别与每个分类关联的给定词的属性。 使用您的模型,EERIE 这个词有多难? 讨分类模型的准确性。

1.方法概述

2.最小二乘支持向量机(LS-SVM)

支持向量机法(SVM)是一种可训练的机器学习方法,可解决模式识别问题,并具有较好的泛化功能。最小二乘支持向量机(LS-SVM)是对SVM的改进。设l个训练样本集{xi*,*yi } ( 1 2, ,l ),其中,xiRn为输入值,yi为输出值。将样本xiRn映射到特征空间ϕ(xi) ,则估计函数为

LS-SVM与SVM均能解决非线性问题,但最小二乘支持向量机具有更快的求解速度,且所需的计算资源较少。

3.BCC算法

细菌在所处的环境中都存在感知极限,BCC 算法是一种新的群体智能算法,在细菌趋药性(bacterical chemotaxis,BC)算法的基础上建立起的个体细菌间的信息交互 BC 算法,根据单个细菌的运动不断感知周围环境的变化,利用过去的经验寻找最优点,具有较强的鲁棒性。BCC 算法根据单个细菌对化学诱剂的应激反应和细菌群落间的位置信息交互进行优化,在保留个体细菌搜索能力较强的基础上改善了收敛速度。同时,与其他智能算法相比,局部搜索能力更强,且占用的系统资源更少。BCC 算法步骤如下:

  1. 初始化细菌群体数以及细菌个体的位置和对外界环境的感知极限。
  2. 在初始条件下,计算细菌个体的目标函数;确定并记录目前的最优值。
  3. 菌株 j 进入第 k 步,感知周围的信息,确定其他细菌的中心位置,其中,中心位置能在外界环境的感知极限中获得较好的目标函数值。
  4. 通过单一菌株 BC 算法,进入第 k 步菌株 j得到另一位置。
  5. 比较这2个位置上的目标函数值,在第 k +1 步,菌株 j 移动到函数值较高的位置。
  6. 为避免发生因算法的随机性导致原来位置较好的点被抛弃的情况,在这里,细菌群落每移动一次,位置较差的细菌会继续向最佳位置处的细菌移动,以此提高算法的性能。
  7. 更新最优位置以及相关参数。重复步骤3)-6)直到满足终止条件跳出该循环。

4.结果分析

得出各项单词属性的拟合曲线,如下图所示。

曲线的横坐标是预测值,纵坐标是实际值。 图中不同颜色代表不同的词属性。 曲线的横坐标是玩家尝试通过次数的预测百分比(1,2,3,4,5,6,X),纵坐标是实际值,黑色曲线是其中的点实际值等于预测值。 点越接近黑色曲线,说明这个词的属性对玩家尝试通过的次数有影响。

1 try 2 tries 3 tries 4 tries 5 tries 6 tries 7 tries
0.00000 2.74384 18.47856 33.72893 26.97891 13.96125 3.60754

上表显示了2023年3月1日玩家尝试过关的次数(1,2,3,4,5,6,X)百分比的预测结果。其中,成功百分比第四次是最高的,也就是说这个单词的难度在中间。 由于该单词有3个重复字母,并且没有高频前缀后缀,因此第一次猜测成功的概率几乎为零。 不过,三个重复的字母会增加玩家猜出该字母的概率,因此成功集中在接下来的几次。 单词的不同属性会影响玩家填写单词的选择,从而影响游戏结果。

问题四

Q3:列出并描述这个数据集的其他一些有趣的特征。

1.方法概述

第4题要求将单词按照难易程度进行分类,并分析每一类单词是否具有共同的性质。 方法概述流程图如下:

引入基于时间序列全局主成分分析和熵权法的评价模型对词语难度进行评价,并通过聚类方法将其分为五个等级:困难、困难、中等困难、简单和较简单。 分析各年级单词的相同特征,计算单词“EERIE”的类别,以确定分类的合理性。

2.基于时间序列全局主成分分析(GPCA)的评价分类模型——熵权法(EWM)

利用时间序列全局主成分分析可以将剖面数据扩展为面板数据,保证评价体系的统一性、完整性和可比性。 另外,将原始数据降维为多个不相关的主成分,然后代入熵权法,可以防止无效信息的重复加权。 最后,根据每日难度评估分数的相关性对变量进行分组,使得变量在同一组中相关性较高,而在不同组中相关性较差。 然后可以分析不同组中的数据属性。

(1)数据标准化与降维

本文通过极差法标准化对数据进行统一变换,区分正负指标,然后通过Z核法对数据进行集中处理。 一般情况下,极差法将指标标准化为两类:正向指标越大越好,负向指标越小越好)。 Z-core法的标准化数据公式为:

(2)时间序列全局主成分分析(GPCA)

将选择难度模式的标准化人数比例和正确人数比例引入时间序列主成分分析模型,得到每日游戏难度评价值。 时间序列全局主成分分析方法可以用以下模型表示:

3.结果分析

通过聚类分析,根据词的常见频率、字母重复次数、词的前缀和后缀这四个因素对(1, 2 、3、4、5、6、X)。 与这五个类别相关的给定单词是最接近百分比的平均分数、重复单词的数量、单词的频率、字母重复的数量以及词缀的相关频率。 经过模型分析,EERIE一词被归为第三类。

参考文献

[1]Tang Qiyi, Tang Jie. Application of Partial Least Squares Regression Analysis in Uniform Design Experiment Modeling Analysis [J]. Mathematical Statistics and Management, 2005, 24(5):6.

[2]Wang Junping, Chen Quanshi. Gray-neural network comprehensive forecasting model [J]. Computer Engineering and Application, 2004, 40(9):3.

[3]Guo Xiping, Wang Lidong. New Algorithm and Application of Empirical Mode Decomposition (EMD). Noise and Vibration Control, 2008, 28(5):3.

[4]Deng Xinyang, Deng Yong, Zhang Yajuan, et al. A reliability Markov model and its application [J]. Acta Automatica Sinica, 2012, 38(4):666-672.

[5]Wang Li, Wang Zhengou. TGSOM: A Dynamic Self-Organizing Map Neural Network for Data Clustering [J]. Journal of Electronics and Information Technology, 2003, 25(3):7.

[6]Zhang Haoran, Wang Xiaodong. Incremental and online learning algorithms for regression least squares support vector machines [J]. Journal of Computers, 2006, 29(3):7.

[7]Yan Weiwu, Shao Huihe. Comparison and Application of Support Vector Machine and Least Squares Support Vector Machine [J]. Control and Decision Making, 2003, 18(3):3.

[8]Cheng Qiyue. Structural entropy weight method for determining evaluation index weights [J]. Systems Engineering Theory and Practice, 2010(7):4.

[9]Yang Linyun, Zhou Haijing, Zhuo Qing, et al. Weighted clustering fusion based on attribute importance [J]. Computer Science, 2009, 36(4):4.

[10]Ma Chunlong, Shi Xiaoqing, Xu Weiwei, Ren Jinghua, Wang Pei, Wu Jichun. Correlation analysis of multiple monitoring indicators of polluted sites based on self-organizing neural network [J]. Hydrogeology and Engineering Geology, 2021,48(03):191-202 .

[11]Zeng Ming, Lv Chunquan, Tian Kuo, Xue Song. Least squares support vector machine short-term load forecasting method based on bacterial community chemotaxis optimization [J]. Chinese Journal of Electrical Engineering, 2011, 31(34): 93-99 +11.

[12]Fu Meiping, Ma Hongwei, Mao Jianrong. Short-term forecasting of photovoltaic power generation based on similar day and least squares support vector machine [J]. Power System Protection and Control, 2012,40(16):65-69.

[13]Ge Shaoyun, Jia Ousha, Liu Hong. Short-term power load forecasting under real-time electricity price conditions based on genetic gray neural network model [J]. Power Grid Technology, 2012,36(01):224-229.DOI:10.13335/j .1000-3673.pst.2012.01.041.

[14]Ye Lin, Liu Peng. Short-term wind power combination forecasting model based on empirical mode decomposition and support vector machine [J]. Chinese Journal of Electrical Engineering, 2011, 31(31): 102-108. DOI: 10.13334/j .0258-8013.pcsee.2011.31.014.

[15]Wang Yuefen, Wang Yishan. Discovery and Comparative Analysis of Public Opinion Themes of Different Communicators in the Communication Stage [J]. Modern Information, 2018, 38(09): 28-35+144.