有机搜索中的机器学习

数字时代的工具和流程的演变从根本上改变了市场参与者之间的互动。具体来说，随着买家和卖家在网上研究产品和服务，公司网站和卖家向市场提供的各种形式的内容已成为主要的教育平台和业务渠道。

根据 2019 年 Gartner 的一项研究，自然搜索带来了超过 57% 的 B2B 桌面流量，并且“是整个 B2B 购买历程中最常用的数字渠道”，在“购买过程的早期、中期和后期发挥着主导作用”。因此，

由于首页搜索结果占据了超过 90% 的自然搜索流量

利用 Rusa Data 发挥俄罗斯数据的力量！我们广泛的营销数据库提供了对俄罗斯消费者行为和市场趋势的无俄罗斯数据与伦比的洞察。利用准确的数据推动有针对性的活动，为您的业务决策提供支持。利用我们可靠的数据解决方案保持竞争优势并优化您的营销策略！

因此，行业特定情报在识别可对首页排名产生积极影响的变量方面的优势不容小觑。而控制排名变量的规则一直是推断性的、不透明的和概括性的。然而，经过分析，影响首页排名的因素要微妙得多，有时与普遍接受的做法相矛盾，并且实际上取决于行业、竞争和环境。

此项分析的目的是研究特定行业历史上模糊的搜索排名算法，以获得包含明确购买意向的结果。在完成排名因素的数据收集后，团队结合相关行业经验和统计建模最佳实践进行特征工程和选择，确定最佳 ML 算法，然后利用最终模型计算每个观察值的每个变量的 Shapley 值。通过将每个观察值的预测概率视为结果，应用博弈论 Shapley 值来计算每个变量的边际贡献和贡献幅度。这些贡献随后被解释为对首页排名的变量影响。然后在此数据集中确定前 5 个最具影响力的特征。

需要注意的是，以下分析与特定行业、竞争群和搜索意图有关。因此，寻找普遍性仅限于上述背景；单独和重复的分析至关重要，不仅对目标行业以外的应用如此，而且对目标行业内的应用也是如此，以与 Google 的动态算法保持一致。也就是说，ML 框架（工程特征、确定有效算法、超参数、训练/测试）可以重新用于其他特定行业、竞争群和搜索意图。每个步骤可能会使用或生成不同的算法和值，但可以通过类似的勤奋数据科学流程来完成。

营销中的机器学习

它是什么以及为什么重要简介机器学习使计算机能够发现潜在

分析目的

首页搜索结果排名由专有搜索平台算法决定，但各种排名因素与搜索引擎算法之间的关系却不甚明了。谷歌是最大的搜索引擎平台，拥有超过 87% 的市场份额，但它提供的关于这些因素如何影响搜索结果排名的信息却很少。这对希望提高网站搜索性能的品牌来说是一个搜索引擎优化挑战。

可以利用各种统计和机器学习方法来模拟搜索算法并确定首页搜索结果排名的顶级排名因素。但是，对于任何给定的查询或搜索词，因素和每个因素的影响程度各不相同。因此，排名因素分析和搜索引擎优化策略是行业独有的。

此项分析的目的是揭示预测模型，以预测首页搜索结果排名，并确定排名因素对搜索引擎优化的相对重要性。通过了解基于一组行业搜索词的排名因素，品牌可以更有效地分配资源，以优化对首页搜索结果排名影响最大的排名因素。

行业背景
如今，当用户进行搜索时，Google 会立即应用各种算法来填充搜索引擎结果页面 (SERP)。作为其搜索算法集合的一部分，Google 利用 RankBrain，这是一种基于机器学习的算法，可根据解释的搜索意图提供最相关的结果。自推出以来，RankBrain 改变了有机优化的执行方式，排名因素影响高度依赖于意图和行业。

众所周知，SERP 的顶级结果归因于大多数用户点击和访问；首页之后，点击率 (CTR) 会大幅下降。随着行业发展和新的 SERP 元素（如精选摘要、新闻、轮播和常见问题解答）对宝贵的首页空间的竞争愈演愈烈，品牌面临着有机可见度的挑战。同时，虽然搜索行业专业人士了解算法可能认为哪些排名因素很重要，但每个行业和基于意图的搜索的算法特性以及 Google 对搜索算法的不断更新增加了搜索优化的复杂性。在此背景下，可以进行以下机器学习分析，以了解排名因素之间的相互作用，同时预测首页和非首页分类。

理解 Google 的 RankBrain
为什么重要 2015 年是 Google 搜索引擎历史的转折点——对于……

数据与方法

以下数据和方法部分概述了四个分析准备阶段：（1）数据集设计和控制（2）数据收集（3）特征工程（4）算法训练、调整和选择。

数据集设计和控制
鉴于分析目标，数据集必须考虑 Google 排名算法的已知方面。为了解释算法对不同查询类型的不同响应，分析需要进行关键控制，以确保初始设计的最高准确性。

搜索结果和查询设计
分析必须包含在特定行业内，以尽量减少来自其他行业的排名因素的偏见。
应控制查询搜索量，以避免搜索量高且排名因素权重可能不同的“异常”查询。
最后，即使在同一个行业内，查询搜索意图也应该是同质的，以尽量减少不同查询类型（信息性、交易性等）之间的偏差。
数据收集控制
在数据收集期间应使用位置控制来抵消本地和全国搜索之间的搜索结果和排名因素的差异。
为了控制设备之间的算法排名差异，数据收集应在移动和桌面搜索引擎结果页面（SERP）之间进行细分。

数据集收集
除了控制之外，数据收集选择必须符合分析目标、保持完整性并限制偏见。

为了确定首页排名的因素，数据收集主要集中在网页属性上。
为了充分分布信息，正类和负类（第一页的观察结果与非第一页的观察结果）是平衡的。
仅选择具有独立、不重叠的搜索结果的查询。
特征工程
在本例的数据收集之后，初始数据集包含 2,663 个 URL（观察值）和 32 个变量/特征（排名因素）。为了准备有机搜索中的机器学习用于模型训练的数据集，请采取以下步骤：

缺失值填补：页面爬虫和 API 的数据收集过程是自动化的，因此会存在一些缺失值。但是，如果缺失值足够小，团队可以手动记录缺失信息，而无需填补或近似。

特征转换高基数连续变量

例如“自上次页面更新以来的时间”，应该转换为二进制虚拟变量（例如，“过去 30 天内更新：Y/N”），以最大限度地减少机器负载并提高解释的普遍性。

特征选择：虽然许多机器学习方法即使在多重共线性的情况下也能表现良好，但当协变量之间存在强关系时，建议在选择保留/删除哪些变量时要深思熟虑。使用预测能力得分 (PPS) 测量关系可以捕捉线性和非线性关系。特征的保留或删除取决于业务可操作性、行业知识和关系的程度。

算法训练、调整和选择
一旦确定了最终的变量集，就应该将数据集随机分为训练数据集和测试数据集（例如 70/30）。模型训练仅通过训练数据集进行，而测试数据集则用于性能评估。这种方法可以防止模型训练期间出现过度拟合问题，提高发现的普遍性，并允许在模型之间进行真正的预测性能评估。

初始算法的选择应基于分析目标：确定排名因素对结果是否会出现在 SERP 第一页的影响。给定二元因变量，可以将以下分类机器学习算法应用于训练数据集：

逻辑回归
K 最近邻
支持向量分类器 (SVC)
决策树
随机森林
XGBoost
每种机器学习算法的性能都可以通过 20 次超参数优化迭代中的 10 倍交叉验证来评估。测试重复 100 次以验证样本间的稳定性。最佳超参数配置用于训练模型并估计 Shapley 值作为变量对首页概率影响的度量。

结果与发现

在 100 个不同的训练和测试分组中进行的重复保留测试样本评估可评估算法的性能和稳定性。以下是每个算法在 100 次训练/测试样本迭代中的示例平均值和标准差。

在本分析中，平均而言，随机森林算法的表现优于所有其他算法，表明它是此任务的理想分类器。基于此信息，可以对整个数据集进行 50 次超参数迭代的 10 倍交叉验证。

将性能最高的超参数随机森林配置应用于完整数据集以生成最终的预测模型。为了了解分析中包含的排名因素的相对重要性，计算了每个变量的 Shapley 值，以深入了解首页排名的顶级排名因素。

可以通过一个例子来说明 Shapley 值的使用。根据最终的随机森林模型，第一个观察的预测首页概率约为 91%。所有观察的平均预测首页概率约为 47%。以下针对第一个观察的 Shapley 值细分将解构这两个概率之间的差异（91% – 47% = 44%）。

另一种可视化第一个观察结果预测的 Shapley 值细分的方法是通过以下条形图。页面字数、页面大小和服务器响应时间是导致页面进入首页概率较高的三大特征，而 H1 标签数量是唯一降低页面进入首页概率的特征。

以下图表有助于将第一个观测值的每个变量的 Shapley 值与其原始特征值联系起来。请注意，具有正 Shapley 值的特征（如上所示）会增加第一页的概率，而具有负 Shapley 值的特征（如上所示）会降低第一页的概率。

虽然上面的插图显示了每个观察的局部特征重要性，但 Shapley 值也可用于可视化全局特征重要性。为了确定变量集对预测概率的总体影响，可以对每个观察的 Shapley 值取绝对值，然后按每个变量取平均值，然后按降序排序。

如图所示，对首页概率影响最大的特征是页面字数，其次是

按页面大小、页面出链、URL 评级和域名评级。

关键词同质化
在分析准备过程中，需要考虑的最有影响力的控制之一是搜索意图同质的查询集，或者从实际角度来说，搜索算法认为关键字具有同质意图。如果数据集内的不同查询提出的问题略有不同（例如，不同的查询意图），则模型会变得不精确。

例如，如果目标是量化排名因素对办公空间房地产经纪人的重要性，则与“办公空间”相关的关键字将是包含的相关查询。如果包含“共享办公空间”、“共享工作空间”或“联合办公空间”等相关术语，则可能会影响模型预测第一页概率的能力。虽然不同关键词的受众可能会重叠，但细微的差别可能会与 Google 的算法产生不同的影响，从而导致不同的搜索结果，因此排名因素可能会有一定差异。为了说明这一点，首先使用包括相关但意图含义略有不同的完整数据集进行上述分析；然后再次使用意图更受限制的数据集进行分析。结果是受限数据集中的预测值增加了近 10 点。

删除密切相关但“异常”的查询并不

总是能带来这种程度的模型改进。尽管如此，对于特定数据集，性能的提高表明更精细的方法可以为行业带来更好的结果，这强调了创建个性化策略的必要性，这些策略可以轻松适应特定市场的特性。

结论和建议
机器学习的实施使品牌能够更清楚地了解搜索排名算法。此分析的目的是模仿 Google 针对特定行业的关键词范围的搜索算法，以便为预算分配、营销策略和未来的其他实验提供参考。

分析示例中的最终随机森林模型能够在约 77% 的时间内准确地将第 1 页与非第 1 页的观察结果区分开来，对于更同质的数据集，该比率约为 86%。前者最具影响力的前 5 个特征是 (1) 页面字数 (2) 页面大小 (3) 页面外链 (4) URL 评分和 (5) 域名评分，后者最具影响力的前 5 个特征是 (1) 页面字数 (2) 页面外链 (3) H1 数 (4) 域名评分和 (5) 页面大小。如上所述，这组排名靠前的因素仅限于目标行业、竞争群和搜索意图；在针对不同行业进行的类似分析中，发现排名靠前的因素完全不同，主要关注与页面速度相关的特征。随着关键上下文属性（例如行业、竞争群、意图）的不同，各种排名特征的相对重要性会发生变化。

虽然机器学习方法无法在首页位置和排名因素之间建立明确的因果关系，但可以从示例分析结果中得出以下见解：

页面字数可以视为页面内容丰富度的众多指标之一。字数是最具影响力的特征，这可能表明在这个行业中，以及在观察到的基于意图的搜索的背景下，搜索排名算法优先考虑内容详尽且信息丰富的页面。因此，寻求增加此类搜索第一页排名概率的品牌可以通过关注内容深度和价值来增加页面字数。
与字数一样，页面大小可以解释为内容丰富度的指标。但是，页面大小与第一页概率之

间的关系很微妙

页面大小在 0.4 到 0.7 千字节之间的大多数观察值都具有正的 Shapley 值，这意味着一旦页面大小超出该范围，页面大小对第一页概率的边际贡献可能会减少。页面大小和内容丰富度之间存在固有的权衡，因此，应该通过实验找到正确的平衡。
页面外链也是一个高排名变量。利用行业领域的专业知识，我们知道页面外链数量多且字数多（另一个高排名因素）的页面很可能与具有多个行业列表的目录页面对齐。这样的结果往往在 SERP 中排名较高；鉴于页面上提供的内容丰富和相关链接，用户可能会在页面上花费更多时间，而不太可能返回搜索页面，这对用户体验有影响。
URL 评级表示页面的受欢迎程度和权威性，该评级基于来自其他域的链接数量和质量（反向链接/引用域）。这是已知 PageRank 算法的主要因素。URL 评级低于 10 的观察表明其对首页概率的贡献降低；因此，建议积极实施外展活动以获取相关的反向链接和引用域，以直接为目标页面建立权威。

与 URL 评级相邻

域名评级衡量域名级别的受欢迎程度和权威性。虽然更高的域名评级意味着更高的权威性，但应该注意的是，权威性是 BQB 目录通过域名主题来衡量的。在给定行业中，域名评级对首页概率的边际贡献似乎呈递减趋势。鉴于域名和 URL 评级对首页概率的影响程度，建议集中更多资源来增强页面权威性。
随着数字生态系统（尤其是有机搜索）继续为消费者和企业发挥重要作用，数字能力的竞争需求将继续增加。使用机器学习模型从复杂且经常相互矛盾的变量集中分析和衡量最有利可图的优化因素，可以成为企业和 SEO 专业人士的重要工具。

由于首页搜索结果占据了超过 90% 的自然搜索流量

它是什么以及为什么重要简介机器学习使计算机能够发现潜在

数据与方法

特征转换高基数连续变量

结果与发现

删除密切相关但“异常”的查询并不

间的关系很微妙

与 URL 评级相邻

发表评论取消回复

我们的数据库合作伙伴

由于首页搜索结果占据了超过 90% 的 自然搜索流量

它是什么以及为什么重要简介机器学习使计算机能够发现潜在

数据与方法

特征转换 高基数连续变量

结果与发现

删除密切相关但“异常”的查询并不

间的关系很微妙

与 URL 评级相邻

发表评论 取消回复

我们的数据库合作伙伴

由于首页搜索结果占据了超过 90% 的自然搜索流量

特征转换高基数连续变量

发表评论取消回复