首页 » 很容易看出这些数据本身有多

很容易看出这些数据本身有多

5/5 - (1 vote)

以下是 CSV 格式的原始输出示例: 么有用,但当我们清理它并开始抓取排名网址时,它会变得更加强大。 第 5 步:清理并标准化您的 STAT URL 数据。 此时,您将花费 1-2 小时进行初始数据收集。此步骤稍微耗时一些,但是清理数据可以让您执行更高级的分析,并发现更多有关 Screaming Frog 的有用见解。

 

以下是我对 STAT 分类数据

所做的更改,为 Screaming Frog 和 Power BI 中的后 乌克兰电报数据库 续步骤做准备。您最终会得到多列 URL。每个随后都有一个目的。 将排名 URL 列复制到名为规范化 URL 的新列中。 使用 Excel 的文本分列工具和“?”通过将 URL 参数与 .我删除了包含 URL 参数的新列,因为它们对我的分析没有帮助。

 

将新的干净的规范化

URL 列复制到名为 TLD 的新列中。在 TLD 列上使用文本转列工具并用“/”分隔以删除除域名和子域之外的所有内容。删除新列。我选择将子域 我们会将此信息转发给我们的和技术 名保留在 TLD 列中,但如果有助于您的分析,您可以将其删除。 最后,创建另一个名为完整 URL 的列,该列最终将成为您将在 Screaming Frog 中抓取的 URL 列表。

 

要创建完整的 URL

只需使用 Excel 的串联函数来组合协议和规范化 URL 列。您的公式将如下所示:

”附加到有效的 URL 字符串。 我的数据集在 Excel 的限制内有 25,000 多行,因此我可以轻松地将数据合并到一处。当数据集增长时,您可能需要使用数据库(我喜欢 BigQuery)。

 

第 6 步:按网站类型对 SERP 结果 巴西商业名录 进行排序。 查看 SERP 结果,很容易看出银行并不是唯一对具有本地搜索意图的关键字进行排名的网站类型。由于我最初的问题之一是 SERP 组成,因此我必须识别所有不同类型的网站并为每个网站添加标签以供进一步分析。 这一步是迄今为止最耗时且最有洞察力的。我花了 3 个小时将第一批 25,000 多个 URL 分类为以下类别之一: 机构(银行和信用合作社网站) 名录(集体、地方企业名录等) 评论(

 

 

本地和国家网站,如 Yelp.com) 教育(.edu 域上有关银行的内容) 政府(.gov 域和市政网站上有关银行的内容) 职位(职业网站和职位聚合器) 新闻(包含银行内容的本地和国家新闻网站) 食品银行(是的,许多食品银行都以“我附近的银行”为关键词进行排名) 房地产(商业和住宅物业清单) 搜索引擎(搜索引擎排名内容) 社交媒体(社交媒体网站上的评级内容) 其他(与上述任何内容无关的完全随机结果) 您当地的 SERP 可能会包含许多此类网站类型和其他不相关的类别,例如食品银行。