一个网页集最多包含 500,000 个网页。如果您想从更多的网页中提取数据,则需要创建多个网页集。
要创建包含多个网页的网页集,数据标注工具会引导您完成以下流程:
- 指定并标记起始页。
- 确定网页集内的其余网页。
- 确认或更正数据标注工具对数据的理解。
- 查看并发布网页集。
指定并标记起始页
创建网页集的第一步是向数据标注工具显示您的网站如何展示您希望用于丰富网页摘要的信息。此步骤最重要的部分是提供能够代表您网站上其他网页的起始页,理想状态下,该网页应包含尽可能多的数据。标记第一个网页会建立一种模式,数据标注工具会在其他网页中查找该模式。
指定并标记起始页:
- 打开数据标注工具。
- 为了向数据标注工具说明您的网站,请指定起始页:
- 点击开始标注。
- 输入网址,如 example.com/events/details/101112.html
数据标注工具要求网页集中的所有网页都必须与已经过验证的网站位于相同的域中。例如,如果您在网站站长工具首页上点击网站 example.com,数据标注工具就会要求该网址以 example.com 开头。 - 选择要在页面上标记的数据类型。
- 点击标记此网页和其他类似网页。
- 点击确定。
- 通过标记信息向数据标注工具说明网页显示数据的方式:
- 在“标记器”页面上,使用鼠标选择图片或文字。
- 系统会在您选择之后显示一个弹出式菜单,在该菜单中点击您所选的数据类型。例如,点击名称。
- 继续选择,并点击所有必要的数据类型以及系统提供的所有可选的数据类型。
有用的提示。
- 在“我的数据项”下,
必需
会显示在您尚未标记的每个必需数据项旁。如果网页缺少必需数据,您可以添加缺失数据。 - 如果您对两个或两个以上相同类型的标记应用了统一格式,那么数据标注工具就会自动标记该网页上的其他类似项。例如,如果您将日期和名称都标记了两次,那么数据标注工具就会自动标记该网页上的其他日期和名称。
- 如果您标记的活动名称恰好是超文本链接,那么数据标注工具就会自动使用该活动的链接网址。请参见数据标注工具 - 活动,了解活动网址的说明。
- 如果日期和时间信息分多处显示(例如,年份显示在网页顶部,月份和日期则显示在网页中间),那么您对这些位置可以进行单独标记。 请参见标记日期。
- 如果评分信息分多处显示(例如,实际评分显示在网页中间,最佳评分则显示在页脚),那么您对这些位置可以进行单独标记。 请参见标记评分。
- 在“我的数据项”下,
- 查看“我的数据项”列中的数据,确认标记。如果显示警告图标 (
),那么点击图标旁边的数据。例如,如果显示 Boston,请点击 Boston。然后,查看标记并执行以下某个操作:
- 如果标记不正确,请点击数据旁边的 X,然后重新标记数据。
- 如果标记正确无误,请点击警告图标本身 (
),然后选择清除警告。
- 点击完成。
确定网页集内的其余网页
在大多数网站上,类似网页的网址遵循类似的模式。例如,有关活动的网页的网址可能以 http://example.com/events
开头,然后是 /music/
(适用于所有音乐活动)和 /speaking/
(适用于所有演讲活动)。
确认在起始页上标记后,数据标注工具会检查您网站上的网页,并推荐一系列可添加到您的网页集内的网页。数据标注工具会使用一种网址模式来确定推荐的系列网页。该模式使用简单的语法:
- 以网站的协议和主机名开头。
- 指定不区分大小写且完全匹配的网址组成部分名称。
- 将 *(星号)用作网址组成部分的通配符。
例如:
- http://example.com/events/music/* - 确定所有紧跟 /music/ 的下级网页,例如以下两个网页:
http://example.com/events/music/123.html
http://example.com/events/music/456.html - http://example.com/events/*/* - 确定所有紧跟 /events/ 的下级网页,以及 /events/music/ 和 /events/speakers/ 下的所有网页:
http://example.com/events/music/123.html
http://example.com/events/music/456.html
http://example.com/events/speakers/789.html
http://example.com/events/speakers/012.html
确定网页集内的其余网页:
当您标记并确认起始页后,网页选择器会弹出窗口来为您网站上的网页推荐网址模式。请执行下列某个操作:
如果该格式正确识别了您想要添加到网页集中的网页… | 点击创建网页集。 |
如果推荐模式均不正确… | 执行以下操作:
|
确认或纠正数据标注工具的自动标记
数据标注工具会检查指定的网页,并自动标记某些网页上的数据。某些网页与您标记的起始页类似,而另外一些网页则不同。
确认或纠正数据标注工具的自动标记:
- 数据标注工具会标记一些网页上的数据,并向您显示结果。为每个结果执行以下某个操作:
- 如果标记正确无误,请点击下一步。
- 如果标记不正确,请在“我的数据项”下点击数据旁边的 X,然后重新标记数据。当网页上的所有数据均正确无误时,点击下一步。
- 如果显示警告图标 (
),但标记正确无误,请点击警告图标本身 (
) 并选择清除警告。当网页上的所有标记均正确无误时,点击下一步。
- 如果网页不包含您要提供给 Google 的数据,请点击删除网页。
- 在数据标注工具显示的最后一个网页上,根据需要纠正标记并点击完成。
如果数据标注工具对网站数据的理解仍表示怀疑,则会检查更多网页并标记数据,并要求您确认或纠正标记。反之,系统会显示“发布”页面。
查看并发布网页集
发布网页集之前,请抽出一些时间来查看数据标注工具对您数据的理解。 然后,您可以随即发布网页集,也可以等到准备就绪时再发布。