多年来,域名监控已成为标准的行业惯例,并且是大多数在线品牌保护服务的重要组成部分。尽管如此,关于域名监控内部运作的一些问题仍然不断被问到:
- 域名爬虫是如何工作的?
- 为什么未检测到子域中提及的品牌名称?
- 为什么某些域监控软件无法抓取某些 ccTLD?
这些是我们在本文中要解决的一些问题。
让我们从一个定义开始:
域监控是在域注册数据库中搜索相关域的行为。
简单的部分:您认为相关领域取决于您的目标。由于我们在品牌保护背景下讨论域名监控,此处的相关意味着您的品牌面临风险,例如那些侵犯您商标权的域名。如果您将域监控用作竞争情报的一部分,那么相关性无疑会有不同的含义。
现在让我们看看定义的另一部分。什么是域名注册数据库,我们如何在其中进行搜索?
为了跟踪谁(何时以及多长时间?)注册了域,注册管理机构保留了存储此信息的数据库。我们是否以及如何搜索这些注册数据库取决于注册管理机构是否允许公众访问。在这里,并非所有域结尾都是相同的。让我们详细说明一下。
域名可分为两组:由 ICANN 管理的域名(通用顶级域,gTLD)和由国家政府管理的域名(国家代码顶级域,ccTLD)。很容易将它们分开。所有两个字符的 TLD 最终都在国家的治理之下,已知的例子有 .cn、.ru、.de、uk.,而所有具有 3 个或更多字符的 TLD,例如 .com、.info、.shop、.app、.瑞士遵守 ICANN 制定的规定。
此设置创建了一个域世界,其中有关于所有 gTLD 的注册数据库的统一规则和 ccTLD 的分散景观。
幸运的是,许多 ccTLD 在 TLD 治理的许多方面都自愿遵循 ICANN 流程,但并非几乎所有方面。
这一点很重要,因为它解释了为什么访问注册表数据库并不像看起来那么简单。
域名爬虫是如何工作的?
让我们从公众可以访问的数据库开始。
每当域被许可给注册人时,注册服务商都会在注册数据库中标记该域以及其他相关信息,例如注册日期、到期日和注册人数据。从那时起,公众可以查找域的 WHOIS。域监控工具搜索自机器人上次爬网以来注册的所有域的列表,我们在这里称之为新注册域。您在域监控工具结果页面中找到的域列表是所有新注册域的子集。究竟哪些域最终会出现在您的结果页面上取决于您的抓取工具设置为过滤结果的方式,但大多数品牌感兴趣的是查找包含其商标的域,或者看起来与他们的商标容易混淆的相似域。
通过使用所谓的“布尔运算符”(AND、OR、NOT)的算法过滤新注册的域。您熟悉来自任何监控工具的那些。诸如不包含关键字(否定关键字)之类的行可帮助您最大程度地减少“误报”结果的数量,这些数据实际上不相关,即使它包含您的商标。
示例:汽车品牌 Jaguar 可能希望排除所有包含“zoo”、“safari”或其他很可能与汽车品牌以外的事物相关联的关键字的结果。
除了布尔运算符之外,域爬虫还使用算法来识别可能与您的品牌混淆性相似的域名,但不包含与您的品牌名称完全匹配的域名。域名可能在不同层面(包括语音和视觉)与您的品牌相似,容易混淆。
语音相似度
法语单词“deux mains”(两只手)和 demain(明天)听起来非常相似,尽管这两个词在视觉上看起来很不一样。当您阅读与某个品牌在发音上相似的词时,您可能会自动与该品牌建立联系,尤其是在其后跟一个与品牌相关的关键字时。在实践中,这很少用于诈骗,因为很难找到好的例子,所以大多数人都对它心存疑虑。 😛
视觉接近度
一种更常用的创建接近度的方法是通过“看”。阅读时,我们主要关注单词的第一个和最后一个字母,然后是我们期望在单词中找到的字符的存在,而字符的确切顺序与我们对单词的理解不太相关(参见 Typoglycemia)。
域名抢注者通过注册看似知名品牌的域名来利用这一认知特征,而实际上却存在细微差别,例如省略字母或附加字母、双字母、来自同一品牌或什至在视觉上相似的字母上的拼写错误来自不同的脚本。
Jaquar.com - 你能发现错误吗?
根据您要监控的品牌,该算法具有严格或松散的配置。您希望捕获所有相关结果并尽可能多地忽略误报,以节省分析人员在筛选结果列表时的时间。
ccTLD 的域名监控有何不同?
另一方面,ccTLD 没有义务向公众提供注册域。这意味着并非所有 ccTLD 数据库都可以主动爬网,并且应用其他启发式技术来监控包含关键字(例如您在 ccTLD 下的品牌)的域。
其中一种启发式方法是检查一组可能感兴趣的域是否已在 TLD 下注册。例如,监控工具可以使用已在 gTLD 中注册并包含您的品牌的域作为样本,然后检查这些名称中是否有任何名称在相关 ccTLD 下不可用。如果该域不可用,则表明该特定域已注册,因此您的品牌保护团队可能需要进一步关注。
启发式 ccTLD 监控方法不如通过公共数据库搜索可靠,因为如果注册管理机构收到太多请求,他们可能会阻止监控工具,而其他人则需要许可证。因此,很难针对不同的注册管理机构进行微调,从而导致在添加额外 ccTLD 的成本与监控不太常见的扩展名(例如埃塞俄比亚或缅甸域名注册)所获得的价值之间进行权衡。
因此,域监控软件始终包括 gTLD,但包括多少个 ccTLD 因提供商而异。由每个品牌评估额外的域监控范围是否值得额外的费用。
为什么子域不包含在常规域监控中?
了解域监控爬虫搜索的确切位置以了解其结果的局限性非常重要。
让我们看一下 URL 的结构:
协议://子域。二级域名。 TLD /文件夹1/文件夹2
协议:指定计算机如何相互通信的过程。在大多数情况下,这将是 http 或 https。
子域:作为域的管理员,可以创建任意数量和任何类型的子域。一些常用的子域是 www、mail、test、app。子域可用于指向不同的服务器和服务。您可能正在访问在 google.com 的不同子域下运行的“drive.google.com”或“docs.google.com”。
二级域名:您可以注册以获得使用该名称的独家许可的部分。
顶级域或一级域 (TLD) :TLD 位于二级域之后,并在 TLD 注册管理机构的管理下划定一个空间。
/FolderStructure:将查询定向到正确的文件夹和文件以获取该 URL 下的请求数据,也称为Path 。
域监控爬虫涵盖了哪些 URL 组件?
爬虫只会查看域名部分,因为这是可搜索注册数据库中唯一可用的部分。
换句话说,常规域监控解决方案不分析子域和路径或文件夹结构。
在 Questel,我们提供定制的域监控服务,以平衡效率和成本。如果您希望保护您的品牌免受域名内的滥用,让我们聊聊并探讨您的需求。