地球资源数据云——数据资源详情
垃圾短信集合是一组为垃圾短信研究而收集的带有 SMS 标记的消息。它包含一组 5,574 条英文 SMS 消息,根据垃圾邮件(合法)或垃圾邮件进行标记。 内容 这些文件每行包含一条消息。每行由两列组成:v1 包含标签(火腿或垃圾邮件),v2 包含原始文本。 该语料库是从互联网上免费或免费研究来源收集的: - > 从 Grumbletext 网站手动提取了 425 条 SMS 垃圾邮件的集合。这是一个英国论坛,手机用户在其中公开声称收到垃圾短信,其中大多数都没有报告收到的垃圾短信。识别索赔中的垃圾邮件文本是一项非常艰巨且耗时的任务,需要仔细扫描数百个网页。Grumbletext 网站是:[Web 链接]。 - > NUS SMS 语料库 (NSC) 随机选择的 3,375 条短信的子集,该数据集是新加坡国立大学计算机科学系为研究而收集的约 10,000 条合法短信的数据集。这些信息主要来自新加坡人,而且大部分来自就读大学的学生。这些信息是从志愿者那里收集的,他们知道他们的贡献将被公开。NUS SMS 语料库可在以下位置获取:[Web Link]。 - > 从 Caroline Tag 的博士论文中收集的 450 条 SMS 火腿消息列表可在[Web Link]上找到。 - > 最后,我们合并了 SMS Spam Corpus v.0.1 Big。它有 1,002 条 SMS 火腿消息和 322 条垃圾消息,可通过以下网址公开获取:[Web Link]。该语料库已用于以下学术研究:

垃圾短信集合是一组为垃圾短信研究而收集的带有 SMS 标记的消息。它包含一组 5,574 条英文 SMS 消息,根据垃圾邮件(合法)或垃圾邮件进行标记。
内容
这些文件每行包含一条消息。每行由两列组成:v1 包含标签(火腿或垃圾邮件),v2 包含原始文本。
该语料库是从互联网上免费或免费研究来源收集的:
- > 从 Grumbletext 网站手动提取了 425 条 SMS 垃圾邮件的集合。这是一个英国论坛,手机用户在其中公开声称收到垃圾短信,其中大多数都没有报告收到的垃圾短信。识别索赔中的垃圾邮件文本是一项非常艰巨且耗时的任务,需要仔细扫描数百个网页。Grumbletext 网站是:[Web 链接]。
- > NUS SMS 语料库 (NSC) 随机选择的 3,375 条短信的子集,该数据集是新加坡国立大学计算机科学系为研究而收集的约 10,000 条合法短信的数据集。这些信息主要来自新加坡人,而且大部分来自就读大学的学生。这些信息是从志愿者那里收集的,他们知道他们的贡献将被公开。NUS SMS 语料库可在以下位置获取:[Web Link]。
- > 从 Caroline Tag 的博士论文中收集的 450 条 SMS 火腿消息列表可在[Web Link]上找到。
- > 最后,我们合并了 SMS Spam Corpus v.0.1 Big。它有 1,002 条 SMS 火腿消息和 322 条垃圾消息,可通过以下网址公开获取:[Web Link]。该语料库已用于以下学术研究: