地球资源数据云——数据资源详情

识别作者

Name: 识别作者
Published: 2026-03-17 15:43:44

发布时间：2026-03-17 15:43:44资源ID：2033811490443005953资源类型：免费

该数据集《Identify the author》主要用于监督学习任务，数据形态以文本为主。题目说明：Auxiliary dataset for "Identify the author" competition 任务类型：文本监督学习。建议流程：先做文本清洗与分词，再比较 TF - IDF+线性模型与预训练语言模型。评估建议：使用分层切分或交叉验证，优先关注 F1、Recall、AUC 等分类指标。可用文件：labeled_sentence_corpus.csv。该数据集包含以下作者撰写的小说作品中的文本：Edgar Allan Poe、HP Lovecraft 和 Mary Shelley。该数据是通过结合古腾堡计划和互联网档案馆的开源文本来准备的；并使用 NLTK 句子标记器将它们分成句子。当前版本包含超过 50,000 个单独的句子。带标签句子语料库 (csv)：这是一个带标签的数据集，格式与“识别作者”竞赛中的“train.csv”相同。它旨在作为辅助训练集，或用于监督预训练。未标记的预训练语料库 (txt)：这是一个未标记的数据集，包含三位作者的所有独特句子，每行一个句子。它旨在用于自监督领域自适应预训练（DAPT），允许预训练模型（例如来自 Hugging Face）在最终微调阶段之前学习作者独特的风格模式（例如使用掩码语言建模（MLM））。

摘要概览

该数据集《Identify the author》主要用于监督学习任务，数据形态以文本为主。题目说明：Auxiliary dataset for "Identify the author" competition

任务类型：文本监督学习。

建议流程：先做文本清洗与分词，再比较 TF - IDF+线性模型与预训练语言模型。

评估建议：使用分层切分或交叉验证，优先关注 F1、Recall、AUC 等分类指标。

可用文件：labeled_sentence_corpus.csv。

该数据集包含以下作者撰写的小说作品中的文本：Edgar Allan Poe、HP Lovecraft 和 Mary Shelley。该数据是通过结合古腾堡计划和互联网档案馆的开源文本来准备的；并使用 NLTK 句子标记器将它们分成句子。当前版本包含超过 50,000 个单独的句子。带标签句子语料库 (csv)：这是一个带标签的数据集，格式与“识别作者”竞赛中的“train.csv”相同。它旨在作为辅助训练集，或用于监督预训练。未标记的预训练语料库 (txt)：这是一个未标记的数据集，包含三位作者的所有独特句子，每行一个句子。它旨在用于自监督领域自适应预训练（DAPT），允许预训练模型（例如来自 Hugging Face）在最终微调阶段之前学习作者独特的风格模式（例如使用掩码语言建模（MLM））。

常见问题

识别作者是什么？

该数据集《Identify the author》主要用于监督学习任务，数据形态以文本为主。

识别作者是什么数据格式？坐标系是什么？

数据格式为 CSV。

如何获取并引用识别作者？

在本页登录后即可下载。建议引用格式：地球资源数据云. 识别作者. https://www.gis5g.com/dataset/2033811490443005953