地球资源数据云——数据资源详情
该数据集《Identify the author》主要用于监督学习任务,数据形态以文本为主。 题目说明:Auxiliary dataset for "Identify the author" competition 任务类型:文本监督学习。 建议流程:先做文本清洗与分词,再比较 TF - IDF+线性模型 与 预训练语言模型。 评估建议:使用分层切分或交叉验证,优先关注 F1、Recall、AUC 等分类指标。 可用文件:labeled_sentence_corpus.csv。 该数据集包含以下作者撰写的小说作品中的文本:Edgar Allan Poe、HP Lovecraft 和 Mary Shelley。该数据是通过结合古腾堡计划和互联网档案馆的开源文本来准备的;并使用 NLTK 句子标记器将它们分成句子。当前版本包含超过 50,000 个单独的句子。带标签句子语料库 (csv):这是一个带标签的数据集,格式与“识别作者”竞赛中的“train.csv”相同。它旨在作为辅助训练集,或用于监督预训练。未标记的预训练语料库 (txt):这是一个未标记的数据集,包含三位作者的所有独特句子,每行一个句子。它旨在用于自监督领域自适应预训练(DAPT),允许预训练模型(例如来自 Hugging Face)在最终微调阶段之前学习作者独特的风格模式(例如使用掩码语言建模(MLM))。

该数据集《Identify the author》主要用于监督学习任务,数据形态以文本为主。 题目说明:Auxiliary dataset for "Identify the author" competition
任务类型:文本监督学习。
建议流程:先做文本清洗与分词,再比较 TF - IDF+线性模型 与 预训练语言模型。
评估建议:使用分层切分或交叉验证,优先关注 F1、Recall、AUC 等分类指标。
可用文件:labeled_sentence_corpus.csv。
该数据集包含以下作者撰写的小说作品中的文本:Edgar Allan Poe、HP Lovecraft 和 Mary Shelley。该数据是通过结合古腾堡计划和互联网档案馆的开源文本来准备的;并使用 NLTK 句子标记器将它们分成句子。当前版本包含超过 50,000 个单独的句子。带标签句子语料库 (csv):这是一个带标签的数据集,格式与“识别作者”竞赛中的“train.csv”相同。它旨在作为辅助训练集,或用于监督预训练。未标记的预训练语料库 (txt):这是一个未标记的数据集,包含三位作者的所有独特句子,每行一个句子。它旨在用于自监督领域自适应预训练(DAPT),允许预训练模型(例如来自 Hugging Face)在最终微调阶段之前学习作者独特的风格模式(例如使用掩码语言建模(MLM))。