地球资源数据云——数据资源详情
该数据集《Free Bengali Poetry》主要用于多分类任务,数据形态以文本为主。 题目说明:A Copyright Free Collection of 2,686 Bengali Poems from Prominent Poets 任务类型:文本多分类。 建议流程:先做文本清洗与分词,再比较 TF - IDF+线性模型 与 预训练语言模型。 评估建议:使用分层切分或交叉验证,优先关注 F1、Recall、AUC 等分类指标。 可用文件:poets.csv。 现在,随着 GPT - 2、GPT - 3 等大规模语言模型及其开源模型(如 GPT - Neo、GPT - J 等)的兴起,使用在大规模数据集上训练的预训练模型已变得很常见,用于利用迁移学习的多个下游任务,例如文本生成、屏蔽词预测、情感分类和许多其他有趣的任务。该数据集旨在用作微调使用孟加拉语训练的预训练模型的数据源。该数据集旨在用作下游任务(尤其是诗歌生成)的数据源。内容 该数据集包含著名孟加拉诗人的 2,686 首诗歌,这些诗歌完全属于公共领域。请参阅文件 README.md、potes.csv,并浏览 CSV 文件的列说明、每个文件的说明以获取更多信息。致谢 我要感谢 Python 开源生态系统的作用,特别是 BeautifulSoup 库,它在创建这个数据集时为我提供了至关重要的帮助。灵感 您可以出于任何您认为合适的原因使用此数据集。请记住在使用强大的工具时以负责任的方式行事。我最好看到它用于训练和微调诗歌生成模型。许可 本数据集的许可为 CC - BY - SA 4.0。阅读文档。引用如果您使用此数据集进行研究,您应该引用作者。这是 Bibtex 条目 - @misc{ritobrata ghosh_2021,author = {Ritobrata Ghosh},year = {2021},title = {Free Bengali Poetry},publisher = {Kaggle},address = {Kolkata, India} } 您应该使用此条目,而不是数据集附带的自述文件中提到的条目。或者,Ritobrata Ghosh,深度学习实践者。 _____ 其他相关信息请参阅文档 README.md。

该数据集《Free Bengali Poetry》主要用于多分类任务,数据形态以文本为主。 题目说明:A Copyright Free Collection of 2,686 Bengali Poems from Prominent Poets
任务类型:文本多分类。
建议流程:先做文本清洗与分词,再比较 TF - IDF+线性模型 与 预训练语言模型。
评估建议:使用分层切分或交叉验证,优先关注 F1、Recall、AUC 等分类指标。
可用文件:poets.csv。
现在,随着 GPT - 2、GPT - 3 等大规模语言模型及其开源模型(如 GPT - Neo、GPT - J 等)的兴起,使用在大规模数据集上训练的预训练模型已变得很常见,用于利用迁移学习的多个下游任务,例如文本生成、屏蔽词预测、情感分类和许多其他有趣的任务。该数据集旨在用作微调使用孟加拉语训练的预训练模型的数据源。该数据集旨在用作下游任务(尤其是诗歌生成)的数据源。内容 该数据集包含著名孟加拉诗人的 2,686 首诗歌,这些诗歌完全属于公共领域。请参阅文件 README.md、potes.csv,并浏览 CSV 文件的列说明、每个文件的说明以获取更多信息。致谢 我要感谢 Python 开源生态系统的作用,特别是 BeautifulSoup 库,它在创建这个数据集时为我提供了至关重要的帮助。灵感 您可以出于任何您认为合适的原因使用此数据集。请记住在使用强大的工具时以负责任的方式行事。我最好看到它用于训练和微调诗歌生成模型。许可 本数据集的许可为 CC - BY - SA 4.0。阅读文档。引用如果您使用此数据集进行研究,您应该引用作者。这是 Bibtex 条目 - @misc{ritobrata ghosh_2021,author = {Ritobrata Ghosh},year = {2021},title = {Free Bengali Poetry},publisher = {Kaggle},address = {Kolkata, India} } 您应该使用此条目,而不是数据集附带的自述文件中提到的条目。或者,Ritobrata Ghosh,深度学习实践者。 _____ 其他相关信息请参阅文档 README.md。