地球资源数据云——数据资源详情
该数据集是为哲学数据项目编译的,用于开发该网站上可用的功能。作为一名前哲学教师和现在的数据科学家,我认为将数据科学工具应用于哲学史会很有趣。 最初的目标是利用数据建立分类模型。毕竟,一本哲学书代表了系统地组织一个人对世界的思考的努力。因此,使用哲学史数据对文本进行分类将使我们能够通过代理对人们如何看待世界进行分类。有些项目专注于情感分析,而这里我们专注于概念或意识形态分析。一旦我们了解了一个人的世界观,我们就可以利用这些信息做任何事情——从广告到政治竞选,再到自我探索和治疗。 之后,我构建了几个功能来帮助人们探索哲学思想并进行比较。其中包括用于单词使用比较的 w2v 模型、每个文本和学校的一组基本统计数据以及允许用户搜索语料库的功能。 在完成网站及其数据工具的初步工作后,我认为将数据公开以便其他人可以使用它是值得的。 内容 该数据集包含来自 10 个主要哲学流派的 50 多篇文本的 300,000 多个句子。代表学派有:柏拉图、亚里士多德、理性主义、经验主义、德国唯心主义、共产主义、资本主义、现象学、大陆哲学、分析哲学。 文本要么取自古腾堡计划,要么取自我自己的个人 pdf 图书馆。当我向语料库添加新文本时,数据集会定期更新。 这些文本在按照此处呈现的方式进行标记和组织之前经过了广泛的清理。有关清理步骤的信息,请查看初始项目的 github 存储库,其中包含包含所有清理步骤的笔记本。 灵感 有很多很酷的项目想法!以下是一些:

该数据集是为哲学数据项目编译的,用于开发该网站上可用的功能。作为一名前哲学教师和现在的数据科学家,我认为将数据科学工具应用于哲学史会很有趣。
最初的目标是利用数据建立分类模型。毕竟,一本哲学书代表了系统地组织一个人对世界的思考的努力。因此,使用哲学史数据对文本进行分类将使我们能够通过代理对人们如何看待世界进行分类。有些项目专注于情感分析,而这里我们专注于概念或意识形态分析。一旦我们了解了一个人的世界观,我们就可以利用这些信息做任何事情——从广告到政治竞选,再到自我探索和治疗。
之后,我构建了几个功能来帮助人们探索哲学思想并进行比较。其中包括用于单词使用比较的 w2v 模型、每个文本和学校的一组基本统计数据以及允许用户搜索语料库的功能。
在完成网站及其数据工具的初步工作后,我认为将数据公开以便其他人可以使用它是值得的。
内容
该数据集包含来自 10 个主要哲学流派的 50 多篇文本的 300,000 多个句子。代表学派有:柏拉图、亚里士多德、理性主义、经验主义、德国唯心主义、共产主义、资本主义、现象学、大陆哲学、分析哲学。
文本要么取自古腾堡计划,要么取自我自己的个人 pdf 图书馆。当我向语料库添加新文本时,数据集会定期更新。
这些文本在按照此处呈现的方式进行标记和组织之前经过了广泛的清理。有关清理步骤的信息,请查看初始项目的 github 存储库,其中包含包含所有清理步骤的笔记本。
灵感
有很多很酷的项目想法!以下是一些: