美国海军创造了一个3500亿条记录的社交媒体档案

ashe 2620天前

2019年5月27日作者：sergiu gatlan

美国海军研究人员希望建立一个拥有3500亿条数字数据记录的全球社交媒体档案，这是位于加利福尼亚州蒙特雷的海军研究生院正在进行的研究项目的一部分，该研究是通过国防部和海军研究生院共同进行的。

在该军事研究项目的概要中详细介绍到，其目的是“增进对基本社会动态的理解，模拟交流社区的发展以及随着时间的推移和国家间新兴的群体表达方式的出现。”

美国海军计划收集2014年1月1日至2016年12月31日期间的社交媒体记录，将这些数据将从单一社交媒体平台进行收集，并包含“所有公开化的信息、评论或是一些指定时间段内在平台上发布的帖子。

存档包括来自100个国家的2亿用户的记录

来自至少100个国家的2亿独立用户的信息将被添加到海军的全球社交媒体档案中，同一个国家的用户不会占到总用户的30％以上。

此外，档案“必须包括至少60种语言的信息，其中至少50％的信息是用非英语表示的。”

但是，就像该项目的摘要中提到的那样，这些被收集起来的数据中“必须是完全公开化的信息”，没有私人敏感信息被添加到这个数据库中。

对于为存档收集的3500亿条记录的其他最低要求如下：

存档中的每条记录都必须提供社交媒体帖子的整个文案，不改变原始的内容和格式，包含所有公开可用的、与原始帖子相关联的元数据，其中包括国家、语言、主题标签，位置，句柄，时间戳和网址。
所有的记录必须含有每条信息发送的时间和日期以及与信息有关的公共用户句柄。
至少有20％的记录必须包含位置信息，包括用户的家乡或其他公开可用的地理位置信息。

在研究项目的概要中还提到了，这些数据将用于教学目的，是为了提供“学生们一个论文研究的新机会和锻炼他们的'大数据'分析能力。“

军事研究团队希望“获取社交媒体数据的大规模的全球历史档案，提供所有公共社交媒体帖子的全文，这些帖子包括了所有国家和社交媒体平台所覆盖的所有语言。

“社交媒体数据将让我们去了解口语表达和俚语是如何随着时间的推移在不同的人类社会中变化的，这样一来我们能够开始了解为什么社群会围绕某些形式的话语形成，而不是通过其他途径的方式和原因，”分管该项目的主要研究员T. Camber Warren告诉彭博社。

相关推荐