不久前,年仅 18 岁的创业者 Eddy Xu 在社交媒体上宣布,其创办的 Build AI 正式开源 Egocentric-10K 数据集,这是一个包含 10,000 小时第一人称视角视频的数据集,记录了 2,153 名工厂工人在真实车间环境中的实际操作场景。数据集总容量达 16.4 TB,包含超过 10.8 亿帧画面,已在 Hugging Face 平台发布,采用 Apache 2.0 许可证,允许商业使用和修改。
图片
图丨相关推文(来源:X)
Eddy Xu 在推文中写道:“历史上最大的第一人称视角数据集,机器人学习的数据扩展时代已经到来。”
Egocentric-10K 的视频全部来自真实工厂车间,而非实验室环境。工人们佩戴头戴式摄像设备,在日常工作中记录下从零件加工、分拣、组装、包装到检验的完整流程。数据统计显示,96.42% 的工作涉及至少一只手的操作,76.34% 需要双手协同,91.66% 包含主动的物体操纵动作。这些数字明显高于此前公开的同类数据集——例如 Ego4D 的手部可见率为 67.33%,EPIC-KITCHENS 则为 90.37%。
图片
图丨与其他数据集的比较(来源:X)
视频以全高清 MP4 格式存储,按工厂和工人分类组织。每个视频片段都附带 JSON 格式的元数据,包括工厂编号、工人编号、视频时长、分辨率、帧率等信息。数据集采用 WebDataset 格式,支持流式加载和部分下载,研究者可以根据需要选择特定工厂或工人的数据进行训练。
Build AI 的创始人 Eddy Xu 的成长轨迹相当传奇。2021 年,还在读初三的他就带领 Great Neck 的机器人团队 1569A OMEGA 参加 VEX 机器人世界锦标赛,在 2 万支参赛队伍中获得第 32 名。这支队伍在队员家的地下室里运营,没有家长或专业教练指导,也没有资金赞助。
图片