如何 Visual Layer 在 Amazon S3 上构建高质量数据集 存储博客
  • 10

如何通过视觉层在 Amazon S3 上构建高质量数据集

由 Danny Bickson、Amir Alush、Dhanika Sujan 和 Dima Frid 于 2024 年 1 月 31 日发布于 Amazon CloudFront、Amazon CloudWatch、Amazon EC2、Amazon Elastic File System (EFS)、Amazon Elastic Kubernetes Service、Amazon Route 53、Amazon SageMaker、Amazon Simple Storage Service (S3)、AWS Step Functions、Customer Solutions、Intermediate (200)、Storage Permalink 评论 分享

关键要点

数据质量的重要性:高质量的数据集对于保证机器学习(ML)和人工智能(AI)系统的表现至关重要。成本效益与可扩展性:通过 Amazon S3 解决方案,视觉层能够处理海量数据并降低成本。技术优势:使用适合的 AWS 服务,视觉层能够快速有效地处理和提升数据质量。

在不同产业的公司利用数据来帮助他们的人工智能AI和机器学习ML系统做出智能决策。为了确保机器学习系统的良好性能,必须确保用于训练机器学习模型的庞大数据集具有最高的质量,以尽量减少影响性能的噪声。处理互联网规模的数据集以优化其机器学习负载需要一个具有巨大可扩展性和高吞吐量的数据存储解决方案。考虑到数据存储和处理的相关成本,确保高效且可扩展的解决方案至关重要。

视觉层,一家位于特拉维夫的初创公司,帮助其客户在获取数据的同时识别并解决数据质量问题。为了提供准确、优质的数据集,视觉层要求数据存储解决方案在成本和可扩展性上都非常高效,以存储大量数据进行处理。此外,他们还需要高吞吐能力以加速处理并进一步优化成本。通过构建和集成 Amazon S3,一种提供行业领先可扩展性、数据可用性、安全性和性能的对象存储服务,视觉层可以利用几乎无限的可扩展性和高吞吐量来处理海量数据,并为客户提供高品质的数据集。

在本文中,我们讨论了视觉层如何利用 Amazon S3 及其他多个 AWS 服务,如 Amazon EC2、Amazon EKS 和 AWS Step Functions 来处理互联网规模的数据集。基于 Amazon S3,视觉层能以快速且高效的方式为客户提供高质量的数据集。视觉层在后端利用 Amazon S3 的可扩展性和吞吐量,以及与其他 AWS 服务的无缝集成,这使得客户的成本降低了 50,而产生的高质量数据集帮助视觉层客户将计算机视觉管道的开发速度提高了多达 5 倍。

基于 ML 的高效训练解决方案

有效的机器学习需要干净、可访问的数据。为了解决这个问题,视觉层构建了 fastdup。Fastdup 是一个工具,利用其专用的图引擎自动检测视觉数据集中存在的问题,如损坏图像、重复项、错误标签和异常值。该解决方案利用无监督机器学习,通过将视觉数据索引为短特征向量来工作。接下来,构建最近邻模型以查找数据集中相似的图像对,并使用图分析来获得这些关系的洞察。通过社区检测算法将相似图像分组并构建图结构。最后,它识别连接的图像集群,基于相似性有效组织它们。该工具建议修正步骤并去除数据集中的重复项和异常值,从而形成更干净的非结构化数据集。最终,清理后的数据集有助于提高训练效率、增强模型的鲁棒性,并降低计算成本。

视觉层发布了一个基于 AWS 的网络平台 VL Profiler,它使用与 fastdup 相同的技术。用户可以从 Amazon S3 导入和处理视觉数据集,如 图 1 和 图 2 所示。

图 1:32M 图像85 TB 在 S3 上的示例数据集导入到视觉层平台。

作为机器学习训练数据的持久性存储解决方案,Amazon S3 与视觉层平台互动,在模型训练之前处理非结构化图像和视频数据。

图 2:视觉层在移除 1200 万重复项、830 万异常值和 600 万错误标记的图像后,改善了计算机视觉数据集的质量 40。

Amazon S3 对视觉层及其客户至关重要,后者每天都有数百 TB 的视觉数据涌入。通过将 Amazon S3 作为非结构化视觉数据集的临时存储点,视觉层能够有效处理无限存储,并能够以经济高效的方式支持增加的工作负载,而不会造成延迟。视觉层发布了一系列高质量的计算机视觉数据集,这些数据集是他们利用 Amazon S3 托管和处理的。

利用已存储在 Amazon S3 上的经过筛选的训练数据,用户可以使用各种机器学习框架无缝与这些数据互动。Amazon S3 使用户可以轻松使用强大的 GPU,比如 EC2 P3、P4 和 P5 实例,这些实例经过优化以进行机器学习训练,也可以与 Amazon SageMaker 交互,适合想要在 AWS 上构建端到端机器学习管道的用户。视频和图像编辑移动应用开发公司 Lightricks 正在使用视觉层的解决方案以及 Amazon S3 来满足其生成性 AI 的应用需求:

“视觉层的 fastdup 结合 Amazon S3 在提高训练生成性 AI 基础模型所需的互联网规模数据集质量方面取得了显著进展。”

Yoav HaCohen,Lightricks 核心生成性 AI 团队经理

基于 AWS 构建和扩展

视觉层在 AWS 上构建了他们的网络平台 VL Profiler。他们的技术栈包括 Amazon Elastic Compute Cloud (EC2) 用于计算、Amazon Elastic Kubernetes Service (EKS) 用于大规模编排容器化工作负载,以及 Amazon S3 存储视觉训练数据。视觉层使用 AWS Step Functions 处理来自 Amazon S3 的图像和视频数据,步骤以 AWS Lambda 或 Amazon EKS 作业形式运行。视觉层通过 Amazon EFS 在不同的处理模块间共享数据,使用 Amazon CloudWatch 进行可观察性和监控,还使用 Lambda 运行定期的生产健全性和健康测试。应用所需的所有结构化数据被存储在 Amazon RDS 中。视觉层通过 Amazon CloudFront 从 Amazon S3 为其平台提供在产品图像,并使用 Amazon Route 53 作为 DNS 服务,如 图 3 所示。

图 3:视觉层在 AWS 上的数据处理解决方案基础架构概述

Amazon S3 的简单 API 使得数据可以轻松地在 AWS 服务间访问和共享。这促进了 Amazon S3、AWS Lambda、Amazon EKS 及其他 AWS 产品之间的无缝集成。AWS 的灵活性帮助视觉层迅速试验和迭代新解决方案,加速了他们的创新周期。在短短几个月内,他们向平台增加了可视化、搜索能力和各种仪表板元素,这帮助数据分析师获得更多关于清理数据的有趣洞察力。

可扩展、经济高效和高性能的机器学习训练数据准备

在过去一年里,视觉层处理了超过 500 亿张图像。AWS 的灵活性使他们能够根据需求上下扩展其存储和计算资源。利用 Amazon S3 作为这些庞大图像和视频数据集的目的地,用户仅需为其所使用的部分付费,即根据实际数据集的大小计费。

如何 Visual Layer 在 Amazon S3 上构建高质量数据集 存储博客

近期,视觉层处理了一份存储在 Amazon S3 上的包含 10 亿张图像的数据集,旨在训练生成模型,并有效管理其计算成本。他们在 24 小时内使用高计算密集度的 EC2 实例构建了完整的模型,发现了重复、损坏和异常值等质量问题,总的计算成本仅为 200 美元。此外,当视觉层将不常访问的研究数据集和应用日志从 Amazon S3 标准迁移至 Amazon S3 Glacier Instant Retrieval 存储类别时,他们的整体存储成本降低了 50。

通过使用 Amazon EKS 部署后,团队也受益于更可靠的基础设施性能。利用 Amazon EKS,他们扩展到在两个集群上的数十个 EC2 实例同时运行超过 500 个虚拟 CPU。由于对容器配置的更大灵活性,他们可以更方便地使用以及受益于其他 AWS 服务。在读取和写入 Amazon S3 数据时,他们能够达到每秒数千个请求的性能。此外,自动扩展组 帮助他们实现计算的弹性,满足高峰计算需求。

结论

高质量和可及的数据对有效的机器学习至关重要。Amazon S3 的无限扩展性使其理想用于存储和处理大规模非结构化数据集。视觉层利用 AWS 构建可以分析数千万张图像的工具,并自动识别和纠正这些数据集中存在的问题例如缺失的标签、异常值、重复项和测试/训练泄露。通过在 Amazon S3 上获得清理的数据集,用户可以进行有效的机器学习训练,并创建稳健的算法。

要了解更多有关 Amazon S3 和视觉层的机器学习,可以查看下面链接的资源。

了解更多关于 Amazon S3 的 ML

新更新自动加速 Amazon S3 数据传输以支持 ML 训练宣布为 PyTorch 提供的 Amazon S3 插件宣布支持 Amazon SageMaker 数据整理器的 Amazon S3 访问点

了解视觉层

https//visuallayercom

标签:Amazon Simple Storage Service (Amazon S3)、AWS Cloud Storage

关于作者

Danny Bickson

Danny Bickson 博士是视觉层的首席执行官和共同创始人。在此之前,他是 Turi 的共同创始人和 EMEA 副总裁。

Amir Alush

Amir Alush 博士是视觉层的首席技术官和共同创始人。

Dhanika Sujan

Dhanika Sujan 是 Amazon S3 团队的高级技术产品经理。

surfshark国内使用教程Dima Frid

Dima Frid 负责视觉层的工程工作。