AB资源网(www.xxab.cn)服务器导航站-找服务器商就上AB资源网
百度360必应搜狗本站头条
【本站公告】:本站互助计划,欢迎有活动的服务器商免费投稿,免费收录,最新收录会在首页展示! - 站长QQ:6502567
当前位置:网站首页 > 技术文档 > 正文

s3服务器(S3 对象存储:云计算产品影响力 No1)

AB资源网 2023-05-04 18:17 87 浏览 0 评论

引言:在2020年 Forrest Brazeal 发起的 #CloudMadnesss 投票中,S3 从25000张投票中脱颖而出,战胜 Lambda 被评为最伟大的云产品。那么 S3 为什么能获此殊荣,它到底有什么样的影响力呢?

s3服务器(S3 对象存储:云计算产品影响力 No1)

导读:
1、S3 的特点及应用场景
2、与 S3 如影随形的内容分发网络
3、被 S3 颠覆的大数据发行版
4、S3 带给世界的另一个惊喜 Lambda
5、其他以 S3 为基础的产品

1、S3 的特点及应用场景

Amazon 早在2006年就推出了 Simple Storage Service(Amazon S3)服务,一种对象存储服务,其具备行业领先的性能,无限扩展的容量,11个9的可用性,以及安全性。这在备份数据迁移还通过卡车托运的年代是极为稀缺的服务。

Amazon S3 的 架构设计与编程语言无关,使用 AWS 支持的 REST API 来存储和检索对象,此外AWS还提供各种语言的SDK,如Java、Python、.NET、iOS、Andriod等,以及示例代码。

Amazon S3 采用按实际使用量计费的模型,应用不需要考虑扩容的问题,只需要为实际使用的服务付费。

Amazon S3 提供适合不同场景的存储服务。S3 Intelligent Tiering 在访问模式发生变化时自动将数据迁移到更经济的访问层来优化存储成本,而不需要操作开销及对性能产生影响,每月只需要支付少量的对象监控和自动化费用。S3 Intelligent Tiering 自动将对象存储在三个访问层,一个层针对频繁访问进行优化,该层是默认访问层;一个成本较低的层针对不频繁访问进行优化,如连续30天未被访问;另一个低成本层针对很少访问的数据进行优化,至少连续90天未被访问(最大支持730天连续未访问)。

Amazon S3 Glacier 提供更低成本的 S3 服务,适用于数据存档和长期备份。客户可以将数据存储几个月、几年、甚至数十年。

Amazon S3 的典型应用场景如Web网站、应用程序,存储静态和动态Web文件如Html、CSS、JS、Image、Audio、Video等,有位朋友总结了 “云原生王四条”,其中第一条就是将静态资源存储到对象存储。

2、与 S3 如影随形的内容分发网络

Amazon 通过 为 S3 提供加速服务进入内容分发网络市场,成为有利的市场竞争者,而内容分发服务的竞争对手Cloudflare则开始拓展对象存储市场,内容分发 与 对象存储已经越来越密不可分。

早在2008年 Amazon 就发布了 CloudFront 内容分发服务,其用于加速静态和动态Web内容(如HTML、CSS、JS、Image、Audio、Video等)分发给用户的速度,这些内容大多是存储在 S3,这就为 CloudFront 带来了巨大的竞争优势。

CloudFront如何向用户提供内容呢?配置CloudFront 以加速内容分发后,用户请求您的资源时将会发生以下操作:
1)用户访问您的网站或应用程序,并发送对某个资源的请求,如HTML文件和图片 ;
2)DNS将请求转发到响应延迟最低的 CloudFront POP(边缘站点),然后将请求路由到该边缘站点;
3)CloudFront检查其缓存中是否有所请求的对象,如果对象在缓存中,CloudFront 将它返回给用户,如果对象不在缓存中,则执行以下操作:
a. CloudFront 将请求转发到源服务器,如转发到 S3 对象存储;
b. 源服务器将对象返回到边缘站点;
c. CloudFront将对象转发给用户,并添加到本地缓存中,方便下次访问;

Amazon CloudFront 与 S3 深度整合为用户提供了操作的便利性,通过全球边缘站点为全球用户提供可靠、低延迟和高吞吐量的网络连接。CloudFront 建立了一个超过310个节点(300个边缘站点和13个区域性边缘站点)的全球网络,覆盖47个国家或地区的90多个城市,如下图所示:

由于 S3 提供REST API接口,第三方竞争者也可以将其边缘网络与 Amazon S3 对接,用户有更多的选择,甚至可以在不同的地域使用不同的内容分发网络,或同时使用多家内容分发网络。

2021年 Cloudflare 发布兼容 S3 API 的 R2 产品,其认为用户为 S3 数据的访问支付了昂贵的出口带宽费用,该部分带宽难以预测,R2 服务不再收取出口带宽费用,存储费用也比主流的提供商更便宜,每月每 GB 存储的数据收费 0.015美元。

虽然以价格屠夫的角色切入对象存储市场,但 R2 并没有降低其服务可靠性,其计划提供11个9的可靠性,如果在R2上存储100万个对象,你可以预期10万年才可能丢失一个,与其他主要服务提供上的可靠性水平相同;R2还可以解决区域性故障,设计了跨大量区域的冗余以保证可靠性。

2022年5月,Cloudflare 宣布 R2 Beta 版开放公测,为开发者提供完全兼容S3 的 API 接口,支持TTL、公共存储桶、预签名URL、与Cloudflare Worker 集成等功能。

内服分发对数字化应用的客户体验至关重要,已经成为互联网不可或缺的服务之一,2021年 IDC预测未来5年 全球IDC市场规模的复合增长率17%,至2025年全球IDC规模将达到188亿美元,主要参与者包括Akamai、Amazon、Cloudflare、Fastly、Alibaba等。

3、被 S3 颠覆掉的Hadoop发行版

Hadoop生态的三家公司Cloudera、MapR和Hortonworks过得并不好,而AWS Elastic MapReduce则成为Hadoop开源生态最大的赢家,基于 S3 的文件系统功不可没。

2004年谷歌发表了三篇论文分别介绍了谷歌内部的分布式文件系统GFS、分布式计算框架MapReduce和分布式结构化存储系统BigTable,Doug Cutting基于这三篇论文实现了开源的HDFS和MapReduce,2008年 Hadoop 成为Apache 顶级项目,进入快速发展阶段,并诞生了三家Hadoop服务公司。

Cloudera 公司成立于2008年,他们在公司创立时就打算做服务,类似于现在的AWS 的Elastic MapReduce,通过云给大家提供服务,然而他们很快发现这个模式太超前,没有大力投入,转向了做Hadoop发行版的服务商,并于2009年9月,将 Hadoop 之父 Doug Cutting招入麾下。2014年 英特尔以7.5亿美元领投了Cloudera融资,获得18%的股权,Cloudera的估值达到41亿美元。

MapR 公司成立于2009年,其在发行版中将Hadoop文件系统 HDFS 换成了自己私有的文件系统,据说性能和稳定性都得到极大提升;HBases受到HDFS文件系统的限制,性能一直不好,MapR在其私有文件系统中提供对HBase的支持;按 MapR 的说法,开源的东西只能凑合着用,MapR 的性能和稳定性强得多。由于 MapR 发行版中存储相关部分都重新实现了,产品与开源版本之间经常有兼容性问题,客户担心用了 MapR 的发行版 就很难再换回 Cloudera 的发行版了。2016年,两个创始人先后离开公司,2019年大规模裁员后,卖身惠普企业服务。

Hortonworks 是2011年从雅虎 Hadoop 团队拆分出来的一家公司,雅虎一直是Hadoop源代码的最大贡献者,公司口号是“我们的东西100%是开源的”,但既然完全开源,其他公司很容易提供类似服务,客户为什么非要用Hortonworks呢?上市时Hortonworks大概10亿美元,不到半年就腰斩一半只剩下5亿美元,在2018年其与Cloudera达成合并协议。

2014年 Amazon 发布 Elastic MapReduce 产品 EMR,其实一个托管集群平台,可以简化在AWS上运行大数据框架的过程(如Apache Hadoop 和 Apache Spark),以处理和分析海量数据。EMR 可以让用户从数据库(如DynamoDB)导出数据,可以将数据导入到对象存储(如 S3)。
2016年,EMR 5.x版本发布,大部分Hadoop生态的开源产品都可以运行在S3上,基于 S3 的 EMRFS 提供了比 HDFS 低得多的成本,据DataBricks工程师评估 使用S3 代替 HDFS 资源成本可以节约 80%,如果考虑人工运维成本的话可以节约90%以上。EMR 相对传统的方案获得了更好的性能、更低的成本,让 Amazon 成为Hadoop生态最大的受益者,更多的客户将数据迁移到云端,并购买了更多的AWS的其他服务,同时其他三大Hadoop发行商则难以赚到钱。

EMR 基于 Apache BigTop 的系统打包,这是 Hadoop 社区的发行版。

与Hadoop 生态竞争的还有另外一家公司DataBricks,其主导的Spark生态打败了Hadoop的MapReduce,但DataBricks也发现其并不能通过卖Spark服务来赚到钱,用户在大规模应用下更愿意选择低成本的 EMR 作为运行环境。2016年后DataBricks从拥抱开源到积极拥抱云服务,依托云平台建设其湖仓一体解决方案,在商业化方案中提供了更多差异化功能,从而在这场竞争中获得了一席之地,2021年8月完成H轮融资16亿美元,估值高达380亿美元。
DataBricks的数据湖产品Delta Lake是一个开放格式的数据存储层,支持结构化、半结构化、非结构化以及流数据,利用云平台的对象存储服务提供统一的数据存储服务,极具性价比且具有很好的扩展性。

此外,以S3 的JuiceFS 为传统 Hadoop 解决方案迁移到云端提供另外一种选择。DataBricks 的早期员工 刘洪清 2017年创立 JuiceData,旗下核心产品JuiceFS是专门为公有云设计的,可以在大规模服务集群中共享使用分布式POSIX文件系统,利用公有云上类似S3的对象存储,JuiceFS 为大数据存储、备份、分析等场景服务,可以将总体拥有成本降低到传统解决方案的20%,这对Hadoop生态迁移上云的服务非常有吸引力。不过云服务商也提供了类似的分布式文件系统,如AWS EFS,这是JuiceFS不得不面对的一个挑战。

4、S3 带给世界的另一个惊喜 Lambda

S3 是无服务器计算的缩影,AWS Lambda 产品实际上是作为 S3 的一部分启动的。

2015年,Amazon 推出 AWS Lambda服务,并引发业界对无服务器(Serverless)的广泛关注。实际上,S3是无服务器计算的缩影,它解决了一个大家都需要解决的问题,有一个简单的API,拥有近乎无限的容量,你只需要为实际使用的存储空间及流量付费。而且它的性能不断改善,不需要用户做任何操作。Lambda的发明人 Tim Allen Wagner说:“Lambda实际上是作为 S3 的一部分启动的,这是 S3 给世界带来的另一个革命性的东西!”

AWS Lambda 是一项无服务器时间驱动的计算服务,可以运行任何类型的应用程序或后端服务,而无需事先配置或管理服务器。AWS 有200多个服务都可以触发Lambda应用,如S3,用户将图片或视频上传到S3后实时触发Lambda数据处理,对图片进行裁减或对视频进行编解码。

5、其他以 S3 为基础的产品

过去几年,数据产品出现一个明显的趋势:存储和计算分离,计算层实现利用K8S或无服务器计算实现高度弹性,存储层利用对象存储的能力实现无限容量的存储,并降低了存储成本,本文以Thanos、Loki以及Neon为例进行说明。

# Thanos

Thanos 是一个高可用且支持长期存储的Prometheus,用于大规模指标监控,其采用对象存储 S3 提供简单且低成本的长期存储方案,2019年加入CNCF进行孵化。

Thanos包括几个核心组件,如:

  1. Thanos Query:实现了Prometheus API,将来自下游组件提供的数据聚合返回给客户端(如Grafana);
  2. Thanos Sidecar:连接Prometheus,将其数据提供给Thanos Query 查询,并将数据上传到对象存储长期保存;
  3. Thanos Store Gateway:将对象存储的数据暴露给Thanos Query去查询;
  4. Thanos Ruler:对监控数据进行评估和告警,还可以加工出新监控数据,这些数据可以被Thanos Query查询,并上传到对象存储长期保存;
  5. Thanos Compact:将对象存储中的数据进行压缩和降低采样率,加速长时间区间监控数据查询的速度;

# Loki

Loki 是一个高可用且可水平扩展的日志系统,受到Prometheus的设计理念所的影响,不对日志文本进行索引,仅通过一系列标签来过滤日志,将日志直接存储在对象存储 S3,从而实现了极具性价比的日志查询方案。

Loki包括几个核心组件,如:
(1)Distributor:根据租户ID和标签集的一致性Hashing结果将写入的日志路由到Ingrester节点;
(2)Ingrester:将日志写入对象存储持久保存,内存中保留最近一段时间日志为Querier提供查询;
(3)Query Frontend:提供查询接口,将较大的查询拆分为较小的查询放到队列,由相应的Querier执行;
(4)Querier:处理查询结果,从Ingester 和 对象存储中获取日志;

# Neon

Neon是一个全托管的无服务器Postgres数据库,其将计算和存储分离,采用对象存储作为持久存储层,支持无限的存储容量,还专门为开发人员提供了数据库分支功能,开发人员可以在CI/CD管道中即时创建数据库分支。目前该项目还处于封闭阶段,团队计划在2022年底发布正式版本。

Neon包括几个核心组件,如:
(1)Safekeeper:PostgresSQL 将WAL写入到Safekeeper,Safekeeper存储WAL,直到Pageserver处理完成并将数据上传到对象存储;
(2)Pageserver:负责处理读请求,同时将WAL写入特定的存储,并上传到对象存储;

虽然解决的业务需求不同,这三个产品Thanos、Loki和Neon都采用了计算和存储分离的架构,计算层实现无服务器部署,存储层利用对象存储的能力实现了无限容量的存储,并降低了存储成本。也许这些产品的应用还不够广泛,或者还没有完全成熟,不过他们的设计充分利用对象存储的特点,让产品极具成本优势。

不过对象存储无法满足低延迟,其并不适合对延迟敏感的OLTP事务型应用场景。

本文是SaaS产品系列文章,对相关话题感兴趣的同学可以关注后续更新。

推荐阅读:
《DataBricks从开源到商业化踩过的坑》
《MarketPlace会成为2B软件的App Store吗?》

参考资料:

https://www.bvp.com/atlas/state-of-the-cloud-2022

https://tackle.io/resources/reports/state-of-cloud-marketplaces

腾讯云

相关推荐

云主机FTP软件:高效传输与安全管理的一站式解决方案

在云计算时代,云主机已成为企业和个人用户托管应用和存储数据的首选。为了方便文件传输,FTP(文件传输协议)软件在云主机环境中扮演着重要角色。本文将详细介绍如何在云主机上配置和使用FTP软件...

云主机FP:引领未来计算,解锁无限可能

云主机FP(FloatingPoint)是指在云计算环境中,针对浮点运算性能进行优化的虚拟机实例。浮点运算在科学计算、工程模拟、金融建模、图形处理等领域中占据重要地位,因此云主机FP的设计和配置...

云主机ECS:解锁企业数字化转型的新引擎,高效、安全、灵活的云计算解决方案

云主机ECS(ElasticComputeService)是阿里云提供的一种弹性计算服务,它允许用户在云端创建和管理虚拟机实例。ECS的核心优势在于其灵活性和可扩展性,能够满足各种规模和类型的业...

云主机D盘:解锁无限存储空间,轻松应对大数据挑战!

云主机是一种基于云计算技术的虚拟化服务器,它允许用户在云平台上创建、配置和管理虚拟机实例。在云主机中,磁盘分区是存储数据的关键部分,通常包括系统盘和数据盘。系统盘用于安装操作系统和运行应用...

云主机DNS解析:提升网站速度与稳定性的关键策略

云主机DNS(DomainNameSystem)是云计算环境中至关重要的一部分,它负责将域名转换为IP地址,从而使得用户能够通过易于记忆的域名访问云主机上的服务和应用。本文将深入探讨云主机DNS...

云主机C盘爆满?快速解决方法大揭秘,让你的服务器重获新生!

云主机C盘满了是一个常见但棘手的问题,尤其对于依赖云服务进行日常运营的企业和个人用户来说,这可能导致系统性能下降、应用程序崩溃,甚至数据丢失。本文将详细探讨云主机C盘满的原因、影响以及解决方法。...

云主机CPU选择指南:提升性能与效率的关键决策

在选择云主机的CPU时,用户需要考虑多个因素,以确保所选的CPU能够满足其应用的需求,同时优化成本效益。以下是一些关键点,帮助用户在云主机CPU选择过程中做出明智的决策。了解应用的性能需求...

云主机CPU性能大比拼:揭秘顶级云服务商的核心竞争力

云主机CPU是云计算环境中至关重要的组成部分,它直接影响着云服务的性能、稳定性和用户体验。CPU,即中央处理器,是计算机系统的核心,负责执行指令和处理数据。在云主机中,CPU的性能决定了虚...

云主机ASP:高效搭建动态网站,轻松实现业务扩展与性能优化

云主机ASP(ActiveServerPages)是一种在云环境中运行ASP应用程序的技术。ASP是一种由微软开发的动态网页技术,允许开发者使用VBScript或JScript等脚本语言编写服务...

云主机API:解锁无限可能,引领企业数字化转型新纪元

云主机API(ApplicationProgrammingInterface)是云计算服务提供商为用户提供的一种编程接口,允许开发者通过编程方式管理和操作云主机资源。这些API通常基于RESTf...

云主机99idc:高效稳定,轻松搭建您的专属云端空间,一键部署,畅享无限可能!

云主机99idc是一家专注于提供云计算服务的公司,其核心业务是为企业和个人用户提供高性能、高可靠性的云主机服务。随着数字化转型的加速,云计算已经成为企业IT基础设施的重要组成部分,而云主机99i...

云主机80端口:解锁无限可能,开启高效网络新时代!

云主机是一种基于云计算技术的虚拟化服务器,它通过互联网提供计算资源和服务。在云主机中,80端口是一个非常重要的端口,通常用于HTTP协议,即网页服务。本文将详细探讨云主机80端口的相关内容...

云主机403错误:解锁高效解决方案,提升网站性能与安全

云主机403错误是一个常见的网络问题,通常表示用户在尝试访问某个资源时被服务器拒绝。这种错误可能由多种原因引起,包括权限问题、配置错误、防火墙设置等。以下是关于云主机403错误的一些详细信...

云主机360:全方位云端解决方案,助力企业数字化转型无忧

云主机360是一种基于云计算技术的虚拟化服务器解决方案,它通过将物理服务器资源虚拟化,为用户提供灵活、高效、安全的计算服务。云主机360的核心优势在于其高度的可扩展性和弹性,用户可以根据业务需求...

云主机301:引领未来云计算的新纪元,高效稳定,助力企业数字化转型!

云主机301是一种常见的网络重定向状态码,通常用于指示用户请求的资源已被永久移动到新的URL。在云计算环境中,云主机301状态码的出现可能涉及到多种技术和管理策略,下面我们将详细探讨这一现象。...

取消回复欢迎 发表评论: