上海大数据吧 关注:3,642贴子:7,618
  • 4回复贴,共1

大数据是什么?

只看楼主收藏回复



1楼2023-02-08 09:03回复
    什么叫大数据处理技术,简称大数据技术或大数据。
    无论是创业公司还是上市公司,想要赚钱肯定从两方面着手:开源、节流。
    开源属于公司业务层面的事情,而节流则是公司内部的硬件成本、人力成本的控制,所以作为商业活动为导向的公司,定希望自己的成本可以进一步下降,针对“大量的数据”得出的企业窘境,大数据技术的诞生是全球所有互联网公司的一支强心剂,因为它完美实现了“低成本、高性能”的需求,来看看到底是什么玩意叭。
    大数据处理技术,是区别于传统数据处理技术(Excel、Txt、Csv ···)的大批量数据处理技术,它基本由两部分组成:分布式硬件集群系统、分布式数据处理框架。
    分布式硬件集群系统,就是指我们看得见,摸得着的那些机器。无论是内存、CPU还是交换机、网线等,把这些现实世界物理意义上存在的东西集合在一起,统称为硬件系统。
    而为什么要加一个集群呢?单个机器你可以理解为一个人,而集群就是一群人,这群人是一个团队,在明确的法律法规作为规则的前提下有序的处理问题。
    什么?又问我为啥要集群?害!你一个人干活终究干不过一群人啊,是不是?
    就像咱们之前说过的,一个人不吃不喝不拉不撒要近125年才能处理完128GB的数据,那如果有128个人去处理这同样的数据,处理的速度肯定是坍塌式缩小,人多力量大嘛。
    那为什么要加分布式呢?因为整个团体里,张三就是张三,不是李四,虽然他们在共同完成一件事,但是张三可以在家里处理分配给自己的那一块数据,李四可以在公司,如果有沟通需要可以利用互联网进行沟通,完全不会影响嘛,最后大家处理完各自的数据了,把结果通过互联网给团队Leader汇总,就完美完成这样的任务了。


    2楼2023-02-09 10:09
    回复
      分布式数据处理框架。
      这个就更简单清晰了,刚刚我们说到分布式硬件集群系统像一群人要去完成共同目标的一件事,那处理框架就是教你如何去处理这样的事情,比如有这样一段数据:
      “张三是一个24岁的雄性大数据程序猿,喜欢唱歌跳舞,每个月收入23k,师从段海涛,现在在阿里巴巴杭州研发中心上班”
      需要将张三的个人信息提取出来,完成以后是这样的:
      姓名性别爱好收入关系公司地址职业
      张三男唱歌跳舞23K老师:段海涛阿里巴巴杭州大数据程序员
      我们的处理框架,就是教每一个人(机器)把关键的数据内容(字段)按一一对应的关系(K-V)处理出来并存为相应的文件。
      而分布式数据处理框架的分布式三字,就是将一个任务拆分为团队空闲人员数量的小块,比如128G的数据,[0-1024]MB交给一号处理员,(1024-2048]MB交给二号处理员 ····· 以此类推,每一个人都有1GB的数据处理,这样我们这个团队一年时间就可以完成128G数据的处理了,这样的能力叫做并发能力。
      那传统数据处理技术,就属于吃独食,觉得自己做了很多,但事实上那件事一个人根本完成不了,等他把数据处理完,公司都没了,所以这就体现出,无论是人还是机器,团队很重要,要有团队精神。
      那传统数据处理技术和大数据处理技术,两者有怎样的不同呢?请看下表:
      对比点传统数据处理技术大数据处理技术(分布式数据处理框架)
      硬件需求高-需要性能强大的服务器集群低·购置大批量的低性能服务器搭建集群即可
      资金需求大-每一台高性能单机都及其昂贵小-可能一个集群还不到一台高性能单机价格
      技术要求低-一般是用程序分词提取处理高-需要搭配大数据集群框架进行运算
      大文件处理速度低-并发能力低高-并发能力强
      小文件处理速度高-单核处理速度快低-单核处理速度慢
      等集群数量
      数据安全性低-高安全性需要购置更多机器高-一份文件自动备份2份以上,避免数据丢失
      可以看到大数据处理技术在处理文件方面,力克传统型处理技术,在成本方面,又大幅度降低,这就完美的契合了互联网公司们想在能及时处理数据的基础上降低成本,从而进行节流的终极需求。


      3楼2023-02-09 10:11
      回复
        大数据就是大量海量的数据,例如百万、千万、亿数据。 大数据处理技术,才是楼主说的内容吧。


        4楼2023-02-10 10:59
        回复
          介绍的挺细


          5楼2023-02-10 11:07
          回复