了解大数据

一.大数据

    1.大数据的定义

   麦肯锡全球研究所:一种规模大到在获取,存储,管理,分析方面大大超出了传统数据库软件工具能力范围的数据集合。

    2.大数据的特点

  大量,高速,多样,价值

    3.数据的结构

      结构化的数据:

    简单来说就是数据库,是由二维表结构来逻辑表达和实现的数据

      非结构化的数据:

    数据结构不规则或不完整,没有预定义的数据模型

    4.我们身边有哪些是大数据

  电信数据:通话数据,短信数据,手机浏览数据;银行数据;微信聊天数据……

    5.大数据带来了什么

  数据挖掘:

    用户画像;知识图谱

  人工智能:

    Google的 ‘ 阿尔法狗 ’;阿里巴巴的”ET“,百度的”无人驾驶汽车“

  区块链:

    数字货币,物联网

    总结:

  大数据就是互联网发展到现今阶段的一种表象或特征

二.人工智能

    1.人工智能是什么

  人工智能:英文缩写为AI。它是研究,开发用于模拟,延伸和扩展的智能的理论,方法,技术及应用系统的一门新的技术科学

  总结:大数据+深度学习=人工智能

    2.人工智能三大发展要素

    *计算机硬件

    *算法

    *数据

三.机器学习和深度学习

    1.机器学习的定义

  专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能

    2.机器学习基本过程

       机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿出这个模型来测试其他的数据,最终获得满意的经验来处理其他的数据。

       总结:数据导入—>数据清洗—>特征工程—>训练模型—>评估模型—>预测新数据

    3.机器学习的分类

  监督学习,无监督学习,半监督学习,强化学习。

    4.算法的分类

  回归算法(监督学习),聚类算法,分类算法,神经网络,将维算法,SVM支持向量机,推荐算法(t特殊),其他算法

    5.深度学习

  深度学习是机器学习中一种基于数据进行表征学习的方法—含有多隐层的神经网络

    6.机器学习和深度学习的应用

  广泛用于数据挖掘,计算机视觉,自然语言处理,生物特征识别机器人领域等。

四.数据挖掘

    1.什么是数据挖掘

从大量的数据中挖掘出隐含的,未知的,用户可能感兴趣的和对决策有潜在价值的知识和规则
简单的说,数据挖掘就是从大量的数据中发现有用信息的过程

    2.数据挖掘怎么挖数据

  通过大数据(数据,分布式技术)和挖掘算法(机器学习算法)

    3.挖掘能做什么

  用户可能感兴趣的和对决策有潜在价值的知识和规则

 五.大数据技术体系

    1.大数据体系

开发语言:Java ,Python,Scala
分布式存储:Hdfs,Hbase,Redis,Mongedb;
分布式计算:Mapreducer,Sark Core,Storm;
数据仓库技术:Hive ,Sqoop,Flume,Spark SQL
机器学习:Mahout,Scikit—lean,MLlib

    2.分布式计算

  分布式计算将该应用分解为许多小的部分,分配给多台计算机进行处理。

六.学习大数据之前的准备

    1.掌握一门大数据开发语言

  -Java

必须掌握J2SE,jdbc,JS,sql语句,sevlet,jsp,spring框架等。
见百战程序员Java1000集视频

  -Python

必须掌握Python语法,Python面向对象,Python数据库等
见百战程序员1000集视频

  -熟悉linux

   -数列linux常用命令

 七.大数据职位介绍

   了解大数据-风君雪科技博客

  按需求排序:数据挖掘工程师;

        Spark开发工程师,数据仓库工程师,Hadoop开发工程师

  工资

了解大数据-风君雪科技博客(大数据开发工程师)

了解大数据-风君雪科技博客

了解大数据-风君雪科技博客(数据仓库)

了解大数据-风君雪科技博客(数据仓库)

了解大数据-风君雪科技博客

了解大数据-风君雪科技博客(大数据开发工程师)

了解大数据-风君雪科技博客

了解大数据-风君雪科技博客

总结:数据挖掘,机器学习,算法工程师工资几乎都超过两万

八.大数据简历怎么写

个人资料
工资经历
职业技能
期望薪资  填写面议
项目经验
自我评价

九.大数据的学习方法

   ·多写代码 (大数据偏向实战)

  —纸上得来终觉浅,绝知此事要躬行

  —看再多的书,也比不上设计调试一个简单的程序

  —写代码和其它事情比例 7:3

   ·看优秀的书和视频

  —《程序员的数学》《大数据之美》等

  —连续看视频的时间不能超过30分钟

   ·设计规划

  —多画图,数据流程图

  —多画步骤图。完成一个需求往往需要多个jop依次执行,每个jop做什么事情,每个jop的每个任务做什么事情

   ·多思考,归纳总结

  —每个案例学完之后,每段代码敲完之后,都要进行总结

  —大数据编程比较灵活,一个需求往往有多种解决办法

   ·多交流

  —学习的时候为自己找一个“伴”

  —不耻下问

   ·多看日志学会独立解决问题

  —解决问题只能靠日志信息

  —先看日志,看不懂再问老师及其他人

   ·一份付出,一份回报

大数据重点课程介绍

Linux基础
高并发集群(前两个为后面3个做准备)
Hadoop离线计算体系

    — HDFS

    — Mapreduce

    — Hive

    — Hbase

    — Sqoop,Flume,zookeeper,CDH,impala,oozie等

Sprak内存计算体系

    —Spark core,Spark Sql,sprak streaming,Scala语言

机器学习

    —R语言,Python机器学习,Spark MLlib