1、 数据库采集

传统企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。 随着大数据时代的到来,Redis、MongoDB和HBase等NoSQL数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作;

2、 系统日志采集

系统日志采集主要是收集公司业务平台日常产生的大量日志数据,供离线和在线的大数据分析系统使用。 高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。系统日志采集工具均采用分布式架构,能够满足每秒数百MB的日志数据采集和传输需求;

3、 网络数据采集

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。 网络爬虫会从一个或若干初始网页的URL开始,获得各个网页上的内容,并且在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足设置的停止条件为止。 这样可将非结构化数据、半结构化数据从网页中提取出来,存储在本地的存储系统中;

4、 感知设备数据采集

感知设备数据采集是指通过传感器、摄像头和其他智能终端自动采集信号、图片或录像来获取数据。 大数据智能感知系统需要实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。其关键技术包括针对大数据源的智能识别、感知、适配、传输、接入等。

在生活中,大数据采集以以上形式无时无刻都在发生,例如:

  • 积分卡:客户每次使用积分卡时,他们的购买数据都会被跟踪和存储。虽然零售商了解哪些产品正在出售给不同的客户群体可能有意义,但这些信息也可以用于创建详细的客户档案,然后将其出售给广告商和其他企业。
  • 玩游戏:在线游戏玩家也不能免于大数据收集。设备的持续网络连接允许游戏开发者即时访问大量数据,即使游戏是单人游戏。每当用户在某个特定级别遇到困难、进行应用内购买、安装或删除游戏、长时间玩游戏或几分钟后放弃时,这些信息都会被跟踪和存储。
  • 社媒:社交媒体网站是另一个大数据提供商。社交媒体用户通常愿意向此类服务提供有关其个人生活的信息,服务条款协议通常允许网站在其认为合适的情况下存储和使用这些信息。然而,大数据分析也可以用于记录用户同意禁用哪些功能、删除哪些帖子以及他们在一天中不同时间登录网站的频率。这些信息可用于创建用户习惯的完整配置文件,并详细说明哪些信息对他们很重要。