Alan Hou的个人博客更换主题了,使用中如有问题欢迎反馈~

标签:大数据

Python数据分析常见问题

1. AttributeError: ‘DataFrame’ object has no attribute ‘sort’ 以上报错是由于Pandas升级放弃使用sort而改用sort_values和sort_index所致,可进行相应的更改,如 pr……

数据挖掘的方法论之CRISP-DM

在1996年,当时数据挖掘市场是年轻而不成熟的,但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团,目的建立数据挖掘方法和过程的标准。在获得了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界广泛的意见共享知识,他们创建了CRISP-DM Spe……

【大数据基础】使用Maven编写第一个MapReduce程序

前面讲过了如何使用和配置Maven,那么接下来就使用Maven编写一个MapReduce程序,这里参照某视频教程中的程序进行编写。 首先在前面创建的datacount项目的src/main/java下创建一个类,基本配置如下: 以下例子来自于传智播客某视频教程: 使用MapReduce程序分析一段手机访问日志,获取对应的上行流量、下行流量和总流量,以下是日……

【大数据基础】如何使用和配置Maven

Alan在安装CentOS时使用的是minimal文件,所以需要先安装图形化界面 如果安装中出现如下报错 请使用yum grouplist(或yum grouplist | grep ‘KDE\|GNOME’进行更精准查询)查看所在机器对应的KDE或GNOME组名是什么,修改组名再进行安装。 安装完成后在命令行输入init 5临时打开……

【大数据基础】第一个MapReduce程序

Hadoop中最重要的两个部分就要属HDFS和MapReduce了,本文我们一起来探讨一下如何来实现MapReduce的入门级程序Word Count。 测试数据 Hello Tom Hello Jerry Hello Kitty Hello World Hello Tom 如何编写MapReduce Word Count代码? 本例中我们手动写入了输入输出……

【大数据基础】Hadoop集群环境伪分布式配置

本文使用环境为在VirtualBox上安装的CentOS虚拟机。这个安装部分比较简单,不再赘述,对这块不太熟悉的话可以参考【大数据基础】VirtualBox安装CentOS实操,考虑到生产环境多采用64位,本文中也使用64位的系统进行安装。 一、准备工作 在进入前需先做好网络配置,这部分在【大数据基础】VirtualBox安装CentOS实操中也做了介绍。接……

【大数据基础】VirtualBox安装CentOS实操

首先下载VirtualBox并安装,可在官网根据所使用的系统直接下载:https://www.virtualbox.org/wiki/Downloads。VirtualBox和一般的软件安装并没有什么差别,这里略过不提。 注:本文中使用Mac OS X系统进行操作,但文中的方法也同样适用Windows系统 安装完后打开VirtualBox,点击New添加虚拟……

Hadoop学习笔记

第一步:安装Linux 第二步:安装JDK javac查是否安装配置好了JDK,若未安装,以JAVA 7为例: 再次输入javac若出现类似下面的提示则表明安装成功 要在整个系统中使用JDK,还需要配置环境变量,首先打开/etc/profile下 通过source /etc/pofile设置生效 第三步:配置Hadoop 首先需要下载Hadoop安装包,以1……

大数据的统计学基础

最近在看一本—数据挖掘与数据化运营实战:思路、方法、技巧与应用,读起来感觉很吃力,似乎这本书并不像其所称的那样适合“感兴趣的初学者”。在阅读的过程中发现在大数据这块的基础知识方面实际上是相当薄弱的,毕业太长什么方差矩阵之类虽很基础却都早已遗忘,所以再次求助万能的淘宝,决定先从一套名为《大数据的统计学基础》的视频开始学习,相信对于我刚刚开始入门的……

学习R读书笔记之向量、矩阵和数组

使用vector函数可创建指定类型和长度的矢量 可通过seq来创建序列,seq.int(3,12)等价于3:12,该函数还有更为灵活的用法,除了指定序列的范围外还可指定步长 如上面示例所示,该序列包含3到12之间步长为2的数字。seq_along则创建一个从1开始,长度为输入值的序列 length()函数可查看向量的长度,nchar()函数可查看字符的长度 ……