大数据 | Alan Hou的个人博客

Elastic Stack从入门到实践之Elasticsearch

Elasticsearch 入门 # /etc/sysctl.confsysctl -w vm.max_map_count=262144sysctl -p 123 # /etc/sysctl.confsysctl -w vm.max_……继续阅读 »

Alan 4年前 (2020-08-24) 4611浏览 0评论0个赞

高等数学-学习算法/人工智能/大数据的第一步

集合与运算集合集合概念的引入一个书柜中的书构成一个集合一间教室里的全体学生构成一个集合全体实数构成一个集合集合的概念集合：具有某种特定性质的事物的总体。组成这个集合的事物称为该集合的元素。\(a \in M, a \notin M\)\(\in\)表示属于，\(\notin\) 表示不属于A = {a1,a2, … , ……继续阅读 »

Alan 5年前 (2019-05-08) 6440浏览 0评论1个赞

高等数学—元素和极限

实数的定义高数->连续线性代数->离散概率统计R 实数Z 整数Q 有理数 \( q \over p\)\( 且 q,p \in Z \)分划：全集为K\( A \bigcup B = K \) \( A \bigcap B = \emptyset \)戴德金分划：将全集Q分为A,B两个集合s.t.\( A \bigc……继续阅读 »

Alan 6年前 (2018-03-18) 7144浏览 0评论0个赞

数据挖掘的方法论之CRISP-DM

在1996年，当时数据挖掘市场是年轻而不成熟的，但是这个市场显示了爆炸式的增长。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起建立一个社团，目的建立数据挖掘方法和过程的标准。在获得了EC（European Commission）的资助后，他们开始实现他们的目标。为了征集业界广泛的意见共享知识，他们创建了CRISP-DM Spe……继续阅读 »

Alan 8年前 (2016-08-18) 6482浏览 0评论0个赞

使用Python进行数据分析I 环境准备

下载Python包并安装：https://www.continuum.io/downloadsAlan采用Mac OSX进行操作，这里下载最新版Python 3.5在Terminal中输入python即可进入python命令行界面通过输出Hello, world!来进行验证，后面我们将需要NumPy, Pandas, Matplotlib, iPyt……继续阅读 »

Alan 8年前 (2016-07-31) 5348浏览 0评论0个赞

【大数据基础】使用Maven编写第一个MapReduce程序

前面讲过了如何使用和配置Maven，那么接下来就使用Maven编写一个MapReduce程序，这里参照某视频教程中的程序进行编写。首先在前面创建的datacount项目的src/main/java下创建一个类，基本配置如下：以下例子来自于传智播客某视频教程：使用MapReduce程序分析一段手机访问日志，获取对应的上行流量、下行流量和总流量，以下是……继续阅读 »

Alan 8年前 (2016-02-21) 5823浏览 0评论1个赞

【大数据基础】如何使用和配置Maven

Alan在安装CentOS时使用的是minimal文件，所以需要先安装图形化界面如果安装中出现如下报错请使用yum grouplist（或yum grouplist | grep ‘KDE\|GNOME’进行更精准查询）查看所在机器对应的KDE或GNOME组名是什么，修改组名再进行安装。安装完成后在命令行输入init 5临时打开……继续阅读 »

Alan 8年前 (2016-02-21) 5856浏览 0评论0个赞

【大数据基础】第一个MapReduce程序

Hadoop中最重要的两个部分就要属HDFS和MapReduce了，本文我们一起来探讨一下如何来实现MapReduce的入门级程序Word Count。测试数据Hello TomHello JerryHello KittyHello WorldHello Tom如何编写MapReduce Word Count代码？本例中我们手动写入了输入输出……继续阅读 »

Alan 8年前 (2016-02-03) 4972浏览 0评论0个赞

【大数据基础】常用命令

操作hdfs的相关命令比如查看hdfs下的文件使用hadoop fs -ls hdfs://hadoop01:9000/或hadoop fs -ls /hadoop fs的其它选项：[-appendToFile <localsrc> … <dst>][-cat [-ignoreCrc] <src>……继续阅读 »

Alan 8年前 (2016-01-12) 4360浏览 0评论0个赞

【大数据基础】Hadoop集群环境伪分布式配置

本文使用环境为在VirtualBox上安装的CentOS虚拟机。这个安装部分比较简单，不再赘述，对这块不太熟悉的话可以参考【大数据基础】VirtualBox安装CentOS实操，考虑到生产环境多采用64位，本文中也使用64位的系统进行安装。一、准备工作在进入前需先做好网络配置，这部分在【大数据基础】VirtualBox安装CentOS实操中也做了介绍。接……继续阅读 »

Alan 8年前 (2016-01-04) 9035浏览 0评论0个赞