순천향대학교 컴퓨터공학과 상정

[빅데이터 이해] 


                                                                         과제제출게시판

  • 강의목표
     빅데이터 컴퓨팅의 기본 개념, 원리 및 응용 기법을 강의한다. 주요 내용으로는 빅데이터의 기본 개념과 하둡 분산 파일 시스템과 맵리듀스를 소개한 후 스파크를 사용한 분산 데이터 처리 및 분석 기법 등을 강의한다. 또한 스파크를 사용한 빅데이터 파이프라인 처리 기법과 스트리밍 데이터, NoSQL 데이터베이스, 머신 러닝 및 실시간 대시보드 등을 활용한 빅데이터 적용 사례를 강의하고 실습한다.

 

강의 내용

참고 사이트

참고 자료

0. 강의 소개

 

1. 빅데이터 컴퓨팅 소개

MapR Academy, Introduction to Big Data
GFS 논문
, Bigtable 논문

 

2. 아파치 하둡 소개

MapR Academy, Introduction to Big Data

 

3-1. 클러스터 실습 환경
  3-2.
리눅스 명령 개요

Oracle VirtualBox
Ubuntu

 

4. 맵리듀스 소개

MapR Academy, Developing Hadoop Applications

MapReduce 논문

 

5. 맵리듀스 응용 구축

MapR Academy, Developing Hadoop Applications

receipts.txt

6. 아파치 스파크 소개

MapR Academy, Apache Spark Essentials
Lesson 1: Introduction to Apache Spark
스파크 논문

 

7. 스칼라 프로그래밍 언어 소개

윈도우용 SBT 1.1.1,
Learning Scala Materials / 스칼라 학교

 

8. 스파크 프로그래밍 기초

MapR Academy, Apache Spark Essentials
Lesson 2: Load and Inspect Data

auctiondata.csv

 

 

9.  스파크 응용구축

MapR Academy, Apache Spark Essentials
Lesson 3: Build a Simple Apache Spark Application

 

10. 스파크 데이터프레임

MapR Academy, Apache Spark Essentials
Lesson 5: Work with DataFrames
스파크 SQL 논문

sfpd.csv

11. 스파크 MLib

MapR Academy, Apache Spark Essentials
Lesson 10: Use Apache Spark MLib

movies.dat
ratings.dat
users.dat

 스파크 스트리밍

MapR Academy, Apache Spark Essentials

Lesson 8: Create an Apache Spark Streaming Application

 

 HBase 데이터베이스

Coreservelets.com Hadoop Tutorial: HBase Part 1, 2, 3

 

 스파크 GraphX

MapR Academy, Apache Spark Essentials
Lesson 9: Use Apache Spark GraphX

 

  스파크 구조화 스트리밍과 카프카

Spark Structured Streaming Programming Guide

Cloudurable Kafka Tutorial

 

  실시간 우버 모니터링 예1 - 기계학습

End to End Application for Monitoring Real-Time Uber Data using Apache APIs: Kafka,Spark,Hbase, part 1: Spark Machine Learning

 

  실시간 우버 모니터링 예 2 - 실시간 분석

End to End Application for Monitoring Real-Time Uber Data using Apache APIs: Kafka,Spark,Hbase, part 2: Kafka and Spark Streaming

 

실시간 우버 모니터링 예 3
- Vert.x
를 이용한 실시간 대시보드

End to End Application for Monitoring Real-Time Uber Data using Apache APIs: Kafka,Spark,Hbase, part3: Real-Time Dashboard using Vert.x

 

실시간 우버 모니터링 예1 - HBase

End to End Application for Monitoring Real-Time Uber Data Using Apache APIs: Kafka, Spark, HBase, part 4: Spark Streaming, DataFrames, and HBase

 

 

 

·         참고사이트
http://hadoop.apache.org/              아파치 하둡
http://spark.apache.org/               아파치 스파크
https://github.com/apache/spark        Git 스파크 저장소
http://learn.mapr.com/                 MapR 아카데미
https://databricks.com/                databricks
https://research.google.com/           구글 리서치

http://www.scala-lang.org/             스칼라
Learning Scala Materials
http://twitter.github.io/scala_school/ko/
  스칼라 학교
http://vertx.io/                      Vert.x

https://www.data.go.kr/                         
공공 데이터 포털
https://grouplens.org/
                미네소타 대학 GroupLens, 영화 데이터 세트 제공
http://archive.ics.uci.edu/ml          UCI Machine Learning Repository, 기계학습 데이터 세트 제공
https://physionet.org/physiobank/      생체신호 및 관련 데이터 제공

·         평가: 출석 및 과제 50%, 시험 50%