RCTS Scientific Computing Seminar


DATE2015-08-20 11:00-12:00

PLACE數學館3178教室

SPEAKER陳仁乾 工程師(OpenX資深工程師

TITLE大數據實戰:我在廣告業學到的兩三事—概念篇

ABSTRACT 大數據是目前最熱門的的詞,但許多時候人們都將大數據、資料科學、以及資料視覺化綁在一起。這三者事實上非常的不同,我在這場演講中將專注在如何利用hadoop設計大數據演算法以處理資料工程 (data engineering) 問題,資料科學及視覺化只會點到即止。 資料工程處理的問題範疇從十幾年前到現在沒有太大的不同,只有平台變化而已 (database -> hadoop ecosystem) 。這場演講的前半段,我會舉例小型公司如何使用hadoop來處理資料工程問題,然後拓展成大公司時會多哪些部件及維護人員。

1. 撥開大數據的迷霧,從資料工程師的角度看大數據技術,以及其最相關的business problem
2. 中小型及大型的hadoop infrastructure規劃,從規劃期就scalable
* 數據練,報表,封存,及特殊查詢的規劃
* 小型infrastructure如何轉型成大型,相關人員如何配置