RCTS Scientific Computing Seminar


DATE2015-08-20 14:00-15:00

PLACE數學館3178教室

SPEAKER陳仁乾 工程師(OpenX資深工程師

TITLE大數據實戰:我在廣告業學到的兩三事—實戰篇

ABSTRACT 什麼是資料工程呢?基本上就是開發及維護一個穩定的後端資料庫,處理過後的資料要能成為具有可信度的資訊,而且這些資訊通常都是要拿來收費的。在這個演講中我們討論大小公司都共用的資料工程演算法。資料工程不外乎就是 1. 去除無效資料 2. 連結相關的資料 3. 加總成報表。我會講解hadoop處理資料的特性,以及一些好用的資料處理撇步。除了投影片會公開外,許多範例程式碼也會公開以供大家參考。期待能拋磚引玉,為台灣的資料工程界錦上添花。

1. 如何用hadoop設計大規模資料處理的演算法,相關程式都會放在github * 資料結構,以及資料鏈的規劃 * 加總報表 (aggregation) 的演算法 * 連結資料 (join): 簡易join,以及傳統資料庫難以達成的複雜join * 去除無效資料 (de-duplicate) ,這也是join演算法的延伸
2. 資料系統設計的其他撇步 * 先處理、後加總 * 利用檔案系統來當index * bloom filter