2018年9月30日 星期日
低端人口:中國,是地下這幫鼠族撐起來的
「21世紀是中國人的世紀」,相信各位都聽過這句積極正面的台詞,不知道大家的想法是什麼?我小時候聽到時有些不以為然,總覺得那是不會成真的喃喃自語。時至今日,無人可否認中國已經在世界上有著一席之地。其身為第二大經濟體,超英趕美不再是遙不可及的夢想。但光彩耀眼的背後總伴隨著深不可測的陰暗角落,「低端人口」一書便帶領著讀者去接觸那些無所不在又被視而不見的「鼠族」。
初看書名有些聳動,「鼠族」?,但在詳實閱讀後又覺得書中描寫的案例,好像也沒有這麼令人吃驚。或許從法國人(作者)的眼光來看,國家應該確保公民有一定品質的居住權。然而在中國的首都北京城下,鼠族們卻身處在惡劣的居住環境中刻苦營生,實在不符合外人想像的中國夢。就都市發展後所形成的城鄉差異,工作機會開始集中在都市。鄉下地方的年青人遷移到都市中謀職後定居,這和目前台灣的情景沒兩樣。很多周遭的同事也是外縣市人,為了更理想的工作北上打拼。卻也連帶著受到高房價(租金)和高物價的問題所困擾。北京和台北,所面臨問題是如此的相似。
書中另外提到,離鄉求職的父母為了節省子女的托育費用,只好讓住在鄉下的長輩負起教養責任。這種為了經濟的考量,形成了中國特有的「留守兒童」社會現象。然而隔代教養原本的問題加上中國鄉村的教育資源不足,融合成一個貧困世襲的世代悲劇。相同的處境在台灣,因為城鄉的距離不算遠(比起中國都用百公里起跳),父母每週多半會回鄉見小孩一次,親子間的疏離感就不會太嚴重。回過頭來,兩岸政府對於居住正義和幼兒教養的政策,都是任由人民自食其力(難聽叫自生自滅)啊...
為了追求更好的工作機會,委曲住在便宜但品質不住的租屋環境,這是普遍的社會現象。但在中國卻因為專權政權的體制,惡化了鼠族們的生存環境。像是高汙染的環境問題、禁止報導與傳播負面資訊、裙帶式的政商關係...等等。都讓處於社會最底層的勞動人口,難以突破經濟階級門檻,讓自身或下一代獲得翻身的機會。中國夢如果只能「讓少部份先富起來」,做不到財富的雨露均沾,那始終都只是南柯一夢。
2018年9月23日 星期日
Python+Spark 2.0+Hadoop機器學習與大數據分析實戰
自從2014年同事J離職後,我開始接手大數據專案,機器學習的課題就始終三不五時的出現。畢竟大數據是機器學習成長的推手,也是外界眾多驚人應用的背景關鍵核心。為此也曾研究過Apache Mahout的專書,但試過幾個範例後總覺得Mahout的框架不夠簡潔,效能也不理想。加上那時候的推薦系統在應用上著重關聯規則算法,根本用不到機器學習裡典型的迴歸、分類、分群等演算法,所以也沒再多投入心力在相關技術的鑽研。
時至2018年,同事A和H開始研究起Apache Spark大數據平台,也在公司建置了Spark叢集進行機器學習的初步導入。我覺得時機剛好,推薦系統的應用已經步入成熟階段,後續可以來和同事一起研究先前未能確切理解的機器學習技術。「Python+Spark 2.0+Hadoop機器學習與數據分析實戰」,就是在這個背景下列入我的閱讀書單裡。
在開頭的章節中,先概略地提到Spark機器學習平台的相關技術,帶到書中後續要學習的各個單元。再來詳細說明如何建置一個可用來練習與實作的Hadoop平台。接著就用一連串淺顯易懂的範例練習來教導HDFS以及Map/Reduce運算的核心觀念。其中講述的內容與其它專論Hadoop的書籍相比毫不遜色,很適合想在短時間內掌握Hadoop平台原理的讀者。
中間章節開始介紹PySpark的開發工具IPython Notebook,這個工具真的讓人一用就會愛上,也是我目前最常使用的Python開發工具。另外也介紹了另一種基於Eclipse IDE的PyDev開發工具的解決方案。最後一次講齊PySpark平台上的三種執行模式與建置方法,讓讀者不用另外在網上搜尋平台建置細節。
在瞭解相關平台與工具後,中半段的內容就開始講述第一個機器學習案例,基於ALS演算法的推薦系統。再來就是一連串關於兩元分類、迴歸、多元分類的演算法介紹與範例練習,所有章節都有具體可行的執行範例也經過充分地講解說明。雖然書中缺少了分群演算法,但這本書是我目前看過最適合程式人員進入機器學習領域的入門書。不會使得工程師一頭陷入無止盡的演算法數學公式,而是讓人第一時間掌握具體機器學習具體的開發流程。從而引導出是否能有更進一步運用分類、迴歸算法到未來的專案中的可能性。
強烈推薦給每一位對機器學習有興趣也有心想動手做做看的工程師們~
訂閱:
意見 (Atom)

