<span id="qdxi5"></span>

      <rp id="qdxi5"></rp>

        八爪魚,百萬用戶信賴的網絡爬蟲工具

        5分鐘快速入門大數據、數據挖掘、機器學習

        作者:keven 發布時間:2019/9/20 10:01:44 453 人已閱讀

        摘要:本文簡要介紹了大數據、數據挖掘和機器學習。對于任何想要理解什么是大數據、數據挖掘和機器學習以及它們之間的關系的人來說,這篇文章都應該很容易讀懂。

        本文簡要介紹了大數據、數據挖掘和機器學習。對于任何想要理解什么是大數據、數據挖掘和機器學習以及它們之間的關系的人來說,這篇文章都應該很容易讀懂。

        ?

        數據挖掘和大數據能做什么?

        ?

        簡而言之,它們賦予我們預測的能力。

        ?

        1、我們的生活已經被數字化

        ?

        今天,我們每天做的許多事情都可以被記錄下來。每筆信用卡交易都是數字化、可追溯的;我們的公眾形象一直受到在城市各處懸掛的許多中央電視臺的監視;對于企業來說,大部分的財務和運營數據都保存在一些ERP中;隨著可穿戴設備的興起,每一次心跳和呼吸都被數字化并保存為可用的數據。就在我們的生活被數字化的時候,一臺電腦現在比以往任何時候都能更好地“理解”我們的世界。

        ?

        2、如果模式保持不變,則過去=未來

        ?

        我們生活中的許多不同事物都顯示出模式。例如,一個人可能在任何工作日往返于工作和家庭之間,在任何非工作時間去度假或看電影,這種模式不太可能改變。商店會有一天的高峰時間和休閑時間,這種模式不太可能改變。企業將在一年中的某些月份要求更高的勞動力投入,這種模式不太可能改變。

        ?

        總結第一點和第二點,我們可以得出這樣的結論:如果提供過去的模式,計算機很有可能預測未來,因為這些模式在很長一段時間內很可能是一致的。

        ?

        如果電腦能預測人們的生活方式,它就能準確地知道企業什么時候是進行促銷的最佳時機,比如,如果這個人傾向于每周五洗車,那么企業可以給他推送一次洗車促銷;如果這個人傾向于每年3月去度假,那么企業就會給他推送一張酒店住宿優惠券。在商業上,電腦還可以預測商店全天的銷售預測,然后制定商業策略,使營收最大化。對于企業來說,計算機也可以設計出最佳的工作計劃,以及最合理的勞動力安排。

        ?

        一旦未來變得可預測,我們總是可以提前計劃,并為最好的行動做好準備。就像《黑客帝國》中的Neo一樣,他可以躲避所有的子彈,因為他可以清楚地看到子彈從哪里來。根據夏洛克·福爾摩斯的說法,“對概率數學的高級掌握,映射到對人類心理的透徹理解,以及任何已知個體的已知性情,都可以大大減少變量的數量”,換句話說,“大數據賦予我們預測未來的能力”。這就是數據挖掘的力量。數據挖掘始終與大數據聯系在一起,僅僅是因為大數據支持大規模數據集,從而為所有預測提供了基礎。

        ?

        那么,什么是大數據、數據挖掘和機器學習呢?

        ?

        ?

        1、大數據

        ?

        當數據量非常大時,很明顯,這些數據不能在任何一臺機器上處理。一個非常大的文件,比如說10GB,你很有可能無法在任何Windows系統中打開它,直到它崩潰。大數據就是為此而開發的。您可以將它看作是一個特殊的軟件,它將一個大文件分割成小得多的文件,然后可以在許多機器上處理這些文件。劃分和梳理數據塊的過程稱為MapReduce。這個過程中最常用的軟件框架叫做Hadoop。Hadoop解決了這個基本問題,并且有一堆工具可以和Hadoop一起使用,比如Pig、Zookeeper和Hive,讓這個過程更加容易。Hadoop及其許多相關工具通常被稱為“大數據技術”。

        ?

        2、機器學習

        ?

        剛才我們接觸了如何處理數據。假設這段數據包含一組購物者的購買行為,包括購買的商品總數、每個購物者購買的商品數量。到目前為止,這只是一個簡單的統計分析。然而,如果我們的目標是分析不同類型購物者之間的相關性,或者如果我們想推斷特定類型購物者的特定偏好,甚至預測任何購物者的性別或年齡,我們需要一個更復雜的模型,我們稱之為算法。機器學習可以更容易理解為為數據挖掘目的而開發的各種不同的算法,如邏輯回歸、決策樹、協作過濾等等。

        ?

        3、數據挖掘

        ?

        通過機器學習算法的應用,現有的數據實際上可以用來預測未知,這正是為什么數據挖掘的奇跡與機器學習緊密相連的原因。然而,任何機器學習算法的強度都嚴重依賴于大量數據集的供應。請記住,無論算法有多復雜,都無法通過幾行數據做出鼓舞人心的預測。大數據技術是機器學習的前提,利用機器學習,我們可以從現有的數據集中獲得有價值的見解,這就是數據挖掘。


        分享到: 更多

        企業試用

        天天色-www.色小姐,狠狠干,狠狠_干,久久综合,就要撸,我要色综合,