<span id="qdxi5"></span>

      <rp id="qdxi5"></rp>

        八爪魚,百萬用戶信賴的網絡爬蟲工具

        機器學習入門必須掌握的8個關鍵詞知識

        作者:keven 發布時間:2019/9/20 9:36:34 377 人已閱讀

        摘要:在此之前,你應該已經看過各種機器學習相關的文章,但是關于機器學習到底是什么你可能還不是很了解,所以,這篇文章我主要給大家介紹機器學習入門必須要知道的8個關鍵詞術語。沒有太花哨和復雜的東西,希望能讓對機器學習感興趣的同學從中收獲有用的知識。

        在此之前,你應該已經看過各種機器學習相關的文章,但是關于機器學習到底是什么你可能還不是很了解,所以,這篇文章我主要給大家介紹機器學習入門必須要知道的8個關鍵詞術語。沒有太花哨和復雜的東西,希望能讓對機器學習感興趣的同學從中收獲有用的知識。

        ?

        本文主要介紹的8個關鍵詞知識點:

        1. 自然語言處理
        2. 數據庫
        3. 計算機視覺
        4. 監督學習
        5. 無監督學習
        6. 強化學習
        7. 神經網絡
        8. 過擬合

        ?

        1、自然語言處理

        ?

        NLP是機器學習中非常普遍的概念。它讓計算機能夠讀懂人類語言并將其結合起來。

        ?

        自然語言處理

        ?

        NLP最著名的應用包括:

        ?

        (a)文本分類和分類

        這涉及到將文本分類到不同的類別,或者根據相關性對文本列表進行排序。例如,它可以用來過濾垃圾郵件(通過分析這些郵件是否是垃圾郵件),或者在商業上它也可以用來識別和提取與競爭對手相關的信息。

        ?

        (b)情感分析

        有了情感分析,計算機就可以通過分析文本字符串來解讀情緒,如憤怒、悲傷、高興等。所以基本上,電腦就能分辨出人們在打字的時候是高興、悲傷還是生氣。這在顧客滿意度調查中被廣泛使用,用來分析顧客對產品的印象。

        ?

        (c)信息提取

        這主要用于將長段落總結為短文本,很像創建摘要。

        ?

        (d)命名實體識別

        假設您提取了一堆雜亂的個人資料數據,比如地址、電話、姓名等等,這些數據相互混淆。難道您不希望以某種方式清理這些數據,以便神奇地將它們全部標識并匹配到正確的數據類型嗎?這正是命名實體提取如何幫助將混亂的信息轉換為結構化數據的方法。

        ?

        (e)語音識別

        一個很好的例子,蘋果的Siri。

        ?

        (f)自然語言的理解和產生

        NLU是利用計算機將人類的表情轉化為計算機的表情。反之,自然語言的生成是將計算機表達轉化為人類表達。這項技術非常普遍地用于人類與機器人的交流。

        ?

        (g)機器翻譯

        機器翻譯是將文本自動翻譯成另一種語言(或任何特定的語言)。

        ?

        2、數據庫

        ?

        數據庫是機器學習的必要組成部分。如果您想建立一個機器學習系統,您需要從公共資源中收集數據,或者生成新的數據。用于機器學習的所有數據集組合在一起形成數據庫。一般來說,科學家將數據分為三類:

        ?

        訓練數據集:訓練數據集用于訓練模型。通過訓練,機器學習模型將能夠識別數據的重要特征

        ?

        驗證數據集:驗證數據集用于修正模型的系數,并對模型進行比較,選出最優的模型。驗證數據集與訓練數據集不同,不能用于訓練部分,否則可能會發生過擬合,影響新數據的生成。

        ?

        測試數據集:一旦模型被確定,測試數據集將用于測試模型在新數據集中的性能。

        ?

        在傳統的機器學習中,這三個數據集的比例是50/25/25;然而,有些模型不需要太多的調優,或者訓練數據集實際上可以是訓練和驗證(交叉驗證)的組合,因此訓練/測試的比率可以是70/30。

        ?

        3、計算機視覺

        ?

        計算機視覺在人工智能領域主要用來分析和理解圖形和視頻數據的。我們經常在計算機視覺中遇到的問題包括:

        ?

        圖像分類:圖像分類是一項計算機視覺任務,它讓計算機識別特定的圖像。例如,訓練模型識別任何特定位置出現的特定對象。

        ?

        目標檢測:目標檢測是讓模型從一系列預定義的類別中檢測特定的類,并使用矩形將它們圈出來。例如,目標檢測可以用來配置人臉識別系統。模型可以檢測每個預定義的事項并將它們突出顯示出來。

        計算機視覺目標檢測

        ?

        4、監督式學習

        ?

        監督學習是一個機器學習中的方法,可以由訓練資料中學到或建立一個模式(函數 )。監督學習算法對訓練數據進行分析,生成一個推理函數,用于映射新的例子。一個最優的場景將允許算法正確地確定非觀察到的實例類標簽。這就要求學習算法以"合理"的方式從現有的資料中一般化到非觀察到的情況。

        ?

        5、無監督學習

        ?

        無監督機器學習也是機器學習中的一種方法,從“未標記”的數據中推斷一個函數來描述隱藏的結構(觀察中不包括分類或分類)。由于給學習者的例子是無標記的,因此沒有對相關算法輸出的結構的準確性進行評估——這是區分無監督學習與監督學習和強化學習的一種方法。

        無監督學習

        ?

        6、強化學習

        ?

        強化學習與我們剛才討論的不同。強化學習就像電腦游戲的過程,它的目標是訓練電腦在一個環境中采取行動,從而使某些累積獎勵最大化。在一系列的實驗中,計算機學習一系列的游戲模式,并且在游戲中,計算機可以使用最優的模式來最大化它的獎勵。

        一個著名的例子是阿爾法圍棋,阿爾法圍棋打敗了最好的人類棋手。近年來,強化學習也被應用到實時投標中。

        ?

        7、神經網絡

        ?

        神經網絡是由構成動物大腦的生物神經網絡啟發而來的計算系統。人工神經網絡(ANN)是由多個層次構成的,就像大腦中有許多相互連接、形成網絡的神經網絡一樣。每一層都是一系列neures的集合。神經網絡可以連續處理數據,這意味著只有第一層與輸入連接,隨著層數的增加,神經網絡變得更加復雜。當層次變得非常大時,模型就變成了一個深度學習模型。很難定義具有一定層數的ANN。10年前,ANNs只有3層就夠深了,現在我們通常需要20層。

        神經網絡

        ?

        NNs有很多變體,常用的有:

        ?

        卷積神經網絡——它在計算機視覺方面取得了重大突破

        遞歸神經網絡——用于處理具有序列特征的數據,如文本和股票價格。

        全連接網絡——它是處理靜態/表格數據最簡單的模型。

        ?

        8、過度擬合

        ?

        過度擬合是“分析結果與一組特定數據過于接近或準確,因此可能無法擬合其他數據或可靠地預測未來的觀測結果”。換句話說,當模型從不足的數據中學習時,就會發生偏差,這可能會對模型產生不利影響。

        ?

        這是一個普遍而又關鍵的問題。

        ?

        當過擬合發生時,通常意味著模型將隨機噪聲作為數據輸入,并將其作為一個重要的信號進行擬合,這就是模型在新數據中表現較差的原因(隨機噪聲也有偏差)。這在一些復雜的模型中經常發生,如神經網絡或加速度梯度模型。

        ?

        過度擬合

        ?


        分享到: 更多

        企業試用

        天天色-www.色小姐,狠狠干,狠狠_干,久久综合,就要撸,我要色综合,