400-888-5228

我們說數(shù)據(jù)分析要有目的進行分析,實際上我們在平常的工作中,沒有學過數(shù)據(jù)分析也能靠直覺推斷出一些數(shù)據(jù)產(chǎn)生的原因。那么為什么還要進行數(shù)據(jù)分析的學習呢?也就是說,數(shù)據(jù)分析,到底在學什么?

其實我認為如果是在初創(chuàng)團隊中,確實無需使用太專業(yè)的數(shù)據(jù)分析方法,因為往往數(shù)據(jù)不足。但是,如果你掌握了數(shù)據(jù)分析的方法,就能夠在產(chǎn)品的初期設(shè)計合理的埋點,要知道現(xiàn)在很多產(chǎn)品在早期是沒有這個意識的,于是等產(chǎn)品成熟了再去做這件事是極其痛苦的。所以也才催生了類如諸葛IO這樣的“無埋點”數(shù)據(jù)分析的產(chǎn)品?!盁o埋點”只能收集到很淺層次的數(shù)據(jù),如點擊數(shù)據(jù),IP/PV等,業(yè)務(wù)層面就無法統(tǒng)計。而且存在著不穩(wěn)定性,從技術(shù)上講就是說如果用戶使用了一些奇奇怪怪的瀏覽器(例如低版本的IE)的話,很可能無埋點的代碼就無法運行,造成原始數(shù)據(jù)的偏差。

回到數(shù)據(jù)分析,我們能夠:

  • 培養(yǎng)數(shù)據(jù)意識,提升產(chǎn)品規(guī)劃能力。
  • 培養(yǎng)數(shù)據(jù)敏感性,提高洞察力。
  • 能夠數(shù)據(jù)中發(fā)現(xiàn)不容易通過直覺發(fā)現(xiàn)的足絲馬跡,發(fā)現(xiàn)潛在的可能。
  • 掌握一門通用的硬技能,輔助需求挖掘、業(yè)務(wù)分析。
  • 等等
  • 接下來我們進入正題:數(shù)據(jù)分析的方法論。

本篇文章將就此展開談?wù)勥@三種數(shù)據(jù)分析方法論(方法論沒有好壞高低之分,只有合適的。根據(jù)業(yè)務(wù)場景來選擇合適的分析方法。一定要以目標為導向,并不是手法越高級就越好。能用簡單分析的就不需要使用大數(shù)據(jù)挖掘。)

一、描述性數(shù)據(jù)分析方法

描述性數(shù)據(jù)分析可以用一言蔽之”一句話描述數(shù)據(jù)“。我們平時說的,這個月的平均訪問量是多少,環(huán)比增長了多少。用戶平均付費是多少,中位數(shù)是多少,眾位數(shù)是多少,四分位數(shù)是多少都屬于描述性統(tǒng)計分析。描述數(shù)據(jù)的集中趨勢還可以用方差、標準差。用一個指標,一句話概括數(shù)據(jù)特點。描述數(shù)據(jù)之間的簡單關(guān)系可以用相關(guān)性分析,如轉(zhuǎn)化率和用戶停留時間的正相關(guān)的(距離,以實際為準。一般也是這樣。)這邊大家都比較熟悉,不過多介紹。

二、數(shù)理統(tǒng)計分析方法

數(shù)理統(tǒng)計涉及較多的數(shù)學知識,但是其實常用的也就是概率論和微積分,本科的知識稍微復習一下還是容易掌握的。微積分只需要用到一元積分,用于計算概率分布。統(tǒng)計學中有許許多多的內(nèi)容,在數(shù)據(jù)分析中,并不是所有都需要掌握。因為我們不是在做實驗室里科學實驗的數(shù)據(jù)分析。

1.方差分析

方差分析,又稱為F檢驗。作用是研究因素對于數(shù)值型變量的影響。例如想要知道某次改版對于轉(zhuǎn)化率是否有顯著影響,可能從宏觀上看增長的數(shù)值不大,看不大出來影響有多大,這時候就可以用方差分析做對于改版這個因素的單因素方差分析。

2.回歸分析

回歸分析比較好理解,簡單的說就是尋找到一個函數(shù)來擬合自變量和因變量的關(guān)系。例如想要做一次活動,假設(shè)優(yōu)惠的價格x,銷售額為y。這兩者之間可能存在y=x+1(純舉例)這樣的函數(shù)關(guān)系式。回歸分析就是要找出這樣的函數(shù)關(guān)系,來指導活動的運營,提升ROI。

3.因子分析

因子分析即從大量的變量中尋找共性因子的統(tǒng)計方法,因子表現(xiàn)為一種表征,通常是多個變量的集合。因子分析可以簡化數(shù)據(jù),所以是一種降維的方式。常用的因子分析方法有重心法、_小平方法、_大似然法等。

三、數(shù)據(jù)挖掘分析方法

數(shù)據(jù)挖掘源于統(tǒng)計機器學習,還有人工智能的方法。之前寫過的人工智能相關(guān)的文章中有提到,AI=數(shù)據(jù)+算法=模型。數(shù)據(jù)挖掘也就是利用算法從數(shù)據(jù)中尋找規(guī)律。因為我們并不能總是能用常見的函數(shù)去擬合所有的規(guī)律,而太復雜的規(guī)律通過人工根本就是無法進行計算的。那么機器學習就可以做到。機器學習的原理其實就是定義一個損失函數(shù),可以把損失函數(shù)簡單理解為錯誤率。然后枚舉所有的情況,找到錯誤率_低的模型。用在數(shù)據(jù)挖掘中,我們可以用到的機器學習算法一般有:

1.聚類分析

俗話說,物以類聚。聚類分析是一種探索性的分析方法,由機器無監(jiān)督地將樣本數(shù)據(jù)進行分類,再觀察其特征,從而幫助發(fā)現(xiàn)潛在的共性。聚類分析的方式也有很多,用不同方式進行的聚類分析結(jié)果也不盡相同。

2.分類

分類應(yīng)該是機器學習、人工智能中應(yīng)用_廣泛的了。例如NLP中的情感分析、文章分類,CV中的醫(yī)療影像診斷,物品識別等等。又扯遠了,回到數(shù)據(jù)分析,常用于數(shù)據(jù)挖掘的分類算法有:

(1)決策樹

決策樹直觀上的理解就是從樣本建立分支規(guī)則。舉個簡單的例子,同事A有時候遲到有時候不遲到,你觀察到如果下雨了。A就遲到。如果沒有下雨,A就不遲到。主管只有在周一和周三在,如果主管在A就要挨罵了。那么用決策樹來預(yù)測A是否會挨罵(以上例子純屬YY)就是:

能夠構(gòu)造這樣的決策數(shù)據(jù)的常用算法有C4.5、CART、CHAID、ID3等。

決策時擅長處理離散數(shù)據(jù),并可以直觀出其中的關(guān)鍵變量。決策樹生成的規(guī)則也容易被人所理解。接下去要講的神經(jīng)網(wǎng)絡(luò)就不是人可以理解的了。

(2)人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是個黑箱模型,神經(jīng)網(wǎng)絡(luò)是類似于大腦神經(jīng)突觸連接的形式,僅僅是類似,不能把它理解得過于玄乎,本質(zhì)上和腦神經(jīng)的運作方式是相差很大的。人工神經(jīng)網(wǎng)絡(luò)包括輸入層、輸出層、隱藏層。其中隱藏層就是就是對輸入層的輸入進行各種加權(quán)互聯(lián),_終得出_逼近訓練集的結(jié)果。理論上可以逼近任何非線性的關(guān)系。能夠充分考慮到數(shù)據(jù)的各種特征。

(3)貝葉斯分類器

是否還記得貝葉斯公式

只要知道P(Y)、P(X)、P(X|Y)就能知道P(Y|X)的值了。前3個值可以通過歷史數(shù)據(jù)得到先驗概率,在先驗概率的基礎(chǔ)上就能對新的事件(數(shù)據(jù))進行后驗概率的計算。

(4)支持向量機

SVM,是機器學習的重大成果。SVM將非線性的數(shù)據(jù)將數(shù)據(jù)映射到一個高維空間,在新的維度上,搜索一個線性_佳超平面,兩類數(shù)據(jù)總是能夠被超平面分開。

(5)隨機森林

隨機森林有著較高的準確率,魯棒性也好。隨機森林運用bootstrap方法從原始樣本中抽取樣本,對每個樣本進行決策樹建模,然后將決策樹組合,對每個決策樹分類出來的結(jié)果進行一種投票統(tǒng)計,_終得出分類結(jié)果。這個方式很形象的被叫做隨機森林。

3.關(guān)聯(lián)規(guī)則

舉個例子就能明白什么是關(guān)聯(lián)規(guī)則了。大家都知道的“啤酒與尿布”的例子,關(guān)聯(lián)規(guī)則算法能夠找出多次重復、同時出現(xiàn)的關(guān)系。

4.回歸分析

描述性分析中也有回歸分析,這邊回歸和描述性分析中回歸的區(qū)別主要是,這里指的是多元線性回歸和邏輯斯蒂回歸。典型的回歸問題是運費計算的問題, 快遞運費受地區(qū)、重量、物品類型、運送方式等多種因素的影響,這時候可以使用多元線性回歸來分析他們之間的關(guān)系。

發(fā)表回復

您的電子郵箱地址不會被公開。 必填項已用*標注

  • 2024-10-30 20:00
    嚴謹求實:安全評估和測試
  • 2024-10-31 20:00
    【延期到11/5】什么是數(shù)據(jù)標準?如何制定數(shù)據(jù)標準?這份指南送上
  • 2024-11-05 20:00
    什么是數(shù)據(jù)標準?如何制定數(shù)據(jù)標準?這份指南送上
  • 2024-11-07 20:00
    職場故事:從文科生到IT領(lǐng)域的轉(zhuǎn)型之路
  • 2024-11-08 14:00
    數(shù)字化人才的“1+X”證書策略!這樣安排,回報率最高
  • 2024-11-12 20:00
    流程框架與績效管理
  • 2024-11-14 20:00
    “一切皆項目”!IT經(jīng)理的項目管理之道
  • 2024-11-19 20:00
    流程體系建設(shè):組織之間的高效協(xié)同,流程管理體系構(gòu)建與落地
  • 2024-11-21 20:00
    神秘莫測:密碼學和加密解密
  • 2024-11-26 20:00
    職場故事:從在日工作的經(jīng)驗教訓談職場需要的技能
  • 2024-11-28 20:00
    智能財務(wù)運營的未來視角:RPA與AI技術(shù)的融合應(yīng)用
  • 2024-11-29 14:00
    周五課堂:如何帶團隊?靠什么服眾?那些無處不在的“軟技能”
  • 更多直播講座
    小艾老師還在安排中…
查看全部 >

掃碼一鍵預(yù)約全部

查看更多 > 查看更多 >

數(shù)字化轉(zhuǎn)型8大核心認證

  1. PMP項目管理認證

    艾威最近一期班: 針對2025年03月考試
  2. CBAP業(yè)務(wù)分析認證

    艾威最近一期班·開課時間: 2024-11-23
  3. CBPP流程管理認證

    艾威最近一期班·開課時間: 2024-12-07
  4. ITIL4 IT管理認證

    艾威最近一期班·開課時間: 2024-11-23
  5. TOGAF企業(yè)架構(gòu)認證

    艾威最近一期班·開課時間: 2024-11-02
  6. CDMP數(shù)據(jù)管理認證

    艾威最近一期班·開課時間: 2024-11-23
  7. CISA信息安全審計師認證

    艾威最近一期班·開課時間: 2024-12-01
  8. CISSP信息安全專家認證

    艾威最近一期班·開課時間: 2024-11-16
近期課程安排