平特心水报图
新網絡營銷基礎與實踐

你的位置:首頁 >網絡營銷 >數據挖掘DM

數據挖掘DM

一.含義

數據挖掘就是從海量的數據中挖掘出可能有潛在價值的信息的技術。這些信息是可能有潛在價值的,支持決策,可以為企業帶來利益,或者為科學研究尋找突破口。

二.起源

需要是發明之母。近年來,數據挖掘引起了信息產業界的極大關注,其主要原因是存在大量數據,可以廣泛使用,并且迫切需要將這些數據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、信息論、信號處理、可視化和信息檢索。一些其他領域也起到重要的支撐作用。特別地,需要數據庫系統提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計算的技術在處理海量數據集方面常常是重要的。分布式技術也能幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要。

三.發展階段

第一階段:電子郵件階段

這個階段可以認為是從70年代開始,平均的通訊量以每年幾倍的速度增長。

第二階段:信息發布階段

從1995年起,以Web技術為代表的信息發布系統,爆炸式地成長起來,成為目前Internet的主要應用。中小企業如何把握好從“粗放型”到“精準型”營銷時代的電子商務。

第三階段: EC(Electronic Commerce),即電子商務階段

EC在美國也才剛剛開始,之所以把EC列為一個劃時代的東西,是因為Internet的最終主要商業用途,就是電子商務。同時反過來也可以說,若干年后的商業信息,主要是通過Internet傳遞。Internet即將成為我們這個商業信息社會的神經系統。1997年底在加拿大溫哥華舉行的第五次亞太經合組織非正式首腦會議(APEC)上美國總統克林頓提出敦促各國共同促進電子商務發展的議案,其引起了全球首腦的關注,IBM、HP和Sun等國際著名的信息技術廠商已經宣布1998年為電子商務年。

第四階段:全程電子商務階段

隨著SaaS(Software as a service)軟件服務模式的出現,軟件紛紛登陸互聯網,延長了電子商務鏈條,形成了當下最新的“全程電子商務”概念模式。也因此形成了一門獨立的學科——數據挖掘與客戶關系管理碩士。

四.使用方法

分析方法:

數據挖掘

· 分類 (Classification)

· 估計(Estimation)

· 預測(Prediction)

· 相關性分組或關聯規則(Affinity grouping or association rules)

· 聚類(Clustering)

· 復雜數據類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)

方法簡介:

·分類 (Classification)

首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分類模型,對于沒有分類的數據進行分類。

例子:

a. 信用卡申請者,分類為低、中、高風險

b. 故障診斷:中國寶鋼集團與上海天律信息技術有限公司合作,采用數據挖掘技術對鋼材生產的全流程進行質量監控和分析,構建故障地圖,實時分析產品出現瑕疵的原因,有效提高了產品的優良率。

注意: 類的個數是確定的,預先定義好的

· 估計(Estimation)

估計與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續值的輸出;分類數據挖掘

的類別是確定數目的,估值的量是不確定的。

例子:

a. 根據購買模式,估計一個家庭的孩子個數

b. 根據購買模式,估計一個家庭的收入

c. 估計real estate的價值

一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的連續變量的值,然后,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運用估值,給各個客戶記分(Score 0~1)。然后,根據閾值,將貸款級別分類。

· 預測(Prediction)

通常,預測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。預言其目的是對未來未知變量的預測,這種預測是需要時間來驗證的,即必須經過一定時間后,才知道預言準確性是多少。

· 相關性分組或關聯規則(Affinity grouping or association rules)

決定哪些事情將一起發生。

例子:

a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)

b. 客戶在購買A后,隔一段時間,會購買B (序列分析)

· 聚類(Clustering)

聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區別是聚集不依賴于預先定義好的類,不需要訓練集。

例子:

a. 一些特定癥狀的聚集可能預示了一個特定的疾病

b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群

聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。

· 描述和可視化(Description and Visualization)

是對數據挖掘結果的表示方式。一般只是指數據可視化工具,包含報表工具和商業智能分析產品(BI)的統稱。譬如通過Yonghong Z-Suite等工具進行數據的展現,分析,鉆取,將數據挖掘的分析結果更形象,深刻的展現出來。

網絡營銷詞典內容均由網友提供,僅供參考。

平特心水报图 股票配资 601268股票行情中心 股票融资融券操作学 江西水泥股票行情 股票推荐排名2019 股票指数期货在到期日以成交股票进行交割 股票融资费用_杨方配资开户 美国股票指数东方财富网 股票走势图 股票分析师年薪