政大圖書館首頁 > 虛擬館員 > 每月專題介紹 > 商學院 > 資料採礦


相關圖書期刊論文
您是本頁第位貴賓來訪
相關網站資源


資料採礦定義、內涵與應用

一、資料採礦源起與挑戰

由於資訊科技的進步,網路的無遠弗屆,企業得以大量的收集及儲存資料。但累積的大量資料不僅佔用空間,並無法直接增加企業的價值,人們逐漸體會到大量資料並非就是大量的資訊,資料分析與萃取勢在必行。然而以往純粹由專家分析與解釋資料的方式,也因資料量、屬性與維度急遽的增加而變得越來越困難。所以,有效的從巨大資料庫中自動的發現知識,更進一步整合成企業不可或缺的商業智慧,逐漸成為二十一世紀企業所必須面臨的重要課題。

資訊科技的運用,在1960年代資料庫與資訊科技興起至今,經歷了資料庫、OLTP、OLAP、Data Warehousing、WWW等各階段,已經不再只求資料處理、傳遞、與儲存的效率。資料要轉化為資訊與知識,然而兩者之間日益增加的落差已經無法用人力來彌補,這種困難就如同在岩石與沙土中要挖掘出稀少的貴重金屬一般。所以資料採礦這種方法應蘊而起,各式各樣的方法論與新式的演算法被提出,並設計成為工具軟體來輔助決策人員的工作。

二、資料採礦定義及相關議題

1. 資料採礦定義與內涵

Frawley等人認為資料採礦(Data Mining,DM)是從資料庫中挖掘出不明確、前所未知以及潛在有用的資訊過程。Fayyad等人認為資料採礦是指由以存在的資料中挖掘出新的事實及發現專家尚且不知的新關係。因此,資料採礦是找出隱藏在資料中的趨勢特徵及相關性的過程。透過資料採礦技術,從巨量的資料庫中,找出不同且有用的資訊與知識支援企業決策分析,將能提昇企業的競爭優勢。資料採礦的內涵包括了資料庫系統、知識庫系統、機器學習、統計學、人工智慧、不確定推論等。因此,可以說資料採礦是由這些領域知識中整合出來的定理、演算法或方法。

資料採礦是一個確定資料中有效的,新的,可能有用的並且最終能被理解的模式的重要過程。 資料採礦是為要發現出有意義的樣型或規則,而必須從大量資料之中以自動或是半自動的方式來探索和分析資料 (Berry & Linoff, 1997)。故從兩位學者的描述中則可以看出,資料採礦實是處在知識創造過程中最核心的位置。

如前所述,有些人則將資料採礦視為知識發現過程中,一個必要的步驟,但也有許多人將資料採礦與資料庫中的知識探索 (KDD, knowledge discovery in databases) 交換使用。資料庫知識探索是指在大量資料中,發現知識的整個程序與步驟。資料庫知識探索的定義為一連串的程序,這些程序能在資料中找出資料的模式,並且這些模式對使用者而言,必須是合理的、新奇的、含有可用性的且是可以被理解的。簡單的說,資料庫知識探索就是自資料庫中萃取出有用知識的一連串程序。資料採礦是資料庫知識探索中,一個能有效率的將資料模式、法則,自資料中找出來的一個程序。

資料採礦同時也可以被稱做在資料庫中挖掘知識(knowledge mining from databases)、知識萃取(knowledge extraction)、資料規則分析(data/pattern analysis)、資料考古學(data archaeology)、資料採集(data dredging)等。

對企業而言,資料採礦的目標,是使一個公司更了解顧客,以增進它在行銷、銷售、顧客服務營運上的表現,查覺無法直接從資料上看得出來的潛在規則或行為模式。從資料庫中發現知識,將隱含的、先前並不知道的、潛在有用的資訊從資料庫中粹取出來的過程。可以在大量資料中,發掘潛藏有用的資訊,以提供決策人員參考。資料採礦的整個過程包括資料選取、前置處理、轉換、資料分析及解釋與評估。

Han則針對知識發掘系統切分為以下步驟:
I. Data cleaning:去除雜訊與不一致的資料
II. Data integration:不同來源的資料將被整合
III. Data selection:挑選出與分析內容相關的資料
IV. Data transformation:資料轉換成適當的格式或是特定的顆粒度(Granularity)
V. Data mining:以特定演算方式取出規則
VI. Pattern evaluation:確定規則的有用性
VII. Knowledge presentation:將之視進行視覺化的呈現

2. 處理的問題 與運用技術

Han將資料採礦所處理的問題分為以下幾大類:
1. Characterization and Discrimination
2. 關聯規則 (Association rule)
3. 資料分類 (Classification and Prediction)
4. 資料分群 (Cluster Analysis)
5. Outlier Analysis
6. Evolution Analysis

而資料採礦所主要使用的統計、分析、與決策方法則整理如下表:

Association rules
Market basket analysis
Single-dimensional Boolean association rules
•Apriori algorithm
Multilevel association rules
•Static discretization of quantitative attributes
Classification
Decision tree
Bayesian classification
•Naive Bayesian classification
•Bayesian belief networks
Backpropagation
K-Nearest Neighbor classifiers
Case-based reasoning
Genetic algorithm
Prediction

Linear and multiple regression

Cluster analysis
Partitioning methods:
•K-means


三、相關商業應用

通路最佳化 購物籃分析 客戶關係管理 尋找潛在客戶
提升客戶終生價值 保持客戶忠誠度 行銷活動規劃 預測金融市場動向
保險欺詐偵測 客戶信用風險評比 電信盜打 NBA球員能力分析
預警信用卡呆帳可能 星際星體分類 高科技產業 醫療健保

資料採礦在龐大的數據庫中尋找出其中的知識,並根據企業的問題建立不同的模型,以提供企業進行決策時的參考依據。舉例來說,銀行和信用卡公司可導入具有Data Mining能力的顧客關係管理系統,藉由Data Mining的技術將龐大的顧客資料做篩選、分析、推演及預測,找出哪些是最有貢獻的顧客,哪些是高流失率族群,或是預測一個新的產品或促銷活動可能帶來的響應率,能夠在適當的時間提供適當適合的產品及服務。也就是說,透過Data Mining企業可以了解它的顧客,掌握他們的喜好,滿足他們的需要。 此外資料採礦可用來偵測異常行為的發生,這在偵測網路入侵、信用卡盜刷等方面均有應用。在醫療方面,資料採礦可用來建構知識管理系統,由於診斷過程中有大量的隱性知識,故資料採礦可以協助分析與了解醫師診斷的細節,得到可能的知識與經驗以用於教學與研究;另一方面,也有對病患管理與進行銷售等方面的資料採礦應用。

隨著資料採礦的技術成熟,很多領域都使用這種技術,其中最廣泛的即被運用在企業界及醫療研究上。在資料採礦發展的早期,要如何有效率且正確的從龐大資料庫中汲取有用的資訊是一個很大的挑戰,但發展至今,備受質疑同時也更需要投入研究的是如何提高獲取資訊的有用性。Data Mining技術導入企業,它的重點不是資料庫本身,而在於以企業領域為主。妥善的運用Data Mining技術,才產生企業的競爭優勢。

四、參考資料:

1. Fayyad, U., G. P. Shapiro and P. Smyth, “From Data Mining to Knowledge Discovery in Database”, AI Magazine, Vol. 17, 1996, pp.37-54.
2. Frawley, W. J., S. G. Paitetsky and C. J. Matheus, “Knowledge Discovery in Databases: An Overview,” Communications of the ACM, Vol. 39, 1996, pp.1-34.
3. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques, Simon Fraser University, Morgan Kaufmann Publishers, 2001.


∼感謝資訊管理學系諶家蘭教授提供主題與定義 (商圖分館)



相關圖書 Related Books

(檢索策略:以學科主題
「資料採礦」 查詢)
Searching tip: type ”資料採礦”
in the subject heading column

(檢索策略:以學科主題
「datamining」查詢)
Searching tip: type ”data mining”
in the subject heading column

相關期刊論文 Related Journal Articles

(檢索策略:以關鍵詞
「datamining」查詢)
Searching tip: Use ”data mining”
as the key words.

(檢索策略:以關鍵詞
「data mining」查詢)
Searching tip: Use ”data mining”
as the key words.

相關博碩士論文Related Theses and Dissertations

(檢索策略:以關鍵詞「data mining」
及範圍限制為 「博碩士論文」查詢)
Searching tip: using ”data mining” as the key words and limit “material type” to “theses and dissertations” .

檢索策略:以關鍵詞「data mining」
及範圍限制為「博碩士論文」查詢)
Searching tip: using ”data mining” as the key words and limit “material type” to “theses and dissertations” .

全國博碩士論文資訊網
(僅提供連結)

查詢更多資料庫 To Search in More Databases

http://library1.lib.nccu.edu.tw:8090/index.jsp?id=alldatabase


相關網站資源 Related Websites

網站名稱 中華資料採礦協會
網 址 http://www.cdms.org.tw/
內容簡介 國內唯一的相關協會組織,設立目的在發展資料採礦技術,整合統計分析方法,資料庫技術及各種專業應用,提供決策資源,推動知識經濟。

網站名稱 中原大學Data Mining研究中心
網 址 http://www.datamining.org.tw/
內容簡介 提供豐富的主題情報、文獻資源、討論版、與線上教學等平台服務。

網站名稱 政大商學院資料採礦研究中心
網 址 http://stat.nccu.edu.tw/DM/proj.htm
內容簡介 中心於民國九十一年十月正式成立,目的在提供企業界最完整的資料採礦解決方案。網站內容提供資料採礦研究計畫成果。

網站名稱 麻省理工學院「開放式課程網頁」─史隆管理學院|─Data Mining
網 址 http://www.twocw.net/mit/Sloan-School-of-Management/15-062Data-MiningSpring2003/Exams/
內容簡介 麻省理工學院Data Mining線上課程,包括教學大綱、時程,以及課堂講稿、作業與測驗練習供線上自我學習。

網站名稱 UniMiner Data Mining 資料採礦介紹
網 址 http://www.uniminer.com/center01.htm
內容簡介 提供完整介紹Data Mining的基礎概念,包括技術工具、應用與導入的流程。

網站名稱 國立高雄應用科技大學資料探勘實驗室
網 址 http://dml.ee.kuas.edu.tw/index.htm
內容簡介 網站提供豐富的相關研究計畫與成果、課程資訊、相關教材下載,此資料探勘實驗室著重在發展 多國語言文件探勘系統 (Multilingual text mining systems) 、語意網的資料探勘 (Semantic Web mining systems) 、 多媒體資料探勘 (Multimedia data mining) 、生物資訊的資料探勘 (Data mining for Bioinformatics) 等技術主題上。

網站名稱 資料探勘在商業管理與決策分析之應用實例
網 址 http://www.mis.yzu.edu.tw/faculty/chiu/
%E5%B7%A5%E7%A0%94%E9%99%A2Data%20Mining.ppt
內容簡介 由元智大學資管所邱昭彰教授對資料探勘之原理概念與功能、建構方法、應用案例以及電子商務應用的講授資料。對於商學領域的應用提供深入的分析。

網站名稱 資料採礦簡介
網 址 http://web.thu.edu.tw/sljeng/www/Datamining/introduction.htm
內容簡介 由東海大學統計系鄭順林教授以站在統計學的觀點,對資料探勘作一由簡入深的介紹,並提出商業的應用面與實例說明。

網站名稱 資料採礦(Data Mining)企業應用與案例分析
網 址 http://download.microsoft.com/download/5/c/1/5c18131d-a927-4441-8df0-c67ad90fa2e9/0517businessIQ_DataMining.ppt
內容簡介 為數位時代邀請亞洲資採國際公司資料採礦資深顧問尹相志先生對「用商業智慧,提昇企業執行力與競爭力」主題,進行資料挖掘實務面應用的演講,此投影稿資料內容包含兩大類主題「Data Mining 的商業價值與資訊系統設計」以及「企業客戶應用案例研討」。

網站名稱 Overview of Data Mining
網 址 http://cu.nsysu.edu.tw/1000111149/DM/Overview/
內容簡介 為中山大學資訊管理學系魏志平教授在網路教室所開設的資料探勘課程,內容包括定義介紹、相關技術、分析方法、處理過程、應用屬性等等。

網站名稱 QuData 圖書館
網 址 http://qudata.com/lib/data_mining/
內容簡介 收錄Data mining相關期刊文獻全文。

網站名稱 Data Management Center
網 址 http://www.infogoal.com/dmc/dmcdwh.htm
內容簡介 This page contains information about Data Warehouse, Data Mart, Data Mining, and Decision Support resources. Working to build a complete list of resources on this subject.

網站名稱 Data Mining Group (DMG)
網 址 http://www.dmg.org/
內容簡介 The Data Mining Group (DMG) is an independent, vendor led group which develops data mining standards, such as the Predictive Model Markup Language (PMML).

網站名稱 Two Crows Corporation
網 址 http://www.twocrows.com/index.htm
內容簡介 Two Crows Corporation is a consulting firm specializing in knowledge discovery and data mining.

網站名稱 TheDataMine
網 址 http://www.the-data-mine.com/
內容簡介 The Data Mine was launched in April 1994, to provide information about Data Mining also known as Knowledge Discovery In Databases (KDD) or simply Knowledge Discovery .

網站名稱 KDnuggets
網 址 http://www.kdnuggets.com/
內容簡介 KDnuggets: Data Mining, Web Mining, and Knowledge Discovery Guide.
KDnuggets Directory Data Mining and Knowledge Discovery resources.

網站名稱 KD(Knowledge Discovery)-NET
網 址 http://www.kdnet.org/kdnet/control/
內容簡介 The KDNet (= Knowledge Discovery Network of Excellence) is an open Network of participants from science, industry and the public sector.
The major purpose of this international project is to integrate real-life business problems into research discussions and to collaborate in shaping the future of Knowledge Discovery and Data Mining.

網站名稱 UCI KDD Archive
網 址 http://kdd.ics.uci.edu/
內容簡介 This is an online repository of large data sets which encompasses a wide variety of data types, analysis tasks, and application areas. The primary role of this repository is to enable researchers in knowledge discovery and data mining to scale existing and future data analysis algorithms to very large and complex data sets.

網站名稱 DATA MINING @CCSU
網 址 http://www.ccsu.edu/datamining/default.html
內容簡介 CCSU is the only University in the world to offer an online Master of Science in data mining.
CCSU's Master of Science in Data Mining has been recognized as a "Best Buy" by GetEducated.com, indicating that the MS program has been found to offer a high quality distance degree to a national audience at tuition rates well below the national average.

網站名稱 Knowledge Discovery & Data Mining
網 址 http://domino.research.ibm.com/comm/research.nsf/pages/r.kdd.html
內容簡介 Knowledge Discovery & Data Mining Knowledge Discovery and Data Mining (KDD) is an interdisciplinary area focusing upon methodologies for extracting useful knowledge from data. The ongoing rapid growth of online data due to the Internet and the widespread use of databases have created an immense need for KDD methodologies. The challenge of extracting knowledge from data draws upon research in statistics, databases, pattern recognition, machine learning, data visualization, optimization, and high-performance computing, to deliver advanced business intelligence and web discovery solutions.

網站名稱 CRISP-DM
網 址 http://www.crisp-dm.org/
內容簡介 The CRISP-DM project has developed an industry- and tool-neutral Data Mining process model. Starting from the embryonic knowledge discovery processes used in industry today and responding directly to user requirements, this project defined and validated a data mining process that is applicable in diverse industry sectors. This will make large data mining projects faster, cheaper, more reliable and more manageable.

網站名稱 IBM Almaden Research Center
網 址 http://www.almaden.ibm.com/software/disciplines/iis/
內容簡介 The Intelligent Information Systems Research (aka. Quest) group, led by Dr. Rakesh Agrawal, IBM Fellow, is designing information systems that preserve the privacy and ownership of data while not impeding the flow of information. Our work is motivated by the technical challenges posed by the emerging 'On Demand' world whose success is predicated on protecting the privacy, security, and integrity of interactions between individuals and enterprises as well as between enterprises.

網站名稱 Data Mining and Database Marketing (Kurt Thearling)
網 址 http://www.thearling.com/
內容簡介 The purpose of this web site is to share information about data mining and other analytic technologies.



政治大學圖書館 台北市116指南路二段64號 Tel:(02)29367093 Fax:(02)29382446 網頁維護:參考服務組
ChengChi Universirty Libraries 64, Chih-nan Rd.,Sec. 2, Taipei 116, Taiwan, R.O.C Tel:886-2-29387093 Fax:886-2-29382446