① 數據倉庫解決方案在電子商務中有哪些應用
利用數據倉庫技術,把電子商務網站中用戶的點擊流和Web日誌文件作為基本數據存儲,並通過各種高效的挖掘演算法,提取用戶數據模型,根據模型可以有效地分析其中的用戶行為,並利用這些知識,預測相關用戶的行為,可以為企業商務人員拓展其市場、改善營銷策略,尋找精準數據,降低生產成本,規范企業生產流程等提供更加有效的參考價值。
比如當前火熱的電商解決方案-旺店通ERP,即是使用C++/erlang和數據倉庫技術開發的ERP。
② 數據倉庫及數據挖掘技術在電子商務系統中能起到什麼作用
隨著市場競爭的越來越激烈,商業環境中的信息越來越密集,企業必須能夠深入回靈活利用積累答的大量數據挖掘潛在的規律,提高決策質量,把握和發現市場機遇,提升企業的競爭力。 實施商務智能是一個十分復雜的過程,成功的商務智能應該具備三個要素:商業需求、大量的數據和實現商務智能的技術。因此,商務智能有其特定的實施方法,它包含對企業商務智能需求的明確、對企業現有信息化情況的了解和對各種商務智能技術的充分掌握三個方面。
③ 誰能給我一個數據倉庫和數據挖掘案例的詳細設計文檔
最好可以問你們老師,或者去相應的網站上去查找。如果你離畢業還早的話,可以去考資料庫系統工程師。相應的教材和資料都可以買到,而且是國家承認的。不過這只是個證書而已,關鍵的以後還是要實踐。通過准備考試,可以打下扎實的基礎,為以後做准備。
另外,資料庫其實也比較枯燥,如果你有決心的話,還是不錯的工作。關鍵的在學校還是要先打好基礎。
有很多這樣的網站,你可以上網去搜索。如果有相應的輔導班,也可以考慮。
資料庫系統工程師級考試大綱
一、考試說明
1.考試要求
(1)掌握計算機體系結構以及各主要部件的性能和基本工作原理;
(2)掌握操作系統、程序設計語言的基礎知識,了解編譯程序的基本知識;
(3)熟練掌握常用數據結構和常用演算法;
(4)熟悉軟體工程和軟體開發項目管理的基礎知識;
(5)熟悉計算機網路的原理和技術;
(6)掌握資料庫原理及基本理論;
(7)掌握常用的大型資料庫管理系統的應用技術;
(8)掌握資料庫應用系統的設計方法和開發過程;
(9)熟悉資料庫系統的管理和維護方法,了解相關的安全技術;
(10)了解資料庫發展趨勢與新技術;
(11)掌握常用信息技術標准、安全性,以及有關法律、法規的基本知識;
(12)了解信息化、計算機應用的基礎知識;
(13)正確閱讀和理解計算機領域的英文資料。
2. 通過本考試的合格人員能參與應用信息系統的規劃、設計、構建、運行和管理,能按照用戶需求,設計、建立、運行、維護高質量的資料庫和數據倉庫;作為數據管理員管理信息系統中的數據資源,作為資料庫管理員建立和維護核心資料庫;擔任資料庫系統有關的技術支持,同時具備一定的網路結構設計及組網能力;具有工程師的實際工作能力和業務水平,能指導計算機技術與軟體專業助理工程師(或技術員)工作。
3. 本考試設置的科目包括
(1)信息系統知識,考試時間為150分鍾,筆試;
(2)資料庫系統設計與管理,考試時間為150分鍾,筆試。
二、考試范圍
考試科目1:信息系統知識
1. 計算機系統知識
1.1 硬體知識
1.1.1 計算機體系結構和主要部件的基本工作原理
·CPU和存儲器的組成、性能、基本工作原理
·常用I/O設備、通信設備的性能,以及基本工作原理
·I/O介面的功能、類型和特點
·CISC/RISC,流水線操作,多處理機,並行處理
1.1.2 存儲系統
·虛擬存儲器基本工作原理,多級存儲體系
·RAID類型和特性
1.1.3 安全性、可靠性與系統性能評測基礎知識
·診斷與容錯
·系統可靠性分析評價
· 計算機系統性能評測方法
1.2 數據結構與演算法
1.2.1 常用數據結構
·數組(靜態數組、動態數組)
·線性表、鏈表(單向鏈表、雙向鏈表、循環鏈表)
·棧和隊列
·樹(二叉樹、查找樹、平衡樹、遍歷樹、堆)、圖、集合的定義、存儲和操作
·Hash(存儲位置計算、碰撞處理)
1.2.2 常用演算法
·排序演算法、查找演算法、數值計算、字元串處理、數據壓縮演算法、遞歸演算法、圖的相關演算法
·演算法與數據結構的關系,演算法效率,演算法設計,演算法描述(流程圖、偽代碼、決策表),演算法的復雜性
1.3 軟體知識
1.3.1 操作系統知識
·操作系統的類型、特徵、地位、內核(中斷控制)、進程、線程概念
·處理機管理(狀態轉換、同步與互斥、信號燈、分時輪轉、搶占、死鎖)
·存儲管理(主存保護、動態連接分配、分段、分頁、虛存)
·設備管理(I/O控制、假離線、磁碟調度)
·文件管理(文件目錄、文件的結構和組織、存取方法、存取控制、恢復處理、共享和安全)
·作業管理(作業調度、作業控制語言(JCL)、多道程序設計)
·漢字處理,多媒體處理,人機界面
·網路操作系統和嵌入式操作系統基礎知識
·操作系統的配置
1.3.2 程序設計語言和語言處理程序的知識
· 匯編、編譯、解釋系統的基礎知識和基本工作原理
· 程序設計語言的基本成分:數據、運算、控制和傳輸,程序調用的實現機制
· 各類程序設計語言的主要特點和適用情況
1.4 計算機網路知識
·網路體系結構(網路拓撲、OSI/RM、基本的網路協議)
·傳輸介質,傳輸技術,傳輸方法,傳輸控制
·常用網路設備和各類通信設備
·Client/Server結構、Browser/Server結構、Browser/Web/Datebase結構
·LAN拓撲,存取控制,LAN的組網,LAN間連接,LAN-WAN連接
·網際網路基礎知識及應用
·網路軟體
·網路管理
·網路性能分析
·網路有關的法律、法規
2. 資料庫技術
2.1 資料庫技術基礎
2.1.1 資料庫模型
·資料庫系統的三級模式(概念模式、外模式、內模式),兩級映像(概念模式/外模式、外模式/內模式)
·資料庫模型:數據模型的組成要素,概念數據模型ER圖(實體、屬性、關系),邏輯數據模型(關系模型、層次模型、網路模型)
2.1.2 資料庫管理系統的功能和特徵
·主要功能(資料庫定義、資料庫操作、資料庫控制、事務管理、用戶視圖)
·特徵(確保數據獨立性、資料庫存取、同時執行過程、排它控制、故障恢復、安全性、完整性)
·RDB(關系資料庫),OODB(面向對象資料庫),ORDB(對象關系資料庫),NDB(網狀資料庫)
·幾種常用Web資料庫的特點
2.1.3 資料庫系統體系結構
· 集中式資料庫系統
· Client/Server資料庫系統
· 並行資料庫系統
· 分布式資料庫系統
· 對象關系資料庫系統
2.2 數據操作
2.2.1 關系運算
·關系代數運算(並、交、差、笛卡兒積、選擇、投影、連接、除)
·元組演算
·完整性約束
2.2.2 關系資料庫標准語言(SQL)
·SQL的功能與特點
·用SQL進行數據定義(表、視圖、索引、約束)
·用SQL進行數據操作(數據檢索、數據插入/刪除/更新、觸發控制)
·安全性和授權
·程序中的API,嵌入SQL
2.3 資料庫的控制功能
·資料庫事務管理(ACID屬性)
·資料庫備份與恢復技術(UNDO、REDO)
·並發控制
2.4 資料庫設計基礎理論
2.4.1 關系資料庫設計
·函數依賴
·規范化(第一範式、第二範式、第三範式、BC範式、第四範式、第五範式)
·模式分解及分解應遵循的原則
2.4.2 對象關系資料庫設計
·嵌套關系、 復雜類型,繼承與引用類型
·與復雜類型有關的查詢
·SQL中的函數與過程
·對象關系
2.5 數據挖掘和數據倉庫基礎知識
·數據挖掘應用和分類
·關聯規則、聚類
·數據倉庫的成分
·數據倉庫的模式
2.6 多媒體基本知識
2.6.1 多媒體技術基本概念
·多媒體系統基礎知識
·常用多媒體文件格式
2.6.2 多媒體壓縮編碼技術
·多媒體壓縮編碼技術
·統計編碼
·預測編碼
·編碼的國際標准
2.6.3多媒體技術應用
·簡單圖形的繪制,圖像文件的處理方法
·音頻和視頻信息的應用
·多媒體應用開發過程
2.7 系統性能知識
·性能計算(響應時間、吞吐量、周轉時間)
·性能指標和性能設計
·性能測試和性能評估
2.8 計算機應用基礎知識
·信息管理、數據處理、輔助設計、科學計算,人工智慧等基礎知識
·遠程通信服務及相關通信協議基礎知識
3. 系統開發和運行維護知識
3.1 軟體工程、軟體過程改進和軟體開發項目管理知識
·軟體工程知識
·軟體開發生命周期階段目標和任務
·軟體開發項目基礎知識(時間管理、成本管理、質量管理、人力資源管理、風險管理等)及其常用管理工具
·主要的軟體開發方法(生命周期法、原型法、面向對象法、CASE)
·軟體開發工具與環境知識
·軟體質量管理基礎知識
·軟體過程改進基礎知識
·軟體開發過程評估、軟體能力成熟度評估的基礎知識
3.2 系統分析基礎知識
·系統分析的目的和任務
·結構化分析方法(數據流圖(DFD)和數據字典(DD),實體關系圖(ERD),描述加工處理的結構化語言)
·統一建模語言(UML)
·系統規格說明書
3.3 系統設計知識
·系統設計的目的和任務
·結構化設計方法和工具(系統流程圖、HIPO圖、控制流程圖)
·系統總體結構設計(總體布局,設計原則,模塊結構設計,數據存取設計,系統配置方案)
·系統詳細設計(代碼設計、資料庫設計、用戶界面設計、處理過程設計)
·系統設計說明書
3.4 系統實施知識
·系統實施的主要任務
·結構化程序設計、面向對象程序設計、可視化程序設計
·程序設計語言的選擇、程序設計風格
·系統測試的目的、類型,系統測試方法(黑盒測試、白盒測試、灰盒測試)
·測試設計和管理(錯誤曲線、錯誤排除、收斂、注入故障、測試試用例設計、系統測試報告)
·系統轉換基礎知識
3.5 系統運行和維護知識
·系統運行管理知識
·系統維護知識
·系統評價知識
4. 安全性知識
·安全性基本概念(網路安全、操作系統安全、資料庫安全)
·計算機病毒的防治,計算機犯罪的防範,容災
·訪問控制、防闖入、安全管理措施
·加密與解密機制
·風險分析、風險類型、抗風險措施和內部控制
5.標准化知識
·標准化意識,標准化的發展,標准出台過程
·國際標准、國家標准、行業標准、企業標准基本知識
·代碼標准、文件格式標准、安全標准軟體開發規范和文檔標准
·標准化機構
6.信息化基礎知識
·信息化意識
·全球信息化趨勢、國家信息化戰略、企業信息化戰略和策略
·有關的法律、法規
·遠程教育、電子商務、電子政務等基礎知識
·企業信息資源管理基礎知識
7.計算機專業英語
·掌握計算機技術的基本詞彙
·能正確閱讀和理解計算機領域的英文資料
考試科目2:資料庫系統設計與管理
1.資料庫設計
1.1理解系統需求說明
·了解用戶需求、確定系統范圍
·確定應用系統資料庫的各種關系
·現有環境與新系統環境的關系
·新系統中的數據項、數據字典、數據流
1.2 系統開發的准備
·選擇開發方法,准備開發環境,制訂開發計劃
1.3 設計系統功能
·選擇系統機構,設計各子系統的功能和介面,設計安全性策略、需求和實現方法,制定詳細的工作流和數據流
1.4 資料庫設計
1.4.1 設計數據模型
·概念結構設計(設計ER模型)
·邏輯結構設計(轉換成DBMS所能接收的數據模型)
·評審設計
1.4.2 物理結構設計
·設計方法與內容
·存取方法的選擇
·評審設計與性能預測
1.4.3 資料庫實施與維護
·數據載入與應用程序調試
·資料庫試運行
·資料庫運行與維護
1.4.4 資料庫的保護
·資料庫的備份與恢復
·資料庫的安全性
·資料庫的完整性
·資料庫的並發控制
1.5 編寫外部設計文檔
·編寫系統說明書(系統配置圖、各子系統關系圖、系統流程圖,系統功能說明、輸入輸出規格說明、數據規格說明、用戶手冊框架)
·設計系統測試要求
1.6 設計評審
2. 資料庫應用系統設計
2.1 設計資料庫應用系統結構
·信息系統的架構(如Client/Server)與DBMS
·多用戶資料庫環境(文件伺服器體系結構、Client/Server體系結構)
·大規模資料庫和並行計算機體系結構(SMP、MPP)
·中間件角色和相關工具
·按構件分解,確定構件功能規格以及構件之間的介面
2.2 設計輸入輸出
·屏幕界面設計,設計輸入輸出檢查方法和檢查信息
·資料庫交互與連接(掌握C程序設計語言,以及Java、Visual Basic、Visual C++、PowerBuilder、Delphi中任一種開發工具與資料庫互連的方法(如何與資料庫伺服器溝通))
2.3 設計物理數據
·分析事務在資料庫上運行的頻率和性能要求,確定邏輯數據組織方式、存儲介質,設計索引結構和處理方式
·將邏輯數據結構變換成物理數據結構,計算容量(空間代價),確定存取方法(時間效率)、系統配置(維護代價)並進行優化
2.4 設計安全體系
·明確安全等級
·資料庫的登錄方式
·資料庫訪問
·許可(對象許可、命令許可、授權許可的方法)
2.5 應用程序開發
2.5.1 應用程序開發
·選擇應用程序開發平台
·系統實施順序
·框架開發
·基礎小組的程序開發
·源代碼控制
·版本控制
2.5.2 模塊劃分(原則、方法、標准)
2.5.3 編寫程序設計文檔
·模塊規格說明書(功能和介面說明、程序處理邏輯的描述、輸入輸出數據格式的描述)
·測試要求說明書(測試類型和目標,測試用例,測試方法)
2.5.4 程序設計評審
2.6 編寫應用系統設計文檔
·系統配置說明、構件劃分圖、構件間的介面、構件處理說明、屏幕設計文檔、報表設計文檔、程序設計文檔、文件設計文檔、資料庫設計文檔
2.7 設計評審
3. 資料庫應用系統實施
3.1 整個系統的配置與管理
3.2 常用資料庫管理系統的應用(SQL Server、Oracle、Sybase、DB2、Access或Visual Foxpro)
·創建資料庫
·創建表、創建索引、創建視圖、創建約束、創建UDDT(用戶自定義類型)
·創建和管理觸發器
·建立安全體系
3.3 資料庫應用系統安裝
·擬定系統安裝計劃(考慮費用、客戶關系、雇員關系、後勤關系和風險等因素)
·擬定人力資源使用計劃(組織機構安排的合理性)
·直接安裝(安裝新系統並使系統快速進入運行狀態)
·並行安裝(新舊系統並行運行一段時間)
·階段安裝(經過一系列的步驟和階段使新系統各部分逐步投入運行)
3.4 資料庫應用系統測試
·擬定測試目標、計劃、方法與步驟
·數據載入,准備測試數據
·指導應用程序員進行模塊測試進行驗收
·准備系統集成測試環境測試工具
·寫出資料庫運行測試報告
3.5 培訓與用戶支持
4.資料庫系統的運行和管理
4.1 資料庫系統的運行計劃
·運行策略的確定
·確定資料庫系統報警對象和報警方式
·資料庫系統的管理計劃(執行,故障/恢復,安全性,完整性,用戶培訓和維護)
4.2 資料庫系統的運行和維護
·新舊系統的轉換
·收集和分析報警數據(執行報警、故障報警、安全報警)
·連續穩定的運行
·資料庫維護(資料庫重構、安全視圖的評價和驗證、文檔維護)
·資料庫系統的運行統計(收集、分析、提出改進措施)
·關於運行標准和標准改進一致性的建議
·資料庫系統的審計
4.3 資料庫管理
·數據字典和數據倉庫的管理
·數據完整性維護和管理(實體完整性、參照完整性)
·資料庫物理結構的管理(保證數據不推遲訪問)
·資料庫空間及碎片管理
·備份和恢復(順序、日誌(審計痕跡)、檢查點)
·死鎖管理(集中式、分布式)
·並發控制(可串列性、鎖機制、時間戳、優化)
·數據安全性管理(加密、安全、訪問控制、視圖、有效性確認規則)
·資料庫管理員(DBA)職責
4.4 性能調整
·SQL語句的編碼檢驗
·表設計的評價
·索引的改進
·物理分配的改進
·設備增強
·資料庫性能優化
4.5 用戶支持
·用戶培訓
·售後服務
5. SQL
5.1 資料庫語言
·資料庫語言的要素
·資料庫語言的使用方式(互動式和嵌入式)
5.2 SQL概述
·SQL語句的特徵
·SQL語句的基本成分
5.3 資料庫定義
·創建資料庫(Create Datebase)、創建表(Create Table)
·定義數據完整性
·修改表(Alter Table)、刪除表(Drop Table)
·定義索引(Create Index)、刪除索引(Drop Index)
·定義視圖(Create View)、刪除視圖(Drop View)、更新視圖
5.4 數據操作
·Select語句的基本機構
·簡單查詢
·SQL中的選擇、投影
·字元串比較,涉及空值的比較
·日期時間,布爾值,輸出排序
·多表查詢
·避免屬性歧義
·SQL中的連接、並、交、差
·SQL中的元組變數
·子查詢
5.5 完整性控制與安全機制
·主鍵(Primary Key)約束
·外鍵(Foreign Key)約束
·屬性值上的約束(Null、Check、Create Domain)
·全局約束(Create Assertions)
·許可權、授權(Grant)、銷權(Revoke)
5.6 創建觸發器(Create Trigger)
5.7 SQL使用方式
·互動式SQL
·嵌入式SQL
·SQL與宿主語言介面(Declare、共享變數、游標、卷游標)
·動態SQL
·API
5.8 SQL 標准化
6. 網路環境下的資料庫
6.1 分布式資料庫
6.1.1 分布式資料庫的概念
·分布式資料庫的特點與目標
6.1.2 分布式資料庫的體系結構
·分布式資料庫的模式結構
·數據分布的策略(數據分片、分布透明性)
·分布式資料庫管理系統
6.1.3 分布式查詢處理和優化
6.1.4 分布式事務管理
·分布式資料庫的恢復(故障、恢復、2段提交、3段提交)
·分布式資料庫的透明性(局部、分裂、復制、處理、並發、執行)
6.1.5 分布式資料庫系統的應用
6.2 網路環境下資料庫系統的設計與實施
·數據的分布設計
·負載均衡設計
·資料庫互連技術
6.3 面向Web的DBMS技術
·三層體系結構
·動態Web網頁
·ASP、JSP、XML的應用
7.資料庫的安全性
7.1 安全性策略的理解
·資料庫視圖的安全性策略
·數據的安全級別(最重要的、重要的、注意、選擇)
7.2 資料庫安全測量
·用戶訪問控制(採用口令等)
·程序訪問控制(包含在程序中的SQL命令限制)
·表的訪問控制(視圖機制)
·控制訪問的函數和操作
·外部存儲數據的加密與解密
8. 資料庫發展趨勢與新技術
8.1 面向對象資料庫(OODBMS)
8.1.1 OODBMS的特徵
8.1.2 面向對象數據模型
·對象結構、對象類、繼承與多重繼承、對象標識、對象包含、對象嵌套
8.1.3 面向對象資料庫語言
8.1.4 對象關系資料庫系統(ORDBMS)
·嵌套關系
·復雜類型
·繼承、引用類型
·與復雜類型有關的查詢
·函數與過程
·面向對象與對象關系
·ORDBMS應用領域
8.2 企業資源計劃(ERP)和資料庫
8.2.1 ERP概述
·基本MRP(製造資源計劃)、閉環MRP、ERP
·基本原理、發展趨勢
·ERP設計的總體思路(一個中心、兩類業務、三條干線)
8.2.2 ERP與資料庫
·運行資料庫與ERP數據模型之間的關系
·運行資料庫與ERP資料庫之間的關系
8.2.3 案例分析
8.3 決策支持系統的建立
·決策支持系統的概念
·數據倉庫設計
·數據轉移技術
·聯機分析處理(OLAP)技術
·企業決策支持解決方案
·聯機事務處理(OLTP)
④ 企業如何更好的搭建數據倉庫
0 引 言
隨著計算機應用的深入,大量數據存儲在計算機中,信息的存儲、管理、使用和維護顯得越來越重要,而傳統的資料庫管理系統很難滿足其要求。為了解決大數據量、異構數據集成以及訪問數據的響應速度問題,採用數據倉庫技術,為最終用戶處理所需的決策信息提供有效方法。
1 數據倉庫
數據倉庫是為管理人員進行決策提供支持的一種面向主題的、集成的、非易失的並隨時間而變化的數據集合。數據倉庫是一種作為決策支持系統和聯機分析應用數據源的結構化數據環境。
從目前數據倉庫的發展來講,數據可以存放於不同類型的資料庫中,數據倉庫是將異種數據源在單個站點以統一的模型組織的存儲,以支持管理決策。數據倉庫技術包括數據清理、數據集成、聯機分析處理(OLAP)和數據挖掘(DM)。OLAP是多維查詢和分析工具,支持決策者圍繞決策主題對數據進行多角度、多層次的分析。OLAP側重於交互性、快速的響應速度及提供數據的多維視圖,而DM則注重自動發現隱藏在數據中的模式和有用信息。OLAP的分析結果可以給DM提供分析信息,作為挖掘的依據;DM可以拓展OLAP分析的深度,可以發現OLAP所不能發現的更為復雜、細致的信息。OLAP是聯機分析處理,DM是通過對資料庫、數據倉庫中的數據進行分析而獲得知識的方法和技術,即通過建立模型來發現隱藏在組織機構資料庫中的模式和關系。這兩者結合起來可滿足企業對數據整理和信息提取的要求,幫助企業高層做出決策。在歐美發達國家,以數據倉庫為基礎的在線分析處理和數據挖掘應用,首先在金融、保險、證券、電信等傳統數據密集型行業取得成功。IBM、oracle、Teradata、Microsoft、Netezza和SAS等有實力的公司相繼推出了數據倉庫解決方案。
近幾年開始流行「分布式數據倉庫」,是在多個物理位置應用全局邏輯模型。數據被邏輯地分成多個域,但不同位置不會有重復的數據。這種分布式方法可以為不同的物理數據創建安全區域,或為全球不同時區的用戶提供全天候的服務。此外,有由Kognitio發起數據倉庫託管服務,即DBMS廠商為客戶開發和運行數據倉庫。這種最初出現在業務部門,業務部門購買託管服務,而不是使用企業內IT部門提供的數據倉庫。
2 數據挖掘技術
數據挖掘(DataMining),又稱資料庫中的知識發現(KnoWledge Discoveryin Database,KDD),是指從大型資料庫或數據倉庫中提取隱含的、未知的、非平凡的及有潛在應用價值並最終可為用戶理解的模式過程。它是資料庫研究中的很有應用價值的新領域,是人工智慧、機器學習、數理統計學和神經元網路等技術在特定的數據倉庫領域中的應用。數據挖掘的核心模塊技術歷經數十年的發展,其中包括數理統計、人工智慧、機器學習。從技術角度看,數據挖掘是從大量的、不完全的、有雜訊的、模糊的、隨機的實際數據中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。從商業應用角度看,數據挖掘是嶄新的商業信息處理技術,其主要特點是對商業資料庫中的大量業務數據進行抽取、轉化、分析和模式化處理,從中提取輔助商業決策的關鍵知識。
從技術角度講,數據挖掘可應用於以下方面:
(1)關聯規則發現是在給定的事物集合中發現滿足一定條件的關聯規則,簡單來講,就是挖掘出隱藏在數據間的相互關系,為業務主題提供指導。
(2)序列模式分析和關聯規則發現相似,但其側重點在於分析數據間的前後關系。模式是按時間有序的。序列模式發現是在與時間有關的事物資料庫中發現滿足用戶給定的最小支持度域值的所有有序序列。
(3)分類分析與聚類分析,分類規則的挖掘實際上是根據分類模型從數據對象中發現共性,並把它們分成不同的類的過程。聚類時間是將d維空間的n個數據對象,劃分到k個類中,使得一個類內的數據對象間的相似度高於其他類中數據對象。聚類分析可以發現沒有類別標記的一組數據對象的特性,總結出一個類別的特徵。
(4)自動趨勢預測,數據挖掘能自動在大型資料庫裡面尋找潛在的預測信息。一個典型的利用數據挖掘進行預測的例子就是目標營銷。數據挖掘工具可以根據過去郵件推銷中的大量數據找出其中最有可能對將來的郵件推銷作出反應的客戶。
3 聯機分析(OLAP)處理技術
聯機分析(OLAP)是數據倉庫實現為決策提供支持的重要工具,是共享多維信息,針對特定問題的聯機數據訪問和分析的快速軟體技術。是使分析人員、管理人員或執行人員能夠從多種角度對從原始數據中轉化出來,能夠真正為用戶所理解,並真實反映企業維特性的信息進行快速、一致、交互地存取,從而獲得對數據的更深入了解的一類軟體技術(OLAP委員會的定義)。OLAP的特性包括:①快速性:系統應能在5s內對用戶的大部分分析要求做出反應;②可分析性:能處理與應用有關的任何邏輯分析和統計分析;⑨多維性:多維性是OLAP的關鍵屬性。系統必須提供對數據的多維視圖和分析,包括對層次維和多重層次維的完全支持;④信息性:系統應能及時獲得信息,並能管理大容量信息。
OLAP的數據結構是多維,目前存在方式:①超立方結構(Hypercube),指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各部分都有相同的維屬性(收縮超立方結構。這種結構的數據密度更大,數據的維數更少,並可加入額外的分析維);②多立方結構(Multicube),即將超立方結構變為子立方結構。面向某特定應用對維分割,它具有強靈活性,提高了數據(特別是稀疏數據)的分析效率。分析方法包括:切片、切塊、旋轉、鑽取等。
OLAP也被稱為共享的多維數據的快速分析FASMI,應用在數據密集型行業,如市場和銷售分析、電子商務的分析、基於歷史數據的營銷、預算、財務報告與整合、管理報告、利益率、質量分析等。
4 小 結
採用數據倉庫的數據挖掘及聯機分析技術實現的決策支持系統,是彌補傳統輔助決策系統能力不足的有效途徑,具有重要的現實意義。
⑤ 數據倉庫在電子商務方面的應用背景
企業信息資源(數據)是連接database&ebusiness的橋梁
你從這一點再去深入研究吧
⑥ 數據倉庫在沃爾瑪的電子商務中起到了什麼作用
1.IBM是公認的電子商務方案解決最佳提供商
2.促進很大,對市場范圍,銷售模式,成版本,流通(零權庫存),定製化生產等等
3.物流更加智能化,效用可能大大提供。說白了,就是選擇最優配送方案,有最近的送貨,選擇最佳路線送貨。。。一句話,用最近的距離,最短的時候,送到最正確的地點!
4.作用,就是把大量的有關聯、無關聯的數據整合到一起,提供信息檢索、智能分析,決策支持等等1
⑦ 電商網站在數據倉庫,數據集市建設方面有什麼成就或規劃
網站和資料庫分離技術。
⑧ 說明數據倉庫的數據模型為什麼含時間維數據
您好,多維數據模型最大的優點就是其基於分析優化的數據組織和存儲模式。舉個簡單的例子,電子商務網站的操作資料庫中記錄的可能是某個時間點,某個用戶購買了某個商品,並寄送到某個具體的地址的這種記錄的集合,於是我們無法馬上獲取2010年的7月份到底有多少用戶購買了商品,或者2010年的7月份有多少的浙江省用戶購買了商品?但是在基於多維模型的基礎上,此類查詢就變得簡單了,只要在時間維上將數據聚合到2010年的7月份,同時在地域維上將數據聚合到浙江省的粒度就可以實現,這個就是OLAP的概念,之後會有相關的文章進行介紹。
多維模型的缺點就是與關系模型相比其靈活性不夠,一旦模型構建就很難進行更改。比如一個訂單的事實,其中用戶可能購買了多種商品,包括了時間、用戶維和商品數量、總價等度量,對於關系模型而言如果我們進而需要區分訂單中包含了哪些商品,我們只需要另外再建一張表記錄訂單號和商品的對應關系即可,但在多維模型裡面一旦事實表構建起來後,我們無法將事實表中的一條訂單記錄再進行拆分,於是無法建立以一個新的維度——產品維,只能另外再建個以產品為主題的事實表。
所以,在建立多維模型之前,我們一般會根據需求首先詳細的設計模型,應該包含哪些維和度量,應該讓數據保持在哪個粒度上才能滿足用戶的分析需求。
這里對數據倉庫的多維模型進行了簡單的介紹,你是不是想到了其實你在分析數據的時候很多的數據就是復合多維模型的結構的,或者你已經用自己的方法構建出了多維模型或者實現的數據的多維化展示,歡迎與我分享。
⑨ 分析當前的主要電商網站在數據倉庫,數據集市建設方面有什麼成就或規劃
找黃岡慧動網路科技