Báo cáo cuối kì Technical writing and presntasion PDF

Title Báo cáo cuối kì Technical writing and presntasion
Author Nhà Bao Việc
Course Technical Writing and Presentation
Institution Trường Đại học Bách khoa Hà Nội
Pages 68
File Size 2.9 MB
File Type PDF
Total Downloads 62
Total Views 288

Summary

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC BÁO CÁO MÔN HỌCTECHNICAL WRITING AND PRESENTATIONĐề tài: INTRODUCTION TO DATA MININGGiáo viên hướng dẫn: Tsê Chí Ngọc Nhóm thực hiện : Nhóm 10Họ và tên MSSVHà Văn Học 20180264 Phạm Đức Anh 20180262 Nguyễn Thị Ngọc Huyền 20173533Hà Nội,...


Description

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC 

BÁO CÁO MÔN HỌC TECHNICAL WRITING AND PRESENTATION Đề tài: INTRODUCTION TO DATA MINING

Giáo viên hướng dẫn:

Ts.Lê Chí Ngọc

Nhóm thực hiện

Nhóm 10

:

Họ và tên

MSSV

Hà Văn Học

20180264

Phạm Đức Anh

20180262

Nguyễn Thị Ngọc Huyền

20173533

Hà Nội, 06/01/22

MỤC LỤC Mục tiêu học tập .........................................................................................................4 Phạm vi khai thác dữ liệu ...........................................................................................6 Khám phá và giảm thiểu dữ liệu .............................................................................8 Lấy mẫu ..................................................................................................................8 Ví dụ 1. Sử dụng XLMiner để lấy mẫu từ trang tính ..........................................8 Trực quan hóa dữ liệu ...........................................................................................10 Ví dụ 2. Một Boxplot cho Dữ liệu rủi ro tín dụng (Credit Risk Data) .............11 Ví dụ 3. Một biểu đồ tọa độ song song cho Dữ liệu rủi ro tín dụng..................13 Ví dụ 4. Ma trận phân tán cho dữ liệu rủi ro tín dụng.......................................14 Ví dụ 5 Một biểu đồ biến đổi của Dữ liệu rủi ro tín dụng.................................14 Dữ liệu bẩn .....................................................................................................16 Phân tích cluster ....................................................................................................16 Ví dụ 6. Dữ liệu nhóm các trường đại học và cao đẳng trong..........................20 Phân loại .........................................................................................................25 Một giải thích trực quan về phân loại ...................................................................26 Ví dụ 7. Phân loại các quyết định phê duyệt tín dụng một cách trực quan .......26 Ví dụ 8.Tập dữ liệu phân vùng trong XLMiner ................................................28 Phân loại dữ liệu mới ............................................................................................31 Ví dụ 9 Phân loại dữ liệu mới cho các quyết định tín dụng bằng cách sử dụng điểm tín dụng và năm lịch sử tín dụng ..............................................................32 Kỹ thuật phân loại...........................................................................................32 Ví dụ 10 .Phân loại các quyết định tín dụng bằng thuật toán k-NN..................34 Ví dụ 11.Phân loại dữ liệu mới bằng k-NN.......................................................37 Phân tích phân biệt (Discriminant Analysis ) .......................................................38 Ví dụ 12.Phân loại các quyết định tín dụng bằng cách sử dụng phân tích phân biệt .....................................................................................................................39 Ví dụ 13.Sử dụng phân tích phân biệt để phân loại dữ liệu mới .......................43 2

Hồi quy logistic ..............................................................................................44 Ví dụ 14.Phân loại các quyết định phê duyệt tín dụng sử dụng hồi quy logistic ............................................................................................................................46 KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU .........................52 Phân loại là gì? ......................................................................................................52 Các vấn đề quan tâm của phân loại ......................................................................55 Phân chia đệ quy này dừng khi một trong những điều kiện sau là đúng:.............58 Phân cụm phân cấp: ..............................................................................................63

3

Mục tiêu học tập Sau khi học chương này, chúng ta có thể: • Xác định khai thác dữ liệu và một số cách tiếp cận phổ biến được sử dụng trong khai thác dữ liệu. • Giải thích cách phân tích cụm được sử dụng để khám phá và giảm dữ liệu. • Áp dụng các kỹ thuật phân tích cụm bằng XLMiner. • Giải thích mục đích của các phương pháp phân loại, cách đo lường hiệu suất phân loại và việc sử dụng dữ liệu đào tạo và xác nhận. • Áp dụng k-Hàng xóm gần nhất, phân tích phân biệt đối xử, và hồi quy logistic để phân loại bằng cách sử dụng XLMiner. • Mô tả khai thác quy tắc kết hợp và việc sử dụng nó trong phân tích rổ thị trường. • Sử dụng XLMiner để phát triển các quy tắc kết hợp. • Sử dụng phân tích tương quan cho nguyên nhân và kết quả làm mẫu

Trong một bài báo trên tạp chí Analytics, Talha Omer nhận thấy rằng việc sử dụng điện thoại di động để thực hiện cuộc gọi thoại để lại một lượng dữ liệu đáng kể. " Nhà cung cấp điện thoại di động biết mọi người bạn đã gọi, bạn đã nói chuyện trong bao lâu , bạn đã gọi lúc mấy giờ và liệu cuộc gọi của bạn có thành công hay không hay đã bị ngắt quãng. Nó cũng biết bạn đang ở đâu, bạn thực hiện hầu hết các cuộc gọi từ đâu, quảng cáo nào bạn đang phản hồi, bạn đã mua bao nhiêu lần trước đó, v.v. ” Nó cũng biết bạn đang ở đâu, bạn thực hiện hầu hết các cuộc gọi từ đâu, bạn đang phản hồi chương trình khuyến mãi nào, bạn đã mua bao nhiêu lần trước đó , v.v. Xét đến thực tế là đại đa số mọi người ngày nay sử dụng điện thoại di động, 4

một lượng dữ liệu khổng lồ về hành vi của người tiêu dùng luôn có sẵn. Tương tự, nhiều cửa hàng hiện nay sử dụng thẻ tích điểm . cho phép người tiêu dùng tận dụng lợi thế của giá ưu đãi chỉ dành cho những người sử dụng thẻ. Tuy nhiên, khi họ làm như vậy, thẻ để lại hậu quảdữ liệu kỹ thuật số về các mô hình mua hàng. Làm thế nào một doanh nghiệp có thể khai thác những dữ liệu này? Nếu họ có thể hiểu rõ hơn về các mẫu và mối quan hệ ẩn trong dữ liệu, họ không chỉ có thể hiểu thói quen mua hàng mà còn có thể tùy chỉnh quảng cáo , khuyến mại, phiếu giảm giá, v.v. cho từng khách hàng và gửi tin nhắn văn bản và ưu đãi qua email được nhắm mục tiêu (chúng tôi ' không nói chuyện spam ở đây, nhưng người dùng đã đăng ký chọn tham gia các tin nhắn như vậy). Khai thác dữ liệu là một lĩnh vực phân tích kinh doanh đang phát triển nhanh chóng, tập trung vào việc hiểu rõ hơn các đặc điểm và mô hình giữa các biến nói chung cơ sở dữ liệu sử dụng nhiều công cụ thống kê và phân tích. Nhiều công cụ mà chúng ta đã nghiên cứu trong các chương trước, chẳng hạn như trực quan hóa dữ liệu, tóm tắt dữ liệu, PivotTables, phân tích tương quan và hồi quy, và các kỹ thuật khác, được sử dụng rộng rãi trong khai thác dữ liệu. Tuy nhiên, khi lượng dữ liệu tăng lên theo cấp số nhân, nhiều phương pháp thống kê và phân tích khác đã được phát triển để xác định mối quan hệ giữa các biến trong tập dữ liệu lớn và hiểu các mẫu ẩn mà chúng có thể chứa.

Trong chương này, chúng tôi giới thiệu một số phương pháp phổ biến hơn và sử dụng phần mềm XLMiner để triển khai chúng trong môi trường bảng tính. Nhiều thủ tục dữ liệu yêu cầu kiến thức thống kê nâng cao để hiểu lý thuyết cơ bản. Do đó, chúng tôi tập trung vào các ứng dụng đơn giản và hiểu mục đích và ứng dụng của các kỹ thuật hơn là cơ sở lý thuyết của chúng.Ngoài ra, chúng tôi lưu ý rằng chương

5

này không nhằm mục đích đề cập đếntất cả cáckhía cạnh của khai thác dữ liệu. Nhiều kỹ thuật khác có sẵn trong XLMinerkhông được mô tả trong chương này.

Phạm vi khai thác dữ liệu Khai thác dữ liệu có thể được coi là phân tích mô tả một phần và mô tả một phần. Trong phân tích mô tả, các công cụ khai thác dữ liệu giúp các nhà phân tích xác định các mẫu trong dữ liệu. Ví dụ: biểu đồ Excel và PivotTables là những công cụ hữu ích để mô tả các mẫu và phân tích tập dữ liệu; tuy nhiên, chúng yêu cầu sự can thiệp thủ công. Các mô hình phân tích và dự báo hồi quy giúp chúng ta dự đoán các mối quan hệ hoặc giá trị tương lai của các biến quan tâm. Theo quan sát của một số nhà nghiên cứu, “ranh giới giữa dự đoán và mô tả không rõ ràng (một số mô hình dự đoán có thể mang tính mô tả, ở mức độ dễ hiểu và ngược lại).” Trong hầu hết các ứng dụng kinh doanh, mục đích của phân tích mô tả là để giúp các nhà quản lý dự đoán tương lai hoặc đưa ra các quyết định tốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy, chúng ta có thể nói chung rằng khai thác dữ liệu chủ yếu là một phương pháp phân tích dự đoán. Một số cách tiếp cận phổ biến trong khai thác dữ liệu bao gồm:

 Thăm dò (khám phá) và giảm thiểu dữ liệu: Điều này thường liên quan đến việc xác định các nhóm trong đó các yếu tố của các nhóm giống nhau về mặt nào đó. Cách tiếp cận này thường được sử dụng để tìm hiểu sự khác biệt giữa các khách hàng và phân khúc họ thành các nhóm đồng nhất. Ví dụ: các cửa hàng bách hóa của Macy đã xác định được 4 phong cách sống của khách hàng: “Katherine”, một người ăn mặc truyền thống, cổ điển, không chịu nhiều rủi ro và thích chất lượng; “Julie”, tân cổ điển và sắc sảo hơn một chút nhưng vẫn cổ điển; “Erin”, một khách hàng đương đại yêu thích sự mới mẻ và mua sắm theo thương hiệu; và “Alex”, khách hàng 6

thời trang chỉ muốn những thứ mới nhất và tuyệt vời nhất (họ cũng có phiên bản dành cho nam) .4 Việc phân khúc như vậy rất hữu ích trong các ho ạt động thiết kế và tiếp thị để nhắm mục tiêu tốt hơn đến việc cung cấp sản phẩm. Các kỹ thuật này cũng đã được sử dụng để xác định các đặc điểm của những nhân viên thành công và cải thiện các phương thức tuyển dụng và tuyển dụng.  Phân loại: Phân loại là quá trình phân tích dữ liệu để dự đoán cách phân loại một phần tử dữ liệu mới. Một ví dụ về phân loại là lọc thư rác trong ứng dụng email. Bằng cách kiểm tra các đặc điểm văn bản của một thư (tiêu đề chủ đề, các từ khóa, v.v.), thư có được phân lo ại là rác hay không. Các phương pháp phân loại có thể giúp dự đoán liệu một giao dịch thẻ tín dụng có thể gian lận hay không, người xin vay có r ủi ro cao hay không hoặc liệu người tiêu dùng có phản ứng với một quảng cáo hay không.  Sự liên kết: Liên kết là quá trình phân tích cơ sở dữ liệu để xác định các liên kết tự nhiên giữa các biến và tạo ra các quy tắc cho các khuyến nghị mua hoặc tiếp thị mục tiêu. Ví dụ: Netflix sử dụng liên kết để hiểu khách hàng thích loại phim nào và đưa ra các đề xuất dựa trên dữ liệu. Amazon.com cũng đưa ra các đề xuất dựa trên các giao dịch mua trong quá khứ. Thẻ khách hàng thân thiết của siêu thị thu thập dữ liệu về thói quen mua hàng của khách hàng và in phiếu giảm giá tại thời điểm mua hàng dựa trên những gì hiện đã mua.  Mô hình nhân quả: Mô hình nhân quả là quá trình phát triển các mô hình phân tích để mô tả mối quan hệ giữa các chỉ số thúc đẩy hiệu suất kinh doanh — ví dụ: lợi nhuận, sự hài lòng của khách hàng hoặc sự hài lòng của nhân viên. Hiểu được các yếu tố thúc đẩy hiệu suất có thể dẫn đến các quyết định tốt hơn để cải thiện hiệu suất. Ví dụ, nhóm kiểm soát của Johnson Controls, Inc., đã xem xét mối quan hệ giữa sự hài lòng và tỷ lệ gia hạn hợp đồng. Họ phát hiện ra rằng 91% các trường hợp gia hạn hợp đồng đến từ những khách hàng hài lòng ho ặc rất hài lòng, và những khách hàng không hài lòng có tỷ lệ bỏ trốn cao hơn nhiều. Mô hình của họ dự đoán 7

rằng sự gia tăng một điểm phần trăm trong điểm hài lòng tổng thể có giá trị 13 triệu đô la khi gia hạn hợp đồng dịch vụ hàng năm. Kết quả là, họ đã xác định được các quyết định sẽ cải thiện sự hài lòng của khách hàng. Phân tích hồi quy và tương quan là các công cụ chính để lập mô hình nguyên nhân và kết quả.

Khám phá và giảm thiểu dữ liệu Một số kỹ thuật cơ bản trong khai thác dữ liệu liên quan đến việc khám phá dữ liệu và "giảm dữ liệu" - nghĩa là, chia nhỏ các bộ dữ liệu lớn thành các nhóm ho ặc phân đoạn dễ quản lý hơn cung cấp cái nhìn sâu sắc hơn. Chúng tôi đã thấy nhiều kỹ thuật trước đó trong cuốn sách này để khám phá dữ liệu và giảm dữ liệu. Ví dụ: biểu đồ, phân bố tần số và biểu đồ, và thống kê tóm tắt cung cấp thông tin cơ bản về các đặc tính của dữ liệu. Đặc biệt, PivotTables r ất hữu ích trong việc khám phá dữ liệu từ các khía cạnh khác nhau và giảm dữ liệu. XLMiner cung cấp nhiều công cụ và kỹ thuật để khám phá dữ liệu bổ sung hoặc mở rộng các khái niệm và công cụ mà chúng ta đã nghiên cứu trong các chương trước. đó là được tìm thấy trong nhóm Phân tích Dữ liệu của dải băng XLMiner, được hiển thị trong Hình 1.1. Lấy mẫu Khi xử lý tập dữ liệu lớn và "dữ liệu lớn", có thể tốn kém hoặc mất thời gian để xử lý tất cả dữ liệu. Thay vào đó, chúng tôi có thể phải sử dụng một mẫu. Chúng tôi đã giới thiệu quy trình lấy mẫu trong Chương 6. XLMiner có thể lấy mẫu từ trang tính Excel hoặc từ Microsoft Truy cập cơ sở dữ liệu. Ví dụ 1. Sử dụng XLMiner để lấy mẫu từ trang tính 8

Hình 1.1 Ruy băng XLMiner

Hình 1.2 Phần dữ liệu rủi ro tín dụng trên tệp Excel Hình 1.2 cho thấy một phần của Bảng tính Dữ liệu cơ sở tệp Excel dữ liệu rủi ro tín dụng. Mặc dù chắc chắn không phải là "dữ liệu lớn", nó bao gồm 425 bản ghi. Từ dữ liệu nhóm phân tích (Data Analysis) trong ruy-băng XLMiner, nhấp vào nút mẫu (Sample) và chọn mẫu (Sample) từ trang tính (Worksheet).Đảm bảo rằng vi dữ liệu là chính xác và bao gồm các tiêu đề.

Chọn tất cả các biến trong ngăn cửa sổ bên trái và di chuyển chúng sangbên phải bằng cách sử dụng nút ≤ (nút này thay đổi thành ≤ nếu tất cả các biến được chuyển 9

sang bên phải ).Chọn các tùy chọn trong phần Tùy chọn lấy mẫu (Sampling Options), trong trường hợp này, chúng tôi đã chọn 20 mẫu (không có thay thế trừ khi hộp mẫu có thay thế được chọn điều này tránh trùng lặp) bằng cách sử dụng lấy mẫu ngẫu nhiên đơn giản. Bằng cách nhập một giá trị vào hộp đặt hạt giống (Set), bạn có thể nhận được cùng một kết quả tại một thời điểm khác cho mục đích kiểm soát, nếu không một mẫu ng ẫu nhiên khác sẽ được chọn.

Hình 1.3 Dữ liệu rủi ro tín dụng Hình 1.4 cho thấy hộp thoại đã hoàn thành và hình 1.5 hiển thị kết quả.

Hình 1.4 Kết quả lấy mẫu XLMiner

Trực quan hóa dữ liệu

10

XLMiner cung cấp nhiều biểu đồ để trực quan hóa dữ liệu. Chúng tôi đã thấy nhiều trong số này, chẳng hạn như biểu đồ thanh, đường và phân tán và biểu đồ. Tuy nhiên, XLMiner cũng có khả năng tạo các ô hộp, biểu đồ tọa độ song song, biểu đồ ma trận phân tán,và các biểu đồ biến đổi. Chúng được tìm thấy từ nút Khám phá trong nhóm Phân tích dữ liệu.

Hình 1.5 Boxplot cho các tháng có việc làm theo tình trạng hôn nhân

Ví dụ 2. Một Boxplot cho Dữ liệu rủi ro tín dụng (Credit Risk Data)

Chúng tôi sẽ xây dựng một ô vuông cho số tháng được tuyển dụng cho mỗi giá trị tình trạng hôn nhân từ Dữ liệu rủi ro tín dụng (Credit Risk Data) . Đầu tiên, chọn trình hướng dẫn biểu đồ (Chart Wizard) từ nút khám phá (Explore) trong nhóm phân tích dữ liệu (Data Analysis) trong tab XLMiner. Chọn Boxplot,trong hộp tho ại thứ hai, chọn Tháng (Months Employed) sử dụng làm biến để vẽ biểu đồ trên trục tung. 11

Trong hộp thoại tiếp theo, chọn tình trạng hôn nhân (Marital Status) làm biến để vẽ trên trục hoành. Nhấp vào kết thúc (Finish).

Hình 1.5 Boxplot cho các tháng có việc làm theo tình trạng hôn nhân

Kết quả được thể hiện trong hình 1.5. Phạm vi hộp hiển thị thứ 25 và 75 phần trăm (phạm vi liên phần phân vị, IQR) , đường liền nét trong hộp là trung vị và đường chấm trong hộp là giá trị trung bình. Boxplots (đôi khi được gọi là đồ thị hình hộp và râu) hiển thị bằng đồ thị năm thống kê chính của tập dữ liệu — tối thiểu, phần tư thứ nhất, trung vị, phần tư thứ ba và tối đa - và rất hữu ích trong việc xác định hình dạng của phân phối và các giá trị ngoại lai trong dữ liệu. Biểu đồ tọa độ song song (parallel coordinates chart ) bao gồm một tập hợp các trục tung, một trục cho mỗi biến được chọn. Đối với mỗi quan sát, một đường thẳng được vẽ nối các trục thẳng đứng. Điểm tại đó đường thẳng cắt qua trục biểu thị giá trị cho biến đó. Biểu đồ tọa độ song song tạo ra "cấu hình đa biến " và giúp nhà phân tích khám phá dữ liệu và rút ra kết luận cơ bản 12

Ví dụ 3. Một biểu đồ tọa độ song song cho Dữ liệu rủi ro tín dụng Đầu tiên, chọn trình hướng dẫn biểu đồ (Chart Wizard) từ nút Khám phá (Explore)trong nhóm phân tích Dữ liệu (Data Analysis) trong tab XLMiner. Chọn tọa độ Song song (Parallel Coordinates) . Trong hộp thoại thứ hai, chọn kiểm tra(Checking), Tiết kiệm(Savings) , Số tháng làm việc(Months Employed) và Tuổi(Age) tác làm các biến để bao gồm. Hình 1.6 cho thấy k ết quả. Trong hộp thả xuống nhỏ ở trên cùng, bạn có thể chọn tô màu các đường theo một trong các biến.

Hình 1.6 Example of a Parallel Coordinates Plot Trong trường hợp này chúng tôi đã chọn để tô màu theo rủi ro tín dụng. Màu vàng thể hiện rủi ro tín dụng thấp và màu xanh lam tượng trưng cho mức cao . Chúng tôi thấyrằngnhững cá nhâncó số tháng làm việc thấp và độ tuổi thấp hơn có xu hướng 13

có rủi ro tín dụng cao , thể hiện qua mật độ của các đường màu xanh lam. Giống như với ô hộp, bạn có thể dễ dàng lọc dữ liệu để khám phá các kết hợp khác của các biến hoặc tập hợp con của dữ liệu. Ma trận biểu đồ phân tán (scatterplot matrix ) kết hợp một số biểu đồ phân tán vào một bảng điều khiển, cho phép người dùng trực quan hóa các mối quan hệ theo cặp giữa các biến. Ví dụ 4. Ma trận phân tán cho dữ liệu rủi ro tín dụng

Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân tích Dữ liệu trong tab XLMiner. Chọn Ma trận Scatterplot . Trong hộp tho ại tiếp theo, hãy chọn các hộp cho Tháng Khách hàng, S ố tháng Làm việc và Độ tuổi và nhấp vào Kết thúc. Hình 1.7 cho thấy kết quả. Dọc theo đường chéo là biểu đồ của các biến riêng lẻ. Ngoài đường chéo là biểu đồ phân tán của các cặp biến. Ví dụ: biểu đồ ở hàng thứ ba và cột thứ hai của hình cho thấy biểu đồ phân tán của các tháng có việc làm so với Tuổi. Lưu ý rằng số tháng được sử dụng nằm trên trục x và tuổi trên trục y. Dữ liệu dường như có xu hướng tuyến tính đi lên một chút , cho thấy rằng những người lớn tuổi đã làm việc trong một thời gian dài hơn. Lưu ý rằng có hai biểu đồ cho mỗi cặp biến với các trục được lật. Ví dụ: biểu đồ ở hàng thứ hai và cột thứ ba giống như biểu đồ chúng ta đã thảo lu ận, nhưng có độ tuổi trên trục x. Như trước đây, bạn có thể dễ dàng lọc dữ liệu để tạo các chế độ xem khác nhau

Cuối cùng, một biểu đồ biến chỉ cần vẽ một ma trận biểu đồ cho các biến đã chọn.

Ví dụ 5 Một biểu đồ biến đổi của Dữ liệu rủi ro tín dụng 14

Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân tích Dữ liệu trong tab XLMiner . Chọn Biến . Trong hộp thoại tiếp theo, hãy chọn hộp cho các biến mà bạn muốn đưa vào (chúng tôi đã giữ tất cả chúng) và nhấp vào Kết thúc. Hình 1.8 cho thấy kết quả. Công cụ này dễ sử dụng hơn nhiều so với công cụ Biểu đồ của Excel , đặc biệt là đối với nhiều biến trong tập dữ liệu và bạn có thể dễ dàng lọc dữ liệu để tạo ra các quan điểm khác nhau.

Hình 1.8 Ví dụ về Ma trận Scatterplot

Hình 1.9 Ví dụ về một lô biến

15

Dữ liệu bẩn Không có gì lạ khi tìm thấy các tập dữ liệu thực bị thiếu các giá trị hoặc lỗi. Các tập dữ liệu như vậy được gọi là "bẩn" và cần được "làm sạch" trước khi phân tích chúng. Một số cách tiếp cận được sử dụng để xử lý dữ liệu bị thiếu. Ví dụ, chúng tôi có thể đơn giản loại bỏ các bản ghi có chứa dữ liệu bị thiếu; ước tính các giá trị hợp lý cho các quan sát bị thiếu, chẳng hạn nhưgiá trị trung bình hoặc giá trị trung vị, hoặc sử dụng quy trình khai thác dữ liệu để đối phó với chúng. XLMiner có khả năng xử lý dữ liệu bị thiếu trong menu Chuyển đổi trong nhóm Phân tích dữ liệu. Chúng tôi khuyên bạn nên tham khảo Hướng dẫn sử dụng XLMiner từ menu Trợ giúp đểbiết thêmthông tin. Trong bất kỳ trường hợp nào, bạn nên cố gắng hiểuxem dữ liệu bị thiếuchỉ làsự kiện ngẫu nhiên hay có lý do hợp lý khiến chúng bị thiếu. Loại bỏ dữ liệu mẫumột cách bừa bãicó thể dẫn đến thông tin và kết luận sai lệch về dữ liệu. Các lỗi dữ liệu thường có thể được xác định từ các ngoại lệ. Một cách tiếp cận điển hình là đánh giá dữ liệu có và không có ngoại lệ và xác định xem liệutác động của chúng sẽ thay đổi đáng kể các kết luận và liệu có ...


Similar Free PDFs