Data Mining with RapidMiner (สำหรับผู้เริ่มต้น)

ผมได้ทำการรวบรวม VDO ที่ใช้สอน Data Mining ให้กับนักศึกษาบริหารธุรกิจมาไว้ใน blog นี้ สำหรับผู้ที่สนใจเรียนรู้ Data Mining ด้วยตนเอง โดยโปรแกรมที่ใช้คือ RapidMiner  และเนื้อหาการสอนจะอ้างอิงตามหนังสือภาษาอังกฤษชื่อ Data Mining for the Masses เขียนโดย. Matthew North  ผู้เรียนสามารถ download ข้อมูลที่ใช้ในการเรียน และเอกสารซึ่งผมได้แปลเป็นภาษาไทยไว้เพื่อประกอบการเรียนได้: เนื้อหาในการสอนมีดังนี้       1. การหา Correlation       2. การทำ Linear Regression      3. การทำ Decision Tree      4. การวิเคราะห์ ​Clustering (ใช้ K-Mean)      5....

ประเภทของข้อมูลที่คนทำงานด้านข้อมูลต้องเข้าใจ

ประเภทของข้อมูล (data type) และ สเกล (scale) ที่นักวิจัย และ ผู้ที่ทำงานเกี่ยวกับข้อมูลต้องรู้จัก มี 4 ประเภทใหญ่ๆ คือ nomial, ordinal, interval,  และ ratio  นักศึกษาที่เรียนการวิจัยและการประมวลผลข้อมูลมันจะสับสน จำสลับ หรือจำผิดๆถูกๆ ดังนั้นบทความนี้จึงจะนำเสนอนิยามของประเภทของข้อมูลทั้ง 4 เอาไว้เพื่อให้นักศึกษาใช้เป็นแหล่งอ้างอิง  (รู้หรือไม่ว่าคนที่คิดคำทั้ง 4 มาให้พวกเราได้ใช้กันคือ Stanley Stevens) 1. Nominal ข้อมูลประเภท nominal คือข้อมูลที่ไม่ใช่ตัวเลข หรือ เชิงปริมาณ (quantitative) ดังนั้นข้อมูลประเภทนี้จึงไม่สามารถนำมาคำนวณ หรือ เปรียบเทียบในทางคณิตศาสตร์ได้ เราอาจจะเรียกข้อมูลชนิดนี้ว่าเป็น “ป้าย” หรือ “ฉลาก” (label) ที่เอาไว้กำกับชื่อของสิ่งใดๆ วิธีจำให้ง่ายก็คือ nominal ก็คือ name มันคือป้ายชื่อดีๆนี่เอง ตัวอย่างของข้อมูลประเภทนี้เช่น เพศชาย เพศหญิง สีดำ...