การประยุกต์สถิติเพื่อการวิจัยทางสารสนเทศศาสตร์ (ตอนที่ 4)

สรุปจากการไปฟังบรรยายและฝึกอบรมเรื่อง – การประยุกต์สถิติเพื่อการวิจัยทางสารสนเทศศาสตร์ ซึ่งทางหลักสูตรสารสนเทศศาสตร์ มสธ. จัดขึ้น เมื่อวันเสาร์-อาทิตย์ที่ 25-26 พฤษภาคม 2556 โดยมี รศ.พวา พันธุ์เมฆา เป็นวิทยากรผู้สอน

(เล่าต่อจาก ตอนที่ 1 / ตอนที่ 2 / และ ตอนที่ 3 )

การหาความสัมพันธ์ของข้อมูล

  • ค่าสหสัมพันธ์ของเพียร์สัน : วัดความสัมพันธ์ของข้อมูล 2 รายการ
  • ค่าสหสัมพันธ์ของสเปียร์แมน : ไม่ค่อยนิยมใช้
  • การวิเคราะห์การถดถอย : วัดความสัมพันธ์ของข้อมูลมากกว่า 2 รายการ
  • การวิเคราะห์การถดถอย (Regression Analysis)

  • เป็นสถิติวัดความสัมพันธ์ระหว่างตัวแปร เพื่อต้องการทราบว่า ตัวแปรต้น (ตัวแปรอิสระ หรือตัวแปรพยากรณ์) มีผลต่อการเปลี่ยนแปลงของตัวแปรตามอย่างไร (สามารถใช้โปรแกรม SPSS หรือโปรแกรม OpenStat ในการวิเคราะห์)
  • ถ้าศึกษาปัจจัยเดียว เรียกว่า Simple regression analysis แต่ถ้ามีหลายปัจจัย เรียกว่า การวิเคราะห์การถดถอยพหุคูณ (Multiple regression analysis)
  • นิยมใช้มากในงานวิจัยทางธุรกิจ ตัวอย่างเช่น ต้องการวิเคราะห์ยอดขายของร้านค้า จำนวน 18 สาขา ว่าขึ้นกับปัจจัยอะไรบ้าง เช่น จำนวนพนักงานขาย ค่าโฆษณา ประสบการณ์ของผู้จัดการสาขา โดยทดสอบที่ระดับนัยสำคัญทางสถิติ 0.05
  • การตั้งสมมุติฐาน จะตั้ง 2 ข้อ คือ 1. ความสัมพันธ์ (Correlation) 2. ส่งผล (Regression)
  • ตัวแปรตาม (ยอดขาย) ต้องอยู่ในมาตรการวัดระดับ interval, ratio ขึ้นไป และต้องมีการแจกแจงแบบปกติ
  • ตัวแปรต้นที่นำมาใช้พยากรณ์ไม่ควรมีความสัมพันธ์กันสูงเกินไป (>.80) เพราะถ้าเข้าใกล้ 1.00 แสดงว่าเกือบจะเป็นตัวแปรเดียวกัน ควรทดสอบตัวแปรต้นเป็นคู่ๆก่อน ด้วยคำสั่ง Bivariate correlation ในโปรแกรม SPSS
  • ขั้นตอนการวิเคราะห์ Regression analysis ด้วยโปรแกรม SPSS คือ 1. ตรวจสอบลักษณะความสัมพันธ์เบื้องต้นด้วยแผนภาพ Scatter Plot ระหว่างตัวแปรพยากรณ์ (แต่ละตัว) กับตัวแปรตาม โดยใช้ Spread Sheet
  • scatter_plot

  • 2. หาค่าสถิติเชิงพรรณนาของตัวแปรต่างๆ ได้แก่ ยอดขาย จำนวนพนักงานขาย ค่าโฆษณา ประสบการณ์ของผู้จัดการสาขา ตามต้องการ เช่น N, Mean, S.D., Kurtosis, Skewness, Range, Min, Max โดยใช้คำสั่ง Descriptive
  • 3. ตรวจสอบความสัมพันธ์ระหว่างตัวแปรตาม และตัวแปรพยากรณ์แต่ละตัว โดยใช้คำสั่ง Bivariate correlation เปรียบเทียบค่า r กับตารางค่าวิกฤตของสหสัมพันธ์ของเพียร์สัน โดยนำจำนวนข้อมูล n ไปเปิดตารางที่ระดับนัยสำคัญ sig. (one-tailed) 0.05 หรือ 0.01 — ในที่นี้พบว่า ยอดขาย มีความสัมพันธ์กับจำนวนพนักงานขาย ค่าโฆษณา ประสบการณ์ของผู้จัดการสาขา อย่างมีนัยสำคัญทางสถิติ
  • 4. หาความสัมพันธ์ระหว่างตัวแปรเพื่อการพยากรณ์ ด้วยคำสั่ง Linear regression อ่านผลการตรวจสอบ พบว่า ค่าความสัมพันธ์ระหว่างตัวแปรพยากรณ์ที่นำมาเข้าสมการกับตัวแปรตาม (Multiple Regression) = 0.87 ค่าสัมประสิทธิ์การทำนาย (R Square) = 0.76 ค่า Adjusted R Square = 0.72 (ปรับลดให้เหมาะสม เนื่องจาก N มีจำนวนน้อย) และจากตาราง ANOVA ทดสอบความสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรพยากรณ์ทั้งสาม พบว่า Sig. = .00 จึงปฏิเสธสมมุติฐานหลัก H0 แสดงว่ามีตัวแปรพยากรณ์อย่างน้อย 1 ตัวที่นำมาพยากรณ์ยอดขายได้ ส่วนตาราง Coefficients พบว่า มีตัวแปรเดียวคือ จำนวนพนักงานขาย ที่มีค่า Sig. = .02 ดังนั้นจึงปฎิเสธสมมุติฐาน H0 — ให้นำไปเข้าสมการถดถอยใหม่อีกครั้ง
  • 5. นำตัวแปรพยากรณ์ (จำนวนพนักงานขาย) มาเข้าสมการถดถอยอีกครั้ง ได้ผลลัพธ์ดังนี้ Multiple R. = 0.83 R Square = 0.69 Adjusted R Square = 0.69 ตาราง ANOVA พบว่า Sig.=.00 จำนวนพนักงานขายมีความสัมพันธ์กับยอดขายอย่างมีนัยสำคัญ ตาราง Coeffients Sig.=.00 สรุปได้ว่า จำนวนพนักงานขาย สามารถนำมาพยากรณ์ยอดขายได้ โดยมีประสิทธิภาพของการพยากรณ์ (R Square) สูงถึง 69%
  • การตรวจสอบลักษณะของเส้นถดถอย (Regression line) ใช้คำสั่ง X Versus Y Plot ในโปรแกรม OpenStat ในการพยากรณ์ตัวแปรตาม (ยอดขาย) ด้วยการกำหนดค่าของตัวแปรพยากรณ์ (จำนวนพนักงานขาย) จากสมการถดถอยที่ได้ จะมีความแม่นยำเพียงใดนั้น ขึ้นอยู่กับข้อมูลที่รวบรวมมาว่ามีการกระจายไปจากเส้นถดถอยมากน้อยเพียงใด สถิติที่ใช้วัดการกระจายของข้อมูลรอบๆเส้นถดถอยนี้ เรียกว่า ความคลาดเคลื่อนมาตรฐานในการพยากรณ์ (Standard Error of Estimate : SEE) ถ้า SEE มีค่าน้อย แสดงว่ามีการถดถอยน้อย ถ้า SEE มากแสดงว่ามีการถดถอยมาก

[ อ่านต่อ ตอนที่ 5 ]