การประยุกต์สถิติเพื่อการวิจัยทางสารสนเทศศาสตร์ (ตอนที่ 3)

สรุปจากการไปฟังบรรยายและฝึกอบรมเรื่อง – การประยุกต์สถิติเพื่อการวิจัยทางสารสนเทศศาสตร์ ซึ่งทางหลักสูตรสารสนเทศศาสตร์ มสธ. จัดขึ้น เมื่อวันเสาร์-อาทิตย์ที่ 25-26 พฤษภาคม 2556 โดยมี รศ.พวา พันธุ์เมฆา เป็นวิทยากรผู้สอน

(เล่าต่อจาก ตอนที่ 1 และ ตอนที่ 2)

ข้อมูลที่รวบรวมมาใช้ในการวิจัย แบ่งเป็น 4 ระดับ

  1. ระดับนามบัญญัติ (Nominal scale) สัญลักษณ์หรือตัวเลขที่กำหนดขึ้น เพื่อใช้แยกแยะสิ่งวิจัยออกจากกัน เช่น 1=ชาย 2=หญิง ตัวเลขไม่สามารถนำมาบวก ลบ คูณ หาร ทำได้แต่การแจงนับจำนวนเป็นความถี่เท่านั้น
  2. ระดับเรียงอันดับ (Ordinal scale) ตัวเลขที่บอกถึงอันดับมากน้อย รู้ว่าใครดีกว่าใครเท่านั้น แต่ไม่ทราบว่าแต่ละช่วงห่างกันเท่าไหร่ เช่น ระดับการศึกษา ผลการเรียน ความเก่ง สอบได้ที่ 1, 2, 3 ไม่สามารถบอกได้ว่าเก่งกว่ากันเท่าไหร่ เอาตัวเลขไปหาค่าเฉลี่ยไม่ได้ แต่สามารถนำมาบวกหรือลบกันได้
  3. ระดับอันตรภาค หรือระดับช่วง (Interval scale) ตัวเลขที่นำมาจัดอันดับได้ ความแตกต่างระหว่างอันดับเท่ากัน สามารถนำตัวเลขมาเปรียบเทียบกันได้ว่าว่ามีปริมาณมากน้อยเท่าใด แต่ไม่สามารถบอกได้ว่าเป็นกี่เท่าของกันและกัน เพราะไม่มีศูนย์ที่แท้จริง ข้อมูลนำไปหาค่าเฉลี่ยได้ นำมาบวก ลบ คูณ หรือหารกันได้ เช่น คะแนนสอบ อุณหภูมิ 0, 1, 2, 3 องศา (อุณหภูมิ 0 องศา ไม่ได้แปลว่า ไม่มีความร้อน)
  4. ระดับอัตราส่วน (Ratio scale) กำหนดค่าตัวเลขให้กับสิ่งที่ต้องการวัด มีศูนย์แท้ ใช้คำนวณได้ทุกรูปแบบ สามารถนำตัวเลขมาบวก ลบ คูณ หาร หรือหาอัตราส่วนกันได้ เช่น น้ำหนัก ความสูง ความยาว (เช่น ถนน 50 กิโลเมตร ยาวเป็น 2 เท่าของถนน 25 กิโลเมตร)

สถิติที่ใช้ในการวิเคราะห์ข้อมูล

  • สถิติบรรยาย หรือสถิติพรรณนา ใช้บอกลักษณะ เช่น สิ่งที่ต้องการศึกษามีสัดส่วนเป็นเท่าใดของทั้งหมด (ค่าร้อยละ) สิ่งที่ต้องการศึกษาส่วนใหญ่มีลักษณะอย่างไร (ใช้สถิติวัดแนวโน้มเข้าสู่ส่วนกลาง เช่น mean, median, mode) มีความแตกต่างกันภายในกลุ่มของสิ่งที่ต้องการศึกษามากน้อยแค่ไหน (ใช้สถิติวัดการกระจาย เช่น การกระจายของค่าเฉลี่ย (Mean deviation) ค่าความแปรปรวน (Variance) ส่วนเบี่ยงเบนมาตรฐาน Standard deviation หรือ S.D.))
  • การนำเสนอตารางแสดงข้อมูลส่วนตัวหรือตัวแปรต้นของกลุ่มตัวอย่าง เป็นจำนวน และร้อยละ และควรแสดงเป็น “ตารางไขว้” จะเห็นภาพได้ชัดเจนขึ้น
  • ค่าเฉลี่ย (Mean) ส่วนเบี่ยงเบนมาตรฐาน (S.D.) ใช้วิเคราะห์ตัวแปรตาม ที่เป็นความคิดเห็นจากแบบสอบถามที่ตอบแบบมาตรประมาณค่า 5 ระดับ — การนำเสนอตารางให้แสดงผล mean, S.D. และการแปรผล การแปลความหมายของค่าเฉลี่ยนิยมใช้แบบอิงเกณฑ์ ต้องมีเกณฑ์กำหนดว่าจะแปลอย่างไร (เช่นแบ่งเป็น 3 ระดับ ได้แก่ 1.00-2.00 = น้อย 2.01-4.00 = ปานกลาง 4.01-5.00 = มาก หรือแบ่งเป็น 5 ระดับ ได้แก่ 1.00-1.49 = น้อยที่สุด 1.50-2.49 = น้อย 2.50-3.49 ปานกลาง 3.50-4.49 มาก 4.50-5.00 มากที่สุด) สำหรับในกรณีที่ข้อใดมีค่า S.D. สูงกว่า 1.20 จะต้องอ่านด้วยว่า ข้อนั้นมีความแตกต่างในกลุ่มสูง หรือกลุ่มตัวอย่างมีความคิดเห็นไม่พ้องต้องกัน
  • สถิติอนุมาน หรือสถิติที่ใช้ทดสอบสมมุติฐาน ได้แก่ สถิติทดสอบเกี่ยวกับจำนวนหรือความถี่ (Chi square) สถิติทดสอบนัยสำคัญของค่าสัมประสิทธิ์สหสัมพันธ์ว่า คุณลักษณะต่างๆของสิ่งที่ศึกษามีความสัมพันธ์กันจริงหรือไม่อย่างไร (ค่าสหสัมพันธ์ Correlation) สถิติทดสอบค่าเฉลี่ย กลุ่มตัวอย่าง 2 กลุ่ม (t-test สำหรับกลุ่มตัวอย่าง 30) สถิติวิเคราะห์ความแปรปรวน (Analysis of Variance : ANOVA) และสถิติการวิเคราะห์การถดถอย (Regression analysis)
  • การทดสอบความแตกต่างระหว่างค่าเฉลี่ย ที่กลุ่มตัวอย่าง 2 กลุ่ม เกี่ยวข้องกันหรือเป็นกลุ่มเดียวกัน (t-test dependent) ใช้กับการวิจัยเชิงทดลอง มีการเปรียบเทียบคะแนนก่อน-หลังการทดลอง ภายในกลุ่ม N เดียวกัน ควรตั้งสมมุติฐานแบบมีทิศทาง (เช่น ได้คะแนนดีขึ้นหลังการทดลอง) แสดงผลก่อนและหลังการทดลองเป็นค่า N, Mean, S.D. แล้วสั่งโปรแกรม SPSS คำนวณค่า t ให้ — จากนั้น นำค่าระดับแห่งความเป็นอิสระ (degree of freedom : df) = N-1 ไปเปิดตารางค่าวิกฤต Critical value of t และดูว่า ที่ระดับนัยสำคัญ (level of significance) 0.05 มีค่า t เท่าไหร่ — ถ้าค่า t ที่คำนวณได้สูงกว่าค่า t ในตารางวิกฤต แสดงว่า ผลการทดลองสอดคล้องกับสมมุติฐานที่ตั้งไว้ อย่างมีนัยสำคัญทางสถิติที่ระดับ 0.05
  • การทดสอบความแตกต่างระหว่างค่าเฉลี่ย ที่กลุ่มตัวอย่าง 2 กลุ่ม ไม่เกี่ยวข้องกัน (t-test independent ) ใช้กับกลุ่มตัวอย่างที่มีลักษณะไม่เหมือนกัน เช่น ชาย-หญิง วุฒิการศึกษาปริญญาตรี-ปริญญาโท กลุ่มควบคุม-กลุ่มทดลอง แสดงผลทั้งสองกลุ่มเป็นค่า N, Mean, S.D. แล้วสั่งโปรแกรม SPSS คำนวณค่า t ให้ — จากนั้นเปิดตารางค่าวิกฤต Critical value of t โดยดูว่าเป็นการทดสอบแบบ 2 ทาง (two-tail test) คือกลุ่มตัวอย่าง 2 กลุ่มไม่เกี่ยวข้องกัน หรือแบบทางเดียว (one-tail test) คือกลุ่มตัวอย่าง 2 กลุ่มเกี่ยวข้องกันหรือเป็นกลุ่มเดียวกัน — นำค่าระดับแห่งความเป็นอิสระ (degree of freedom : df) = (n1+n2)-2 ไปเปิดตารางค่าวิกฤต Critical value of t และดูว่า ที่ระดับนัยสำคัญ (level of significance) 0.05 (หรือจะใช้ 0.1 ก็ได้ ถ้าเป็นสาขาทางการแพทย์) มีค่า t เท่าไหร่ ถ้าค่า t ที่คำนวณได้ ต่ำกว่าค่า t ในตารางวิกฤต แสดงว่า ผลการทดลองในกลุ่มควบคุมและกลุ่มทดลอง แตกต่างกันอย่างไม่มีนัยสำคัญทางสถิติ หรือไม่แตกต่างกันนั่นเอง
  • normal_curve

  • ความเข้าใจเกี่ยวกับค่าระดับนัยสำคัญ : การวัดสิ่งต่างๆ ที่มีจำนวนมาก แล้วนำมา plot graph มักจะมีการกระจายตัวของผลการวัดเป็น normal curve เสมอ พื้นที่ภายใต้โค้งปกติ สมมุติว่ามีค่าเป็น 1 หน่วย แบ่งครึ่งซ้ายขวาข้างละ 0.5 หน่วย ค่าที่อยู่ตรงเส้นแบ่งครึ่งมีค่าเป็น 0 วัดออกไปทางขวามือจะมีค่าเป็นบวก วัดจากซ้ายมือมีค่าเป็นลบ ค่าที่วัดได้จะแปลงจากหน่วยปกติกลายเป็นคะแนนมาตรฐาน (standard score หรือ Z score ซึ่งคำนวณได้จาก ค่าที่วัดได้-ค่าเฉลี่ย/ส่วนเบี่ยงเบนมาตรฐาน) ถ้าค่ามาตรฐานเป็นบวก คือ 1.96 จะทำให้พื้นที่ซีกขวาคือ 0.500 แบ่งเป็นพื้นที่ 2 ส่วน คือ 0.475 และส่วนที่เหลือคือ 0.025 ถ้ารวมสองด้านทั้งซ้ายและขวา พื้นที่ส่วนที่เหลือคือ 0.025+0.025=0.05 ในการทดสอบสมมุติฐาน หากคะแนนมาตรฐานที่ได้มีค่า 1.96 หรือมากกว่า เราจะยอมรับสมมุติฐานนั้น แม้จะมีความเสี่ยง แต่ก็ผิดพลาดเพียง 0.05 (หรือ 5 ครั้งใน 100 ครั้ง) เรียกว่า มีนัยสำคัญทางสถิติที่ระดับ 0.05 ในทางสังคมศาสตร์ นิยมใช้ระดับนัยสำคัญที่ 0.05 ส่วนทางการแพทย์ อาจยอมรับความผิดพลาดให้เกิดน้อยที่สุด ดังนั้นอาจใช้ 0.01 หรือน้อยกว่านั้น
  • การวิเคราะห์ความแปรปรวน การทดสอบความแตกต่างระหว่างค่าเฉลี่ยมากกว่า 2 กลุ่ม ถ้านำค่าเฉลี่ยมาเปรียบเทียบกันทีละคู่ จะเสียเวลามากและเกิดความคลาดเคลื่อน จึงนิยมใช้วิธีวิเคราะห์ความแปรปรวน ซึ่งมี 2 ตัวคือ ความแปรปรวนระหว่างกลุุ่ม และความแปรปรวนภายในกลุ่ม สถิติที่ใช้คือ f-test
  • K=จำนวนกลุ่ม N=จำนวนตัวอย่างภายในกลุ่ม ดังนั้น df ระหว่างกลุ่ม = K-1 ส่วน df ภายในกลุ่ม = N-K ตารางแสดงผลการเปรียบเทียบ จะแสดงค่า df ระหว่างกลุ่ม (b) และภายในกลุ่ม(w) ค่า Sum of square หรือผลรวมค่าความต่างยกกำลังสอง (SSt = SSb + SSw) ค่า Mean square (MSb = SSb/dfb และ MSw = SSw/dfw) และค่า F (F = MSb/MSw) จากนั้นนำค่า df ทั้งสอง ไปเปิดตารางวิกฤตการกระจายของค่า F (F-distribution) ถ้าค่าที่คำนวณได้สูงกว่าค่าในตาราง แสดงว่ายอมรับสมมุติฐาน H1 ข้อมูลทุกกลุ่มมีความแตกต่างกันจริงที่ระดับนัยสำคัญ 0.05 (หรือจะใช้ 0.01 ก็ได้) เมื่อพบความแตกต่าง ต้องนำไปทดสอบความแตกต่างเป็นรายคู่ เพื่อให้ทราบว่าข้อที่พบความแตกต่าง มีคู่ใดบ้างที่แตกต่างกัน หากแต่ละกลุ่มมีจำนวนเท่ากันจะใช้วิธีของ Turkey แต่ละกลุ่มมีจำนวนไม่เท่ากันจะใช้วิธีของ Least quare difference (LSD) วิธีของนิวแมนและคูลส์ (Newman & Keuls) หรือวิธีของ Sheffe ในการเปรียบเทียบค่าเฉลี่ยของแต่ละกลุ่ม

[ อ่านต่อ ตอนที่ 4 ]