در نمایش آنلاین پاورپوینت، ممکن است بعضی علائم، اعداد و حتی فونتها به خوبی نمایش داده نشود. این مشکل در فایل اصلی پاورپوینت وجود ندارد.
- جزئیات
- امتیاز و نظرات
- متن پاورپوینت
امتیاز
آمار مقدماتی و پیشرفته
اسلاید 2: آمار مقدماتی و پیشرفته
اسلاید 3: آمار چیست؟ آمار به عنوان يك موضوع علمي، امروزه شامل مفاهيم و روشهائي است كه در تمام پژوهشهايي كه مستلزم جمعآوري دادهها به وسيلة يك فرآيند آزمايش و مشاهده و انجام استنباط و نتيجهگيري به وسيلة تجزيه و تحليل اين دادهها هستند، اهميت بسيار دارند. آمار هنر و علم جمعآوري، تعبير و تجزيه و تحليل دادهها و استخراج تعميمهاي منطقي در مورد پديدههاي تحت بررسي است. معادل كلمة آمار در زبان انگليسي Statistics است كه از لحاظ تاريخي، از كلمة لاتين status مشتق شده و يكي از معاني كلمة اخير، دولت است.در طول چندين دهه، آمار فقط با بيان اطلاعات و مقادير عددي دربارة اقتصاد، جمعيت شناسي و اوضاع سياسي حاكم در يك كشور، سر و كار داشت.حتي امروز، بسياري از نشريات و گزارشهاي دولتي كه تودهاي از آمار و ارقام را در بردارند و تحت عناويني از قبيل « آمار توليد مزارع» و «آمار كارگران» منتشر ميشوند، معني اولية كلمة آمار را در ذهن زنده ميكنند. اكثر افراد معمولي هنوز اين تصور غلط را دربارة آمار دارند كه آن را منحصر به ستونهاي عددي سرگيجهآور و گاهي يك سري شكلهاي مبهوتكننده ميدانند. بنابراين، يادآوري اين نكته ضروري است كه نظريه و روشهاي جديد آماري، از حد ساختن جدولهاي اعداد و نمودارها بسيار فراتر رفتهاند. نمايشهاي عددي به صورت جنبهاي فرعي از آمار درآمدهاند.
اسلاید 4: ديدگاههاي زير را درمورد آمار بخوانيد. آيا علم آمار اينگونه است؟دیدگاههایی در مورد آمار: تهيه آمار كاري وقتگير و زمان بر و اصولاً كسالتآور است.آمار گورستاني از اعداد و ارقام است كه در هر اداره و سازمان نمونهاي از آن پيدا ميشود.آمار مجموعهاي از روابط و فرمولهاي رياضي پيچيده و گيجكننده است. آمار شامل نمودارها و جدولهايي از اعداد است.
اسلاید 5: آمار فرايندي است كه در آن هر ده سال افرادي را به منازل فرستاده و اطلاعات خانوارها مانند تعداد فرزندان، سن افراد خانوار را از آنها كسب ميكنند.آمار ابزاري است كه بسياري با توسل به آن افكار عمومي را به نفع خود جلب ميكنند.آمار مفهومي است كه براي ثبت و نمايش اطلاعات عددي به كار ميرود، مانند تعداد بيكاران، كارمزد حمل كالا به وسيلة كشتي در 15 سال گذشته، جمعيت نواحي جنوب شهر تهران، تعداد افراد تلف شده در اثر شيوع يك بيماري يا مقدار مسافت طي شده در زمان معيني به وسيلة برندة مسابقة دو.
اسلاید 6: مثالهائي از مطالعات آماري: مثالهای زیر، نشاندهندة مواردي نوعي هستند كه در آنها، فرايند كسب آگاهي در بررسي يك پديده شامل گردآوري و تجزيه و تحليل دادههاست و اين خود مستلزم استفاده از روشهاي آماري است.پرورش گياه : آزمايش پيوندزدن انواعي از گياهان كه از نظر ژنتيكي متفاوتند، به منظور توليد گياهان پيوندي پر محصول، مورد علاقة شديد متخصصان كشاورزي است. بهعنوان يك مثال ساده، فرض كنيد كه قرار است ميزان محصول دو نوع گياه پيوندي تحت آب و هوا و شرايط اقليمي مشخص با هم مقايسه شوند. تنها راه كسب اطلاع از ميزان باروري اين دو نوع گياه نسبت بهيكديگر عبارت است از پروراندن آنها در تعدادي از كرتها، گردآوردن دادهها دربارة ميزان محصول آنها و سپس تجزيه و تحليل دادههاي مزبور.
اسلاید 7: تشخيص بيماريها براي انجام موفقيتآميز معالجة بسياري از انواع سرطان با عمل جراحي، تشخيص بموقع بيماري از اهميت خاصي برخوردار است و از اينرو لازم است كه براي انجام معاينات پزشكي مرتباً به بيمارستان مراجعه شود. چون مراجعة مرتب به بيمارستان و انجام معاينات پزشكي گران و مشكل است، پزشكان در جستجوي نوعي روش تشخيص مؤثر بيماري هستند كه خود شخص بتواند آن را انجام دهد. براي ارزيابي قابليت يك روش جديد تشخيص بيماري برحسب درصد موفقيت آن در تشخيص درست موارد بيماري و اجتناب از تشخيصهاي اشتباه، روش موردنظر بايد روي افراد زيادي آزمايش شود و نتيجه با معاينات بيمارستاني مقايسه شود.برنامههاي تربيتي و آموزشي برنامهاي تربيتي وآموزشي كه براي انواع متقاضيان (از قبيل دانشجويان دانشگاه، كارگران كارخانه، گروههاي اقليت، افراد ناقصالعضو، كودكان عقبافتاده) در بسياري از زمينهها طرح ميشوند، دائماً مورد بررسي، ارزيابي و اصلاح قرار ميگيرند تا سودمندي آنها براي جامعه افزايش يابد. براي كسب اطلاع از كارائي برنامههاي مختلف در مقايسه با يكديگر، ضرورت دارد كه دادههائي دربارة موفقيتها يا رشد مهارت افرادي كه برنامه در مورد آنها اجرا ميگردد، گردآوري شود.
اسلاید 8: تحقيقات اجتماعي- اقتصادي: در بسياري از قلمروهاي جامعهشناسي، اقتصاد، علوم سياسي. مطالعاتي در زمينههاي مربوط به رفاه اقتصادي گروههاي قومي گوناگون. هزينههاي مصرفكنندگان در سطوح مختلف درآمد و نظرات گوناگون در هنگام وضع يك قانون و زمينههايي نظير اينها انجام ميگيرد. اين مطالعات نوعاً بر مبناي دادههايي انجام ميگيرند كه از راه مصاحبه يا تماس با نمونهاي از افراد بهدست ميآيند، كه اين نمونه به وسيلة روشهاي آماري از كل جامعهاي كه قلمرو مطالعه را تشكيل ميدهد، انتخاب ميشوند. سپس اين دادهها مورد تجزيه و تحليل قرار ميگيرند و تغييراتي از موضوع مورد نظر به عمل ميآيد.بازاريابي: با گسترش صنايع مختلف و بحث بازار رقابتي در قرن بيست و یک بسياري از صنايع به دنبال يافتن روشهائي در شناسائي بازار و خواستههاي مشتري به طريق علمي گرديدهاند. نتايج حاصل همواره با استفاده از مطالعات آماري روي مشتريان و يا مراكزي كه مشتري با آنها در ارتباط است صورت ميپذيرد. بهعنوان مثال يك شركت توليدكنندة پودر لباسشوئي پس از تحقيق دربارة ميزان فروش فروشگاههاي يك منطقه سهم فروش پودر ... را درمييابد. پس از اعمال تبليغات جديد و به فاصلة زماني مناسب اينكار مجددا صورت گرفته و سهم افزايش فروش بررسي ميگردد. و يا در همين مقوله براي كسب اطلاع از اينكه در توليد مايع ظرفشوئي آيا از لحاظ مصرفكنندگان، بوي اسانس ليمو با توتفرنگي تفاوتي وجود دارد، از 400 نفر مصاحبه ميشود كه 145 نفربوي اسانس ليمو و بقيه توتفرنگي را ترجيح ميدهند. كنترل كيفيت: پيشرفتهاي آماري در بخش صنايع بيشتر مربوط به مسائل كنترل كيفي است. استفاده از مفهوم آزمون فرضهاي آماري در بحث كنترل حين توليد محصولات توليدي، استفاده از روشهاي نمونهگيري جهت پذيرش براي شناسائي محصول مطابق درخواست با استفاده از يك نمونه از محصول به جاي بازرسي صددرصد و استفاده از ابزارهاي ساده آماري در كنترل فرآيند آماري (Statistical Process Control ) مانند هيستوگرام، نمودار پراكنش، نمودار ميلهاي و استفاده از بحث طراحي آزمايشهاي مناسب و جمعآوري اطلاعات و بسياري روشهاي آماري كه به صور مختلف مورد استفاده واقع ميشوند بخشي از تلاش مسئولين كيفي صنايع را به خود اختصاص داده است.
اسلاید 9: آمارشناسها چه میکنند؟ جهان به سوی کمی شدن اطلاعات پیش می رود. در بسیاری از حرفهها و شغلها، تصمیمگیریها به اندازهگیریهای عددی و داده بستگی دارند. داده ها تنها شامل اعداد نیستند، بلکه اعداد خود حامل اطلاعاتی در مورد یک سیستم مشخص هستند و احتیاج دارند که در سیستم مربوطه تفسیر شوند. با توجه به این رشد در استفاده از دادهها، نیاز و تقاضا برای وجود آمارشناسهایی که در زمینههای زیر کارشناس باشند، احساس می شود: ارائه و تولید دادههای قابل اعتماد تجزیه و تحلیل دادهها به منظور روشن و واضح ساختن معنای آنها ارائه استنتاجهای عملی از دادهها آمارشناسها از تواناییهای کمّی، علم آمار و مهارتهای روابط عمومی و برقراری ارتباط برای حل بسیاری از مشکلات و مسایل موجود در جامعه استفاده میکنند. آمارشناسها در تعیین روشهای نمونهگیری و جمعآوری دادهها، نظارت بر اجرای مطالعه، پردازش دادهها و نظر دادن در مورد نتایج مطالعات بدستآمده کمک میکنند.
اسلاید 10: فعالیت آمارشناسها در زمینه مطالعه و بررسی نمونهای فعالیت آمارشناسها در مراکز دولتی برخی زمینههای فعالیت برای آماریها در مراکز دولتیفعالیت آمارشناسها در زمینه پژوهشهای علمی فعالیت آمارشناسها در زمینه صنعت و تجارتبرخی زمینههای فعالیت برای آماریها در صنعت و تجارتفعالیت آمارشناس ها در زمینه بهداشت، پزشکی و سلامت
اسلاید 11: مشخصههای شغلی آمارشناسها استفاده از دادهها برای حل مشکلات و مسایل استفاده از دانش ریاضی و آمار خود در حل مشکلات اجتماعی، اقتصادی، پزشکی، زیست محیطی، سیاسی و ... کارکردن هم به صورت انفرادی و هم به صورت عضوی از یک گروهاستفاده از علم ارتباطات در برقراری رابطه با متخصصین علوم دیگر و مشورت با آنها و ادامه دادن مستمر فعالیتهای آموزشی گسترش مرزها و قلمرو آمار و احتمال از طریق آموزش و تحقیق
اسلاید 12: سواد آماری چیست؟ سواد آماری یک توانایی/قابلیت است:توانایی فکر کردن منتقدانه درمورد استدلالها با به کار بردن آمار به عنوان سند یا مدرک قابلیت خواندن و تفسیر دادهها، قابلیت فهم آنچه که خوانده میشود. توانایی فهم و تفسیر آمارهایی که هر فرد در زندگی روزمره با آنها سروکار دارد. توانایی استفاده صحیح از آمار توسط همه افراد جامعه سواد آماری، بر تصمیمگیریها با استفاده از آمار به عنوان سند و مدرک متمرکز شده است، همانگونه که سوادخواندن و نوشتن بر استفاده از کلمات به عنوان مدرک متمرکز شده است. سواد آماری بیشتر درمورد سؤالات است تا جواب ها. سوادآماری جوابهای زیادی ندارد. اما میتواند کمک کند تا سؤالات بهتری پرسش شود و در نتیجه تصمیمها و قضاوتهای بهتری صورت گیرد. سواد آماری یک هنر است، هنر تصمیمگرفتن و قضاوت کردن تحت شرایط نامطمئن.
اسلاید 13: با سواد آماری کیست؟ با سواد آماری کسی است که قادر باشد تفاوت بین رابطه معمولی و رابطه علت و معلولی را از یکدیگر تشخیص دهد. او کسی است که وقتی با جملاتی همانند جملات زیر روبرو میشود، درست یا غلط بودن جمله دوم را مدرکی مستند برای درست یا غلط بودن جمله سوم نداند:جمله اول: افرادیکه وزن بیشتری دارند بلندقدتر از افرادی هستند که وزن کمتری دارند. جمله دوم: وزن یک رابطه مثبت با قد دارد.جمله سوم: اگر شما وزن بیشتری بدست آورید، انتظار میرود که قدتان نیز بلندتر شود.واضح است که برای بزرگسالان جمله سوم غلط است. اما نمیتوان نتیجه گرفت که اگر جمله سوم غلط باشد آنگاه جمله دوم نیز غلط خواهد بود. درستی جمله دوم مدرکی است برای درستی جمله سوم، اما درستی جمله دوم برای اثبات درستی جمله سوم کافی نیست.
اسلاید 14: با سواد آماری کیست؟ (ادامه)با سواد آماری کسی است که قادر باشد تفاوت بین عبارت “نسبت دادنی” را از عبارت “نسبت داده شده” تشخیص دهد. مثال90درصد خودکشی ها را افراد متاهل مرتکب می شوند. این آمار به افراد متاهل نسبت داده شده است، اما این بدین معنا نیست که اگر افراد ازدواج نکنند این نسبت کاهش خواهد یافت.با سواد آماری کسی است که فرق آماری که بر اساس نمونه به دست آمده را از پارامتر جمعیت تشخیص دهد. باسواد آماری کسی است که بتواند برداشت درستی از درصدها، میزان ها و نرخ ها داشته باشد مثال: درصد رانندهها در میان زنان همانند درصد راننده هایی که زن هستند، نیست. درصد بیمارانی که نتیجه آزمایش آنها در مورد نوعی بیماری مثبت است همانند درصد افرادی که نتیجه آزمایش مثبت دارند و بیمار هستند، نیست.
اسلاید 15: شیوههای جمعآوری اطلاعات
اسلاید 16: تعریف هر تیمار (متغیر) تاحد امکان به صورت ویژه
اسلاید 17: کدگذاری برای دادههای قیاسی یعنی تعیین عدد برای هر طبقه یا دسته. جنسیت زن 1 مرد 2
اسلاید 18: مشخص کردن روش واحدهای اندازهگیریوزن شما چقدر است؟ (برحسب کیلوگرم، پوند، گرم)دیشب چند ساعت تلویزیون تماشا کردید؟ (ساعت، دقیقه)
اسلاید 19: نوشتن سؤالات بدون اریببا اریب: آیا شما موافقید که افزایش مصرف کود باعث کاهش عملکرد میشود؟بدون اریب: نظر شما در مورد مصرف کود بر عملکرد محصول چیست؟
اسلاید 20: سؤالات خود را در یک مطالعة پیلوت قبل از انجام مطالعة اصلی امتحان نمایید (8 تا 10 مورد یا واحد از افراد، دانشآموزان، درختان و ...)
اسلاید 21: انواع دادهها
اسلاید 22: انواع دادههادادههای قیاسیدادههای معیاری
اسلاید 23: دادههای قیاسیموضوعات و صفات مورد بررسی به طبقاتی بر اساس بعضی از صفات کیفی گروهبندی میشوند.
اسلاید 24: مثال: دادههای قیاسیرنگ موبلوند، قهوهای، قرمز، سیاه، غیرهنظر دانشجویان در مورد نحوة تدریسناراحت، خنثی، خوشحالوضعیت سیگارکشیدنسیگاری، غیرسیگاری
اسلاید 25: طبقهبندی دادههای قیاسی به صورت: اسمی، ترتیبی و دوتاییدادههای قیاسیغیردودوییدودوییدادههای ترتیبیدادههای اسمیدودوییغیردودویی
اسلاید 26: دادههای اسمییک نوع از دادههای قیاسی است که صفات در طبقههای غیرمرتب قرار میگیرند.
اسلاید 27: مثال: دادههای اسمیرنگ موبلوند، قهوهای، مشکی، قرمز، غیرهنژادهندی، افریقایی، آمریکایی، غیره
اسلاید 28: دادههای ترتیبینوعی از دادههای قیاسی میباشند که رتبة آنها مهم است
اسلاید 29: مثال: دادههای ترتیبیطبقهخیلی کم، کم، متوسط، زیاد، خیلی زیادشدت بیمارینظر دانشجویان دربارة درس
اسلاید 30: دادههای دودوییشکلی از دادههای قیاسی که تنها دارای دو طبقه هستند.دادههای دودویی میتوانند یا اسمی یا ترتیبی باشند.
اسلاید 31: مثال: دادههای دودوییوضعیت سیگاری بودنسیگاری، غیرسیگاریحضورحاضر، غایب
اسلاید 32: دادههای سنجشیاهداف مورد مطالعه بر اساس بعضی از صفات کمی قابل اندازهگیری میباشند.دادهها به صورت اعداد میباشند.
اسلاید 33: مثال: دادههای سنجشیسطح کلسترولقدسنمیزان عملکردتعداد دانشجویانی که درکلاس دیر حاضر میشوند.زمان لازم برای انجام تکالیف درسی در منزل
اسلاید 34: دادههای سنجشی تقسیم میشوند به گسسته یا پیوسته Discrete or Continuousدادههای سنجشیپیوستهگسسته
اسلاید 35: دادههای سنجشی گسستهتنها مقادیر معینی را خواهند داشت(شکافی بین مقادیر ممکن وجود دارد)دادههای سنجشی پیوستهاز نظر تئوریک، هر مقداری در درون یک فاصله را میتوان با ابزارهای اندازهگیری دقیق محاسبه نمود.
اسلاید 36: دادههای گسسته - شکاف بین مقادیر ممکن 0 1 2 3 4 5 6 7دادههای پیوسته - از نظر تئوریکی هیچ شکافی بین مقادیر ممکن وجود ندارد0 1000
اسلاید 37: مثالها دادههایی با معیارهای گسستهنمرات آمارتعداد دانشجویانی که دیر به کلاس میآیندتعداد جرائمی که به مراکز پلیس گزارش شده است.تعداد دفعاتی که از یک کلمه استفاده میشود.عموماً دادههای گسسته قابل شمارش هستند.
اسلاید 38: مثالها: دادههای معیاری پیوستهسطح کلسترولقدسنزمان لازم برای انجام تکالیف مدرسهعموماً دادههای پیوسته از اندازهگیری بدست میآیند
اسلاید 39: انواع دادههای جمعآوری شده در یک مطالعه تعیینکنندة نوع تحلیل آماری مورد استفاده میباشد
اسلاید 40: برای مثال ...دادههای قیاسی عموماً با استفاده از درصد (یا نسبتها) خلاصه میشوند.11درصد دانشجویان دارای خالکوبی میباشند.2٪، 33٪،39٪ و 26٪ دانشجویان درکلاس به ترتیب جدیدالورود، سال دوم، سال سوم و سال چهارم
اسلاید 41: و برای مثال ...دادههای معیاری به طور مثال با استفاده از متوسط (یا میانگین) خلاصه میشوند.متوسط وزن مردان در بین 250 دانشجوی درس آمار در پاییز 1387، 173 پوند استمتوسط وزن زنان در بین 250 دانشجوی درس آمار در پاییز 1387، 138 پوند است
اسلاید 42: آمار توصیفیتوصیف دادهها با اعدادمعیارهای مکانی
اسلاید 43: چه چیزی توصیف میشود؟مکان یا مرکز دادهها چیست؟ (معیارهای مکانی)دادهها چگونه تغییر میکنند؟ (معیارهای تغییرپذیری)
اسلاید 44: معیارهای مکانیمیانگینمیانهمد
اسلاید 45: میانگیننام دیگر متوسطاگر میانگین یک جمعیت را توصیف کنیم با نمایش داده میشود.اگر میانگین نمونه را توصیف کنیم با x-bar نمایش داده میشود.مناسب برای توصیف دادههای سنجشیبه میزان زیادی تحتتأثیر مقادیر غیرمعمول که «برونهشت» یا outliers نام دارند، قرار میگیرد.
اسلاید 46: محاسبة میانگین نمونهفرمول:یعنی جمع تمام دادهها و تقسیم به تعداد آنها
اسلاید 47: میانهنام دیگر برای صدک 50اممناسب برای توصیف دادههای سنجشیمناسب برای دادههای برونهشت، یعنی تحتتأثیر مقادیر غیرمعمول قرار نمیگیرد.
اسلاید 48: محاسبة میانة نمونهمرتب کردن دادهها از کوچک به بزرگاگر تعداد دادهها فرد باشد، میانه مقدار وسط میباشد.دادهها: 2 8 3 4 1دادههای مرتب شده: 1 2 3 4 8میانه
اسلاید 49: محاسبة میانة نمونهمرتب کردن دادهها از کوچک به بزرگاگر تعداد دادهها زوج باشد، میانه متوسط دو مقدار وسطی استدادهها : 2 8 3 4 1 8دادههای مرتب شده: 1 2 3 4 8 8میانه = (3+4)/2 = 3.5
اسلاید 50: مدمقادیری که بیشترین فراوانی را دارند.یک مجموعه داده میتواند چندین مد داشته باشدبرای تمام انواع داده مناسب است اما بیشتر برای دادههای قیاسی یا دادههای گسسته با تعداد اندکی از مقادیر ممکن مفید است.
اسلاید 51: Minitab:در برنامة Variable N Mean Median TrMean StDev SE MeanPhone 139 121.6 60.0 88.1 217.7 18.5Variable Minimum Maximum Q1 Q3Phone 2.0 2000.0 30.0 120.0N = تعداد دادههامیانگین نمونهمیانة نمونه
اسلاید 52: مناسبترین معیارهای مکانی بستگی به شکل توزیع دادهها دارد
اسلاید 53: مناسبترین معیارهای مکانی بستگی دارد به:آیا دادهها متقارن هستند یا چولهآیا دادههای دارای یک مد هستند (unimodal) یا دارای چند مد (multimodal)
اسلاید 54: متقارن و یک نمایی
اسلاید 55: متقارن و یک نمایی
اسلاید 56: متقارن و یک نماییDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanGPA 92 3.0698 3.1200 3.0766 0.4851 0.0506Variable Minimum Maximum Q1 Q3GPA 2.0200 3.9800 2.6725 3.4675
اسلاید 57: متقارن و دونمایی
اسلاید 58: متقارن و دونماییVariable N Mean Median TrMean StDev Males 84 70.048 70.000 70.092 3.030 Females 89 64.798 65.000 64.753 2.877 All 176 67.313 67.000 67.291 4.017Variable SE Mean Min Max Q1 Q3Males 0.331 63.0 76.0 68.0 72.0Females 0.305 56.0 77.0 63.0 67.0All 0.303 56.0 77.0 64.0 70.0
اسلاید 59: متقارن و دونمایی
اسلاید 60: چوله به راست
اسلاید 61: چوله به راست
اسلاید 62: چوله به راستDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanCDs 92 61.04 46.50 52.93 62.90 6.56Variable Minimum Maximum Q1 Q3CDs 0.00 400.00 21.50 83.00
اسلاید 63: چوله به چپ
اسلاید 64: چوله به چپ
اسلاید 65: چوله به چپVariable N Mean Median TrMean StDev SE Meangrades 22 89.18 93.50 90.60 12.92 2.76Variable Minimum Maximum Q1 Q3grades 50.00 100.00 87.00 98.00
اسلاید 66: انتخاب معیار مناسب مکانیاگر دادهها متقارن باشند، میانگین، میانه و مد، تقریباً برابر هستند.اگر دادههای دارای چند مد باشند، میانگین، میانه و یا مد را برای هر زیرگروه گزارش دهید.اگر دادهها چوله باشند، میانه را گزارش دهید.
اسلاید 67: آمارهای توصیفیتوصیف دادهها با اعداد معیارهای تغییرپذیری
اسلاید 68: چه چیزی توصیف میشود؟مکان یا مرکز دادهها چیست؟دادهها چگونه تغییر میکنند؟
اسلاید 69: معیارهای تغییرپذیریدامنهدامنة بینچارکیواریانس و انحراف معیارضریب تغییرتمام این معیارها تنها برای دادههای سنجشی مناسب هستند.
اسلاید 70: دامنهتفاوت بین بزرگترین و کوچکترین دادهبه میزان زیادی تحت تأثیر برونهشتها قرار میگیرد.برای دادههای متقارن بدون هیچ برونهشتی مناسب است.
اسلاید 71: دامنه چیست؟
اسلاید 72: دامنهDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanGPA 92 3.0698 3.1200 3.0766 0.4851 0.0506Variable Minimum Maximum Q1 Q3GPA 2.0200 3.9800 2.6725 3.4675دامنه = 3.98 - 2.02 = 1.96
اسلاید 73: دامنة بین چارکیتفاوت بین چارک سوم (درصد 75ام) و اولین چارک (درصد 25ام) یعنی نیمة وسطی دادههاIQR = Q3-Q1برای مشاهدات برون هشت و کرانی کارا میباشد.برای دادههای چوله مناسب است.
اسلاید 74: دامنة بین چارکی چیست؟
اسلاید 75: دامنة بینچارکیDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanGPA 92 3.0698 3.1200 3.0766 0.4851 0.0506Variable Minimum Maximum Q1 Q3GPA 2.0200 3.9800 2.6725 3.4675IQR = 3.4675 - 2.6725 = 0.795
اسلاید 76: واریانستفاوت بین هر داده با میانگین را بیابید. این تفاوتها را به توان دو رسانده و با هم جمع کنید.به یکی کمتر از تعداد دادهها تقسیم کنید.
اسلاید 77: واریانساگر واریانس جمعیت را اندازه بگیریم آن را با 2 نشان میدهیم.اگر واریانس نمونه را اندازه بگیریم آن را با s2 نشان میدهیم.متوسط مربع انحراف دادهها از میانگین خود را اندازه میگیرد.به میزان زیادی تحتتأثیر برونهشتها میباشد. برای دادههای متقارن بهتر است.واحدها درجة دوم هستند.
اسلاید 78: انحراف معیارانحراف معیار نمونه ریشة دوم واریانس نمونه میباشد و بنابراین با s نشان داده میشود.واحدها، واحدهای اصلی هستندانحراف متوسط دادهها از میانگین خود را اندازه میگیرد.همچنین به میزان زیادی تحتتأثیر برونهشتها قرار دارد.
اسلاید 79: واریانس یا انحراف معیار چیست؟(MPH)
اسلاید 80: واریانس یا انحراف معیارSex N Mean Median TrMean StDev SE Mean female 126 91.23 90.00 90.83 11.32 1.01 male 100 06.79 110.00 105.62 17.39 1.74 Minimum Maximum Q1 Q3female 65.00 120.00 85.00 98.25male 75.00 162.00 95.00 118.75Females: s = 11.32 mph and s2 = 11.322 = 128.1 mph2Males: s = 17.39 mph and s2 = 17.392 = 302.5 mph2
اسلاید 81: واریانس یا انحراف معیار چیست؟
اسلاید 82: واریانس یا انحراف معیارSex N Mean Median TrMean StDev SE Mean female 126 152.05 150.00 151.39 18.86 1.68 male 100 177.98 183.33 176.04 28.98 2.90 Sex Minimum Maximum Q1 Q3female 108.33 200.00 141.67 163.75male 125.00 270.00 158.33 197.92Females: s = 18.86 kph and s2 = 18.862 = 355.7 kph2Males: s = 28.98 kph and s2 = 28.982 = 839.8 kph2
اسلاید 83: ضریب تغییرنسبت انحراف معیار نمونه به میانگین نمونه ضربدر 100معیار تغییرپذیری نسبی، یعنی تغییرپذیری نسبت به بزرگی دادههابدون واحد است بنابراین برای مقایسة تفاوت بین دو گروه خوب است.
اسلاید 84: ضریب تغییرSex N Mean Median TrMean StDev SE Mean female 126 91.23 90.00 90.83 11.32 1.01 male 100 106.79 110.00 105.62 17.39 1.74 Minimum Maximum Q1 Q3female 65.00 120.00 85.00 98.25male 75.00 162.00 95.00 118.75Females: CV = (11.32/91.23) x 100 = 12.4Males: CV = (17.39/106.79) x 100 = 16.3
اسلاید 85: ضریب تغییرSex N Mean Median TrMean StDev SE Mean female 126 152.05 150.00 151.39 18.86 1.68 male 100 177.98 183.33 176.04 28.98 2.90 Sex Minimum Maximum Q1 Q3female 108.33 200.00 141.67 163.75male 125.00 270.00 158.33 197.92Females: CV = (18.86/152.05) x 100 = 12.4Males: CV = (28.98/177.98) x 100 = 16.3
اسلاید 86: مناسبترین معیار تغییرپذیری بستگی دارد به ...شکل توزیع دادهها
اسلاید 87: انتخاب معیار مناسب تغییرپذیریاگر دادهها متقارن باشند، بدون هیچ برونهشت جدی، از دامنه و انحراف معیار استفاده میشود.اگر دادهها چوله باشند، و یا دارای برونهشت باشند از دامنة بینچارکی استفاده میگردد.اگر در حال مقایسه تفاوت در بین دو مجموعه داده باشیم، از ضریب تغییر استفاده میگردد.
اسلاید 88: احتمالمجموعهای از قوانین احتمال
اسلاید 89: حادثهنتیجة یک مشاهده یا آزمایش یا توصیف بعضی از پیامدهای بالقوهبا این حروف نشان داده میشوند. A, B, C, …
اسلاید 90: احتمالبین صفر و 1 میباشد که نشاندهندة احتمال وقوع یک حادثه است.یک حادثه با احتمال صفر، یک حادثة بیاثر است.یک حادثه با احتمال یک یک حادثة قطعی است.نزدیکتر به یک، احتمال وقوع حادثه بیشتر است. احتمال حادثة A را با P(A) نشان میدهند.
اسلاید 91: مثالها از حادثة پوچ:یک پرنده انسان شودیک زن از سرطان پروستات بمیرد.
اسلاید 92: مثالهای از حادثههای قطعیخورشید امشب غروب خواهد کرد.نیمسال به پایان خواهد رسید.یک نفر خواهد مرد.
اسلاید 93: سه راه برای تعیین احتمالاتروش فراوانیروش کلاسیکروش عقیدة شخصی
اسلاید 94: توزیع نرمالو مقدمهای بر توابع پیوسته چگالی احتمال ...
اسلاید 95: هیستوگرام درصد
اسلاید 96: هیستوگرام مساحت مستطیل = احتمال
اسلاید 97: کاهش اندازة فاصله ...
اسلاید 98: کاهش بیشتر اندازة فاصلهها ...
اسلاید 99: توابع پیوستة چگالی احتمال ...منحنی توصیفکنندة احتمال هر محدودهای از مقادیر را کسب میکند. مثل:P(X > 120), P(X<100), P(110 < X < 120)مساحت زیر منحنی = احتمالکل مساحت زیر منحنی = 1احتمال بدستآوردن یک عدد خاص 0 است. مثلاًP(X=120) = 0
اسلاید 100: نوع ویژهای از تابع چگالی احتمال پیوسته p.d.f
اسلاید 101: خصوصیات توزیع نرمالمتقارن – منحنی زنگولهایشکل منحنی بستگی به میانگین جمعیت و انحراف معیار دارد.مرکز توزیع است.وسعت منحنی بستگی به دارد.بیشتر مقادیر اطراف میانگین هستند اما بعضی از مقادیر کوچکتر و بعضی بزرگتر میباشند.
اسلاید 102: مثالهایی از متغیرهای تصادفی نرمالعملکرد تولید کشاورزان در یک منطقه
اسلاید 103: احتمال بالای 75 چقدر است؟
اسلاید 104: سطح زیر منحنی = احتمالمحاسبة جبری؟شخصی این کار سخت را برای ما انجام داده است.ما تنها به یک جدول احتمالات برای هر توزیع نرمالی نیاز داریم.اما تعداد بینهایت توزیع نرمال وجود دارد (برای هر میانگین و انحراف معیاری یک توزیع)جواب استانداردکردن standardize میباشد.
اسلاید 105: استاندارد کردن ...مقدار x را از میانگین کم نموده و به انحراف معیار تقسیم کنید. نتیجه مقدار z میباشد. یعنی:Z = (X- )/Z را نرمال استاندارد مینامند. میانگین آن 0 و انحراف معیاری برابر با 1 دارد.سپس از جدول احتمال برای z استفاده میشود.
اسلاید 106: استفاده از جدول z
اسلاید 107: احتمال بین 65 و 70 چیست؟
اسلاید 108: احتمال زیر 65 چیست؟
اسلاید 109: یادآوری!احتمالات محاسبهشده دقیق هستند تنها اگر فروض ایجادشده به طور واقعی درست باشند.وقتی محاسبات فوق را انجام میدهید، فرض شما این است که دادهها به طور نرمال توزیع شده باشند.همیشه این فرض را چک کنید! (بعداً یاد خواهیم گرفت)
اسلاید 110: آزمون فرضیهمقدمه
اسلاید 111: برای دانستن خصوصیات یک جمعیت بزرگتر، از یک نمونة تصادفی استفاده نمایید.
اسلاید 112: دو راه برای یادگیری در مورد یک جمعیتفواصل اطمینانآزمون فرضیه
اسلاید 113: فواصل اطمیناناجازه دهید که با استفاده از دادههای نمونه، مقادیر جمعیت مانند میانگین یا نسبتهای واقعی را برآورد نماییم.مثال: متوسط واقعی زمانی که دانشجویان در آخر هفته مطالعه میکنند، چقدر است؟
اسلاید 114: آزمون فرضیهبه ما اجازه دهید که با استفاده از دادههای نمونه، یک ادعا در مورد یک جمعیت را آزمون نماییم. مثلاً اینکه نسبتی از جمعیت یا میانگین جمعیت برابر با یک عدد است.مثال: آیا مقدار واقعی متوسط مطالعة دانشجویان در آخر هفته 20 دقیقه است؟
اسلاید 115: ایدة عمومی آزمون فرضیهیک فرض ابتدایی بسازید.شواهد را جمعآوری کنید (دادهها)بر اساس شواهد موجود، تصمیم بگیرید که آیا فرض اولیه قابل قبول است یا خیر.
اسلاید 116: اجازه دهید که این فرضیه را نشان دهیم.
اسلاید 117: مثالجمعیت 5 میلیون دانشجویکالجآیا متوسط نمره 7/2 است؟نمونة 100 دانشجوچقدر احتمال دارد که 100 دانشجو دارای متوسط نمرهای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟
اسلاید 118: تصمیمگیریآن محتمل یا غیرمحتمل است که ما شواهدی داشته باشیم که فرض اولیة ما را تأیید یا رد کند.(توجه: محتمل یا غیرمحتمل با محاسبة احتمال مشخص میشود)اگر محتمل باشد، آنگاه ما فرض اولیة خود را رد نمیکنیم. یعنی شواهد کافی برای چیز دیگر نداریم.
اسلاید 119: تصمیمگیری (ادامه)اگر غیرمحتمل باشد، آنگاه:یا فرض اولیة ما درست است و ما یک حادثة غیرمعمول را تجربه میکنیم.یا فرض اولیة ما نادرست است.در آمار، اگر غیرمحتمل باشد، ما تصمیم به رد فرض اولیه میگیریم.
اسلاید 120: ایدة آزمون فرضیهاول دو فرضیه ارائه میکنیم، فرضیة صفر the null hypothesis (“H0”) و فرضیة جایگزینand the alternative hypothesis (“HA”)H0: خوانده گناهکار نیستHA: خوانده گناهکار است
اسلاید 121: شناسایی فرضیههافرضیه صفر همیشه نشاندهندة وضعیت موجود میباشد یعنی فرضیهای که نیازمند هیچ تغییری در رفتار جاری ندارد.فرضیه جایگزین، نتیجهای است که محقق سعی دارد آن را بدست آورد.
اسلاید 122: ادامة مثالسپس، شواهدی مانند اثر انگشت، لکههای خون، نمونههای مو، الیاف فرش، رد کفش، نمونههای دستخط و غیره جمعآوری میشود.در آمار، دادهها همان شواهد هستند.
اسلاید 123: ادامة مثالسپس فرض اولیه ساخته میشودخوانده، بیگناه است تا وقتی که ثابت شود، گناهکار است.درآمار، ما همیشه فرض میکنیم فرضیة صفر درست است.
اسلاید 124: ادامة مثالسپس یک تصمیم بر اساس شواهد موجود بگیرید.اگر شواهد کافی وجود داشت (ماورای شک منطقی)، فرضیة صفر رد میشود. (خوانده گناهکار است).اگر شواهد کافی وجود نداشته باشد، فرضیة صفر رد نمیشود (خوانده گناهکار نیست)
اسلاید 125: نکتة مهمهیچ تصمیمی مستلزم اثبات فرضیة صفر یا فرضیة جایگزین نمیباشد.ما فقط اظهار میداریم که شواهد کافی برای حرکت در یک راه یا راه دیگر نداریم.این موضوع همیشه در آمار درست است، موضوع این نیست که ما چه تصمیمی میگیریم، همیشه شانس این وجود دارد که ما تصمیم اشتباه بگیریم.
اسلاید 126: آزمون فرضیهادامة مقدمه ...
اسلاید 127: خطاهای قضاوت
اسلاید 128: خطاها در آزمون فرضیه
اسلاید 129: تعاریف: انواع خطاخطای نوع اول: فرضیة صفر رد شود درحالیکه درست است.خطای نوع دوم: فرضیة صفر رد نشود، وقتی اشتباه است.همیشه شانس ایجاد یکی از این خطاها وجود دارد اما هدف ما باید حداقل کردن شانس وقوع این خطاها باشد.
اسلاید 130: مثالجمعیت تعداد زیادی بزرگسالآیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟نمونه 80 نفر بزرگسالمتوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است.
اسلاید 131: مثال (ادامه)تعیین فرضیهH0: = 98.6 درجهHA: < 98.6 درجهفرضیة اولیه را = 98.6 بسازید.جمعآوری دادهها: متوسط درجة حرارت بدن 80 نفر نمونه، 4/98 است. احتمال این که درجة حرارت بدن یک نمونة 80 نفره از بزرگسالان کمتر از 4/98 باشد، اگر دمای متوسط جمعیت 6/98 باشد، چه مقدار است؟
اسلاید 132: استفاده از p-value برای تصمیمگیریp-value نشاندهندة احتمالی است که ما چنین نمونة کرانی را مشاهده خواهیم کرد اگر فرضیة صفر درست باشد.p-value احتمال است، بنابراین بین صفر و یک میباشد.نزدیک به صفر به معنای غیرمحتمل است.بنابراین اگر p-value کوچک باشد (به طور مثال کمتر از 05/0، آنگاه فرضیة صفر رد میشود.
اسلاید 133: مثال (ادامه) Test of mu = 98.6000 vs mu < 98.6000The assumed sigma = 0.600Variable N Mean StDev SE Mean Z PTemp 80 98.4 0.67 0.0671 -2.80 0.0026p-value را به آسانی میتوان از نرمافزارهای آماری مانند MINITAB بدست آورد.p-value را عموماً با p نشان میدهند.
اسلاید 134: مثال (ادامه)p-value برابر 0026/0 نشان میدهد که اگر دمای متوسط بدن در جمعیت 6/98 باشد، غیرمحتمل است که یک نمونة 80 نفره بزرگسال دارای دمای متوسط بدن 4/98 باشند.تصمیم: رد فرضیة صفرنتیجه اینکه دمای متوسط بدن کمتر از 6/98 میباشد.
اسلاید 135: چه نوع خطایی ممکن است برای ما پیش آید؟خطای نوع اول در اینجا ادعا در این مورد است که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه نیست.خطای نوع دوم در اینجا شکست در این ادعا که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه است.ما فرضیة صفر را رد کردیم یعنی ادعا کردیم که دمای بدن کمتر از 6/98 است بنابراین ما ممکن است خطای نوع اول را داشته باشیم.
اسلاید 136: آزمون فرضیه برای میانگین یک جمعیت
اسلاید 137: مثالجمعیت 5 میلیون دانشجویکالجآیا متوسط نمره 7/2 است؟نمونة 100 دانشجوچقدر احتمال دارد که 100 دانشجو دارای متوسط نمرهای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟
اسلاید 138: مقادیر pچقدر محتمل است که 100 دانشجو دارای میانگین نمرهای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟
اسلاید 139: تعیین مقادیر PH0: μ = متوسط نمرات جمعیت = 2.7HA: μ = متوسط نمرات جمعیت > 2.7اگر 100 دانشجو دارای متوسط نمرهای برابر 9/2 با انحراف معیار 6/0 باشد، مقدار P برابر است با:
اسلاید 140: تصمیمگیریمقدار P کوچک است. غیرمحتمل است که ما نمونهای به اندازة 9/2 داشته باشیم اگر متوسط نمرات جمعیت 7/2 باشد.فرضیة صفر رد میشود. شواهد کافی وجود دارد که متوسط نمرات بزرگتر از 7/2 باشد.
اسلاید 141: اصطلاحاتH0: μ = 2.7 در برابر HA: μ > 2.7 یک آزمون فرضیة دنبالة راست یا یک طرفه نامیده میشود چون مقدار P مربوط به دنبالة سمت راست است.Z = 3.33 را آمارة آزمون مینامند.اگر ما فکر کنیم که مقدار P ما کوچک است یعنی کوچکتر از 05/0 باشد، آنگاه احتمال اینکه ما یک خطای نوع اول بسازیم برابر 05/0 است. این مقدار را سطح معنیداری آزمون مینامند. ما میگوییم α=0.05 جاییکه α سطح معنیداری است.
اسلاید 142: مثالجمعیت تعداد زیادی بزرگسالآیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟نمونه 80 نفر بزرگسالمتوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است.
اسلاید 143: مقادیر pچقدر محتمل است که 80 بزرگسال دارای یک دمای متوسط بدنی به اندازة 4/98 باشد اگر متوسط جمعیت 6/98 باشد؟
اسلاید 144: تعیین مقادیر PH0: μ = متوسط دمای بدن جمعیت = 98.6HA: μ = متوسط دمای بدن جمعیت < 98.6اگر 80 نفر بزرگسال دمای بدنشان 4/98 با انحراف معیار 6/0 باشد، مقدار P برابر است با:
اسلاید 145: تصمیمگیریمقدار P کوچک است، غیرمحتمل است که ما نمونهای به اندازة 4/98 بدست آوریم اگر متوسط دمای بدن در جمعیت 6/98 باشد.رد فرضیة صفر. شواهد کافی برای این نتیجه که متوسط دمای بدن کوچکتر از 6/98 میباشد وجود دارد.
اسلاید 146: اصطلاحاتH0: μ = 98.6 در برابر HA: μ < 98.6 آزمون فرضیة با دنبالة چپ یا یک طرفه نامیده میشود، چونکه مقدار P مربوط به سمت چپ است.Z = -2.98 آمارة آزمون میباشداگر ما فکر کنیم که مقدار P کوچک است؛ یعنی کوچکتر از 02/0، آنگاه احتمال اینکه ما خطای نوع اول ایجاد کنیم برابر با 02/0 میباشد. یعنی سطح معنیداری برابرα = 0.02. میباشد.
اسلاید 147: مثال جمعیت دانشجویان آیا متوسط زمان صرف وقت برای مطالعه 20 دقیقه است؟نمونة 64 دانشجومقدار متوسط 17 دقیقه با انحراف معیار16 دقیقه.
اسلاید 148: مقادیر Pچگونه محتمل است که 64 دانشجو، به طور متوسط حداقل 17 دقیقه و حداکثر 23 دقیقه صرف مطالعه کنند اگر متوسط جمعیت 20 دقیقه باشد؟
اسلاید 149: تعیین مقدار PH0: μ = متوسط وقت صرفشده = 20HA: μ = متوسط وقت صرف شده # 20اگر 64 دانشجوبه طور متوسط 17 دقیقه با انحراف معیار 16 دقیقه صرف مطالعه کنند، مقدار P برابر است با: وبنابراین P-value = 0.067 × 2 = 0.134
اسلاید 150: تصمیمگیریمقدار P کوچک نیست. محتمل است که ما یک نمونه به کوچکی 17 دقیقه و به بزرگی 23 دقیقه داشته باشیم اگر مقدار متوسط صرف شده 20 دقیقه باشد.فرضیة صفر رد نمیشود. شواهد کافی برای اینکه بگوییم مقدار متوسط متفاوت از 20 دقیقه است وجود ندارد.
اسلاید 151: اصطلاحاتH0: μ = 20 در برابر HA: μ # $20 آزمون فرضیة دو دنباله یا دو طرفه نامیده میشود چونکه مقدار P در هر دو طرف میباشد.Z = -1.5 آمارة آزمون میباشدچون ما در رد فرضیة صفر شکست خوردیم، ممکن است خطای نوع اول را داشته باشیم.
اسلاید 152: اگر دادهها به طور نرمال توزیع نشده باشند باید دارای یک نمونة بزرگ مثلاً n > 60 باشیم.
اسلاید 153: نکتة بسیار مهممقدار P شما، صحیح نخواهد بود مگر اینکه فرضهای شما درست باشد.اگر شما نمونة کوچکی داشته باشید، باید ببینید آیا دادههای شما به طور نرمال توزیع شده است یا نهاگر دادهها به طور نرمال توزیع نشده باشند، شما باید یک نمونة بزرگ داشته باشید.
اسلاید 154: Testing Hypotheses Made about the Means of Two PopulationsSTARTAre the two samplesdependent?Paired t test (samples must comefrom normal populations):where df = n - 1Do n1 and n2both exceed 30?z test (normal distribution):Are both populationsnormally distributed?After applying the Ftest, what do we concludeabout ?Pooled variances t test (samples must come from normal populations):Use nonparametric methodsFail to rejectseparate variances t test (samples must come from normal populations)RejectwhereandYesYesYesNoNoNo
اسلاید 155: یادآوریعدم توجه به سطوح اندازه گیری در بکارگیری روشهای مختلف آماری اعم از آمار توصیفی یا استنباطی، اشتباه رایجی است که در بسیاری از تحقیقات به چشم میخورد.سطوح اسمی Nominal scale مقولات یک متغیر به صورت قراردادی کنار هم قرار میگیرند. زن یا مرد (همسانی یا ناهمسانی)
اسلاید 156: 2. در سطح ترتیبی ordinal scale: جهت تغییر از کم به زیاد یا از ضعیف به شدید است، بنابراین در این سطح علاوه بر همسانی یا ناهمسانی مقولات، شدت و ضعف و ترتیب آنها نیز مشخص میشود ولی چون فواصل بین مقولات مشخص نیست اعداد اختصاصیافته به آنها باز هم فاقد ارزش عددی است. یعنی نمیتوان گفت که فلانی سه برابر دیگری به تحصیل علاقه دارد.
اسلاید 157: 3. سطح فاصلهای Interval Scaleدر این سطح علاوه بر تعیین سطوح مختلف و ترتیب منطقی و واقعی بین مقادیر یک متغیر، فاصلۀ بین مقادیر متغیر فوق نیز مشخص میشود.به عنوان مثال میتوان گفت دانشجوئی که نمره 20 گرفته است به اندازۀ 10 نمره با دانشجوئی که نمرۀ 10 گرفته است فاصله دارد.در این مقیاس صفر مطلق وجود ندارد، مثلاً اگر دانشجوئی در درس آمار صفر گرفته باشد، نباید فرض کرد که اصولاً فاقد دانش آمار است
اسلاید 158: 4. سطح نسبی Ratio Scaleبالاترین و دقیق ترین سطح اندازهگیری است که علاوه بر تعیین سطوح و مقادیر یک متغیر و تعیین فاصله بین مقادیر یک متغیر، نسبتها نیز قابل محاسبه و بیان هستند و مبنای اندازهگیری نیز صفر مطلق است. مانند میزان درآمد یا حساب دانشجو - در این متغیر اگر حساب دانشجو صفر باشد واقعاً هیچ پولی در حساب او نیست زیرا این متغیر دارای صفر مطلق است و وجود صفر حقیقی به عنوان مبدأ اندازهگیری محقق را قادر میسازد تا از روشهای مختلف آماری استفاده کند.
اسلاید 159: یادآوریاسمیترتیبیفاصلهای یا نسبتیشاخصهای مرکزیمدمد، میانهمد، میانه، میانگینشاخصهای پراکندگیفراوانی نسبی طبقاتچارکبندیواریانسانحرافمعیاردامنه تغییراتقرینه(سطح توزیع) متقارنچولگی
اسلاید 160: تحلیل روابط بین متغیرهاآمار توصیفی تنها میتواند تصویری از جامعه مورد مطالعه ارائه دهد. اما قادر به بیان روابط بین متغیرها و تبیین متغیر یا متغیرهای وابسته نیست زیرا در این سطح محقق در هر مرحله تنها با یک متغیر سروکار دارد محقق در تحقیقات مختلف عمدتاً بدنبال تحلیل و تبیین دادهها و متغیرهای موردنظر است به همین دلیل سعی میکند با استفاده از آمار استنباطی به بررسی روابط بین متغیرها، تفاوت موجود در بین گروههای مورد مطالعه و یا تبیین متغیر وابسته از طریق متغیرهای مستقل و غیره بپردازد.
اسلاید 161: روابط بین متغیرهاآیا ارتباطی بین دو یا چند متغیر وجود دارد؟ اگر جواب مثبت است، این ارتباط در چه سطحی است؟آیا میتوان تغییرات یک متغیر را از طریق متغیر یا متغیرهای دیگر پیشبینی و تبیین کرد؟پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکانپذیر است.
اسلاید 162: در رابطه با تحلیل دومتغیره روابط بین متغیرها را میتوان از طریق 1) جداول توافقی 2) ضریب همبستگی اسپیرمن 3) ضریب همبستگی پیرسون و برای پیشگویی تغییرات یک متغیر از طریق متغیر دیگر از رگرسیون ساده بهره جست.در رابطه با جمعیت چند متغیره، روابط بین متغیرها از طریق 1) ضریب همبستگی چندگانه و 2) ضریب همبستگی جزئی و پیشگوئی تغییرات یک متغیر از طریق متغیرهای دیگر با استفاده از رگرسیون چندگانه امکانپذیر است.
اسلاید 163: در حاشیه: تفاوت عمدۀ همبستگی و رگرسیونتفاوت رگرسیون با ضریب همبستگی در این است که رگرسیون بدنبال پیشبینی است در حالیکه ضریب همبستگی تنها میزان وابستگی دو متغیر را با هم بررسی میکند. در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونهگیری تکراری) میباشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند.- ضریب همبستگی قادر به بیان روابط علی و معلولی بین متغیرها نیست.
اسلاید 164: هدف از تشکیل یک جدول توافقی نشان دادن هر نوع رابطهای است که ممکن است بین دو متغیر وجود داشته باشد. در مثال حاضر متغیرهای کیفی، جنس (با سطوح مرد و زن) و رد کردن (با سطوح بله و خیر) میباشد. از روی جدول روشن میشود که در حقیقت رابطهای بین این دو متغیر وجود دارد. به طوری که واضحاً نسبت بیشتری از پاسخدهندگان زن، برنامه مورد نظر را رد میکنند جدول توافقی
اسلاید 165: ضرایب همبستگی مرتبط با متغیرهای اسمی1. کایاسکوئر: یکی از آزمونهای ناپارامتری است. این آزمون توسط فیشر ارائه شد و قادر است تا به سنجش آماری معنیداری تفاوت بین فراوانیهای مشاهده شده و فراوانیهای مورد انتظار بدستآمده از جامعه بپردازد.این آزمون نشان میدهد که آیا تفاوت موجود بین مقادیر فوق از نظرآماری معنیدار است یا این تفاوت عمدتاً براساس شانس است.
اسلاید 166: شرایط استفاده از آزمون کایاسکوئردادههای مشاهدهشده باید به صورت تصادفی گردآوری شده باشند.کلیه موارد موجود در نمونه باید مستقل از هم باشند.حتیالامکان هیچ یک از خانههای جدول نباید کمتر از 10 باشند (البته برخی آماردانان تعداد 5 مورد را ذکر میکنند)تعداد نمونه باید به اندازۀ کافی بزرگ باشد. بهتر است حجم نمونه در اینگونه تجزیه و تحلیلها حداقل 50 مورد باشد.آماره کایاسکوئر میتواند برای یک متغیر اسمی و یک متغیر ترتیبی نیز بکار رود.(مثلاً عکس العمل چهار نوع کود یا چهار سطح از یک ماده شیمیائی در دو سطح خاک)
اسلاید 167: 2. ضریب همبستگی چوپروف (T)به منظور تعیین شدت وابستگی بین متغیرهای مورد مطالعه بکار گرفته میشود و مقدار آن همواره بین صفر و یک در نوسان است. این آزمون زمانیکه هر دو متغیر اسمی و یا یکی اسمی و دیگری ترتیبی باشد مورد استفاده قرار میگیرد. اما نباید تعداد سطر و ستون با هم برابر باشند به عبارت دیگر این ضریب برای جداول توافقی مستطیلی بکار گرفته میشود.
اسلاید 168: 3. ضریب همبستگی فی phiبه منظور بررسی شدت همبستگی بین دو متغیر اسمی که به صورت دووجهی و در قالب جدول توافقی میباشد مورد استفاده قرار میگیرد به همین دلیل در اینگونه موارد باید بجای استفاده از کایاسکوئر، از ضریب همبستگی فی استفاده نمود.تفاوت ضریب همبستگی فی با کایاسکوئر در این است که کایاسکوئر سطح معنیداری همبستگی بین متغیرها را تعیین میکند در حالیکه ضریب فی شدت همبستگی کایاسکوئر را نشان میدهند. این ضریب همانند کایاسکوئر تفسیر میگردد و مقدار آن همواره بین صفر و یک است.
اسلاید 169: 4. ضریب همبستگی توافق پیرسون Pearson s coefficient contingencyاین ضریب که آنرا با C نمایش میدهند میزان همبستگی بین دو متغیر اسمی را که به صورت توافقی تنظیم شدهاند محاسبه میکند. این شاخص زمانی بکار میرود که خانههای جدول توافقی بیش از باشد.
اسلاید 170: 5. ضریب کرامر:این ضریب برای تعیین میزان شدت همبستگی بین دو متغیر اسمی مورد استفاده قرار میگیرد و آنرا با نشان میدهند که مقدار آن همواره بین صفر و یک در نوسان است این ضریب در مقایسه با سایر ضرایب انعطاف بیشتری دارد به طوریکه هم برای جداول توافقی بیشتر از و هم برای جداول مستطیلی بکار میرود.
اسلاید 171: ضرائب همبستگی مرتبط با متغیرهای ترتیبی
اسلاید 172: 1. ضریب همبستگی رتبهای کندال kendall s rank correlation coefficientشاخص کندال حالت تقارن دارد به این معنا که متغیرها قرینه بوده و برای محقق مهم نیست که کدامیک از متغیرهای مورد مطالعه وابسته و کدامیک مستقل میباشد. این شاخص مشخص میکند که تا چه میزان افزایش یا کاهش در یک متغیر با افزایش یا کاهش در متغیر دیگر همراه است. مقدار ضریب کندال همواره بین 1- تا 1+ در نوسان است.
اسلاید 173: 2. ضریب گاما Gamma coefficient شاخص است که از طریق آن میتوان با آگاهی از پاسخهای یک متغیر پاسخها و نتایج متغیر دیگر را پیشگوئی کرد. گاما در واقع میزان کاهش خط را که در نتیجه آگاهی از پاسخ افراد در متغیر مستقل رخ میدهد مشخص میکند.
اسلاید 174: 3. ضریب همبستگی رتبهای اسپیرمن Spearman Rank Correlation Coefficientاین ضریب زمانی مورد استفاده قرار میگیرد که دادهها به صورت رتبهای متوالی ناپیوسته (... و 3 و 2 و 1) باشد و یا این که مقادیر اصلی به رتبه تبدیل شوند. در صورتیکه دادهها با مقیاس فاصلهای یا نسبتی اندازهگیری شده باشند میتوان آنها را به رتبه تبدیل کرد و بعد ضریب همبستگی رتبهای اسپیرمن را محاسبه نمود.ضریب همبستگی اسپیرمن که آنرا با rs نمایش میدهند همواره بین 1+ و 1- در نوسان است و از لحاظ سطح سنجش نیز ترتیبی و از نوع متقارن میباشد به همین دلیل برای محقق مهم نیست که کدام متغیر مستقل و کدامیک وابسته باشد.
اسلاید 175: ضریب همبستگی مرتبط با متغیرهای فاصلهای یا نسبی
اسلاید 176: ضریب همبستگی پیرسون Pearson Correlation Coefficient از روشهای پرکاربرد جهت تعیین میزان رابطه بین دو متغیر مصوب گردیده و با علامت r نشان داده میشود. این ضریب به منظور بررسی رابطه بین دو متغیر فاصلهای یا نسبی مورد استفاده قرار میگیرد و مقدار آن بین 1+ و 1- در نوسان است.اگر این ضریب مثبت باشد به معنای آن است که تغییرات در برد و متغیر به طور هم جهت اتفاق میافتد و بالعکس.
اسلاید 178: نکته:دو نکته در رابطه با ضریب همبستگی وجود دارد که توجه به آنها بسیار ضروری است.الف- وجود همبستگی بین دو متغیر به معنای این نیست که آنها دارای اثرات مساوی هستند و یا یکی علت دیگری است، زیرا ممکن است هر دو تحت تأثیر عامل دیگری باشند.به عنوان مثال اگر بین میزان غیبت از کار و رضایت شغلی رابطه متغیر وجود داشته باشد نمیتوان نتیجه گرفت که دلیل زیاد بودن غیبت عدم رضایت شغلی است زیرا ممکن است که غایب بودن خود باعث احساس عدم رضایت شغلی باشد و یا هر دو تحت تأثیر عامل دیگر قرار گرفته باشد.ب- همبستگی ساده نشان میدهد که بین دو متغیر چقدر ارتباط خطی وجود دارد.
اسلاید 179: انتخاب آزمون مناسب برای مقایسۀ میانگینهاچنانچه دادههای مربوط به متغیر وابسته از نوع کمی با مقیاس (فاصلهای یا نسبی) و دادههای متغیر مستقل یا گروهبندی از نوع کیفی با مقیاس (اسمی یا ترتیبی) باشد برای بررسی تفاوت ها میتوان به مقایسه میانگینها پرداخت و معنیداربودن تفاوتهای موجود بین طبقات یا گروهها را مورد بررسی قرار داد.
اسلاید 180: آزمونهای t و F عمدهترین آزمونهای آماری برای مقایسۀ میانگین گروهها میباشند. از آنجا که گروههای مورد بررسی ممکن است مستقل با همبسته باشند بنابراین هر یک از آزمونهای فوق به دو بخش مستقل و همبسته تقسیم میشوند. تصمیمگیری در مورد اینکه در چه مواقعی باید از آزمونهای t یا F مستقل یا همبسته استفاده کرد مهمترین مسأله در تحلیل داده های کمی است.آزمونهای پارامتری
اسلاید 182: پیشفرضهای آزمونهای پارامتریآزمونهای پارامتری t و F را با پیش فرضهای زیر میتوان مورد استفاده قرار داد:مشاهدات از یک جامعه نرمال انتخاب شده باشند.اطلاعاتی که با هم مقایسه میشوند باید تقریباً واریانس یکسانی داشته باشند (در نمونههای بزرگ اگر واریانس یک گروه دو برابر دیگری باشد باز هم میتوان از آزمونهای پارامتری استفاده نمود)دادههای گردآوری شده دارای مقیاس فاصلهای یا نسبتی باشند.اگر اطلاعات جمعآوریشده این سه شرط را نداشت میتوان دادههای فوق را به غیر پارامتری تبدیل کرد و از روشهای آماری غیرپارامتری استفاده نمود. روش عمده تبدیل دادههای پارامتری به غیرپارامتری، رتبهبندی کردن آنها میباشد.
اسلاید 183: الف- آزمونt: اگر متغیرمستقل یا متغیرگروهبندی تنها دو گروه داشته باشد.(اگر بخواهیم درآمد زنان و مردان را با هم مقایسه کنیم)
اسلاید 184: ب- آزمون F (تحلیل واریانس ANOVA)اگر تعداد گروهها بیش از دو باشد.(اگر بخواهیم میزان درآمد گروههای شغلی کارگر، کارمند و کشاورز را با هم مقایسه کنیم)نکته: آزمون F تنها معنیداری تفاوت بین میانگین گروهها را مورد بررسی قرار میدهد اما مشخص نمیکند که این تفاوتها در بین کدامیک از گروههای مورد بررسی وجود دارد. به همین دلیل برای ایک که بدانیم تفاوتهای بدستآمده در بین کدامیک از طبقات وجود دارد و از این طریق مقایسهای بین گروهها انجام گیرد، باید از آزمون شفه (Scheffe test) یا LSD و یا از آمارههایی نظیر توکیTukey یا دانکن Duncan استفاده کرد. این آزمونها میانگین زوجها را با همدیگر به صورت دوبدو مقایسه کرده و وجود اختلاف معنیدار بین آنها را نشان میدهد.
اسلاید 185: این روش کل واریانس موجود در یک مجموعه از دادهها را به دو بخش تقسیم میکند.بخشی از این واریانس ممکن است بخاطر شانس و تصادف حادث شده باشد و بخش دیگر ممکن است ناشی از دلایل یا عوامل خاصی باشد، از طرف دیگر واریانس موجود ممکن است ناشی از تفاوت بین گروههای مورد مطالعه و یا بخاطر تفاوت موجود در درون نمونهها حادث شده باشد.مهمترین اصل در تحلیل واریانس (ANOVA) آزمایش تفاوتهای موجود در بین میانگینهای جوامع یا گروههای مورد مطالعه از طریق بررسی میزان واریانس بین گروهها نسبت به واریانس درون گروههاست.در واریانس درون جامعه فرض بر این است که تفاوت بین مقدار نسبت به میانگین جامعه بخاطر شانس است در حالیکه در بررسی تفاوتهای بین جوامع و گروهها، فرض بر این است که تفاوت بین میانگین جامعه یا نمونۀ jام با میانگین کل به دلیل عوامل خاص میباشد. بنابراین زمانی که از تحلیل واریانس استفاده میشود فرض میگردد که هر یک از نمونهها از یک جامعه نرمال انتخاب شدهاند و هر یک از این جوامع نیز واریانس برابری دارند همچنین فرض میشود کلیه عوامل بجز عواملی که مورد مطالعه میباشند تحت کنترل هستند.
اسلاید 186: نکته:در تحلیل واریانس، اگر در بین میانگین گروههای مختلف تفاوت معنیداری وجود داشته باشد تنها از طریق ANOVA نمیتوان محل این تفاوتها را بدست آورد.اگر به مقایسۀ سه گروه A، B، C بپردازیم و تفاوت معنیداری در بین آنها وجود داشته باشد نمیتوانیم قضاوت کنیم که آیا این تفاوتها بین A و B است یا بین B و C یا بین A و C.در چنین مواقعی نباید از طریق آزمون t به مقایسه دوبدو گروهها پرداخت، زیرا هر قدر تعداد دفعاتی که آزمون t انجام میگیرد بیشتر باشد سطح اطمینان نتایج پائین میآید.(در این موارد باید از آزمونهائی مانند آزمون شفه، آزمون چنددامنه دانکن، آزمون توکی و آزمون استیودنت نیومن، کیول برحسب ضرورت استفاده کرد.
اسلاید 187: تحلیل واریانس یکطرفه: One-way Analysis of Variance اگر محقق تنها یک متغیر (درآمد) را انتخاب کند و بخواهد تفاوت بین طبقات یا گروههای مختلف را بررسی کند در این صورت از تحلیل واریانس یکطرفه استفاده میکند. تحلیل واریانس دوطرفه: Two way Analysis of Varianceاگر محقق بخواهد اثر دو عامل را بر روی یک متغیر وابسته بررسی کند باید از تحلیل واریانس دوطرفه استفاده کند.
اسلاید 188: آزمونهای غیرپارامتریهمانطوری که قبلاً نیز بحث گردید آزمونهای پارامتری علاوه بر این که نیاز به دادههائی از نوع فاصلهای دارند باید از برخی از پیش فرضهای اولیه نیز برخوردار باشند (نرمال بودن توزیع در جامعه و داشتن واریانس یکسان در مواردی که دو یا چند جامعه با هم مورد مقایسه قرار میگیرند و ...)
اسلاید 189: اما در آزمونهای غیرپارامتری چنین پیشفرضهائی مطرح نبوده و زمانی که دادهها در سطح اسمی و یا ترتیبی باشد و یا در صورتیکه گروههای مورد مطالعه از واریانس نابرابر و یا از چولگی برخوردار باشند باید از آزمونهای غیرپارامتری استفاده کرد. این آزمونها از ویژگیهائی برخوردار هستند که آنها را از آزمونهای پارامتری متمایز کرده است:
اسلاید 190: این آزمونها هیچکدام از پیشفرضهای مطرح شده در آزمونهای پارامتری، نظیر نرمال بودن جامعه و یا برابر بودن واریانس گروهها را مبنا قرار نمیدهد و حتی در صورت صادق نبودن مفروضات فوق در خصوص دادههای فاصلهای به منظور استفاده از آزمونهای پارامتری امکان تبدیل داده های فوق به دادههای غیرپارامتری و رتبهای و محاسبه آزمونهای ناپارامتری وجود دارد.از آنجا که در این آزمونها از مقادیر رتبهای و حتی دادههای اسمی استفاده میگردد، بنابراین محاسبۀ آنها کار سادهای است.این آزمونها در مقایسه با آزمونهای پارامتری از دقت بالائی برخوردار نمیباشند. دلیل آن این است که با تبدیل دادههای فاصلهای به مقادیر رتبهای، فواصل واقعی موجود در بین دادهها به فواصل یکسان بین رتبهها تبدیل شده و در این فرآیند بخشی از اطلاعات ناپدید میگردند به عبارت دیگر با تبدیل مقادیر اصلی و واقعی به مقادیر رتبهای، بدلی از واقعیت ساخته میشود و این بدل بدستآمده به جای واقعیت مورد تجزیه و تحلیل قرار میگیرد.
اسلاید 191: انتخاب آزمون غیرپارامتری مناسب
اسلاید 192: 1. آزمون نشانه:زمانی که دادهها به صورت همبسته باشند مورد استفاده قرار میگیرد.
اسلاید 193: آزمون مک نمار:اغلب در مواردی بکار برده میشود که دادهها به صورت اسمی و مربوط به دو نمونه مرتبط بهم (Two related) یا همبسته باشند (زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)
اسلاید 194: مثال1. ابتدا در مورد یک موضوع نظر افراد را به صورت موافق یا مخالف جویا میشویم پس از آن نسبت به برگزاری کلاس آموزشی اقدام میکنیم (یاجلسۀ توجیهی) و سپس دوباره نظر افراد را نسبت به موضوع جویا میشویم. در اینجا فرض صفر (Ho) این است که تفاوتی بین نظرات افراد در قبل و پس از اجرای برنامه (دورۀ آموزشی) وجود ندارد.مثال2. نظرات 1000 نفر درباره خرید و عدم خرید یک کالا قبل و بعد از برگزاری برنامه تبلیغاتی و معرفی کالا پرسیده شده است با این آزمون میتوان مشخص نمود که آیا برنامه تبلیغاتی در تغییر نگرش مشتریان مؤثر بوده است یا خیر.
اسلاید 195: 3.آزمون ویلکاکسون Wilcoxon Test در بسیاری از پژوهشهائی که نمونهها به صورت جفت شده و همبسته هستند ممکن است محقق بخواهد هم جهت تغییر و هم میزان تغییر را مورد بررسی قرار دهد، برای این منظور آزمون ویلکاکسون تست مناسبی است.داده های مورد استفاده در این آزمون حداقل باید در سطح ترتیبی باشند.مثال: نظر تعدادی از مشتریان در رابطه با دو نوع کالای مشابه اما با مارکهای متفاوت از نظر کیفیت محصول سؤال شده است.
اسلاید 196: 4. آزمون فریدمن Fridman Test آزمون فریدمن یکی از آزمونهای غیرپارامتری است این آزمون در واقع معادل آزمون F در روشهای پارامتری میباشد اما در اینجا برخلاف آزمون F، فرض توزیع نرمال و برابر بودن واریانس ضرورتی ندارد.این روش برای مقایسه سه گروه یا بیشتر از سه گروه همبسته بکار میرود.مثال: نظرات 30 نفر از فراگیران را درخصوص سه روش مختلف تدریس جویا شدهایم و پاسخها نیز از 1 (بسیار نامناسب) تا 5 (بسیار مناسب) امتیازبندی شدهاند.
اسلاید 197: 5.آزمون کوکرانیکی از روشهای ناپارامتری و درواقع تعمیمیافته آزمون مک نمار است با این تفاوت که این روش برای مواردی که تعداد گروهها یا تکرار سه یا بیشتر از سه باشد بکار میرود: دادههای این آزمون به صورت اسمی میباشد و وجود تفاوت بین نظرات افراد را مورد بررسی قرار میدهد.مثال: نظرات افراد نسبت به یک موضوع در زمانهای مختلف پرسیده میشود- قبل از برگزاری یک دورۀ آموزشی(موافقت – مخالفت)- بعد از برگزاری دوره(موافقت – مخالفت)- بعد از اجرای عملی محتویات دوره(موافقت – مخالفت)
اسلاید 198: 6.آزمون من - ویتنی Mann – Whitney Testبرای مقایسه میانگینهای دو جامعه مستقل زمانی که دادهها به صورت رتبهای یا ترتیبی باشند مورد استفاده قرار میگیرد.مثال: فرض کنید دو گروه 30 نفره از فراگیران با دو روش متفاوت آموزش دیده و نتیجه ارزیابی آنها از دورههای فوق در قالب امتیازات 1 تا 5 گردآوری شده است.
اسلاید 199: 7. آزمون کولموگروف - اسمیرنف Kolmogrov – Smirnov Test چنانچه در بحث کایاسکوئر گفته شد اگر فراوانیهای مورد انتظار بیش از 20 درصد خانههای جدول، کمتر از 5 باشد، در این صورت نمیتوان از فرمول کایاسکوئر استفاده کرد، این مشکل معمولاً زمانی پیش میآید که حجم نمونه کمتر از 50 باشد و یا تعداد خانههای جدول بیشتر باشد. در چنین حالتی میتوان از تست کولموگرف - اسمیرنف استفاده کرد. اساس این آزمون مقایسه فراوانی تجمعی نسبی مشاهده شده با فراوانی تجمعی نسبی مورد انتظار میباشد.
اسلاید 200: 8. آزمون کروسکال - والیس Kruskal – Wallis Test این آزمون در واقع معادل تحلیل واریانس یکطرفه میباشد، اما برخلاف آن نیازی به مفروضات آن نظیر اینکه نمونهها از یک جامعۀ نرمال بدستآمده باشند و یا اینکه انحراف معیار یکسانی داشته باشند وجود ندارد. آزمون کروسکال والیس زمانی استفاده میشود که تعداد نمونهها بیش از دو گروه باشد.مثال: از 90 نفر دانشجو در سه رشته مختلف درخواست شد تا کیفیت برنامههای آموزشی دانشکده را ارزیابی کنند. امتیازات ارائه شده توسط افراد فوق از 1 (بسیار ضعیف) تا 5 (بسیار قوی) در نوسان بوده است.Ho: بین نظرات دانشجویان رشتههای مختلف تفاوت معنیداری وجود ندارد.این آزمون اگرچه وجود تفاوت بین نظرات گروههای مختلف را نشان میدهد اما مشخص نمیکند که این تفاوت در بین کدام یک از گروهها وجود دارد.
اسلاید 201: آزمون میانه: Median testیکی دیگر از روشهای غیرپارامتری است که برای مقایسه سه یا بیشتر از سه گروه مورد استفاده قرار میگیرد. اطلاعات مورد نیاز در این روش باید در سطح رتبهای بوده و حتیالامکان دادهها همرتبه نباشند، زیرا اگر میانه مشترک بین گروهها جزو نمرات تکراری باشد در این صورت تشخیص تفاوت گروهها با مشکل مواجه میگردد.مثال: میخواهیم بدانیم آیا سرعت عمل کارگران سه شیفت مختلف یک کارگاه خیاطی با هم متفاوت است یا خیر؟برای این کار تعداد شلوار دوخته شده توسط 40 کارگر (از سه شیفت مختلف) در یک هفته گردآوری شده است.
اسلاید 202: طبقهبندی روشهای تحلیل چندمتغیره
اسلاید 203: انتخاب روش مناسب برای تجزیه و تحلیل دادهها مهمترین قدم در تحلیل دادههای گردآوری شده محسوب میگردد. متأسفانه به دلیل عدم آشنائی با منطق حاکم بر روشهای مختلف آماری چند متغیره، به اشتباه یکی به جای دیگری مورد استفاده قرار میگیرد و تکنیکهای مختلف به طور نابجا بکار گرفته میشوند.
اسلاید 204: به منظور آشنائی با نحوه بکارگیری روشهای چند متغیره در تجزیه و تحلیل دادهها، درخت تصمیمگیری برای استفادۀ اصولی و متناسب با نوع دادهها و هدف تجزیه و تحلیل ارائه شده است، این طبقهبندی بر مبنای سؤالات و مفروضات خاصی انجام گرفته است:آیا دادههای مورد نظر قابل تقسیم به متغیرهای مستقل و متغیرهای وابسته هستند؟اگر چنین تقسیمبندی امکانپذیر است، چند متغیر از موارد فوق، متغیر وابسته میباشند؟متغیرهای موجود در تجزیه و تحلیل در چه سطحی اندازهگیری شدهاند؟
اسلاید 205: پاسخ این سه سؤال محقق را در تصمیمگیری برای انتخاب مناسبترین تکنیک تجزیه و تحلیل چند متغیره کمک میکند.پاسخ سؤال اول مشخص میکند که آیا باید از تکنیکهای وابستگی (Dependenc Technique) استفاده نمود یا باید از تکنیکهای هم وابستگی (Interodependence Technique) بهره گرفت.روشهای وابستگی تکنیکهائی هستند که در آن یک یا چند متغیر به عنوان متغیرهای وابسته لحاظ شده و تغییرات آن براساس متغیرهای مستقل دیگر مورد بررسی و تبیین قرار میگیرد مانند روش رگرسیون چندگانه یا تحلیل واریانس چند متغیره و غیره.روشهای هم وابستگی تکنیکهائی هستند که در آن متغیرهای مستقل و وابسته وجود ندارد، بلکه در این روشها مجموعه متغیرها به طور همزمان و با هم مورد تجزیه و تحلیل قرار میگیرند. مانند روش تحلیل عاملی.
اسلاید 207: اگر موضوع مورد تجزیه و تحلیل دارای یک متغیر وابسته از نوع پارامتری باشد، روش مناسب برای تجزیه و تحلیل آن تحلیل رگرسیون چندگانه است.* چنانچه دادههای فوق دارای یک متغیر وابسته باشد اما متغیر فوق از نوع غیرپارامتری دووجهی باشد، روش مناسب رگرسیون لوجیستیک و تحلیل تشخیص چندگانه است. چنانچه متغیر وابسته غیرپارامتری چندوجهی باشد باید از تحلیل تشخیصی استفاده شود در تحلیل تشخیصی متغیر وابسته از نوع غیرپارامتری و متغیرهای مستقل از نوع پارامتری هستند. اما چنانچه متغیرهای وابسته و مستقل هر دو غیرپارامتری باشند روش مناسب برای تجزیه و تحلیل دادهها رگرسیون لوجیستیک میباشد. تحلیل مسیر روشی است که هم برای دادههای پارامتری و هم غیرپارامتری سازگار است.اگر متغیرهای مربوط به موضوع مورد بررسی دارای چند متغیر وابسته باشد در این صورت دو تکنیک دیگر برای تجزیه و تحلیل مناسب خواهند بود. اگر متغیرهای وابسته پارامتری باشند تحلیل واریانس چند متغیره یا تحلیل همبستگی کانونی مناسب خواهد بود اما اگر متغیرهای وابسته مورد نظر غیرپارامتری باشد میتوان از طریق تبدیل آنها به متغیرهای مجازی کدبندی شده به صورت (1، 0) از روش تحلیل کانونی استفاده کرد.
اسلاید 208: روشهای هموابستگی بر مبنای وجود یا عدم وجود متغیرهای وابسته مورد تجزیه و تحلیل قرار نمیگیرند زیرا در این روشها کلیۀ متغیرها به طور همزمان و با همدیگر بررسی میشوند این روشها از نظر پارامتری یا غیرپارامتری بودن دادهها به دو گروه جداگانه تقسیم میشوند.پارامتری: تکنیکهای تحلیل عاملی و تحلیل خوشهایغیرپارامتری: دادههای غیرپارامتری از طریق کدبندی متغیر مجازی (به صورت صفر و یک) قابل بکارگیری در روشهای تحلیل عاملی و تحلیل خوشهای هستند.از سوی دیگر هم دادههای پارامتری و هم غیرپارامتری قابل استفاده در تکنیک مقیاسبندی چندبعدی میباشند.
اسلاید 209: رگرسیون
اسلاید 210: سه روش اصلی برای جمعآوری دادهها:مطالعات قبلی بر اساس دادههای تاریخیمطالعة مشاهدهای طرح آزمایشی (بهترین حالت)جمعآوری دادهها
اسلاید 211: کاربرد رگرسیونتوصیف دادههابرآورد پارامترهاپیشبینی و تخمینکنترل
اسلاید 212: نقش کامپیوترتحلیل رگرسیون نیازمند استفادة هنرمندانه و هوشمندانه از کامپیوتر است.SAS, SPSS, S-plus, R, MATLAB, …
اسلاید 213: رگرسیون و مدل سازیتحلیل رگرسیون: یک تکنیک آماری برای بررسی و مدلسازی ارتباط بین متغیرهاکاربردها: مهندسی، علوم فیزیکی و شیمیایی، اقتصاد، مدیریت، علوم زیستی و بیولوژیکی و علوم اجتماعیتحلیل رگرسیون شاید گستردهترین تکنیک آماری مورد استفاده میباشد.
اسلاید 214: تحلیل رگرسیون این امکان را برای محقق فراهم میکند تا تغییرات متغیر وابسته را از طریق متغیرهای مستقل پیشبینی و سهم هر یک از متغیرهای مستقل را در بین متغیر وابسته تعیین کند.
اسلاید 215: تحلیل رگرسیون و ضریب همبستگی رگرسیون رابطۀ نزدیکی با ضریب همبستگی دارد، بدین معنا که برای انجام رگرسیون باید ضریب همبستگی را محاسبه کرد. اگر میان متغیرهای مورد مطالعه همبستگی وجود داشت تنها در این صورت است که میتوانیم از رگرسیون برای آزمون فرضیههای تحقیق استفاده نمائیم.
اسلاید 216: تحلیل رگرسیونمفهوم رگرسیون برای اولین بار توسط فرانسیس گالتون در سال 1877 مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد.وی در یک مقالۀ مشهور اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلند قد و نیز والدین کوتاه قد به داشتن فرزندان کوتاه قد وجود دارد اما متوسط قد بچههای والدین متعلق به هر طبقة قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش دارد (Regress)
اسلاید 217: تعبیر نوین تحلیل رگرسیونتعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی میتوان گفت:تحلیلهای رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) میپردازد که با تخمین یا پیشبینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (در نمونهگیری تکراری) صورت میپذیرد.
اسلاید 218: رسم خط رگرسیون
اسلاید 219: تحلیل رگرسیون در مقام مقایسه با تحلیل رابطۀ علیتهرچند تحلیلهای رگرسیون وابستگی یک متغیر به سایر متغیرها را بررسی میکند اما الزاماً بیانگر حالت علیت نمیباشد. بنا به گفته کندال و استوارت یک رابطۀ آماری هرچند قوی و واضح هرگز نمیتواند پایۀ ارتباط علی (سببی) قرار بگیرد. ایدههای ما از علیت باید خارج از حیطۀ آمار و مالاً از تئوری یا غیر آن حاصل شود.مثلاً نمیتوان گفت که بارندگی به عملکرد محصول وابسته است.
اسلاید 220: تفاوت عمدۀ همبستگی و رگرسیوندر رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونهگیری تکراری) میباشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند.ضریب همبستگی قادر به بیان روابط علّی و معلولی بین متغیرها نیست.
اسلاید 221: اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است. اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی میگردد.
اسلاید 222: رگرسیون خطی و غیرخطیخطیبودن از نظر متغیرهاخطیبودن از نظر پارامترها
اسلاید 223: جزء استوکاستیک (تصادفی) تابع رگرسیون جامعهجزء تصادفی جامعه ( ) نماینده یا جانشینی برای تمامی متغیرهای حذف شده یا فراموششده که بر متغیر وابسته اثر میگذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمیتوانند در مدل گنجانده شوند).
اسلاید 224: اهميت جزء اخلال استوکاستیک و تعبیر آنجزء استوکاستیک نمایندهای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر میگذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمیشوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمیشوند.دلایل فراوانی وجود دارد:ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بیاطلاع باشیم.ممکن است راجع به بعضی از متغیرها دادههای اندکی داشته باشیم.جمعآوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد.به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال میتواند آنرا منعکس کند.ممکن است در اندازهگیری خطا صورت گرفته باشد.با تأسی به قاعدۀ اُکام (توصیف راجع به پدیدهها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن سادهتر بگیریم.
اسلاید 225: تخمین مدل رگرسیون دو متغیرهروش حداقل مربعات معمولی Ordinary Least Square (OLS)برطبق فروض اصلی، روش حداقل مربعات چند خاصیت بسیار جالب آماری دارد که یکی از مشهورترین و قویترین روشهای تحلیل رگرسیون را به وجود آورده است (این روش به کارل فردریک گوس، ریاضیدان نامی آلمان نسبت داده میشود).
اسلاید 226: مشاهدات
اسلاید 227: نمودار پراکندگی
اسلاید 228: قاعدۀ کلی حداقل مربعات
اسلاید 229: روش حداقل مربعات، تخمینهای منحصر بفردی از و را که کوچکترین مقدار ممکن را به نمونه ارائه شده بدهد، مهیا میسازد.تخمين زنندههای حداقل مربعات
اسلاید 230: اين تخمينزنندهها خصوصیات جالبی دارند که عبارتند از:منحصراً برحسب مقادیر قابل مشاهده بیان میشوند (مثلاً و در یک نمونه)این تخمینزنها، تخمینزنهای نقطهای هستند یعنی در نمونه داده شده با هر تخمینزن فقط مقدار منحصر به فردی (نقطه) برای پارامتر جامعۀ مربوطه ارائه میکند (بنابراین خط رگرسیون را میتوان به آسانی برازش نمود)
اسلاید 231: فرضیات اساس روش حداقل مربعاتاگر هدف ما تنها تخمین و باشد، روش OLS کافی است اما به یاد داریم که در تحلیل رگرسیون هدف تنها بدستآوردن و نیست بلکه هدف استنتاجاتی دربارۀ و واقعی میباشد.برای رسیدن به این هدف نه تنها باید شکل تبعی مدل را تعیین کنیم بلکه باید فرضیات معینی دربارۀ چگونگی بوجودآمدن و را نیز مطرح سازیم:اين معادله نشان میدهد که هم به و هم به بستگی دارد. بنابراین تا زمانی که ندانیم و چگونه بدست میآیند هیچ راهی برای دستیابی به استنتاجات آماری دربارۀ و همچنین و نخواهیم داشت. از این رو فرضیات مبتنی بر متغیر و جزء خطا برای تفسیر معتبری از تخمینهای رگرسیون اهمیت دارند.
اسلاید 232: آنچه به عنوان مدل رگرسیون خطی عمومی، گوسی، کلاسیک یا استاندارد معروف میباشد، مبتنی بر فرضیات زیر است:فرض1: میانگین ui ها صفر استاين فرض بيان ميكند كه مقدار میانگین ui ها برحسب Xi مفروض صفر است.
اسلاید 233: اگر بین uها حالت الف یا ب وجود داشته باشد آنگاه خودهمبستگی یا همبستگی پیوسته وجود خواهد داشت.فرض2: عدم وجود خودهمبستگی بین uها
اسلاید 234: فرض 3: یکسانی (همسانی) واریانس Ui هااین فرض بیان میکند که جامعۀ Y متناظر با مقادیر مختلف X واریانس یکسان دارند.
اسلاید 235: در مقابل این حالت شکل زیر، واریانس شرطی جامعۀ y همراه با افزایش مقدارX افزایش می یابد، این حالت به ناهمسانی واریانس و یا ناهمسانی در پراکندگی معروف است.
اسلاید 236: فرض4: کوواریانس صفر بین و Ui , Xiفرض نمودیم که x و u (که میتواند تأثیر تمام متغیرهای حذف شده را نشان دهد) دارای تأثیرات جمعپذیر و مجزا بر y میباشند اما اگر X و u همبسته باشند. تشخیص تأثیر خاص و مجزای هر کدامشان بر y ممکن نیست. بنابراین اگر X و u به طور مثبت همبستگی داشته باشند X با افزایش u افزایش و با کاهش u کاهش مییابد به همین شکل اگر X و u به طور منفی همبسته باشند X با افزایش u کاهش و با کاهش u افزایش مییابد و به هر ترتیب جداکردن تأثیر X و u بر Y مشکل است.
اسلاید 237: فرض5: مدل رگرسیون دقیقاً تصریح شده است (عدم وجود خطای تصریح یا تورش)سؤالات فوق بسیار مهمند چراکه با حذف متغیرهای اصلی از مدل، انتخاب شکل تبعی غلط و یا مطرح کردن فرضهای آماری نادرست دربارۀ متغیرهای مدل، اعتبار تفسیر رگرسیون تخمینزده شده، زیر سؤال خواهد رفت.
اسلاید 238: از میان تمامی فرضها، این فرض انعطافناپذیرترین و شاید در نظر اول دارای کمترین محل اعراب باشد.یک مدل رگرسیون در یک تحقیق با تصریح مدل آن در رابطه با پدیدههای مورد نظر شروع میشود. بعضی از سؤالات مهم که در تصریح مدل پدید میآیند عبارتند از:چه متغیرهائی باید در مدل جای گیرند؟شکل تبعی مدل چیست؟ آیا این مدل از نظر پارامترها خطی است یا از نظر متغیرها و یا هردو؟فرضهای احتمالی ارائه شده در مورد، Yi و Xi و ui های درون مدل چه میباشند؟
اسلاید 239: متأسفانه در عمل، شخص به ندرت از متغیرهای صحیحی که باید در مدل منظور شود، شکل تبعی صحیح و یا فرض احتمالی صحیح در مورد متغیرهای وارد شده در مدل اطلاع دارد. بنابراین در عمل کارشناس از بعضی قضاوتها در انتخاب تعدادی از متغیرهای واردنشده در مدل یا شکل تبعی مدل استفاده کرده و برخی فرضها را در مورد ماهیت تصادفی متغیرهای مشمول در مدل پیش میکشد و در انتخاب مدل صحیح برای تحلیل تجربی تا حدی مستلزم آزمون و خطاست.
اسلاید 240: پراکندگی منحنی فیلیپس
اسلاید 241: منحنی فیلیپس
اسلاید 242: خصوصیات تخمینزنندههای حداقل مربعات: قضیۀ گوس- مارکفیک تخمینزن 2 را زمانی میتوان بهترین تخمینزن بدون تورش خطی (BLUE) از 2 دانست که:تخمینزن خطی باشد. یعنی تابعی خطی از یک متغیر تصادفی مانند متغیر وابستهYدر مدل رگرسیون باشد.تخمینزن بدون تورش باشد تخمينزن در بین تمام تخمینزنندههای بدون تورش خطی، حداقل واریانس را داشته باشد (تخمینزن بدون تورش با حداقل واریانس به تخمینزن کارا معروف است).
اسلاید 243: The Gauss-Markov Theorem: are the best linear unbiased estimators (BLUE).
اسلاید 244: قضیۀ گوس- مارکف با توجه به فرضهای مدل کلاسیک رگرسیون خطی، تخمینزنندههای حداقل مربعات در بین تخمینزنندههای خطی، بدون تورش و دارای حداقل واریانس یعنی BLUE میباشند.
اسلاید 245: ضرائب تعیین r2 (معیار خوبی برازش) و ضریب همبستگی r2ضریب همبستگی:r میتواند مثبت یا منفی باشد.این کمیت بین دو مقدار 1+ و 1- میباشد.این کمیت ماهیتاً قرینه میباشد یعنی ضریب همبستگی بین x و y یعنی rxy معادل ضریب همبستگی بین y و x (ryx) است.این کمیت مستقل از مبدأ و مقیاس اندازهگیری است.اگر x و y از لحاظ آماری مستقل باشند ضریب همبستگی بین آنها صفر است و r = 0 به این معنا نیست که دو متغیر مستقلند (قسمتh شکل صفحه بعد)این کمیت صرفاً معیاری جهت همبستگی خطی یا وابستگی خطی است و برای توصیف ارتباطات غیرخطی قابل استفاده نیست. بنابراین در قسمت h Y=X2 بیانگر یک ارتباط دقیق است اما میزان r معادل صفر است.هرچندکه r معیار همبستگی خطی بین دو متغیر است ولی همانطور که قبلاً اشاره شد بیانگر هیچگونه رابطۀ علت و معلولی نمیباشد.
اسلاید 246: الگوهای همبستگی
اسلاید 247: ضریب تعییندر زمینۀ رگرسیون، r2 معیار پرمعناتری از r است چرا که r2 نسبت تغییرات متغیر وابسته توضیح داده شده به وسیلۀ متغیرهای توضیحی را ارائه میدهد درحالیکه r فاقد چنین خصوصیتی است. به علاوه تعبیرr (R=) در یک مدل رگرسیون مرکب زیر سؤال میباشد.
اسلاید 248: کوشش برای حداکثرکردن R2 گاهی محققان سعی در حداکثرکردن R2 دارند یعنی انتخاب مدلی که بالاترین R2 را به دست میدهد اما انجام این کار ممکن است خطرناک باشد زیرا در تحلیل رگرسیون هدف ما آن نیست که تنها یک R2 بالا به دست آوریم. بلکه هدف بدست آوردن تخمینهای قابل اطمینانی از ضرائب حقیقی رگرسیون جامعۀ اصلی و استنباط آماری دربارۀ آنهاست. در تحلیلهای تجربی بدست آوردن یک R2 بسیار بالا چندان معمول نبوده بلکه حتی گاهی برخی از ضرائب تخمینزده شدۀ رگرسیون از لحاظ آماری بیمعنی بوده یا دارای علامتهائی برخلاف انتظارات قبلی هستند. بنابراین محقق باید دقت بیشتری دربارۀ ارتباط منطقی یا تئوریکی متغیرهای توضیحی یا متغیر وابسته و معنیداری آماری آنها داشته باشد.اگر R2 بالا بدست آوریم خوب خواهد بود اما اگر R2 پایین باشد این امر به معنی بدی مدل نمیباشد.
اسلاید 249: فرض نرمال: مدل رگرسیون خطی نرمال کلاسیک
اسلاید 250: توزیع احتمالی اجزاء اخلال uiبرای کاربرد روش حداقل مربعات معمولی (OLS) در مدل کلاسیک رگرسیون خطی، هیچ فرضی در مورد توزیع احتمالی جزء اخلال ui ارائه نکردیم. تنها فروضی که در مورد ui مدنظر قرار گرفت عبارت بودند از اینکه اجزا مذکور دارای امید صفر، عدم همبستگی و واریانس ثابت هستند.
اسلاید 251: اگر هدف ما تنها تخمین پارامترها باشد در اینصورت روش OLS کافی خواهد بود اما تأکید بر تخمین تنها یکی از جنبههای استنتاج آماری است و جنبۀ دیگر آزمون فرضیه میباشد.از آنجا که هدفمان هم تخمین پارامترها و هم آزمون فرضیه است، لذا احتیاج به تعیین توزیع احتمالی جزء اخلال ui خواهیم داشت.
اسلاید 252: فرض نرمال بودنميانگینواریانسکوواریانس ui ، uj
اسلاید 253: طبق قضیۀ مشهور آماری حدی مرکزی میتوان نشان داد که اگر با تعداد زیادی از متغیرهای مستقل و تصادفی که دارای توزیع احتمالی یکسانی هستند مواجه باشیم، در این صورت به استثناء چند حالت خاص، با افزایش تعداد متغیرها به سمت بینهایت توزیع مجموع آنها به سمت توزیع نرمال میل میکند.
اسلاید 254: خصوصیت تخمینزنندههای OLS تحت فرض نرمال بودن بدون تورش هستنددارای حداقل واریانس هستند سازگاری: یعنی همانطور که حجم نمونه به سمت بینهایت افزایش مییابد، تخمینزنندهها نیز به مقادیر جامعهشان نزدیک میشوندبه طور نرمال توزیع شده است به طور نرمال توزیع شده است عبارت از توزیع کایدو با درجۀ آزادی (N-2) تبعیت میکند. و مستقل از توزیع شدهاند. و در گروه تخمینزنندههای بدون تورش خطی یا غیرخطی دارای حداقل واریانس هستند. بنابراین میتوان گفت که تخمینزنندههای حداقل مربعات بهترین تخمینزنندههای بدون تورش (BLUE) هستند.
اسلاید 256: رگرسیون دومتغیره: تخمین فاصلهای و آزمون فرضیه
اسلاید 257: فاصلة اطمیناناز آنجائیکه فاصلۀ اطمینان تصادفی است، احتمالهای بدست آمده میبایست در معنای درازمدت فهمیده شوند، یعنی نمونهگیری تکراری به طور مشخصتر به این معنی است که: اگر در نمونهگیری تکراری، فواصل اطمینانبراساس احتمال به تعداد زیاد ساخته شوند آنگاه در درازمدت به طور متوسط چنین فواصلی در مورد از تعداد کل موارد، مقدار حقیقی پارامتر را در بر میگیرند.
اسلاید 258: آزمون فرضیه و انتخاب سطح معنیداریخطای نوع اول: احتمال ردکردن فرضیۀ درست.خطای نوع دوم: احتمال قبول فرضیۀ نادرست.براساس هزینۀ هر کدام از خطاهای فوق، محقق اقدام به انتخاب سطح معنیداری خواهد نمود.
اسلاید 259: نقض فروض مدل کلاسیک مدل کلاسیک رگرسیون خطی نرمال براساس چند فرض ساده شده به شرح زیر است:فرض1: میانگین شرطی جزء اخلال جامعه مشروط به مقادیر مفروض متغیرهای توضیحی (xها) صفر است.فرض2: واریانس شرطی ui ثابت یا همسان است.فرض3: خودهمبستگی در اجزا اخلال وجود ندارد.فرض4: متغیرهای توضیحی غیرتصادفیاند. حتی اگر تصادفی هم باشند، مستقل از اجزا اخلال ui توزیع شدهاند.فرض5: بین متغیرهای توضیحی (xها) همخطی مرکب وجود ندارد.فرض6: ui ها به طور طبیعی با میانگین و واریانس داده شده در فروض 1 و 2 توزیع شدهاند.فرض7: مدل رگرسیون به طور صحیح تصریح شده است، یعنی تورش تصریح وجود ندارد.
اسلاید 260: با این فروض دیدیم که تخمینزنهای حداقل مربعات معمولی (OLS) ضرائب رگرسیون، بهترین تخمینزنهای بدون تورش خطی BLUE میباشند.فروض 1، 4 و 6 را به دلایل زیر به طور مفصل مورد بحث قرار نخواهیم داد:فرض1: امید صفر جزء اخلال: اگر این فرض تأمین شود نمیتوان عرض از مبدأ اصلی را تخمین زد و چون در بسیاری از حالتهای کاربردی، جزء عرض از مبدأ اهمیت ناچیزی دارد چندان تأثیری نخواهد داشت.فرض4: حالت تصادفیبودن متغیرهای توضیحی: اگر xها با وجود تصادفیبودن به طور مستقل از uها توزیع شوند آنگاه برای تمام مقاصد کاربردی، xها را میتوان غیراستوکاستیک فرض کرد.فرض6: نرمال بودن u: اگر هدف ما صرفاً تخمین باشد، این فرض ضروری نیست. فرض نرمال بودن به منظور آزمون فرضیه و پیشبینی بسیار مهم است.
اسلاید 261: همخطی Multicollinearityیکی از فروض مدل کلاسیک رگرسیون خطی این است که هیچگونه همخطی مرکب بین متغیرهای توضیحی موجود در مدل وجود ندارد.توجه داشته باشید که همخطی تنها ارتباطات خطی بین متغیرهای x را شامل میشود و ارتباطات غیرخطی بین آنها را در بر نمیگیرد.اگر همخطی وجود داشته باشد ضرائب رگرسیونی متغیرهای x نامعین و انحراف معیارشان بینهایت است. (همخطیکامل) همخطی ویژگیهای BLUE بودن تخمینها را نقض نمیکند.
اسلاید 262: نتایج عملی همخطیالف- بزرگی واریانس و کوواریانسهای تخمینزنهای OLSب- فواصل اعتماد عریضتر: احتمال قبول شدن یک فرضیۀ غلط (مثلاً خطای نوع دوم)ج- نسبتهای غیرمعنادار r: مقادیر t کوچک میشوند و فرضیۀ صفر به معنای صفربودن پارامترهای جامعۀ واقعی مورد قبول واقع میشود.د- R2 بالا اما تعداد اندک نسبتهای معنادار.هـ- حساسیت تخمینزنهای OLS و خطای معیار آنها نسبت به تغییرات اندک در دادهها
اسلاید 263: کشف همخطیالف- در همخطی سؤال از درجه است نه از نوع. تمایز معناداری بین حضور و عدم حضور همخطی وجود ندارد، بلکه تمایز بین درجات گوناگون آن است.از آنجایی که همخطی به شرایط متغیرهای توضیحی برمیگردد که فرض شده غیرتصادفی باشند لذا این حالت شکلی از نمونه است نه جامعه بنابراین ماآزمون برای همخطی صورت نمیدهیم، بلکه میتوان درجهاش را در نمونۀ مشخص اندازهگیری نمود.ب-1. R2 بالا اما تعداد کم نسبتهای t معنیدار2. همبستگی شدید بین دوبدو متغیرهای توضیحی3. امتحان ضرائب جزئی4. رگرسیونهای معین5. ریشۀ مشخصه (Eigenvalue) و شاخص وضعیت (Condition Index) در برنامۀ SAS از ریشۀ مشخصه و شاخص وضعیت برای تشخیص همخطی استفاده میکنند.
اسلاید 264: رفع مشکل همخطی:قاعدۀ محکم و دقیقی جهت چارهجوئی مشکل وجود ندارد، چراکه همخطی الزاماً یک مشکل نمونهای است.اطلاعات قبلی (تئوریکی)ترکیب کردن دادههای مقطعی و سریهای زمانی (دادههای مرکب)حذف متغیرها و تورش تصریحتبدیل متغیرهادادههای جدید یا اضافی (افزایش حجم نمونه)
اسلاید 265: ناهمسانی واریانس Heteroscedasticity یکی از مهمترین فروض مدل رگرسیون خطی کلاسیک این است که اجزاء اخلال ui که بر تابع رگرسیون جامعه ظاهر میشوند، دارای واریانس همسان هستند. با افزایش یک متغیر (درآمد) متوسط متغیر دیگر (پسانداز) افزایش مییابد.«ناهمسانی واریانس»
اسلاید 266: اگر فرض ناهمسانی را جایگزین فرض همسانی نمائیم تخمینزن هنوز BLUE هست اما دیگر کارا یا بهترین نیست و دارای حداقل واریانس نیز نمیباشد در این حالت از روش تخمین معروف به حداقل مربعات تعمیمیافته (GLS) استفاده مینمائیم.نتایج کاربرد روش OLS در شرایط وجود ناهمسانی واریانس فاصلۀ اطمینان براساس بیش از حد لازم بزرگ خواهد شد و در نتیجه آزمونهای t و F احتمالاً نتیج غلطی به ما خواهند داد.
اسلاید 267: کشف ناهمسانی واریانسروش ترسیمی: ابتدا رگرسیون را براساس فرض عدم ناهمسانی تحلیل کرده و سپس مجذور باقیماندههای تخمینزده شده ei2 را مورد بررسی قرار داد تا ببینیم چه الگوی سیستماتیک و منظمی را نشان میدهند.واریانس جزء اخلال به طور خطی یا متغیر x مربوط است.2. آزمون پارک: پارک روش گرافیکی را در قالب فرمول بیان داشته است.3. آزمون گلدفلد- کوانت4. آزمون گلچس5. آزمون بروج پاگانت6. آزمون وایت
اسلاید 268: خودهمبستگییکی از فروض مهم مدل کلاسیک این است که خودهمبستگی سریالی بین اجزاء اخلالی که در تابع رگرسیون جامعه وارد میشود وجود ندارد.ماهیت خودهمبستگی: همبستگی بین اعضای سریهای مشاهداتی است که در زمان (سریهای زمانی) یا مکان (دادههای مقطعی) ردیف شدهاند.اگر محصول در یک فصل کم باشد دلیلی بر کم بودن محصول در فصل دیگر نمیباشد (عدم خودهمبستگی)
اسلاید 269: تخمین OLS در حالت وجود خودهمبستگیدر حالت خودهمبستگی تخمینزن GLS خصوصیت BLUE داشته و تخمینزن OLS چنین خصوصیتی ندارد. تخمینزن OLS از اطلاعات موجود بیشترین استفاده را میکند.درحالت وجود خودهمبستگی نیز همانند حالت ناهمسانی، تخمینزنهای OLS خطی و بدون تورش و لذا سازگارند ولی کارا نیستند (یعنی حداقل واریانس را ندارند)فواصل اعتماد بزرگتر از حالت معمول خواهد بود (OLS نسبت به GLS)
اسلاید 270: تخمین OLS بدون در نظر گرفتن خودهمبستگیاحتمالاً واریانس باقیمانده مقدار واقعی سیگما به توان دو را کمتر از حد تخمین میزند.در نتیجه R2 بیش از حد تخمین زده میشود.آزمونهای معنیداری t و F معتبر نیستند و اگر آنها را بکار ببریم نتایج بسیار غلطی در مورد معنیداری آماری ضرایب تخمینزده شدۀ رگرسیون بهدست خواهیم آورد.
اسلاید 271: فروض زیربنایی آزمون D.W 1.مدل رگرسیون دارای جزء عرض از مبدأ است 2. متغیرهای توضیحی غیرتصادفی هستند 3. اجزاء اخلال به وسیلۀ الگوی خود رگرسیونی مرتبۀ اولحاصل میشوند. 4. مدل رگرسیون شامل مقادیر با وقفهای از متغیر وابسته به عنوان یکی از متغیرهای توضیحی نیست. 5. هیچ مشاهدۀ مفقودهای در دادهها وجود ندارد.کشف خودهمبستگی:-روش ترسیمی-آزمون تسلسل-آزمون دوربین واتسون : مشهورترین آزمون تشخیص همبستگی سریالی است DW
اسلاید 272: تصریح مدلیکی از فروض کلاسیک، تصریح مدل بود به عبارت دیگر فرض بر این بود که تورش یا خطای تصریح در مدل وجود ندارد. این موضوع بسیار گسترده و پیچیده میباشد و بسیاری از مباحث آن بالاتر از سطح مفروض ما میباشد.این قسمت دربرگیرندة مسائل زیر است:مدل خوب یا صحیح متضمن چه خصوصیاتی است؟فرض کنید که یک مدل صحیح برای تحلیل یک مسألة خاص ارائه شده است اما به علت در دسترس نبودن آمار و ارقام، سهلانگاری، ملاحظات هزینهای یا سستی، مدل متفاوتی را بکار بردیم و بنابراین نسبت به مدل صحیح مرتکب خطای تصریح شدهایم. حال سؤال این است که در عمل وقوع چه نوعی از شکلهای مختلف خطاهای تصریح وجود دارد؟نتایج انواع مختلف خطای تصریح کدامند؟طرق کشف این نوع خطاها کدامند؟اگر به ارتکاب خطای تصریح پی بردیم چه راههایی برای دستیابی و برگشت به مدل صحیح وجود دارد؟در 5 مورد بالا فرض بر این بود که یک مدل صحیح وجود دارد و ما مایل به دانستن مشکلات عارض شده در اثر کاربرد مدل دیگری بودیم اما اگر اصلا ندانیم که کدام مدل صحیح است دچار خطای تعیین غلط مدل می شویم که با خطای نوع قبلی یعنی خطای تصریح متفاوت است.
اسلاید 273: خصوصیات یک مدل خوبقلت منطقی متغیرهای توضیحی: یک فرضیه (مدل) زمانی با ارزش و مهم خواهد بود که مقدار زیادی از تغییرات را به وسیلة تعداد کمی از متغیرها بتوان توضیح داد.قابلیت تشخیص: برای مجموعه داده های معین، پارامترهای تخمین زده شده باید مقادیر منحصر بفردی را به دست دهند به عبارت دیگر تنها یک تخمین برای هر پارامتر مشخص به دست آید.خوبی برازش: سازگاری با تئوریقدرت تعمیم دهی و پیشنگری: تنها آزمون مناسب برای اعتبار یک فرضیه (مدل) مقایسة پیش بینی آن با تجارب است.
اسلاید 274: انواع خطای تصریححذف یک متغیر مهمواردکردن متغیر غیرلازمدرنظر گرفتن یک شکل تبعی غلطخطای در اندازه گیری
اسلاید 275: نتایج خطای تصریححذف یک متغیر مهم:ضرایب رگرسیون اشتباه برآورد می شوند (تورشدار، ناسازگار)واریانس جزء اخلال اشتباه تخمین زده می شود.نهایتاً فاصلة اطمینان و آزمون فرضیه نتایج گمراه کننده ای را راجع به معنادار بودن آماری پارامترهای تخمین زده شده به دست می دهند.لحاظ کردن یک متغیر نامربوطتخمینها ناتور و ناسازگارندواریانس خطا درست برآورد می شود.آزمون فرضیه و فاصلة اعتماد معتبر می باشند.به طور کلی ضرایب برآوردشده غیرکارا هستند یعنی واریانس آنها عموماً بزرگتر از واریانسهای ضرایب حقیقی می باشند. (دقت کم در استنتاجهای احتمالی پارامترها) (احتمال ایجادشدن مشکل همخطی را نیز زیاد می کند) (درجة آزادی را کم می کند)
اسلاید 276: آزمونهای کشف خطای تصریحکشف وجود متغیرهای غیرلازمآزمون معنادار بودن ضریب متغیر اضافه (آزمون F)آزمونهای راجع به متغیرهای حذف شده و شکل تبعی غلط استفاده از باقیمانده ها (ملاحظة گرافیک این باقیمانده ها)آزمون Reset رمزیآزمون نسبت راستنماییآزمون والدآزمون ضریب لاگرانژآزمون هاسمن
اسلاید 277: استفاده از باقیماندهها (ملاحظة گرافیک این باقیماندهها)
اسلاید 278: رگرسیون بر روی متغیرهای موهومیدر بسیاری از تحلیلهای رگرسیونی، متغیر وابسته نه تنها تحتتأثیر متغیرهای کمی (مثل تولید، میزان کود مصرفی،...) با مقیاسهای متداول است، بلکه از متغیرهای ماهیتاً کیفی (جنس، نژاد، ...) نیز تبعیت میکند.نظر به اینکه متغیرهای کیفی عموماً دلالت بر وجود یا عدم وجود کیفیت یا صفتی دارند، لذا یک روش برای کمی کردن این صفات،درنظر گرفتن متغیرهای ساختگی با قبول دو مقدار ضفر و یک میباشد که صفر بیانگر عدم وجود آن صفت و یک حاکی از وجود آن میباشد. به این ترتیب متغیرهایی که این مقادیر صفر و یک را اختیار میکنند، متغیرهای موهومی (Dummy Variable) نام دارند.اسامی دیگر این متغیرها عبارتند از متغیرهای دلالتکننده بر یک صفت، متغیرهای دوتایی، متغیرهای طبقهای، متغیرهای کیفی، متغیرهای منقسم به دو، متغیرهای مجازی.
اسلاید 279: متغیرهای موهومی به همان سادگی متغیرهای کمی در تحلیل رگرسیونی به کار میروند.اگر چنانچه یک مدل رگرسیونی تنها بر حسب متغیرهای توضیحی موهومی یا کیفی بیان شده باشند، آن را مدل آنالیز واریانس مینامند.در بیشتر تحقیقات اقتصادی، معمولاً یک مدل رگرسیون شامل چندین متغیر توضیحی میباشد که تعدادی از آنها کمی و بقیه کیفی میباشند، این گونه مدلهای رگرسیونی که شامل دو نوع متغیرهای کمی و کیفی هستند را مدلهای آنالیز کوواریانس (ACOV) مینامند.قاعدةکلی برای تعداد متغیرهای موهومی: چنانچه متغیر کیفی موردنظر دارای m طبقه باشد، آنگاه بایستی فقط به تعداد m-1 متغیر موهومی در مدل منظور شود در غیر اینصورت در دام متغیر موهومی گرفتار خواهیم شد (همان حالت ایجاد همخطی کامل بین متغیرهای موهومی)
اسلاید 280: رگرسیون بر روی یک متغیر کمی و یک متغیر کیفی با بیش از دو طبقهپيش بيني تلفات برداشت گندم و تحليل داده ها به روش مدل متغيرهاي موهومي (کد مقاله653)احسان مصدری[1] ، محمد حسین عدالت[2] ، محمد جواد خلیلی[3] ، حمید طاهرپور کلانتری[4]مجموعه مقالات پنجمین کنگرة ملی مهندسی ماشینهای کشاوزی و مکانیزاسیون
اسلاید 281: مدل متغيرهاي موهومي گونه اي از مدل هاي رگرسيوني است که بوسيله آن مي توان اثر متغيرهاي کيفي را بر روي متغير وابسته سنجيد. اين مدل ها مي توانند فقط از متغيرهاي موهومي (کيفي) تشکيل شده باشد که در اين صورت آن را مدل آناليز واريانس مي نامند و يا مي تواند ترکيبي از متغيرهاي موهومي و کمي باشد که در اين صورت آن را مدل آناليز کوواريانس مي نامند.در اين مدل تمام متغيرهاي کيفي را بايستي با استفاده از روش مناسب به صورت صفر و يک تبديل کرد. براي تخمين مدل در اين مطالعه از يک تابع خطي به شکل زير استفاده شده است.که در ان نشان دهنده متغيرهاي مستقل و نشان دهنده متغير وابسته و مقادير و ضرايبي است که در پي تخمين زدن هستيم. اين مدل با استفاده از روش OLS به راحتي قابل تخمين است .اما شيوه تفسير ضرايب متغيرهاي موهومي متفاوت خواهد بود. متغيرهاي مستقل وارد شده در اين مدل جهت تخمين رابطه ريزش شامل منطقه، واريته گندم، مدل کمباين، نوع کشت، عملکرد، عمر کمباين، تاريخ برداشت و ساعت برداشت ميباشد. متغير وابسته درصد ريزش است که حاصل جمع ربزش عمليات برداشت و ريزش طبيعي محصول ميباشد.
اسلاید 282: متغير منطقه داراي چهار حالت مشهد، تربت جام، خواف و تايباد مي باشد که از اين ميان منطقه مشهد به عنوان وضعيت پايه انتخاب شده و ساير مناطق به ترتيب با متغير هاي Torbatjam، Khaf و Taybad وارد الگو مي شود. در اين صورت چنانچه مقادير هر سه ناحيه برابر صفر باشد نشان دهنده شهرستان مشهد، اگر متغير Torbatjam برابر يک باشد و ساير متغيرها صفر باشند نشان دهنده تربت جام و اگر متغير Khaf برابر يک باشد و ساير متغيرها صفر باشد نشان دهنده شهرستان خواف و در نهايت اگر متغير Taybad برابر با يک و ساير متغير ها صفر باشد نشان دهنده شهرستان تايباد خواهد بود.به عبارت ساده تر براي هر شهرستان يک متغير کيفي تعريف شده است که مقدار يک، نشان دهنده برداشت در آن شهرستان و مقدار صفر نشان دهنده برداشت در يک شهرستان ديگر مي باشد. براي هر مشاهده حداکثر يک متغير برابر با يک مي شود و ساير مناطق صفر است. همانطور که قبلا گفته شد اگر مقدار هر سه متغير صفر باشد نشان دهنده شهرستان پايه يعني مشهد است.
اسلاید 283: به همين ترتيب براي واريته گندم که شامل چهار رقم فلات، روشن، سرداري و گاسكوژن است، واريته فلات به عنوان واريته پايه انتخاب شده و ارقام روشن، سرداري و گاسکوژن به وسيله متغيرهاي کيفي Roshan ، Sardary و Gaskojen وارد الگو شده است. مدل هاي کمباين شامل جاندير و سهند S68 است که به وسيله يک متغير کيفي با نام Model وارد الگو شده است. مقدار يک نشان دهنده استفاده از کمباين جاندير و مقدار صفر نشان دهنده کمباين S68 است. نوع کشت شامل دو وضعيت آبي و ديم است که به وسيله متغير Abideym مشخص شده است مقدار يک نشان دهنده کشت آبي و مقدار صفر نشان دهنده کشت ديم است.به اين ترتيب متغيرهاي مستقل کيفي شامل منطقه، واريته گندم، نوع کشت و مدل کمباين وارد الگو ميشوند، ساير متغيرها شامل عمر کمباين، تاريخ برداشت و ساعت برداشت متغيرهاي کمي هستند که به ترتيب با نام هاي Omr ، Tarikh ، Saat معرفي ميشوند.متغير Omr برحسب سال، متغير Tarikh برحسب شماره روز از ابتداي سال 84 و متغير Saat برحسب فاصله زماني از ساعت 12 شب که مقداري بين صفر تا يک مي باشد در نظر گرفته شده است. معنيداري کلي رگرسيوني با استفاده از آزمون F و معني داري ضرايب با استفاده از آزمون t بررسي ميشود.
اسلاید 284: رگرسیون بر روی متغیر وابستة موهومیدر مدلهای رگرسیونی دارای متغیر موهومی، این فرض ضمنی وجود داشت که متغیرهای توضیحی میتوانند کمی، کیفی یا ترکیبی از آن دو باشند. در حالیکه متغیر به هر حال بایستی قابل اندازهگیری کمی باشد.در این قسمت مدلهای رگرسیونی مورد نظر قرار میگیرند که در آنها متغیر وابسته یا تابع، خود ماهیتاً بیانگر دو گروه است که هر یک مقادیر 0 و 1 را اختیار میکنند.
اسلاید 285: عموماًًًًً برای تخمین این مدلها سه روش وجود دارد:مدل احتمال خطی linear probability model (LPM)مدل لاجیت (Logit)مدل پروبیت (Probit)
اسلاید 286: مدلهای معادلات همزمان
اسلاید 287: بسیاری از روابط آماری به وسیلة مدلهای تک معادلهای قابل تبیین هستند. در این مدلها یک متغیر (متغیر وابسته) به عنوان تابعی خطی از یک یا چند متغیر دیگر (متغیرهای توضیحی) درنظر گرفته میشوند. به این ترتیب به طور ضمنی فرض بر این است که رابطة علْی (درصورت وجود بین دو متغیر x و y یکطرفه میباشد یعنی متغیرهای توضیحی حکم علت و متغیر وابسته حکم معلول را دارا میباشد.اما مواردی وجود دارد که با جریانی دوطرفه از رابطة علی بین متغیرها مواجهیم یعنی یک متغیر در عین تأثیرگذاری بر متغیر(های) دیگر، از آن (آنها) نیز تأثیر میپذیرد. بدیهی است در این حالت، تحلیل رگرسیونی قبل (OLS) برای مطالعة چنین وضعی مناسب نخواهد بود چرا که دو متغیر متقابلاً بهم وابستهاند. به عبارت دیگر در این حالت به دو معادله احتیاج خواهیم داشت و همین ضرورت است که ما را متوجه مبحث معادلات همزمان میکند.
اسلاید 288: اگر در این حالت از سایر معادلات در سیستم چشمپوشی نماییم و پارامترهای هر معادله را به وسیلة روشی مانند حداقل مربعات معمولی تخمین بزنیم، این تخمینها نه تنها تورشدار بلکه ناسازگار نیز خواهند بود چون یکی از فروض قاطع روش OLS ، داشتن توزیع مستقل متغیرهای توضیحی از جزء اخلال استوکاستیک است که در معادلات همزمان نقض میشود.در این حالت از روشهای زیر استفاده میشود:روش حداقل مربعات دو مرحله (2SLS)روش حداقل مربعات سهمرحلهای (3SLS)روش حداقل مربعات سه مرحلهای تکراری (I3SLS)روش حداکثر راستنماییروش حداکثر راستنمایی با اطلاعات محدود (LIML)روش سیستمی حداکثر راستنمایی با اطلاعات کامل (FIML)
اسلاید 289: تحلیل مسیردر حوزة مطالعات اجتماعي و اقتصادي، روشهاي تحليل چندمتغيرة زيادي وجود دارند كه به بررسي اثرات و روابط بين متغيرهاي مورد مطالعه ميپردازند. اين روشها عمدتاًً اثرات مستقيم يك متغير بر متغير ديگر را مورد بررسي قرار ميدهد. اما در اين ميان تحليل مسير از جمله تكنيكهاي چندمتغيره است كه علاوه بر بررسي اثرات مستقيم متغيرهاي مستقل بر متغير وابسته، اثرات غيرمستقيم اين متغيرها را نيز مدنظر قرار ميدهد و روابط بين متغيرها را مطابق با واقعيتهاي موجود در تحليل وارد ميكند و با بيان منطقي، روابط و همبستگي مشاهدهشدة بين آنها را تفسير ميكند.
اسلاید 290: خاستگاه تحلیل مسیرتوسط Sewell Wright توسعه یافت.Formulated in series of papers published in 1918, 1921, 1934, 1960برای استخراج اثرات مستقیم و غیرمستقیم در بین متغیرها ایجاد شد.تحلیل مسیر با ارتباطات تبعی در بین متغیرها سرو کار دارد.
اسلاید 291: اصل اساسی موردنظر در تحلیل مسیر این است که هر ضریب همبستگی بین دو متغیر را میتوان به مجموعهای از مسیرها تجزیه کرد.استفاده از تکنیک تحلیل مسیر مستلزم قبول پیشفرضی است مبنی بر اینکه روابط بین متغیرهایی که حداقل در مقیاس شبهفاصلهای هستند به طور خطی با افزایش متغیرها اضافه میگردد. هر متغیر وابسته بر اساس اثرات متغیرهای قبلی در دیاگرام مسیر و متغیر باقیمانده مورد تحلیل و تبیین قرار میگیرد.
اسلاید 292: تجزیة همبستگیهمبستگی = اثرات مستقیم + اثرات غیرمستقیم
اسلاید 293: براي ساختن يك مدل در بحث تحليل مسير، ده شرط مطرح شده است كه به كمك آنها، امكان تجزيه و تحليل علّي فراهم ميگردد. درده شرط موردبحث، هفت شرط اول مدل تئوريكي مناسبي را براي تجزيه و تحليل و استنتاج علّي فراهم ميسازد:بيان رسمي تئوري در قالب مدل ساختاريوجود منطق تئوريكي براي فرضيههاي علّيمعيننمودن نظم علّيمشخصنمودن جهت روابط علّينوشتن معادلات توابعمشخصنمودن مرزهاي مدلثبات مدل ساختاريعملياتيكردن متغيرهاتأييد تجربي معادلات كاركرديبرازش مدل ساختاري با دادههاي تجربي
اسلاید 294: درتحليل مسيري به منظور بررسي روابط علت و معلولي بين متغيرها لازم است براي عيني شدن آنها و جلوگيري ازبروز اشتباهات، ازنمودارهاي مسيري استفاده نمودكه اين كار را ميتوان طي مراحل زيرنشان داد:الف- تعيين متغيرها: پيش از هرچيز بايد هريك از متغيرهاي مورد بررسي به لحاظ نقشي كه در سيستم ايفا مينمايند، مشخص شده باشند. ازاين نظر دو نوع متغير وجوددارد:متغيربرونزا: به متغيرهايي از مجموعة متغيرهاي مورد بررسي اطلاق ميگردد كه تحتتأثير ساير متغيرها قرار نداشته باشند.متغيرهايدرونزا: به متغيرهايي ازمجموعه متغيرهاي موردبررسي اطلاق ميگردد كه تحتتأثير يك يا چند متغير ديگر قرارداشته باشند.
اسلاید 295: انواع مدلهای مسیریدر تحليل مسيري با دو نوع مدل سروكار داريم (آذر، 1380):1- مدلهاي بازگشتي: به مدلهايي گفته ميشود كه در بين هيچ يك از متغيرهاي مورد بررسي، رابطة دوطرفه يا متقابل وجود نداشته باشد.2- مدلهايغيربازگشتي: يعني مدلهايي كه درآنها رابطة بين برخي ازمتغيرها به صورت دوطرفه باشد.
اسلاید 296: مدلهای مسیری بازگشتی ارتباطات علی یکطرفه میباشند.
اسلاید 297: مدل غیربازگشتی ارتباطات علی دوطرفه هستند
اسلاید 298: معنی مدلهای مسیریفرض بر این است که مدلهای مسیری نشاندهندة فرضیههای علّی میباشند.یک مدل مسیری معنیدار به معنی علیت نمیباشد.بلکه با استفاده از دادههای تجربی از یک مدل برای آزمون علیت استفاده نمود.
اسلاید 299: اثرات غیرمستقیم و مستقیمدو راهی که یک متغیر پیشبینیکننده ممکن است بر یک منغیر واکنش تأثیر بگذارد.اول یک اثر مستقیم متغیر x بر روی متغیر y x1 yدوم یک اثر غیرمستقیم متغیر x بر روی y از طریق یک متغیر پیشبینیکنندة دیگر.
اسلاید 300: نمودار مسیر درونداد در مطالعة رضایت شغلی
اسلاید 303: بنابر آنچه گفته شد، پیکانها نشاندهندۀ پیوندهای علی مورد انتظار بین متغیرهاست این مدل از چپ به راست حرکت میکند تا از حجیت علی متغیرهائی را که به چپ نزدیکتر هستند را منعکس سازد، هر معرف نماد یک مسیر علی و بنابراین یک ضریب مسیر است که باید محاسبه شود. بر پایه این مدل ملاحظه میکنیم که: سن بر رضایت شغلی هم اثر مستقیم (P1 ) و هم اثر غیرمستقیم دارد. سن به گونه مستقیم بر درآمد اثر میگذارد (P5) که به نوبه خود در رضایت اثر دارد (P6) و بر خودفرمانی نیز اثر میگذارد (P2) که خود بر درآمد اثر مستقیم دارد (P4) و به نوبه خود رضایت را زیر نفوذ قرار میدهد (P6). علاوه بر این، خودفرمانی نیز بر رضایت شغلی هم اثر مستقیم (P3)، هم از طریق تأثیر بر درآمد (P4) بر آن اثر غیرمستقیم دارد (P6) سرانجام، درآمد بر رضایت اثر مستقیم دارد (P6) اما بر آن اثر غیرمستقیم ندارد.
اسلاید 304: مشاهده میشود که درآمد، خودفرمانی و رضایت شغلی دارای پیکانهای دیگریاند که مبدأ آنها خارج از حیطه آن متغیرهاست که مستقیم به آنها وصل شدهاند این پیکانها معرف واریانس تبیین نشده برای هر متغیر میباشند بنابراین پیکان e1 به خودفرمانی (P7) بیانگر مقدار واریانس خودفرمانی است که از سوی سن، تبیین نمیشود. پیکان e2 به رضایت شغلی (P8) معرف مقداری از خطای ناشی از رضایت شغلی است که از سوی سن، خودفرمانی و درآمد توجیه نمیشود. سرانجام پیکان e3 به درآمد (P9) معرف مقداری از واریانس درآمد است که از سوی سن و خودفرمانی تبیین نشده است.این سه جملۀ خطا نشاندهندۀ این واقعیت است که متغیرهای دیگری وجود دارند که بر خودفرمانی و درآمد و رضایت شغلی اثر دارند اما در این نمودار مسیر گنجانده نشده است.
اسلاید 305: تحلیل مسیر اساساً با برآورد مقدار اتصالات بین متغیرها و کاربرد این برآوردها به منظور بدست آوردن اطلاعاتی دربارۀ فرایندهای علی زیربنائی سروکار دارد، هرچند این برآوردها را میتوان از طریق روشهای گوناگونی بدست آورد اما سادهترین راه برای محاسبۀ آنها، کاربرد روش رگرسیون معمولی است مشروط بر آن که مفروضههای رگرسیون بهویژه این مفروضه که متغیر پسماند در معادلۀ ساختاری با متغیرهای تبیینکننده در آن معادله ناهمبسته است برقرار باشد برای بدستآوردن برآوردهای ضرائب اصلی مسیر کافی است هر متغیر وابسته (درونزا) به متغیرهائی که مستقیماً تحت تأثیر آن است بازگشت داده شود. به بیان دیگر برای برآوردهای هر یک از مسیرهای مشخص شده، ضرائب استانداردشده رگرسیون (یا ضرائب مسیر) محاسبه میشود. این ضرائب از طریق برقراری معادلههای ساختاری یعنی معادلههائی که ساختار روابط مفروض در یک مدل را مشخص میسازد به دست میآیند.
اسلاید 306: بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود.e1 + (سن) x1 = خودفرمانیe2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلیe3 + (خودفرمانی) x2 + (سن) x1 = درآمد
اسلاید 307: بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود.e1 + (سن) x1 = خودفرمانیe2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلیe3 + (خودفرمانی) x2 + (سن) x1 = درآمدضریب استاندارد برای سن در معادله (1) مقدار 2P: ضرائب سن، خودفرمانی و درآمد در معادله (2) به ترتیب مقادیر 1P ، 2P و 3P ؛ و سرانجام ضرائب سن و خودفرمانی در معادله (3) به ترتیب مقادیر 5P و 4P را به دست می دهد. بنابراین به منظور محاسبه ضرایب مسیر، ضرورت دارد سه معادله را به عنوان معادلههای رگرسیون چندمتغیری در نظر بگیریم و ضرائب حاصل از آنها ضرائب مسیر را بهدست میدهد.
اسلاید 308: . از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوم محاسبه میشود.باید توجه داشت که چون به منظور تکمیل مسیرها لازم است همه ضرائب مسیر محاسبه شود بنابراین نباید از روش رگرسیون گام به گام استفاده شود.
اسلاید 311: چون ضرایب مسیر ضرایب استاندارد هستند، این امکان وجود دارد که آنها را به گونة مستقیم با هم مقایسه کنیم. میتوان دید که سن اثر مستقیم اما بسیار کوچک و منفی در رضایت شغلی دارد در حالیکه اثر غیرمستقیم آن مثبت و قابل توجه است.
اسلاید 312: بسیاری از پژوهشگران مایلند اثر کلی یک متغیر را بر متغیر دیگر محاسبه کنند برای مثال اثر کلی سن بر رضایت شغلی از طریق جمع اثر مستقیم (08/0 -) با مجموع آثار غیرمستقیم آن به دست میآيد. آثار غیرمستقیم از طریق حاصلضرب ضرائب هر مسیر سن به رضایت شغلی به طریق زیر محاسبه میشود:برای مسیرهای سن به درآمد به رضایت شغلی 27/0 = (47/0 ×57/0)برای مسیرهای سن به خودفرمانی به رضایت شغلی 16/0 = (58/0 × 28/0)برای مسیرهای سن به خودفرمانی به درآمد به رضایت شعلی 03/0 = (47/0 ×22/0 × 28/0)بنابراین جمع آثار عیرمستقیم سن بر رضایت شغلی 46/0 = 03/0 + 16/0 + 27/0 میباشد.و برای اثر کلی سن بر رضایت شغلی باید اثر مستقیم آن را با کل آثار غیرمستقیم آن جمع کنیم که حاصل آن برابر با 38/0 = 46/0 + 08/0 – خواهد بود. این تمرین نشان داد که اثر غیرمستقیم سن بر رضایت هماهنگ با اثر مستقیم آن نیست زیرا اثر مستقیم آن نزدیک به صفر و اثر غیرمستقیم آن مثبت است.
اسلاید 314: برخی اوقات، جهت علی بین همه متغیرها را در نمودار مسیر نمیتوان تعیین کرد. برای مثال، چنان که در شکل مشاهده میشود خودفرمانی و ماهیت کار همبستهاند، یعنی بین آنها ارجحیت علی یکی بر دیگری وجود ندارد، و اتصال بین آنها به وسیله یک پیکان دوسره نشان داده شده است. هر متغیر دارای یک اثر مستقیم (P5 و P4)، و یک اثر غیرمستقیم بر غیبت از طریق رضایت شغلی است: خودفرمانی به رضایت (P1) و رضایت به غیبت (P3)؛ ماهیت کار به رضایت (P2) و رضایت به غیبت (P3). به منظور محاسبه ضرایب لازم، نیاز به ضریب r پیرسون برای خودفرمانی و ماهیت کار و نیز نیاز به ضرایب استانداردشده دو معادله زیر داریم:e1 + (ماهیت کار) x2 + (خودفرمانی) x1 + a= رضایتe2 + (رضایت) x3 + (ماهیت کار) x2 + (خودفرمانی) x1 = غیبت
اسلاید 315: پس از آن میتوانیم کل آثار علی را هم برای متغیرهای خودفرمانی و ماهیت کار، و هم برای رضایت محاسبه و با هم مقایسه کنیم. اثر کلی میتواند از جمع اثر مستقیم با کل آثار غیرمستقیم تشکیل شود. اثر کلی این سه متغیر بر غیبت عبارت است از:(p3)(p1) + (p5) = اثر کلی خودفرمانی(p3)(p2) + (p4) = اثر کلی ماهیت کار p3= اثر کلی رضایت شغلی
اسلاید 316: مدل غیربازگشتی
اسلاید 317: تفسیر ارتباطاتX1 بازگشتی و علی وابسته به x4 میباشدX1 ممکن است به طور غیرمستقیم از طریق x4 به 4 وابسته باشدX4 ممکن است به طور غیرمستقیم از طریق x1 به 1 وابسته باشد1 ممکن است به 4 وابسته باشد.اگر این وضعیت وجود داشته باشد ...فروض OLS نقض میشوند. در رگرسیون به روش OLS فرض بر ایت است که ارتباطات یکطرفه بوده و جملات خطا از یکدیگر مستقل میباشند.
اسلاید 318: در اینحالت باید از روش 2SLS یا روش حداقل مربعات دومرحلهای استفاده نمود.
اسلاید 319: تحلیل عاملیFactor Analysis
اسلاید 320: تحليل عاملي از تعدادی فنون آماری ترکیب شده و هدف آن ساده تر کردن مجموعههای پیچیدة دادههاست
اسلاید 321: تعریف ماتریس همبستگیماتریس همبستگی مجموعهای از ضرایب همبستگی بین تعدادی از متغیرها است:فرض بر این است که هر متغیر با خودش همبستگی کامل دارد(عناصری که در قطرهای ماتریس همبستگی قرار میگیرند در فهم و تفسیر تحلیلهای عاملی مهم هستند).زواید زیادی در ماتریس وجود دارد، بدین معنا که هر ضریب دوبار در ماتریس ظاهر میشود.تحلیل عاملی برای سادهکردن چنین ماتریسهایی طراحی شده استدر یک ماتریس بزرگ از همبستگیها، منطقی است بپرسیم که چه چیزی ممکن است این همبستگیها را تبیین کند.
اسلاید 322: تعریف عامل: اساساً عامل، بعد یا سازهای است که روابط بین مجموعهای متغیرها را به صورت خلاصه مطرح میکند بنا به عقیدة رویس (1963)، عامل، سازهای است که عملاً از روی (یا بوسیلة) بارهای عاملیاش تعریف میشود.تعریف بارهای عاملی: همبستگی یک متغیر با یک عامل را بار عاملی گویند. فرض کنید کجموعهای از آزمونهای توانایی و پیشرفت تحصیلی را تحلیل عاملی کردهایم. این مثال، سه عامل را در یک نوع تحلیل عاملی از تواناییها نشان میدهد. عاملهای دیگری نیز ممکن است وجود داشته باشد اما اینها ماهیت عوامل و بارهای عاملی را بهتر توضیح میدهند.
اسلاید 323: فایده تحلیل عاملیبه رغم اینکه میدانیم تحلیل عاملی برای خلاصهکردن ماتریسهای همبستگی به کار برده میشود، هنوز یک سؤال مهم باقی است و آن این است که با تحلیل عاملی چه کارهایی را میتوان انجام داد و این فن چگونه میتواند سودمند واقع گردد؟برای پاسخ به این پرسش، باید به این نکته توجه کرد که هنگام کاربرد این روش باید بین تحلیل اکتشافی (exploratory) و تأییدی (confirmatory) تمایز قائل شد.
اسلاید 324: تحلیل عاملی اکتشافی: یک مثالهدف از تحلیل عاملی اکتشافی، بررسی یک حوزه (field) برای کشف ابعاد یا سازههای اصلی آن حوزه است. به همین علت بود که اسپیرمن (1904) تحلیل عاملی را در حوزه تواناییهای انسان بوجود آورد. او سعی کرد به این سؤال که چرا بین تواناییهای انسان همیشه همبستگی مثبتی وجود دارد پاسخ دهد. (در تحلیل عاملی تواناییها، این موضوع صورتبندی مثبت نامیده میشود بدین معنا که تمام همبستگیهای ماتریس همبستگی، مثبت است).به طور کلی در تحلیل عاملی اکتشافی، قاعده بر این است که محققان تا حدامکان متغیرهای بسیاری را وارد تحلیل کنند تا ببینند کدام یک از آنها روی عامل موردنظر بار عاملی دارند
اسلاید 325: تحلیل عاملی تأییدیدر ابتدا تحلیل عاملی صرفاً یک روش آماری اکتشافی بود اما اخیراً این امکان بوجود آمده که با استفاده از تحلیل عاملی، فرضآزمایی کرد. این روش که بوسیلة یورس کوگ (1973) ابداع شده، تحلیل تأییدی نامیده میشود.
اسلاید 326: اشکالات وارده بر تحلیل عاملیایراد اصلی وارد بر تحلیل عاملی این است که بینهایت راه حل ریاضی معادل وجود دارد.تحلیلگران عاملی غالباً در تعیین مهمترین علامتهای یک حوزه با هم اختلاف دارند.تکرار تحلیلهای عاملی دشوار است.
اسلاید 327: انجام تحلیل عاملیيكي از آمارههايي كه محقق از طريق آن قادر به تعيين و تشخيص مناسببودن دادهها براي تحليل عاملي ميباشد، آزمون KMO ميباشد كه مقدار آن همواره بين 0 و 1 درنوسان است. درصورتيكه مقدار KMO كمتر از 5/0 باشد، دادهها براي تحليل عاملي مناسب نخواهند بود. اگرمقدار آن بين 5/0 تا 69/0 باشد، ميتوان با احتياط بيشتري به تحليل عاملي پرداخت. اما درصورتيكه مقدار آن بزرگتر از 7/0 باشد، همبستگيهاي موجود در بين دادهها براي تحليلعاملي مناسب خواهند بود.Kaiser-Meyer-Olkin
اسلاید 328: دررابطه با حجم نمونه نيز بايد تأكيد كرد كه تعداد نمونه نبايد كمتر از 50 مورد باشد و ترجيحاً حجم نمونه را بايد به بيش از 100 مورد افزايش داد. اولين تصميم در بكارگيري تحليل عاملي، محاسبة ماتريس همبستگي است. براي اينكار بايد مشخص شود كه آيا هدف، محاسبة همبستگي بين متغيرهاست يا بين پاسخگويان، اگر هدف مطالعه، تلخيص متغيرها باشد. در اين صورت بايد همبستگي بين متغيرها محاسبه شود. اين روش يكي از تكنيكهاي عمومي و پركاربرد در مطالعات ميباشد كه به تحليل عاملي نوع R معروف است.
اسلاید 329: در تحليل عاملي مدلهاي مختلفي وجود دارد كه از ميان آنها دو روش تحليل مؤلفههاي اصلي و تحليل عاملي مشترك از پركاربردترين اين روشهاست. مدل تحليل مؤلفههاي اصلي زماني مورد استفاده قرار ميگيرد؛ كه هدف محقق تلخيص متغيرها و دستيابي به تعداد محدودي عامل براي اهداف پيشبيني باشد.
خرید پاورپوینت توسط کلیه کارتهای شتاب امکانپذیر است و بلافاصله پس از خرید، لینک دانلود پاورپوینت در اختیار شما قرار خواهد گرفت.
در صورت عدم رضایت سفارش برگشت و وجه به حساب شما برگشت داده خواهد شد.
در صورت بروز هر گونه مشکل به شماره 09353405883 در ایتا پیام دهید یا با ای دی poshtibani_ppt_ir در تلگرام ارتباط بگیرید.
- پاورپوینتهای مشابه
نقد و بررسی ها
هیچ نظری برای این پاورپوینت نوشته نشده است.