علوم پایه آمار

آمار مقدماتی و پیشرفته

amare_moghadamati_va_pishrafte

در نمایش آنلاین پاورپوینت، ممکن است بعضی علائم، اعداد و حتی فونت‌ها به خوبی نمایش داده نشود. این مشکل در فایل اصلی پاورپوینت وجود ندارد.




  • جزئیات
  • امتیاز و نظرات
  • متن پاورپوینت

امتیاز

درحال ارسال
امتیاز کاربر [0 رای]

نقد و بررسی ها

هیچ نظری برای این پاورپوینت نوشته نشده است.

اولین کسی باشید که نظری می نویسد “آمار مقدماتی و پیشرفته”

آمار مقدماتی و پیشرفته

اسلاید 1: .

اسلاید 2: آمار مقدماتی و پیشرفته

اسلاید 3: آمار چیست؟ آمار به عنوان يك موضوع علمي، امروزه شامل مفاهيم و روش‌هائي است كه در تمام پژوهش‌هايي كه مستلزم جمع‌آوري داده‌ها به وسيلة يك فرآيند آزمايش و مشاهده و انجام استنباط و نتيجه‌گيري به وسيلة تجزيه و تحليل اين داده‌ها هستند، اهميت بسيار دارند. آمار هنر و علم جمع‌آوري، تعبير و تجزيه و تحليل داده‌ها و استخراج تعميم‌هاي منطقي در مورد پديده‌هاي تحت بررسي است. معادل كلمة آمار در زبان انگليسي Statistics است كه از لحاظ تاريخي، از كلمة لاتين status مشتق شده و يكي از معاني كلمة اخير، دولت است.در طول چندين دهه، آمار فقط با بيان اطلاعات و مقادير عددي دربارة اقتصاد، جمعيت شناسي و اوضاع سياسي حاكم در يك كشور، سر و كار داشت.حتي امروز، ‌بسياري از نشريات و گزارشهاي دولتي كه توده‌اي از آمار و ارقام را در بر‌دارند و تحت عناويني از قبيل « آمار توليد مزارع» و «آمار كارگران» منتشر مي‌شوند، معني اولية كلمة آمار را در ذهن زنده مي‌كنند. اكثر افراد معمولي هنوز اين تصور غلط را دربارة آمار دارند كه آن را منحصر به ستون‌هاي عددي سرگيجه‌آور و گاهي يك سري شكل‌هاي مبهوت‌كننده مي‌دانند. بنابراين، يادآوري اين نكته ضروري است كه نظريه و روش‌هاي جديد آماري، از حد ساختن جدول‌هاي اعداد و نمودارها بسيار فراتر رفته‌اند. نمايش‌هاي عددي به صورت جنبه‌اي فرعي از آمار درآمده‌اند.

اسلاید 4: ديدگاه‌هاي زير را درمورد آمار بخوانيد. آيا علم آمار اينگونه است؟دیدگاه‌هایی در مورد آمار: تهيه آمار كاري وقت‌گير و زمان بر و اصولاً كسالت‌آور است.آمار گورستاني از اعداد و ارقام است كه در هر اداره و سازمان نمونه‌اي از آن پيدا مي‌شود.آمار مجموعه‌اي از روابط و فرمول‌هاي رياضي پيچيده و گيج‌كننده است. آمار شامل نمودارها و جدولهايي از اعداد است.

اسلاید 5: آمار فرايندي است كه در آن هر ده سال افرادي را به منازل فرستاده و اطلاعات خانوارها مانند تعداد فرزندان، سن افراد خانوار را از آنها كسب مي‌كنند.آمار ابزاري است كه بسياري با توسل به آن افكار عمومي را به نفع خود جلب مي‌كنند.آمار مفهومي است كه براي ثبت و نمايش اطلاعات عددي به كار مي‌رود، مانند تعداد بيكاران، كارمزد حمل كالا به وسيلة كشتي در 15 سال گذشته، جمعيت نواحي جنوب شهر تهران، تعداد افراد تلف شده در اثر شيوع يك بيماري يا مقدار مسافت طي شده در زمان معيني به وسيلة برندة مسابقة‌ دو.

اسلاید 6: مثال‌هائي از مطالعات آماري: مثالهای زیر، نشان‌دهندة‍ مواردي نوعي هستند كه در آنها، فرايند كسب آگاهي در بررسي يك پديده شامل گردآوري و تجزيه و تحليل داده‌هاست و اين خود مستلزم استفاده از روشهاي آماري است.پرورش گياه : آزمايش پيوندزدن انواعي از گياهان كه از نظر ژنتيكي متفاوتند، به‌ منظور توليد گياهان پيوندي پر محصول، مورد علاقة شديد متخصصان كشاورزي است. به‌عنوان يك مثال ساده، فرض كنيد كه قرار است ميزان محصول دو نوع گياه پيوندي تحت آب و هوا و شرايط اقليمي مشخص با هم مقايسه شوند. تنها راه كسب اطلاع از ميزان باروري اين دو نوع گياه نسبت به‌يكديگر عبارت است از پروراندن آنها در تعدادي از كرتها، گردآوردن داده‌ها دربارة ميزان محصول آنها و سپس تجزيه و تحليل داده‌‌هاي مزبور.

اسلاید 7: تشخيص بيماري‌ها براي انجام موفقيت‌آميز معالجة بسياري از انواع سرطان با عمل جراحي، تشخيص بموقع بيماري از اهميت خاصي برخوردار است و از اين‌رو لازم است كه براي انجام معاينات پزشكي مرتباً به بيمارستان مراجعه شود. چون مراجعة مرتب به بيمارستان و انجام معاينات پزشكي گران و مشكل است، پزشكان در جستجوي نوعي روش تشخيص مؤثر بيماري هستند كه خود شخص بتواند آن را انجام دهد. براي ارزيابي قابليت يك روش جديد تشخيص بيماري برحسب درصد موفقيت آن در تشخيص درست موارد بيماري و اجتناب از تشخيص‌هاي اشتباه، روش مورد‌نظر بايد روي افراد زيادي آزمايش شود و نتيجه با معاينات بيمارستاني مقايسه شود.برنامه‌هاي تربيتي و آموزشي برنامه‌اي تربيتي وآموزشي كه براي انواع متقاضيان (از قبيل دانشجويان دانشگاه، كارگران كارخانه، گروه‌هاي اقليت، افراد ناقص‌العضو، كودكان عقب‌افتاده) در بسياري از زمينه‌ها طرح مي‌شوند، دائماً مورد بررسي، ارزيابي و اصلاح قرار مي‌گيرند تا سودمندي آنها براي جامعه افزايش يابد. براي كسب اطلاع از كارائي برنامه‌هاي مختلف در مقايسه با يكديگر، ضرورت دارد كه داده‌هائي دربارة موفقيت‌ها يا رشد مهارت افرادي كه برنامه در مورد آنها اجرا مي‌گردد، گردآوري شود.

اسلاید 8: تحقيقات اجتماعي‌- اقتصادي: در بسياري از قلمروهاي جامعه‌شناسي، اقتصاد، علوم سياسي. مطالعاتي در زمينه‌هاي مربوط به رفاه اقتصادي گروه‌هاي قومي گوناگون. هزينه‌هاي مصرف‌كنندگان در سطوح مختلف درآمد و نظرات گوناگون در هنگام وضع يك قانون و زمينه‌هايي نظير اينها انجام مي‌گيرد. اين مطالعات نوعاً بر مبناي داده‌هايي انجام مي‌گيرند كه از راه مصاحبه يا تماس با نمونه‌اي از افراد به‌دست مي‌آيند، كه اين نمونه به ‌وسيلة روشهاي آماري از كل جامعه‌اي كه قلمرو مطالعه را تشكيل مي‌دهد، انتخاب مي‌شوند. سپس اين داده‌ها مورد تجزيه و تحليل قرار مي‌گيرند و تغييراتي از موضوع مورد نظر به عمل مي‌آيد.بازاريابي: با گسترش صنايع مختلف و بحث بازار رقابتي در قرن بيست و یک بسياري از صنايع به دنبال يافتن روش‌هائي در شناسائي بازار و خواسته‌هاي مشتري به طريق علمي گرديده‌اند. نتايج حاصل همواره با استفاده از مطالعات آماري روي مشتريان و يا مراكزي كه مشتري با آنها در ارتباط است صورت مي‌پذيرد. به‌عنوان مثال يك شركت توليدكنندة پودر لباسشوئي پس از تحقيق دربارة ميزان فروش فروشگاه‌هاي يك منطقه سهم فروش پودر ... را درمي‌يابد. پس از اعمال تبليغات جديد و به فاصلة زماني مناسب اين‌كار مجددا صورت گرفته و سهم افزايش فروش بررسي مي‌گردد. و يا در همين مقوله براي كسب اطلاع از اينكه در توليد مايع ظرفشوئي آيا از لحاظ مصرف‌كنندگان، بوي اسانس ليمو با توت‌فرنگي تفاوتي وجود دارد، از 400 نفر مصاحبه مي‌شود كه 145 نفربوي اسانس ليمو و بقيه توت‌فرنگي را ترجيح مي‌دهند. كنترل كيفيت: پيشرفتهاي آماري در بخش صنايع بيشتر مربوط به مسائل كنترل كيفي است. استفاده از مفهوم آزمون فرض‌هاي آماري در بحث كنترل حين توليد محصولات توليدي، استفاده از روش‌هاي نمونه‌گيري جهت پذيرش براي شناسائي محصول مطابق درخواست با استفاده از يك نمونه از محصول به جاي بازرسي صددرصد و استفاده از ابزارهاي ساده آماري در كنترل فرآيند آماري (Statistical Process Control ) مانند هيستوگرام، نمودار پراكنش، نمودار ميله‌اي و استفاده از بحث طراحي آزمايش‌هاي مناسب و جمع‌آوري اطلاعات و بسياري روش‌هاي آماري كه به صور مختلف مورد استفاده واقع مي‌شوند بخشي از تلاش مسئولين كيفي صنايع را به خود اختصاص داده است.

اسلاید 9: آمارشناس‌ها چه می‌کنند؟ جهان به سوی کمی شدن اطلاعات پیش می رود. در بسیاری از حرفه‌ها و شغل‌ها، تصمیم‌گیری‌ها به اندازه‌گیریهای عددی و داده بستگی دارند. داده ها تنها شامل اعداد نیستند، بلکه اعداد خود حامل اطلاعاتی در مورد یک سیستم مشخص هستند و احتیاج دارند که در سیستم مربوطه تفسیر شوند. با توجه به این رشد در استفاده از داده‌ها، نیاز و تقاضا برای وجود آمارشناس‌هایی که در زمینه‌های زیر کارشناس باشند، احساس می شود: ارائه و تولید داده‌های قابل اعتماد  تجزیه و تحلیل داده‌ها به منظور روشن و واضح ساختن معنای آنها  ارائه استنتاج‌های عملی از داده‌ها آمارشناس‌ها از توانایی‌های کمّی، علم آمار و مهارتهای روابط عمومی و برقراری ارتباط برای حل بسیاری از مشکلات و مسایل موجود در جامعه استفاده می‌کنند. آمارشناس‌ها در تعیین روش‌های نمونه‌گیری و جمع‌آوری داده‌ها، نظارت بر اجرای مطالعه، پردازش داده‌ها و نظر دادن در مورد نتایج مطالعات بدست‌آمده کمک می‌کنند.

اسلاید 10: فعالیت آمارشناس‌ها در زمینه مطالعه و بررسی نمونه‌ای فعالیت آمارشناس‌ها در مراکز دولتی برخی زمینه‌های فعالیت برای آماری‌ها در مراکز دولتیفعالیت آمارشناس‌ها در زمینه پژوهش‌های علمی فعالیت آمارشناس‌ها در زمینه صنعت و تجارتبرخی زمینه‌های فعالیت برای آماری‌ها در صنعت و تجارتفعالیت آمارشناس ها در زمینه بهداشت، پزشکی و سلامت

اسلاید 11: مشخصه‌های شغلی آمارشناس‌ها استفاده از داده‌ها برای حل مشکلات و مسایل استفاده از دانش ریاضی و آمار خود در حل مشکلات اجتماعی، اقتصادی، پزشکی، زیست محیطی، سیاسی و ... کارکردن هم به صورت انفرادی و هم به صورت عضوی از یک گروهاستفاده از علم ارتباطات در برقراری رابطه با متخصصین علوم دیگر و مشورت با آنها و ادامه دادن مستمر فعالیتهای آموزشی گسترش مرزها و قلمرو آمار و احتمال از طریق آموزش و تحقیق

اسلاید 12: سواد آماری چیست؟ سواد آماری یک توانایی/قابلیت است:توانایی فکر کردن منتقدانه درمورد استدلال‌ها با به کار بردن آمار به عنوان سند یا مدرک قابلیت خواندن و تفسیر داده‌ها، قابلیت فهم آنچه که خوانده می‌شود. توانایی فهم و تفسیر آمارهایی که هر فرد در زندگی روزمره با آنها سروکار دارد. توانایی استفاده صحیح از آمار توسط همه افراد جامعه سواد آماری، بر تصمیم‌گیری‌ها با استفاده از آمار به عنوان سند و مدرک متمرکز شده است، همانگونه که سوادخواندن و نوشتن بر استفاده از کلمات به عنوان مدرک متمرکز شده است. سواد آماری بیشتر درمورد سؤالات است تا جواب ها. سوادآماری جوابهای زیادی ندارد. اما می‌تواند کمک کند تا سؤالات بهتری پرسش شود و در نتیجه تصمیم‌ها و قضاوت‌های بهتری صورت گیرد. سواد آماری یک هنر است، هنر تصمیم‌گرفتن و قضاوت کردن تحت شرایط نامطمئن.

اسلاید 13: با سواد آماری کیست؟ با سواد آماری کسی است که قادر باشد تفاوت بین رابطه معمولی و رابطه علت و معلولی را از یکدیگر تشخیص دهد. او کسی است که وقتی با جملاتی همانند جملات زیر روبرو می‌شود، درست یا غلط بودن جمله دوم را مدرکی مستند برای درست یا غلط بودن جمله سوم نداند:جمله اول: افرادی‌که وزن بیشتری دارند بلندقد‌تر از افرادی هستند که وزن کمتری دارند. جمله دوم: وزن یک رابطه مثبت با قد دارد.جمله سوم: اگر شما وزن بیشتری بدست آورید، انتظار می‌رود که قدتان نیز بلندتر شود.واضح است که برای بزرگسالان جمله سوم غلط است. اما نمی‌توان نتیجه گرفت که اگر جمله سوم غلط باشد آنگاه جمله دوم نیز غلط خواهد بود. درستی جمله دوم مدرکی است برای درستی جمله سوم، اما درستی جمله دوم برای اثبات درستی جمله سوم کافی نیست.

اسلاید 14: با سواد آماری کیست؟ (ادامه)با سواد آماری کسی است که قادر باشد تفاوت بین عبارت “نسبت دادنی” را از عبارت “نسبت داده شده” تشخیص دهد. مثال90درصد خودکشی ها را افراد متاهل مرتکب می شوند. این آمار به افراد متاهل نسبت داده شده است، اما این بدین معنا نیست که اگر افراد ازدواج نکنند این نسبت کاهش خواهد یافت.با سواد آماری کسی است که فرق آماری که بر اساس نمونه به دست آمده را از پارامتر جمعیت تشخیص دهد. باسواد آماری کسی است که بتواند برداشت درستی از درصدها، میزان ها و نرخ ها داشته باشد مثال: درصد راننده‌ها در میان زنان همانند درصد راننده هایی که زن هستند، نیست. درصد بیمارانی که نتیجه آزمایش آنها در مورد نوعی بیماری مثبت است همانند درصد افرادی که نتیجه آزمایش مثبت دارند و بیمار هستند، نیست.

اسلاید 15: شیوه‌های جمع‌آوری اطلاعات

اسلاید 16: تعریف هر تیمار (متغیر) تاحد امکان به صورت ویژه

اسلاید 17: کدگذاری برای داده‌های قیاسی یعنی تعیین عدد برای هر طبقه یا دسته. جنسیت زن 1 مرد 2

اسلاید 18: مشخص کردن روش واحدهای اندازه‌گیریوزن شما چقدر است؟ (برحسب کیلوگرم، پوند، گرم)دیشب چند ساعت تلویزیون تماشا کردید؟ (ساعت، دقیقه)

اسلاید 19: نوشتن سؤالات بدون اریببا اریب: آیا شما موافقید که افزایش مصرف کود باعث کاهش عملکرد می‌شود؟بدون اریب: نظر شما در مورد مصرف کود بر عملکرد محصول چیست؟

اسلاید 20: سؤالات خود را در یک مطالعة پیلوت قبل از انجام مطالعة اصلی امتحان نمایید (8 تا 10 مورد یا واحد از افراد، دانش‌آموزان، درختان و ...)

اسلاید 21: انواع داده‌ها

اسلاید 22: انواع داده‌هاداده‌های قیاسیداده‌های معیاری

اسلاید 23: داده‌های قیاسیموضوعات و صفات مورد بررسی به طبقاتی بر اساس بعضی از صفات کیفی گروه‌بندی می‌شوند.

اسلاید 24: مثال: داده‌های قیاسیرنگ موبلوند، قهوه‌ای، قرمز، سیاه، غیرهنظر دانشجویان در مورد نحوة تدریسناراحت، خنثی، خوشحالوضعیت سیگارکشیدنسیگاری، غیرسیگاری

اسلاید 25: طبقه‌بندی داده‌های قیاسی به صورت: اسمی، ترتیبی و دوتاییداده‌های قیاسیغیردودوییدودوییداده‌های ترتیبیداده‌های اسمیدودوییغیردودویی

اسلاید 26: داده‌های اسمییک نوع از داده‌های قیاسی است که صفات در طبقه‌های غیرمرتب قرار می‌گیرند.

اسلاید 27: مثال: داده‌های اسمیرنگ موبلوند، قهوه‌ای، مشکی، قرمز، غیرهنژادهندی، ‌افریقایی، آمریکایی، غیره

اسلاید 28: داده‌های ترتیبینوعی از داده‌های قیاسی می‌باشند که رتبة آنها مهم است

اسلاید 29: مثال: داده‌های ترتیبیطبقهخیلی کم، کم، متوسط، زیاد، خیلی زیادشدت بیمارینظر دانشجویان دربارة‌ درس

اسلاید 30: داده‌های دودوییشکلی از داده‌های قیاسی که تنها دارای دو طبقه هستند.داده‌های دودویی می‌توانند یا اسمی یا ترتیبی باشند.

اسلاید 31: مثال: داده‌های دودوییوضعیت سیگاری بودنسیگاری، غیرسیگاریحضورحاضر، غایب

اسلاید 32: داده‌های سنجشیاهداف مورد مطالعه بر اساس بعضی از صفات کمی قابل اندازه‌گیری می‌باشند.داده‌ها به صورت اعداد می‌باشند.

اسلاید 33: مثال: داده‌های سنجشیسطح کلسترولقدسنمیزان عملکردتعداد دانشجویانی که درکلاس دیر حاضر می‌شوند.زمان لازم برای انجام تکالیف درسی در منزل

اسلاید 34: داده‌‌های سنجشی تقسیم می‌شوند به گسسته یا پیوسته Discrete or Continuousداده‌های سنجشیپیوستهگسسته

اسلاید 35: داده‌های سنجشی گسستهتنها مقادیر معینی را خواهند داشت(شکافی بین مقادیر ممکن وجود دارد)داده‌های سنجشی پیوستهاز نظر تئوریک، هر مقداری در درون یک فاصله را می‌توان با ابزارهای اندازه‌گیری دقیق محاسبه نمود.

اسلاید 36: داده‌های گسسته - شکاف بین مقادیر ممکن 0 1 2 3 4 5 6 7داده‌های پیوسته - از نظر تئوریکی هیچ شکافی بین مقادیر ممکن وجود ندارد0 1000

اسلاید 37: مثال‌ها داده‌هایی با معیارهای گسستهنمرات آمارتعداد دانشجویانی که دیر به کلاس می‌آیندتعداد جرائمی که به مراکز پلیس گزارش شده است.تعداد دفعاتی که از یک کلمه استفاده می‌شود.عموماً داده‌های گسسته قابل شمارش هستند.

اسلاید 38: مثال‌ها: داده‌های معیاری پیوستهسطح کلسترولقدسنزمان لازم برای انجام تکالیف مدرسهعموماً داده‌های پیوسته از اندازه‌گیری بدست می‌آیند

اسلاید 39: انواع داده‌های جمع‌آوری شده در یک مطالعه تعیین‌کنندة نوع تحلیل آماری مورد استفاده می‌باشد

اسلاید 40: برای مثال ...داده‌های قیاسی عموماً با استفاده از درصد (یا نسبت‌ها) خلاصه می‌شوند.11درصد دانشجویان دارای خالکوبی می‌باشند.2٪، 33٪،39٪ و 26٪ دانشجویان درکلاس به ترتیب جدیدالورود، سال دوم، سال سوم و سال چهارم

اسلاید 41: و برای مثال ...داده‌های معیاری به طور مثال با استفاده از متوسط (یا میانگین) خلاصه می‌شوند.متوسط وزن مردان در بین 250 دانشجوی درس آمار در پاییز 1387، 173 پوند استمتوسط وزن زنان در بین 250 دانشجوی درس آمار در پاییز 1387، 138 پوند است

اسلاید 42: آمار توصیفیتوصیف داده‌ها با اعدادمعیارهای مکانی

اسلاید 43: چه چیزی توصیف می‌شود؟مکان یا مرکز داده‌ها چیست؟ (معیارهای مکانی)داده‌ها چگونه تغییر می‌کنند؟ (معیارهای تغییرپذیری)

اسلاید 44: معیارهای مکانیمیانگینمیانهمد

اسلاید 45: میانگیننام دیگر متوسطاگر میانگین یک جمعیت را توصیف کنیم با  نمایش داده می‌شود.اگر میانگین نمونه را توصیف کنیم با x-bar نمایش داده می‌شود.مناسب برای توصیف داده‌های سنجشیبه میزان زیادی تحت‌تأثیر مقادیر غیرمعمول که «برون‌هشت» یا outliers نام دارند، قرار می‌گیرد.

اسلاید 46: محاسبة میانگین نمونهفرمول:یعنی جمع تمام داده‌ها و تقسیم به تعداد آنها

اسلاید 47: میانهنام دیگر برای صدک 50اممناسب برای توصیف داده‌های سنجشیمناسب برای داده‌های برون‌هشت، یعنی تحت‌تأثیر مقادیر غیرمعمول قرار نمی‌گیرد.

اسلاید 48: محاسبة میانة نمونهمرتب کردن داده‌ها از کوچک به بزرگاگر تعداد داده‌ها فرد باشد، میانه مقدار وسط می‌باشد.داده‌ها: 2 8 3 4 1داده‌های مرتب شده: 1 2 3 4 8میانه

اسلاید 49: محاسبة میانة نمونهمرتب کردن داده‌ها از کوچک به بزرگاگر تعداد داده‌ها زوج باشد، میانه متوسط دو مقدار وسطی استداده‌ها : 2 8 3 4 1 8داده‌های مرتب شده: 1 2 3 4 8 8میانه = (3+4)/2 = 3.5

اسلاید 50: مدمقادیری که بیشترین فراوانی را دارند.یک مجموعه داده می‌تواند چندین مد داشته باشدبرای تمام انواع داده مناسب است اما بیشتر برای داده‌های قیاسی یا داده‌های گسسته با تعداد اندکی از مقادیر ممکن مفید است.

اسلاید 51: Minitab:در برنامة Variable N Mean Median TrMean StDev SE MeanPhone 139 121.6 60.0 88.1 217.7 18.5Variable Minimum Maximum Q1 Q3Phone 2.0 2000.0 30.0 120.0N = تعداد داده‌هامیانگین نمونهمیانة نمونه

اسلاید 52: مناسبترین معیارهای مکانی بستگی به شکل توزیع داده‌ها دارد

اسلاید 53: مناسبترین معیارهای مکانی بستگی دارد به:آیا داده‌ها متقارن هستند یا چولهآیا داده‌های دارای یک مد هستند (unimodal) یا دارای چند مد (multimodal)

اسلاید 54: متقارن و یک نمایی

اسلاید 55: متقارن و یک نمایی

اسلاید 56: متقارن و یک نماییDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanGPA 92 3.0698 3.1200 3.0766 0.4851 0.0506Variable Minimum Maximum Q1 Q3GPA 2.0200 3.9800 2.6725 3.4675

اسلاید 57: متقارن و دونمایی

اسلاید 58: متقارن و دونماییVariable N Mean Median TrMean StDev Males 84 70.048 70.000 70.092 3.030 Females 89 64.798 65.000 64.753 2.877 All 176 67.313 67.000 67.291 4.017Variable SE Mean Min Max Q1 Q3Males 0.331 63.0 76.0 68.0 72.0Females 0.305 56.0 77.0 63.0 67.0All 0.303 56.0 77.0 64.0 70.0

اسلاید 59: متقارن و دونمایی

اسلاید 60: چوله به راست

اسلاید 61: چوله به راست

اسلاید 62: چوله به راستDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanCDs 92 61.04 46.50 52.93 62.90 6.56Variable Minimum Maximum Q1 Q3CDs 0.00 400.00 21.50 83.00

اسلاید 63: چوله به چپ

اسلاید 64: چوله به چپ

اسلاید 65: چوله به چپVariable N Mean Median TrMean StDev SE Meangrades 22 89.18 93.50 90.60 12.92 2.76Variable Minimum Maximum Q1 Q3grades 50.00 100.00 87.00 98.00

اسلاید 66: انتخاب معیار مناسب مکانیاگر داده‌ها متقارن باشند، میانگین، میانه و مد، تقریباً برابر هستند.اگر داده‌های دارای چند مد باشند، میانگین، میانه و یا مد را برای هر زیرگروه گزارش دهید.اگر داده‌ها چوله باشند، میانه را گزارش دهید.

اسلاید 67: آمارهای توصیفیتوصیف داده‌ها با اعداد معیارهای تغییرپذیری

اسلاید 68: چه چیزی توصیف می‌شود؟مکان یا مرکز داده‌ها چیست؟داده‌ها چگونه تغییر می‌کنند؟

اسلاید 69: معیارهای تغییرپذیریدامنهدامنة بین‌چارکیواریانس و انحراف معیارضریب تغییرتمام این معیارها تنها برای داد‌ه‌های سنجشی مناسب هستند.

اسلاید 70: دامنهتفاوت بین بزرگترین و کوچکترین دادهبه میزان زیادی تحت تأثیر برون‌هشت‌ها قرار می‌گیرد.برای داده‌های متقارن بدون هیچ برون‌هشتی مناسب است.

اسلاید 71: دامنه چیست؟

اسلاید 72: دامنهDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanGPA 92 3.0698 3.1200 3.0766 0.4851 0.0506Variable Minimum Maximum Q1 Q3GPA 2.0200 3.9800 2.6725 3.4675دامنه = 3.98 - 2.02 = 1.96

اسلاید 73: دامنة بین چارکیتفاوت بین چارک سوم (درصد 75ام) و اولین چارک (درصد 25ام) یعنی نیمة وسطی داده‌هاIQR = Q3-Q1برای مشاهدات برون هشت و کرانی کارا می‌باشد.برای داده‌های چوله مناسب است.

اسلاید 74: دامنة بین چارکی چیست؟

اسلاید 75: دامنة بین‌چارکیDescriptive StatisticsVariable N Mean Median TrMean StDev SE MeanGPA 92 3.0698 3.1200 3.0766 0.4851 0.0506Variable Minimum Maximum Q1 Q3GPA 2.0200 3.9800 2.6725 3.4675IQR = 3.4675 - 2.6725 = 0.795

اسلاید 76: واریانستفاوت بین هر داده با میانگین را بیابید. این تفاوت‌ها را به توان دو رسانده و با هم جمع کنید.به یکی کمتر از تعداد داده‌ها تقسیم کنید.

اسلاید 77: واریانساگر واریانس جمعیت را اندازه بگیریم آن را با 2 نشان می‌دهیم.اگر واریانس نمونه را اندازه بگیریم آن را با s2 نشان می‌دهیم.متوسط مربع انحراف داده‌ها از میانگین خود را اندازه می‌گیرد.به میزان زیادی تحت‌تأثیر برون‌هشت‌ها می‌باشد. برای داده‌های متقارن بهتر است.واحدها درجة دوم هستند.

اسلاید 78: انحراف معیارانحراف معیار نمونه ریشة دوم واریانس نمونه می‌باشد و بنابراین با s نشان داده می‌شود.واحدها، واحدهای اصلی هستندانحراف متوسط داده‌ها از میانگین خود را اندازه می‌گیرد.همچنین به میزان زیادی تحت‌تأثیر برون‌هشت‌ها قرار دارد.

اسلاید 79: واریانس یا انحراف معیار چیست؟(MPH)

اسلاید 80: واریانس یا انحراف معیارSex N Mean Median TrMean StDev SE Mean female 126 91.23 90.00 90.83 11.32 1.01 male 100 06.79 110.00 105.62 17.39 1.74 Minimum Maximum Q1 Q3female 65.00 120.00 85.00 98.25male 75.00 162.00 95.00 118.75Females: s = 11.32 mph and s2 = 11.322 = 128.1 mph2Males: s = 17.39 mph and s2 = 17.392 = 302.5 mph2

اسلاید 81: واریانس یا انحراف معیار چیست؟

اسلاید 82: واریانس یا انحراف معیارSex N Mean Median TrMean StDev SE Mean female 126 152.05 150.00 151.39 18.86 1.68 male 100 177.98 183.33 176.04 28.98 2.90 Sex Minimum Maximum Q1 Q3female 108.33 200.00 141.67 163.75male 125.00 270.00 158.33 197.92Females: s = 18.86 kph and s2 = 18.862 = 355.7 kph2Males: s = 28.98 kph and s2 = 28.982 = 839.8 kph2

اسلاید 83: ضریب تغییرنسبت انحراف معیار نمونه به میانگین نمونه ضربدر 100معیار تغییرپذیری نسبی، یعنی تغییرپذیری نسبت به بزرگی داده‌هابدون واحد است بنابراین برای مقایسة تفاوت بین دو گروه خوب است.

اسلاید 84: ضریب تغییرSex N Mean Median TrMean StDev SE Mean female 126 91.23 90.00 90.83 11.32 1.01 male 100 106.79 110.00 105.62 17.39 1.74 Minimum Maximum Q1 Q3female 65.00 120.00 85.00 98.25male 75.00 162.00 95.00 118.75Females: CV = (11.32/91.23) x 100 = 12.4Males: CV = (17.39/106.79) x 100 = 16.3

اسلاید 85: ضریب تغییرSex N Mean Median TrMean StDev SE Mean female 126 152.05 150.00 151.39 18.86 1.68 male 100 177.98 183.33 176.04 28.98 2.90 Sex Minimum Maximum Q1 Q3female 108.33 200.00 141.67 163.75male 125.00 270.00 158.33 197.92Females: CV = (18.86/152.05) x 100 = 12.4Males: CV = (28.98/177.98) x 100 = 16.3

اسلاید 86: مناسبترین معیار تغییرپذیری بستگی دارد به ...شکل توزیع داده‌ها

اسلاید 87: انتخاب معیار مناسب تغییرپذیریاگر داده‌ها متقارن باشند، بدون هیچ برون‌هشت جدی، از دامنه و انحراف معیار استفاده می‌شود.اگر داده‌ها چوله باشند، و یا دارای برون‌هشت باشند از دامنة بین‌چارکی استفاده می‌گردد.اگر در حال مقایسه تفاوت در بین دو مجموعه داده باشیم، از ضریب تغییر استفاده می‌گردد.

اسلاید 88: احتمالمجموعه‌ای از قوانین احتمال

اسلاید 89: حادثهنتیجة یک مشاهده یا آزمایش یا توصیف بعضی از پیامدهای بالقوهبا این حروف نشان داده می‌شوند. A, B, C, …

اسلاید 90: احتمالبین صفر و 1 می‌باشد که نشاندهندة احتمال وقوع یک حادثه است.یک حادثه با احتمال صفر، یک حادثة بی‌اثر است.یک حادثه با احتمال یک یک حادثة قطعی است.نزدیکتر به یک، احتمال وقوع حادثه بیشتر است. احتمال حادثة A را با P(A) نشان می‌دهند.

اسلاید 91: مثال‌ها از حادثة پوچ:یک پرنده انسان شودیک زن از سرطان پروستات بمیرد.

اسلاید 92: مثال‌های از حادثه‌های قطعیخورشید امشب غروب خواهد کرد.نیمسال به پایان خواهد رسید.یک نفر خواهد مرد.

اسلاید 93: سه راه برای تعیین احتمالاتروش فراوانیروش کلاسیکروش عقیدة شخصی

اسلاید 94: توزیع نرمالو مقدمه‌ای بر توابع پیوسته چگالی احتمال ...

اسلاید 95: هیستوگرام درصد

اسلاید 96: هیستوگرام مساحت مستطیل = احتمال

اسلاید 97: کاهش اندازة فاصله ...

اسلاید 98: کاهش بیشتر اندازة فاصله‌ها ...

اسلاید 99: توابع پیوستة چگالی احتمال ...منحنی توصیف‌کنندة احتمال هر محدوده‌ای از مقادیر را کسب می‌کند. مثل:P(X > 120), P(X<100), P(110 < X < 120)مساحت زیر منحنی = احتمالکل مساحت زیر منحنی = 1احتمال بدست‌آوردن یک عدد خاص 0 است. مثلاًP(X=120) = 0

اسلاید 100: نوع ویژه‌ای از تابع چگالی احتمال پیوسته p.d.f

اسلاید 101: خصوصیات توزیع نرمالمتقارن – منحنی زنگوله‌ایشکل منحنی بستگی به میانگین جمعیت  و انحراف معیار  دارد.مرکز توزیع  است.وسعت منحنی بستگی به  دارد.بیشتر مقادیر اطراف میانگین هستند اما بعضی از مقادیر کوچکتر و بعضی بزرگتر می‌باشند.

اسلاید 102: مثال‌هایی از متغیرهای تصادفی نرمالعملکرد تولید کشاورزان در یک منطقه

اسلاید 103: احتمال بالای 75 چقدر است؟

اسلاید 104: سطح زیر منحنی = احتمالمحاسبة جبری؟شخصی این کار سخت را برای ما انجام داده است.ما تنها به یک جدول احتمالات برای هر توزیع نرمالی نیاز داریم.اما تعداد بینهایت توزیع نرمال وجود دارد (برای هر میانگین و انحراف معیاری یک توزیع)جواب استانداردکردن standardize می‌باشد.

اسلاید 105: استاندارد کردن ...مقدار x را از میانگین  کم نموده و به انحراف معیار تقسیم کنید. نتیجه مقدار z می‌باشد. یعنی:Z = (X- )/Z را نرمال استاندارد می‌نامند. میانگین آن  0 و انحراف معیاری برابر با 1 دارد.سپس از جدول احتمال برای z استفاده می‌شود.

اسلاید 106: استفاده از جدول z

اسلاید 107: احتمال بین 65 و 70 چیست؟

اسلاید 108: احتمال زیر 65 چیست؟

اسلاید 109: یادآوری!احتمالات محاسبه‌شده دقیق هستند تنها اگر فروض ایجادشده به طور واقعی درست باشند.وقتی محاسبات فوق را انجام می‌دهید، فرض شما این است که داده‌ها به طور نرمال توزیع شده باشند.همیشه این فرض را چک کنید! (بعداً یاد خواهیم گرفت)

اسلاید 110: آزمون فرضیهمقدمه

اسلاید 111: برای دانستن خصوصیات یک جمعیت بزرگتر، از یک نمونة تصادفی استفاده نمایید.

اسلاید 112: دو راه برای یادگیری در مورد یک جمعیتفواصل اطمینانآزمون فرضیه

اسلاید 113: فواصل اطمیناناجازه دهید که با استفاده از داده‌های نمونه، مقادیر جمعیت مانند میانگین یا نسبت‌های واقعی را برآورد نماییم.مثال: متوسط واقعی زمانی که دانشجویان در آخر هفته مطالعه می‌کنند، چقدر است؟

اسلاید 114: آزمون فرضیهبه ما اجازه دهید که با استفاده از داده‌های نمونه، یک ادعا در مورد یک جمعیت را آزمون نماییم. مثلاً اینکه نسبتی از جمعیت یا میانگین جمعیت برابر با یک عدد است.مثال: آیا مقدار واقعی متوسط مطالعة دانشجویان در آخر هفته 20 دقیقه است؟

اسلاید 115: ایدة عمومی آزمون فرضیهیک فرض ابتدایی بسازید.شواهد را جمع‌آوری کنید (داده‌ها)بر اساس شواهد موجود، تصمیم بگیرید که آیا فرض اولیه قابل قبول است یا خیر.

اسلاید 116: اجازه دهید که این فرضیه را نشان دهیم.

اسلاید 117: مثالجمعیت 5 میلیون دانشجویکالجآیا متوسط نمره 7/2 است؟نمونة 100 دانشجوچقدر احتمال دارد که 100 دانشجو دارای متوسط نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟

اسلاید 118: تصمیم‌گیریآن محتمل یا غیرمحتمل است که ما شواهدی داشته باشیم که فرض اولیة ما را تأیید یا رد کند.(توجه: محتمل یا غیرمحتمل با محاسبة احتمال مشخص می‌شود)اگر محتمل باشد، آنگاه ما فرض اولیة خود را رد نمی‌کنیم. یعنی شواهد کافی برای چیز دیگر نداریم.

اسلاید 119: تصمیم‌گیری (ادامه)اگر غیرمحتمل باشد، آنگاه:یا فرض اولیة ما درست است و ما یک حادثة غیرمعمول را تجربه می‌کنیم.یا فرض اولیة ما نادرست است.در آمار، اگر غیرمحتمل باشد، ما تصمیم به رد فرض اولیه می‌گیریم.

اسلاید 120: ایدة آزمون فرضیهاول دو فرضیه ارائه می‌کنیم، فرضیة صفر the null hypothesis (“H0”) و فرضیة جایگزینand the alternative hypothesis (“HA”)H0: خوانده گناهکار نیستHA: خوانده گناهکار است

اسلاید 121: شناسایی فرضیه‌هافرضیه صفر همیشه نشاندهندة وضعیت موجود می‌باشد یعنی فرضیه‌ای که نیازمند هیچ تغییری در رفتار جاری ندارد.فرضیه جایگزین، نتیجه‌ای است که محقق سعی دارد آن را بدست‌ آورد.

اسلاید 122: ادامة مثالسپس، شواهدی مانند اثر انگشت، لکه‌های خون، نمونه‌های مو، الیاف فرش، رد کفش، نمونه‌های دستخط و غیره جمع‌آوری می‌شود.در آمار، داده‌ها همان شواهد هستند.

اسلاید 123: ادامة مثالسپس فرض اولیه ساخته می‌شودخوانده، بیگناه است تا وقتی که ثابت شود، گناهکار است.درآمار، ما همیشه فرض می‌کنیم فرضیة صفر درست است.

اسلاید 124: ادامة مثالسپس یک تصمیم بر اساس شواهد موجود بگیرید.اگر شواهد کافی وجود داشت (ماورای شک منطقی)، فرضیة صفر رد می‌شود. (خوانده گناهکار است).اگر شواهد کافی وجود نداشته باشد، فرضیة صفر رد نمی‌شود (خوانده گناهکار نیست)

اسلاید 125: نکتة مهمهیچ تصمیمی مستلزم اثبات فرضیة صفر یا فرضیة جایگزین نمی‌باشد.ما فقط اظهار می‌داریم که شواهد کافی برای حرکت در یک راه یا راه دیگر نداریم.این موضوع همیشه در آمار درست است، موضوع این نیست که ما چه تصمیمی می‌گیریم، همیشه شانس این وجود دارد که ما تصمیم اشتباه بگیریم.

اسلاید 126: آزمون فرضیهادامة مقدمه ...

اسلاید 127: خطاهای قضاوت

اسلاید 128: خطاها در آزمون فرضیه

اسلاید 129: تعاریف: انواع خطاخطای نوع اول: فرضیة صفر رد شود درحالیکه درست است.خطای نوع دوم: فرضیة صفر رد نشود، وقتی اشتباه است.همیشه شانس ایجاد یکی از این خطاها وجود دارد اما هدف ما باید حداقل کردن شانس وقوع این خطاها باشد.

اسلاید 130: مثالجمعیت تعداد زیادی بزرگسالآیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟نمونه 80 نفر بزرگسالمتوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است.

اسلاید 131: مثال (ادامه)تعیین فرضیهH0:  = 98.6 درجهHA:  < 98.6 درجهفرضیة اولیه را  = 98.6 بسازید.جمع‌آوری داده‌ها: متوسط درجة حرارت بدن 80 نفر نمونه، 4/98 است. احتمال این که درجة حرارت بدن یک نمونة 80 نفره از بزرگسالان کمتر از 4/98 باشد، اگر دمای متوسط جمعیت 6/98 باشد، چه مقدار است؟

اسلاید 132: استفاده از p-value برای تصمیم‌‌گیریp-value نشاندهندة احتمالی است که ما چنین نمونة کرانی را مشاهده خواهیم کرد اگر فرضیة صفر درست باشد.p-value احتمال است، بنابراین بین صفر و یک می‌باشد.نزدیک به صفر به معنای غیرمحتمل است.بنابراین اگر p-value کوچک باشد (به طور مثال کمتر از 05/0، آنگاه فرضیة صفر رد می‌شود.

اسلاید 133: مثال (ادامه) Test of mu = 98.6000 vs mu < 98.6000The assumed sigma = 0.600Variable N Mean StDev SE Mean Z PTemp 80 98.4 0.67 0.0671 -2.80 0.0026p-value را به آسانی می‌توان از نرم‌افزارهای آماری مانند MINITAB بدست آورد.p-value را عموماً با p نشان می‌دهند.

اسلاید 134: مثال (ادامه)p-value برابر 0026/0 نشان می‌دهد که اگر دمای متوسط بدن در جمعیت 6/98 باشد، غیرمحتمل است که یک نمونة 80 نفره بزرگسال دارای دمای متوسط بدن 4/98 باشند.تصمیم: رد فرضیة صفرنتیجه اینکه دمای متوسط بدن کمتر از 6/98 می‌باشد.

اسلاید 135: چه نوع خطایی ممکن است برای ما پیش آید؟خطای نوع اول در اینجا ادعا در این مورد است که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه نیست.خطای نوع دوم در اینجا شکست در این ادعا که متوسط دمای بدن کمتر از 6/98 است درحالیکه واقعاً اینگونه است.ما فرضیة صفر را رد کردیم یعنی ادعا کردیم که دمای بدن کمتر از 6/98 است بنابراین ما ممکن است خطای نوع اول را داشته باشیم.

اسلاید 136: آزمون فرضیه برای میانگین یک جمعیت

اسلاید 137: مثالجمعیت 5 میلیون دانشجویکالجآیا متوسط نمره 7/2 است؟نمونة 100 دانشجوچقدر احتمال دارد که 100 دانشجو دارای متوسط نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟

اسلاید 138: مقادیر pچقدر محتمل است که 100 دانشجو دارای میانگین نمره‌ای به اندازة 9/2 باشند اگر متوسط جمعیت 7/2 باشد؟

اسلاید 139: تعیین مقادیر PH0: μ = متوسط نمرات جمعیت = 2.7HA: μ = متوسط نمرات جمعیت > 2.7اگر 100 دانشجو دارای متوسط نمره‌ای برابر 9/2 با انحراف معیار 6/0 باشد، مقدار P برابر است با:

اسلاید 140: تصمیم‌گیریمقدار P کوچک است. غیرمحتمل است که ما نمونه‌ای به اندازة 9/2 داشته باشیم اگر متوسط نمرات جمعیت 7/2 باشد.فرضیة صفر رد می‌شود. شواهد کافی وجود دارد که متوسط نمرات بزرگتر از 7/2 باشد.

اسلاید 141: اصطلاحاتH0: μ = 2.7 در برابر HA: μ > 2.7 یک آزمون فرضیة دنبالة راست یا یک طرفه نامیده می‌شود چون مقدار P مربوط به دنبالة سمت راست است.Z = 3.33 را آمارة آزمون می‌نامند.اگر ما فکر کنیم که مقدار P ما کوچک است یعنی کوچکتر از 05/0 باشد، آنگاه احتمال اینکه ما یک خطای نوع اول بسازیم برابر 05/0 است. این مقدار را سطح معنی‌داری آزمون می‌نامند. ما می‌گوییم α=0.05 جاییکه α سطح معنی‌داری است.

اسلاید 142: مثالجمعیت تعداد زیادی بزرگسالآیا متوسط درجة حرارت بدن 6/98 درجه است؟ یا آن کمتر است؟نمونه 80 نفر بزرگسالمتوسط درجة حرارت بدن 80 نفر بزرگسال 4/98 درجه است.

اسلاید 143: مقادیر pچقدر محتمل است که 80 بزرگسال دارای یک دمای متوسط بدنی به اندازة 4/98 باشد اگر متوسط جمعیت 6/98 باشد؟

اسلاید 144: تعیین مقادیر PH0: μ = متوسط دمای بدن جمعیت = 98.6HA: μ = متوسط دمای بدن جمعیت < 98.6اگر 80 نفر بزرگسال دمای بدن‌شان 4/98 با انحراف معیار 6/0 باشد، مقدار P برابر است با:

اسلاید 145: تصمیم‌گیریمقدار P کوچک است، غیرمحتمل است که ما نمونه‌ای به اندازة 4/98 بدست آوریم اگر متوسط دمای بدن در جمعیت 6/98 باشد.رد فرضیة صفر. شواهد کافی برای این نتیجه که متوسط دمای بدن کوچکتر از 6/98 می‌باشد وجود دارد.

اسلاید 146: اصطلاحاتH0: μ = 98.6 در برابر HA: μ < 98.6 آزمون فرضیة با دنبالة چپ یا یک طرفه نامیده می‌شود، چونکه مقدار P مربوط به سمت چپ است.Z = -2.98 آمارة آزمون می‌باشداگر ما فکر کنیم که مقدار P کوچک است؛ یعنی کوچکتر از 02/0، آنگاه احتمال اینکه ما خطای نوع اول ایجاد کنیم برابر با 02/0 می‌باشد. یعنی سطح معنی‌داری برابرα = 0.02. می‌باشد.

اسلاید 147: مثال جمعیت دانشجویان آیا متوسط زمان صرف وقت برای مطالعه 20 دقیقه است؟نمونة 64 دانشجومقدار متوسط 17 دقیقه با انحراف معیار16 دقیقه.

اسلاید 148: مقادیر Pچگونه محتمل است که 64 دانشجو، به طور متوسط حداقل 17 دقیقه و حداکثر 23 دقیقه صرف مطالعه کنند اگر متوسط جمعیت 20 دقیقه باشد؟

اسلاید 149: تعیین مقدار PH0: μ = متوسط وقت صرف‌شده = 20HA: μ = متوسط وقت صرف شده # 20اگر 64 دانشجوبه طور متوسط 17 دقیقه با انحراف معیار 16 دقیقه صرف مطالعه کنند، مقدار P برابر است با: وبنابراین P-value = 0.067 × 2 = 0.134

اسلاید 150: تصمیم‌گیریمقدار P کوچک نیست. محتمل است که ما یک نمونه به کوچکی 17 دقیقه و به بزرگی 23 دقیقه داشته باشیم اگر مقدار متوسط صرف شده 20 دقیقه باشد.فرضیة صفر رد نمی‌شود. شواهد کافی برای اینکه بگوییم مقدار متوسط متفاوت از 20 دقیقه است وجود ندارد.

اسلاید 151: اصطلاحاتH0: μ = 20 در برابر HA: μ # $20 آزمون فرضیة دو دنباله یا دو طرفه نامیده می‌شود چونکه مقدار P در هر دو طرف می‌باشد.Z = -1.5 آمارة آزمون می‌باشدچون ما در رد فرضیة صفر شکست خوردیم، ممکن است خطای نوع اول را داشته باشیم.

اسلاید 152: اگر داده‌ها به طور نرمال توزیع نشده باشند باید دارای یک نمونة بزرگ مثلاً n > 60 باشیم.

اسلاید 153: نکتة بسیار مهممقدار P شما، صحیح نخواهد بود مگر اینکه فرض‌های شما درست باشد.اگر شما نمونة کوچکی داشته باشید، باید ببینید آیا داده‌های شما به طور نرمال توزیع شده است یا نهاگر داده‌ها به طور نرمال توزیع نشده باشند، شما باید یک نمونة بزرگ داشته باشید.

اسلاید 154: Testing Hypotheses Made about the Means of Two PopulationsSTARTAre the two samplesdependent?Paired t test (samples must comefrom normal populations):where df = n - 1Do n1 and n2both exceed 30?z test (normal distribution):Are both populationsnormally distributed?After applying the Ftest, what do we concludeabout ?Pooled variances t test (samples must come from normal populations):Use nonparametric methodsFail to rejectseparate variances t test (samples must come from normal populations)RejectwhereandYesYesYesNoNoNo

اسلاید 155: یادآوریعدم توجه به سطوح اندازه گیری در بکارگیری روشهای مختلف آماری اعم از آمار توصیفی یا استنباطی، اشتباه رایجی است که در بسیاری از تحقیقات به چشم می‌خورد.سطوح اسمی Nominal scale مقولات یک متغیر به صورت قراردادی کنار هم قرار می‌گیرند. زن یا مرد (همسانی یا ناهمسانی)

اسلاید 156: 2. در سطح ترتیبی ordinal scale: جهت تغییر از کم به زیاد یا از ضعیف به شدید است، بنابراین در این سطح علاوه بر همسانی یا ناهمسانی مقولات، شدت و ضعف و ترتیب آنها نیز مشخص می‌شود ولی چون فواصل بین مقولات مشخص نیست اعداد اختصاص‌یافته به آنها باز هم فاقد ارزش عددی است. یعنی نمی‌توان گفت که فلانی سه برابر دیگری به تحصیل علاقه دارد.

اسلاید 157: 3. سطح فاصله‌ای ‌Interval Scaleدر این سطح علاوه بر تعیین سطوح مختلف و ترتیب منطقی و واقعی بین مقادیر یک متغیر، فاصلۀ بین مقادیر متغیر فوق نیز مشخص می­شود.به عنوان مثال می­توان گفت دانشجوئی که نمره 20 گرفته است به اندازۀ 10 نمره با دانشجوئی که نمرۀ 10 گرفته است فاصله دارد.در این مقیاس صفر مطلق وجود ندارد، مثلاً اگر دانشجوئی در درس آمار صفر گرفته باشد، نباید فرض کرد که اصولاً فاقد دانش آمار است

اسلاید 158: 4. سطح نسبی Ratio Scaleبالاترین و دقیق ترین سطح اندازه‌گیری است که علاوه بر تعیین سطوح و مقادیر یک متغیر و تعیین فاصله بین مقادیر یک متغیر، نسبت‌ها نیز قابل محاسبه و بیان هستند و مبنای اندازه‌گیری نیز صفر مطلق است. مانند میزان درآمد یا حساب دانشجو - در این متغیر اگر حساب دانشجو صفر باشد واقعاً هیچ پولی در حساب او نیست زیرا این متغیر دارای صفر مطلق است و وجود صفر حقیقی به عنوان مبدأ اندازه‌گیری محقق را قادر می‌سازد تا از روشهای مختلف آماری استفاده کند.

اسلاید 159: یادآوریاسمیترتیبیفاصله‌ای یا نسبتیشاخص‌های مرکزیمدمد، میانهمد، میانه، میانگینشاخص‌های پراکندگیفراوانی نسبی طبقاتچارک‌بندیواریانسانحراف‌معیاردامنه تغییراتقرینه‌(سطح توزیع) متقارنچولگی

اسلاید 160: تحلیل روابط بین متغیرهاآمار توصیفی تنها می‌تواند تصویری از جامعه مورد مطالعه ارائه دهد. اما قادر به بیان روابط بین متغیرها و تبیین متغیر یا متغیرهای وابسته نیست زیرا در این سطح محقق در هر مرحله تنها با یک متغیر سروکار دارد محقق در تحقیقات مختلف عمدتاً بدنبال تحلیل و تبیین داده‌ها و متغیرهای موردنظر است به همین دلیل سعی می‌کند با استفاده از آمار استنباطی به بررسی روابط بین متغیرها، تفاوت موجود در بین گروه‌های مورد مطالعه و یا تبیین متغیر وابسته از طریق متغیرهای مستقل و غیره بپردازد.

اسلاید 161: روابط بین متغیرهاآیا ارتباطی بین دو یا چند متغیر وجود دارد؟ اگر جواب مثبت است، این ارتباط در چه سطحی است؟آیا می‌توان تغییرات یک متغیر را از طریق متغیر یا متغیرهای دیگر پیش‌بینی و تبیین کرد؟پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکان‌پذیر است.

اسلاید 162: در رابطه با تحلیل دومتغیره روابط بین متغیرها را می‌توان از طریق 1) جداول توافقی 2) ضریب همبستگی اسپیرمن 3) ضریب همبستگی پیرسون و برای پیشگویی تغییرات یک متغیر از طریق متغیر دیگر از رگرسیون ساده بهره جست.در رابطه با جمعیت چند متغیره، روابط بین متغیرها از طریق 1) ضریب همبستگی چندگانه و 2) ضریب همبستگی جزئی و پیشگوئی تغییرات یک متغیر از طریق متغیرهای دیگر با استفاده از رگرسیون چندگانه امکان‌پذیر است.

اسلاید 163: در حاشیه: تفاوت عمدۀ همبستگی و رگرسیونتفاوت رگرسیون با ضریب همبستگی در این است که رگرسیون بدنبال پیش‌بینی است در حالیکه ضریب همبستگی تنها میزان وابستگی دو متغیر را با هم بررسی می‌‌کند. در رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونه‌گیری تکراری) می‌باشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند.- ضریب همبستگی قادر به بیان روابط علی و معلولی بین متغیرها نیست.

اسلاید 164: هدف از تشکیل یک جدول توافقی نشان دادن هر نوع رابطه‌ای است که ممکن است بین دو متغیر وجود داشته باشد‌. در مثال حاضر متغیر‌های کیفی، جنس (با سطوح مرد و زن) و رد کردن (با سطوح بله و خیر) می‌باشد. از روی جدول روشن می‌شود که در حقیقت رابطه‌ای بین این دو متغیر وجود دارد. به طوری که واضحاً نسبت بیشتری از پاسخ‌دهندگان زن، برنامه مورد نظر را رد می‌کنند جدول توافقی

اسلاید 165: ضرایب همبستگی مرتبط با متغیرهای اسمی1. کای‌اسکوئر: یکی از آزمون‌های ناپارامتری است. این آزمون توسط فیشر ارائه شد و قادر است تا به سنجش آماری معنی‌داری تفاوت بین فراوانیهای مشاهده شده و فراوانی‌های مورد انتظار بدست‌آمده از جامعه بپردازد.این آزمون نشان می‌دهد که آیا تفاوت موجود بین مقادیر فوق از نظرآماری معنی‌دار است یا این تفاوت عمدتاً براساس شانس است.

اسلاید 166: شرایط استفاده از آزمون کای‌اسکوئرداده‌های مشاهده‌شده باید به صورت تصادفی گردآوری شده باشند.کلیه موارد موجود در نمونه باید مستقل از هم باشند.حتی‌الامکان هیچ یک از خانه‌های جدول نباید کمتر از 10 باشند (البته برخی آماردانان تعداد 5 مورد را ذکر می­کنند)تعداد نمونه باید به اندازۀ کافی بزرگ باشد. بهتر است حجم نمونه در اینگونه تجزیه و تحلیلها حداقل 50 مورد باشد.آماره کای‌اسکوئر می‌تواند برای یک متغیر اسمی و یک متغیر ترتیبی نیز بکار رود.(مثلاً عکس العمل چهار نوع کود یا چهار سطح از یک ماده شیمیائی در دو سطح خاک)

اسلاید 167: 2. ضریب همبستگی چوپروف (T)به منظور تعیین شدت وابستگی بین متغیرهای مورد مطالعه بکار گرفته می‌شود و مقدار آن همواره بین صفر و یک در نوسان است. این آزمون زمانیکه هر دو متغیر اسمی و یا یکی اسمی و دیگری ترتیبی باشد مورد استفاده قرار می‌گیرد. اما نباید تعداد سطر و ستون با هم برابر باشند به عبارت دیگر این ضریب برای جداول توافقی مستطیلی بکار گرفته می‌شود.

اسلاید 168: 3. ضریب همبستگی فی phiبه منظور بررسی شدت همبستگی بین دو متغیر اسمی که به صورت دووجهی و در قالب جدول توافقی می‌باشد مورد استفاده قرار می‌گیرد به همین دلیل در اینگونه موارد باید بجای استفاده از کای‌اسکوئر، از ضریب همبستگی فی استفاده نمود.تفاوت ضریب همبستگی فی با کای‌اسکوئر در این است که کای‌اسکوئر سطح معنی‌داری همبستگی بین متغیرها را تعیین می‌کند در حالیکه ضریب فی شدت همبستگی کای‌اسکوئر را نشان می‌دهند. این ضریب همانند کای‌اسکوئر تفسیر می‌گردد و مقدار آن همواره بین صفر و یک است.

اسلاید 169: 4. ضریب همبستگی توافق پیرسون Pearson s coefficient contingencyاین ضریب که آنرا با C نمایش می‌دهند میزان همبستگی بین دو متغیر اسمی را که به صورت توافقی تنظیم شده‌اند محاسبه می‌کند. این شاخص زمانی بکار می‌رود که خانه‌های جدول توافقی بیش از باشد.

اسلاید 170: 5. ضریب کرامر:این ضریب برای تعیین میزان شدت همبستگی بین دو متغیر اسمی مورد استفاده قرار می‌گیرد و آنرا با نشان می‌دهند که مقدار آن همواره بین صفر و یک در نوسان است این ضریب در مقایسه با سایر ضرایب انعطاف بیشتری دارد به طوریکه هم برای جداول توافقی بیشتر از و هم برای جداول مستطیلی بکار می‌رود.

اسلاید 171: ضرائب همبستگی مرتبط با متغیرهای ترتیبی

اسلاید 172: 1. ضریب همبستگی رتبه‌ای کندال kendall s rank correlation coefficientشاخص کندال حالت تقارن دارد به این معنا که متغیرها قرینه بوده و برای محقق مهم نیست که کدامیک از متغیرهای مورد مطالعه وابسته و کدامیک مستقل می‌باشد. این شاخص مشخص می‌کند که تا چه میزان افزایش یا کاهش در یک متغیر با افزایش یا کاهش در متغیر دیگر همراه است. مقدار ضریب کندال همواره بین 1- تا 1+ در نوسان است.

اسلاید 173: 2. ضریب گاما Gamma coefficient شاخص است که از طریق آن می‌توان با آگاهی از پاسخهای یک متغیر پاسخ‌ها و نتایج متغیر دیگر را پیشگوئی کرد. گاما در واقع میزان کاهش خط را که در نتیجه آگاهی از پاسخ افراد در متغیر مستقل رخ می‌دهد مشخص می‌کند.

اسلاید 174: 3. ضریب همبستگی رتبه‌ای اسپیرمن Spearman Rank Correlation Coefficientاین ضریب زمانی مورد استفاده قرار می‌گیرد که داده‌ها به صورت رتبه‌ای متوالی ناپیوسته (... و 3 و 2 و 1) باشد و یا این که مقادیر اصلی به رتبه تبدیل شوند. در صورتیکه داده‌ها با مقیاس فاصله‌ای یا نسبتی اندازه‌گیری شده باشند می‌توان آنها را به رتبه تبدیل کرد و بعد ضریب همبستگی رتبه‌ای اسپیرمن را محاسبه نمود.ضریب همبستگی اسپیرمن که آنرا با rs نمایش می‌دهند همواره بین 1+ و 1- در نوسان است و از لحاظ سطح سنجش نیز ترتیبی و از نوع متقارن می‌باشد به همین دلیل برای محقق مهم نیست که کدام متغیر مستقل و کدامیک وابسته باشد.

اسلاید 175: ضریب همبستگی مرتبط با متغیرهای فاصله‌ای یا نسبی

اسلاید 176: ضریب همبستگی پیرسون Pearson Correlation Coefficient از روشهای پرکاربرد جهت تعیین میزان رابطه بین دو متغیر مصوب گردیده و با علامت r نشان داده می‌شود. این ضریب به منظور بررسی رابطه بین دو متغیر فاصله‌ای یا نسبی مورد استفاده قرار می‌گیرد و مقدار آن بین 1+ و 1- در نوسان است.اگر این ضریب مثبت باشد به معنای آن است که تغییرات در برد و متغیر به طور هم جهت اتفاق می‌افتد و بالعکس.

اسلاید 177:

اسلاید 178: نکته:دو نکته در رابطه با ضریب همبستگی وجود دارد که توجه به آنها بسیار ضروری است.الف- وجود همبستگی بین دو متغیر به معنای این نیست که آنها دارای اثرات مساوی هستند و یا یکی علت دیگری است، زیرا ممکن است هر دو تحت تأثیر عامل دیگری باشند.به عنوان مثال اگر بین میزان غیبت از کار و رضایت شغلی رابطه متغیر وجود داشته باشد نمی­توان نتیجه گرفت که دلیل زیاد بودن غیبت عدم رضایت شغلی است زیرا ممکن است که غایب بودن خود باعث احساس عدم رضایت شغلی باشد و یا هر دو تحت تأثیر عامل دیگر قرار گرفته باشد.ب- همبستگی ساده نشان می‌دهد که بین دو متغیر چقدر ارتباط خطی وجود دارد.

اسلاید 179: انتخاب آزمون مناسب برای مقایسۀ میانگین‌هاچنانچه داده‌های مربوط به متغیر وابسته از نوع کمی با مقیاس (فاصله‌ای یا نسبی) و داده‌های متغیر مستقل یا گروه‌بندی از نوع کیفی با مقیاس (اسمی یا ترتیبی) باشد برای بررسی تفاوت ها می‌توان به مقایسه میانگین‌ها پرداخت و معنی‌داربودن تفاوت‌های موجود بین طبقات یا گروه‌ها را مورد بررسی قرار داد.

اسلاید 180: آزمونهای t و F عمده‌ترین آزمونهای آماری برای مقایسۀ میانگین گروه‌ها می‌باشند. از آنجا که گروه‌های مورد بررسی ممکن است مستقل با همبسته باشند بنابراین هر یک از آزمونهای فوق به دو بخش مستقل و همبسته تقسیم می‌شوند. تصمیم‌گیری در مورد این‌که در چه مواقعی باید از آزمونهای t یا F مستقل یا همبسته استفاده کرد مهمترین مسأله در تحلیل داده های کمی است.آزمونهای پارامتری

اسلاید 181:

اسلاید 182: پیش‌فرضهای آزمونهای پارامتریآزمونهای پارامتری t و F را با پیش فرضهای زیر میتوان مورد استفاده قرار داد:مشاهدات از یک جامعه نرمال انتخاب شده باشند.اطلاعاتی که با هم مقایسه می‌شوند باید تقریباً واریانس یکسانی داشته باشند (در نمونه‌های بزرگ اگر واریانس یک گروه دو برابر دیگری باشد باز هم می‌توان از آزمونهای پارامتری استفاده نمود)داده‌های گردآوری شده دارای مقیاس فاصله‌ای یا نسبتی باشند.اگر اطلاعات جمع‌آوری‌شده این سه شرط را نداشت می‌توان داده‌های فوق را به غیر پارامتری تبدیل کرد و از روش‌های آماری غیرپارامتری استفاده نمود. روش عمده تبدیل داده­های پارامتری به غیرپارامتری، رتبه‌بندی کردن آنها می‌باشد.

اسلاید 183: الف- آزمونt: اگر متغیرمستقل یا متغیرگروه‌بندی تنها دو گروه داشته باشد.(اگر بخواهیم درآمد زنان و مردان را با هم مقایسه کنیم)

اسلاید 184: ب- آزمون F (تحلیل واریانس ANOVA)اگر تعداد گروهها بیش از دو باشد.(اگر بخواهیم میزان درآمد گروههای شغلی کارگر، کارمند و کشاورز را با هم مقایسه کنیم)نکته: آزمون F تنها معنی‌داری تفاوت بین میانگین گروه‌ها را مورد بررسی قرار می‌دهد اما مشخص نمی‌کند که این تفاوت‌ها در بین کدامیک از گروه‌های مورد بررسی وجود دارد. به همین دلیل برای ایک که بدانیم تفاوت‌های بدست‌آمده در بین کدامیک از طبقات وجود دارد و از این طریق مقایسه‌ای بین گروه‌ها انجام گیرد، باید از آزمون شفه (Scheffe test) یا LSD و یا از آماره‌هایی نظیر توکیTukey یا دانکن Duncan استفاده کرد. این آزمونها میانگین زوج‌ها را با همدیگر به صورت دوبدو مقایسه کرده و وجود اختلاف معنی‌دار بین آنها را نشان می‌دهد.

اسلاید 185: این روش کل واریانس موجود در یک مجموعه از داده‌ها را به دو بخش تقسیم می‌کند.بخشی از این واریانس ممکن است بخاطر شانس و تصادف حادث شده باشد و بخش دیگر ممکن است ناشی از دلایل یا عوامل خاصی باشد، از طرف دیگر واریانس موجود ممکن است ناشی از تفاوت بین گروههای مورد مطالعه و یا بخاطر تفاوت موجود در درون نمونه‌ها حادث شده باشد.مهمترین اصل در تحلیل واریانس (ANOVA) آزمایش تفاوت‌های موجود در بین میانگین‌های جوامع یا گروههای مورد مطالعه از طریق بررسی میزان واریانس بین گروه‌ها نسبت به واریانس درون گروه‌هاست.در واریانس درون جامعه فرض بر این است که تفاوت بین مقدار نسبت به میانگین جامعه بخاطر شانس است در حالیکه در بررسی تفاوتهای بین جوامع و گروهها، فرض بر این است که تفاوت بین میانگین جامعه یا نمونۀ jام با میانگین کل به دلیل عوامل خاص می‌باشد. بنابراین زمانی که از تحلیل واریانس استفاده می‌شود فرض می‌گردد که هر یک از نمونه‌ها از یک جامعه نرمال انتخاب شده‌اند و هر یک از این جوامع نیز واریانس برابری دارند همچنین فرض می‌شود کلیه عوامل بجز عواملی که مورد مطالعه می‌باشند تحت کنترل هستند.

اسلاید 186: نکته:در تحلیل واریانس، اگر در بین میانگین گروههای مختلف تفاوت معنی‌داری وجود داشته باشد تنها از طریق ANOVA نمی‌توان محل این تفاوت‌ها را بدست آورد.اگر به مقایسۀ سه گروه A، B، C بپردازیم و تفاوت معنی‌داری در بین آنها وجود داشته باشد نمی‌توانیم قضاوت کنیم که آیا این تفاوت‌ها بین A و B است یا بین B و C یا بین A و C.در چنین مواقعی نباید از طریق آزمون t به مقایسه دوبدو گروهها پرداخت، زیرا هر قدر تعداد دفعاتی که آزمون t انجام می‌گیرد بیشتر باشد سطح اطمینان نتایج پائین می‌آید.(در این موارد باید از آزمونهائی مانند آزمون شفه، آزمون چنددامنه دانکن، آزمون توکی و آزمون استیودنت نیومن، کیول برحسب ضرورت استفاده کرد.

اسلاید 187: تحلیل واریانس یکطرفه: One-way Analysis of Variance اگر محقق تنها یک متغیر (درآمد) را انتخاب کند و بخواهد تفاوت بین طبقات یا گروههای مختلف را بررسی کند در این صورت از تحلیل واریانس یکطرفه استفاده می‌کند. تحلیل واریانس دوطرفه: Two way Analysis of Varianceاگر محقق بخواهد اثر دو عامل را بر روی یک متغیر وابسته بررسی کند باید از تحلیل واریانس دوطرفه استفاده کند.

اسلاید 188: آزمونهای غیرپارامتریهمانطوری که قبلاً نیز بحث گردید آزمونهای پارامتری علاوه بر این که نیاز به داده‌هائی از نوع فاصله‌ای دارند باید از برخی از پیش فرض‌های اولیه نیز برخوردار باشند (نرمال بودن توزیع در جامعه و داشتن واریانس یکسان در مواردی که دو یا چند جامعه با هم مورد مقایسه قرار می‌گیرند و ...)

اسلاید 189: اما در آزمونهای غیرپارامتری چنین پیش‌فرضهائی مطرح نبوده و زمانی که داده‌ها در سطح اسمی و یا ترتیبی باشد و یا در صورتیکه گروه‌های مورد مطالعه از واریانس نابرابر و یا از چولگی برخوردار باشند باید از آزمون‌های غیرپارامتری استفاده کرد. این آزمون‌ها از ویژگی‌هائی برخوردار هستند که آنها را از آزمون‌های پارامتری متمایز کرده است:

اسلاید 190: این آزمونها هیچکدام از پیش‌فرضهای مطرح شده در آزمونهای پارامتری، نظیر نرمال بودن جامعه و یا برابر بودن واریانس گروهها را مبنا قرار نمی‌دهد و حتی در صورت صادق نبودن مفروضات فوق در خصوص داده‌های فاصله‌ای به منظور استفاده از آزمونهای پارامتری امکان تبدیل داده های فوق به داده‌های غیرپارامتری و رتبه‌ای و محاسبه آزمونهای ناپارامتری وجود دارد.از آنجا که در این آزمونها از مقادیر رتبه‌ای و حتی داده‌های اسمی استفاده می‌گردد، بنابراین محاسبۀ آنها کار ساده‌ای است.این آزمونها در مقایسه با آزمونهای پارامتری از دقت بالائی برخوردار نمی‌باشند. دلیل آن این است که با تبدیل داده‌های فاصله‌ای به مقادیر رتبه‌ای، فواصل واقعی موجود در بین داده‌ها به فواصل یکسان بین رتبه‌ها تبدیل شده و در این فرآیند بخشی از اطلاعات ناپدید می‌گردند به عبارت دیگر با تبدیل مقادیر اصلی و واقعی به مقادیر رتبه‌ای، بدلی از واقعیت ساخته می‌شود و این بدل بدست‌آمده به جای واقعیت مورد تجزیه و تحلیل قرار می‌گیرد.

اسلاید 191: انتخاب آزمون غیرپارامتری مناسب

اسلاید 192: 1. آزمون نشانه:زمانی که داده‌ها به صورت همبسته باشند مورد استفاده قرار می‌گیرد.

اسلاید 193: آزمون مک نمار:اغلب در مواردی بکار برده می‌شود که داده‌ها به صورت اسمی و مربوط به دو نمونه مرتبط بهم (Two related) یا همبسته باشند (زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)

اسلاید 194: مثال1. ابتدا در مورد یک موضوع نظر افراد را به صورت موافق یا مخالف جویا می‌شویم پس از آن نسبت به برگزاری کلاس آموزشی اقدام می‌کنیم (یاجلسۀ توجیهی) و سپس دوباره نظر افراد را نسبت به موضوع جویا می‌شویم. در اینجا فرض صفر (Ho) این است که تفاوتی بین نظرات افراد در قبل و پس از اجرای برنامه (دورۀ آموزشی) وجود ندارد.مثال2. نظرات 1000 نفر درباره خرید و عدم خرید یک کالا قبل و بعد از برگزاری برنامه تبلیغاتی و معرفی کالا پرسیده شده است با این آزمون می‌توان مشخص نمود که آیا برنامه تبلیغاتی در تغییر نگرش مشتریان مؤثر بوده است یا خیر.

اسلاید 195: 3.آزمون ویلکاکسون Wilcoxon Test در بسیاری از پژوهشهائی که نمونه‌ها به صورت جفت شده و همبسته هستند ممکن است محقق بخواهد هم جهت تغییر و هم میزان تغییر را مورد بررسی قرار دهد، برای این منظور آزمون ویلکاکسون تست مناسبی است.داده های مورد استفاده در این آزمون حداقل باید در سطح ترتیبی باشند.مثال: نظر تعدادی از مشتریان در رابطه با دو نوع کالای مشابه اما با مارک‌های متفاوت از نظر کیفیت محصول سؤال شده است.

اسلاید 196: 4. آزمون فریدمن Fridman Test آزمون فریدمن یکی از آزمونهای غیرپارامتری است این آزمون در واقع معادل آزمون F در روشهای پارامتری می‌باشد اما در اینجا برخلاف آزمون F، فرض توزیع نرمال و برابر بودن واریانس ضرورتی ندارد.این روش برای مقایسه سه گروه یا بیشتر از سه گروه همبسته بکار می‌رود.مثال: نظرات 30 نفر از فراگیران را درخصوص سه روش مختلف تدریس جویا شده‌ایم و پاسخ‌ها نیز از 1 (بسیار نامناسب) تا 5 (بسیار مناسب) امتیازبندی شده‌اند.

اسلاید 197: 5.آزمون کوکرانیکی از روشهای ناپارامتری و درواقع تعمیم‌یافته آزمون مک نمار است با این تفاوت که این روش برای مواردی که تعداد گروهها یا تکرار سه یا بیشتر از سه باشد بکار می‌رود: داده‌های این آزمون به صورت اسمی می‌باشد و وجود تفاوت بین نظرات افراد را مورد بررسی قرار می‌دهد.مثال: نظرات افراد نسبت به یک موضوع در زمانهای مختلف پرسیده می‌شود- قبل از برگزاری یک دورۀ آموزشی(موافقت – مخالفت)- بعد از برگزاری دوره(موافقت – مخالفت)- بعد از اجرای عملی محتویات دوره(موافقت – مخالفت)

اسلاید 198: 6.آزمون من - ویتنی Mann – Whitney Testبرای مقایسه میانگین‌های دو جامعه مستقل زمانی که داده‌ها به صورت رتبه‌ای یا ترتیبی باشند مورد استفاده قرار می‌گیرد.مثال: فرض کنید دو گروه 30 نفره از فراگیران با دو روش متفاوت آموزش دیده و نتیجه ارزیابی آنها از دوره‌های فوق در قالب امتیازات 1 تا 5 گردآوری شده است.

اسلاید 199: 7. آزمون کولموگروف - اسمیرنف Kolmogrov – Smirnov Test چنانچه در بحث کای‌اسکوئر گفته شد اگر فراوانی‌های مورد انتظار بیش از 20 درصد خانه‌های جدول، کمتر از 5 باشد، در این صورت نمی‌توان از فرمول کای‌اسکوئر استفاده کرد، این مشکل معمولاً زمانی پیش می‌آید که حجم نمونه کمتر از 50 باشد و یا تعداد خانه‌های جدول بیشتر باشد. در چنین حالتی می‌توان از تست کولموگرف - اسمیرنف استفاده کرد. اساس این آزمون مقایسه فراوانی تجمعی نسبی مشاهده شده با فراوانی تجمعی نسبی مورد انتظار می‌باشد.

اسلاید 200: 8. آزمون کروسکال - والیس Kruskal – Wallis Test این آزمون در واقع معادل تحلیل واریانس یکطرفه می‌باشد، اما برخلاف آن نیازی به مفروضات آن نظیر اینکه نمونه‌ها از یک جامعۀ نرمال بدست‌آمده باشند و یا اینکه انحراف معیار یکسانی داشته باشند وجود ندارد. آزمون کروسکال والیس زمانی استفاده می‌‌شود که تعداد نمونه‌ها بیش از دو گروه باشد.مثال: از 90 نفر دانشجو در سه رشته مختلف درخواست شد تا کیفیت برنامه‌های آموزشی دانشکده را ارزیابی کنند. امتیازات ارائه شده توسط افراد فوق از 1 (بسیار ضعیف) تا 5 (بسیار قوی) در نوسان بوده است.Ho: بین نظرات دانشجویان رشته‌های مختلف تفاوت معنی‌داری وجود ندارد.این آزمون اگرچه وجود تفاوت بین نظرات گروه‌های مختلف را نشان می‌دهد اما مشخص نمی‌کند که این تفاوت در بین کدام یک از گروه‌ها وجود دارد.

اسلاید 201: آزمون میانه: Median testیکی دیگر از روشهای غیرپارامتری است که برای مقایسه سه یا بیشتر از سه گروه مورد استفاده قرار می‌گیرد. اطلاعات مورد نیاز در این روش باید در سطح رتبه‌ای بوده و حتی‌الامکان داده‌ها هم‌رتبه نباشند، زیرا اگر میانه مشترک بین گروهها جزو نمرات تکراری باشد در این صورت تشخیص تفاوت گروهها با مشکل مواجه می­گردد.مثال: می‌خواهیم بدانیم آیا سرعت عمل کارگران سه شیفت مختلف یک کارگاه خیاطی با هم متفاوت است یا خیر؟برای این کار تعداد شلوار دوخته شده توسط 40 کارگر (از سه شیفت مختلف) در یک هفته گردآوری شده است.

اسلاید 202: طبقه‌بندی روش‌های تحلیل چندمتغیره

اسلاید 203: انتخاب روش مناسب برای تجزیه و تحلیل داده‌ها مهمترین قدم در تحلیل داده‌های گردآوری شده محسوب می‌گردد. متأسفانه به دلیل عدم آشنائی با منطق حاکم بر روش‌های مختلف آماری چند متغیره، به اشتباه یکی به جای دیگری مورد استفاده قرار می‌گیرد و تکنیک‌های مختلف به طور نابجا بکار گرفته می‌شوند.

اسلاید 204: به منظور آشنائی با نحوه بکارگیری روش‌های چند متغیره در تجزیه و تحلیل داده‌ها، درخت تصمیم‌گیری برای استفادۀ اصولی و متناسب با نوع داده‌ها و هدف تجزیه و تحلیل ارائه شده است، این طبقه‌بندی بر مبنای سؤالات و مفروضات خاصی انجام گرفته است:آیا داده‌های مورد نظر قابل تقسیم به متغیرهای مستقل و متغیرهای وابسته هستند؟اگر چنین تقسیم‌بندی امکان‌پذیر است، چند متغیر از موارد فوق، متغیر وابسته می‌باشند؟متغیرهای موجود در تجزیه و تحلیل در چه سطحی اندازه‌گیری شده‌اند؟

اسلاید 205: پاسخ این سه سؤال محقق را در تصمیم‌گیری برای انتخاب مناسب‌ترین تکنیک تجزیه و تحلیل چند متغیره کمک می‌کند.پاسخ سؤال اول مشخص می‌کند که آیا باید از تکنیکهای وابستگی (Dependenc Technique) استفاده نمود یا باید از تکنیکهای هم ‌وابستگی (Interodependence Technique) بهره گرفت.روشهای وابستگی تکنیک‌هائی هستند که در آن یک یا چند متغیر به عنوان متغیرهای وابسته لحاظ شده و تغییرات آن براساس متغیرهای مستقل دیگر مورد بررسی و تبیین قرار می‌گیرد مانند روش رگرسیون چندگانه یا تحلیل واریانس چند متغیره و غیره.روش‌های هم وابستگی تکنیک‌هائی هستند که در آن متغیرهای مستقل و وابسته وجود ندارد، بلکه در این روش‌ها مجموعه متغیرها به طور همزمان و با هم مورد تجزیه و تحلیل قرار می‌گیرند. مانند روش تحلیل عاملی.

اسلاید 206:

اسلاید 207: اگر موضوع مورد تجزیه و تحلیل دارای یک متغیر وابسته از نوع پارامتری باشد، روش مناسب برای تجزیه و تحلیل آن تحلیل رگرسیون چندگانه است.* چنانچه داده‌های فوق دارای یک متغیر وابسته باشد اما متغیر فوق از نوع غیرپارامتری دووجهی باشد، روش مناسب رگرسیون لوجیستیک و تحلیل تشخیص چندگانه است. چنانچه متغیر وابسته غیرپارامتری چندوجهی باشد باید از تحلیل تشخیصی استفاده شود در تحلیل تشخیصی متغیر وابسته از نوع غیرپارامتری و متغیرهای مستقل از نوع پارامتری هستند. اما چنانچه متغیرهای وابسته و مستقل هر دو غیرپارامتری باشند روش مناسب برای تجزیه و تحلیل داده‌ها رگرسیون لوجیستیک می‌باشد. تحلیل مسیر روشی است که هم برای داده‌های پارامتری و هم غیرپارامتری سازگار است.اگر متغیرهای مربوط به موضوع مورد بررسی دارای چند متغیر وابسته باشد در این صورت دو تکنیک دیگر برای تجزیه و تحلیل مناسب خواهند بود. اگر متغیرهای وابسته پارامتری باشند تحلیل واریانس چند متغیره یا تحلیل همبستگی کانونی مناسب خواهد بود اما اگر متغیرهای وابسته مورد نظر غیرپارامتری باشد می‌توان از طریق تبدیل آنها به متغیرهای مجازی کدبندی شده به صورت (1، 0) از روش تحلیل کانونی استفاده کرد.

اسلاید 208: روشهای هم‌وابستگی بر مبنای وجود یا عدم وجود متغیرهای وابسته مورد تجزیه و تحلیل قرار نمی‌گیرند زیرا در این روشها کلیۀ متغیرها به طور همزمان و با همدیگر بررسی می‌شوند این روشها از نظر پارامتری یا غیرپارامتری بودن داده‌ها به دو گروه جداگانه تقسیم می‌شوند.پارامتری: تکنیکهای تحلیل عاملی و تحلیل خوشه‌ایغیرپارامتری: داده‌های غیرپارامتری از طریق کدبندی متغیر مجازی (به صورت صفر و یک) قابل بکارگیری در روشهای تحلیل عاملی و تحلیل خوشه‌ای هستند.از سوی دیگر هم داده‌های پارامتری و هم غیرپارامتری قابل استفاده در تکنیک مقیاس‌بندی چندبعدی می‌باشند.

اسلاید 209: رگرسیون

اسلاید 210: سه روش اصلی برای جمع‌آوری داده‌ها:مطالعات قبلی بر اساس داده‌های تاریخیمطالعة مشاهده‌ای طرح آزمایشی (بهترین حالت)جمع‌آوری داده‌ها

اسلاید 211: کاربرد رگرسیونتوصیف داده‌هابرآورد پارامترهاپیش‌بینی و تخمینکنترل

اسلاید 212: نقش کامپیوترتحلیل رگرسیون نیازمند استفادة هنرمندانه و هوشمندانه از کامپیوتر است.SAS, SPSS, S-plus, R, MATLAB, …

اسلاید 213: رگرسیون و مدل سازیتحلیل رگرسیون: یک تکنیک آماری برای بررسی و مدل‌سازی ارتباط بین متغیرهاکاربردها: مهندسی، علوم فیزیکی و شیمیایی، اقتصاد، مدیریت، علوم زیستی و بیولوژیکی و علوم اجتماعیتحلیل رگرسیون شاید گسترده‌ترین تکنیک آماری مورد استفاده می‌باشد.

اسلاید 214: تحلیل رگرسیون این امکان را برای محقق فراهم می‌کند تا تغییرات متغیر وابسته را از طریق متغیرهای مستقل پیش‌بینی و سهم هر یک از متغیرهای مستقل را در بین متغیر وابسته تعیین کند.

اسلاید 215: تحلیل رگرسیون و ضریب همبستگی رگرسیون رابطۀ نزدیکی با ضریب همبستگی دارد، بدین معنا که برای انجام رگرسیون باید ضریب همبستگی را محاسبه کرد. اگر میان متغیرهای مورد مطالعه همبستگی وجود داشت تنها در این صورت است که می‌توانیم از رگرسیون برای آزمون فرضیه‌های تحقیق استفاده نمائیم.

اسلاید 216: تحلیل رگرسیونمفهوم رگرسیون برای اولین بار توسط فرانسیس گالتون در سال 1877 مورد استفاده قرار گرفت. او در مطالعه خود نشان داد که قد کودکان متولد شده از والدین بلندقامت گرایش به برگشت به متوسط قد افراد دارد.وی در یک مقالۀ مشهور اظهار داشت: اگرچه تمایل برای والدین بلندقد به داشتن فرزندان بلند قد و نیز والدین کوتاه قد به داشتن فرزندان کوتاه قد وجود دارد اما متوسط قد بچه‌های والدین متعلق به هر طبقة قدی معین به طرف متوسط قد در کل جامعه برگشت یا گرایش دارد (Regress)

اسلاید 217: تعبیر نوین تحلیل رگرسیونتعبیر جدید رگرسیون کاملاً متفاوت از حالت قبل است به طور کلی می‌توان گفت:تحلیل‌های رگرسیون به مطالعۀ وابستگی یک متغیر (متغیر وابسته) به یک یا چند متغیر دیگر (متغیر توضیحی) می‌پردازد که با تخمین یا پیش‌بینی مقدار متوسط یا میانگین مقادیر متغیر نوع اول در حالتی که مقادیر متغیر نوع دوم معلوم یا معین شده باشند (در نمونه‌گیری تکراری) صورت می‌پذیرد.

اسلاید 218: رسم خط رگرسیون

اسلاید 219: تحلیل رگرسیون در مقام مقایسه با تحلیل رابطۀ علیتهرچند تحلیل‌های رگرسیون وابستگی یک متغیر به سایر متغیرها را بررسی می‌کند اما الزاماً بیانگر حالت علیت نمی‌باشد. بنا به گفته کندال و استوارت یک رابطۀ آماری هرچند قوی و واضح هرگز نمی‌تواند پایۀ ارتباط علی (سببی) قرار بگیرد. ایده‌های ما از علیت باید خارج از حیطۀ آمار و مالاً از تئوری یا غیر آن حاصل شود.مثلاً نمی‌توان گفت که بارندگی به عملکرد محصول وابسته است.

اسلاید 220: تفاوت عمدۀ همبستگی و رگرسیوندر رگرسیون فرض بر این است که متغیر وابسته تصادفی و متغیرهای توضیحی دارای مقدار ثابت یا غیرتصادفی (در نمونه‌گیری تکراری) می‌باشند. در همبستگی فرض بر این است که هر دو متغیر تصادفی هستند.ضریب همبستگی قادر به بیان روابط علّی و معلولی بین متغیرها نیست.

اسلاید 221: اگر وابستگی متغیری تنها بر روی یک متغیر توضیحی بررسی شود، چنین بررسی‌ به عنوان تحلیل رگرسیون ساده یا دو متغیره معروف است. اگر وابستگی یک متغیر بر روی بیش از یک متغیر توضیحی بررسی گردد، تحت عنوان رگرسیون مرکب معرفی می‌گردد.

اسلاید 222: رگرسیون خطی و غیرخطیخطی‌بودن از نظر متغیرهاخطی‌بودن از نظر پارامترها

اسلاید 223: جزء استوکاستیک (تصادفی) تابع رگرسیون جامعهجزء تصادفی جامعه ( ) نماینده یا جانشینی برای تمامی متغیرهای حذف شده یا فراموش‌شده که بر متغیر وابسته اثر می‌گذارند ولی در مدل رگرسیون وجود ندارند (یا به دلایل گوناگون نمی‌توانند در مدل گنجانده شوند).

اسلاید 224: اهميت جزء اخلال استوکاستیک و تعبیر آنجزء استوکاستیک نماینده‌ای برای تمامی متغیرهائی است که از مدل حذف شده اما مجموعاً بر y اثر می‌گذارد حال سؤال این است که چرا این متغیرها صریحاً در مدل معرفی نمی‌شوند؟ به بیان دیگر چرا یک مدل رگرسیونی مرکب با تمام متغیرهای ممکن بسط داده نمی‌شوند.دلایل فراوانی وجود دارد:ممکن است تئوری ناقص باشد یعنی از تأثیرگذاری بعضی از متغیرها بر متغیر وابسته بی‌اطلاع باشیم.ممکن است راجع به بعضی از متغیرها داده‌های اندکی داشته باشیم.جمع‌آوری داده در مورد بعضی از متغیرها به نسبت تأثیر آنها در مدل ممکن است بسیار زیاد باشد.به دلیل ماهیت تصادفی بودن متغیر وابسته، توضیح کامل آن ممکن نیست و جزء اخلال می‌تواند آنرا منعکس کند.ممکن است در اندازه‌گیری خطا صورت گرفته باشد.با تأسی به قاعدۀ اُکام (توصیف راجع به پدیده‌ها حتی الامکان ساده در نظر گرفته شود، و اینکه خلاف آن ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن ساده‌تر بگیریم.

اسلاید 225: تخمین مدل رگرسیون دو متغیرهروش حداقل مربعات معمولی Ordinary Least Square (OLS)برطبق فروض اصلی، روش حداقل مربعات چند خاصیت بسیار جالب آماری دارد که یکی از مشهورترین و قویترین روشهای تحلیل رگرسیون را به وجود آورده است (این روش به کارل فردریک گوس، ریاضیدان نامی آلمان نسبت داده می‌شود).

اسلاید 226: مشاهدات

اسلاید 227: نمودار پراکندگی

اسلاید 228: قاعدۀ کلی حداقل مربعات

اسلاید 229: روش حداقل مربعات، تخمینهای منحصر بفردی از و را که کوچکترین مقدار ممکن را به نمونه ارائه شده بدهد، مهیا می‌سازد.تخمين زننده‌های حداقل مربعات

اسلاید 230: اين تخمين‌زننده‌ها خصوصیات جالبی دارند که عبارتند از:منحصراً برحسب مقادیر قابل مشاهده بیان می‌شوند (مثلاً و در یک نمونه)این تخمین‌زن‌ها، تخمین‌زن‌های نقطه‌ای هستند یعنی در نمونه داده شده با هر تخمین‌زن فقط مقدار منحصر به فردی (نقطه) برای پارامتر جامعۀ مربوطه ارائه می‌کند (بنابراین خط رگرسیون را می‌توان به آسانی برازش نمود)

اسلاید 231: فرضیات اساس روش حداقل مربعاتاگر هدف ما تنها تخمین و باشد، روش OLS کافی است اما به یاد داریم که در تحلیل رگرسیون هدف تنها بدست‌آوردن و نیست بلکه هدف استنتاجاتی دربارۀ و واقعی می‌باشد.برای رسیدن به این هدف نه تنها باید شکل تبعی مدل را تعیین کنیم بلکه باید فرضیات معینی دربارۀ چگونگی بوجودآمدن و را نیز مطرح سازیم:اين معادله نشان می‌دهد که هم به و هم به بستگی دارد. بنابراین تا زمانی که ندانیم و چگونه بدست می‌آیند هیچ راهی برای دستیابی به استنتاجات آماری دربارۀ و همچنین و نخواهیم داشت. از این رو فرضیات مبتنی بر متغیر و جزء خطا برای تفسیر معتبری از تخمینهای رگرسیون اهمیت دارند.

اسلاید 232: آنچه به عنوان مدل رگرسیون خطی عمومی، گوسی، کلاسیک یا استاندارد معروف می‌باشد، مبتنی بر فرضیات زیر است:فرض1: میانگین ui ها صفر استاين فرض بيان مي‌كند كه مقدار میانگین‌ ui ها برحسب Xi مفروض صفر است.

اسلاید 233: اگر بین uها حالت الف یا ب وجود داشته باشد آنگاه خودهمبستگی یا همبستگی پیوسته وجود خواهد داشت.فرض2: عدم وجود خودهمبستگی بین uها

اسلاید 234: فرض 3: یکسانی (همسانی) واریانس Ui هااین فرض بیان می‌کند که جامعۀ Y متناظر با مقادیر مختلف X واریانس یکسان دارند.

اسلاید 235: در مقابل این حالت شکل زیر، واریانس شرطی جامعۀ y همراه با افزایش مقدارX افزایش می یابد، این حالت به ناهمسانی واریانس و یا ناهمسانی در پراکندگی معروف است.

اسلاید 236: فرض4: کوواریانس صفر بین و Ui , Xiفرض نمودیم که x و u (که می‌تواند تأثیر تمام متغیرهای حذف شده را نشان دهد) دارای تأثیرات جمع‌پذیر و مجزا بر y می‌باشند اما اگر X و u همبسته باشند. تشخیص تأثیر خاص و مجزای هر کدامشان بر y ممکن نیست. بنابراین اگر X و u به طور مثبت همبستگی داشته باشند X با افزایش u افزایش و با کاهش u کاهش می‌یابد به همین شکل اگر X و u به طور منفی همبسته باشند X با افزایش u کاهش و با کاهش u افزایش می‌یابد و به هر ترتیب جداکردن تأثیر X و u بر Y مشکل است.

اسلاید 237: فرض5: مدل رگرسیون دقیقاً تصریح شده است (عدم وجود خطای تصریح یا تورش)سؤالات فوق بسیار مهمند چراکه با حذف متغیرهای اصلی از مدل، انتخاب شکل تبعی غلط و یا مطرح کردن فرض‌های آماری نادرست دربارۀ متغیرهای مدل، اعتبار تفسیر رگرسیون تخمین‌زده شده، زیر سؤال خواهد رفت.

اسلاید 238: از میان تمامی فرضها، این فرض انعطاف‌ناپذیرترین و شاید در نظر اول دارای کمترین محل اعراب باشد.یک مدل رگرسیون در یک تحقیق با تصریح مدل آن در رابطه با پدیده‌های مورد نظر شروع می‌شود. بعضی از سؤالات مهم که در تصریح مدل پدید می‌آیند عبارتند از:چه متغیرهائی باید در مدل جای گیرند؟شکل تبعی مدل چیست؟ آیا این مدل از نظر پارامترها خطی است یا از نظر متغیرها و یا هردو؟فرض‌های احتمالی ارائه شده در مورد، Yi و Xi و ui های درون مدل چه می‌باشند؟

اسلاید 239: متأسفانه در عمل، شخص به ندرت از متغیرهای صحیحی که باید در مدل منظور شود، شکل تبعی صحیح و یا فرض احتمالی صحیح در مورد متغیرهای وارد شده در مدل اطلاع دارد. بنابراین در عمل کارشناس از بعضی قضاوت‌ها در انتخاب تعدادی از متغیرهای واردنشده در مدل یا شکل تبعی مدل استفاده کرده و برخی فرض‌ها را در مورد ماهیت تصادفی متغیرهای مشمول در مدل پیش می‌کشد و در انتخاب مدل صحیح برای تحلیل تجربی تا حدی مستلزم آزمون و خطاست.

اسلاید 240: پراکندگی منحنی فیلیپس

اسلاید 241: منحنی فیلیپس

اسلاید 242: خصوصیات تخمین‌زننده‌های حداقل مربعات: قضیۀ گوس- مارکفیک تخمین‌زن 2 را زمانی می‌توان بهترین تخمین‌زن بدون تورش خطی (BLUE) از 2 دانست که:تخمین‌زن خطی باشد. یعنی تابعی خطی از یک متغیر تصادفی مانند متغیر وابستهYدر مدل رگرسیون باشد.تخمین‌زن بدون تورش باشد تخمين‌زن در بین تمام تخمین‌زننده‌های بدون تورش خطی، حداقل واریانس را داشته باشد (تخمین‌زن بدون تورش با حداقل واریانس به تخمین‌زن کارا معروف است).

اسلاید 243: The Gauss-Markov Theorem: are the best linear unbiased estimators (BLUE).

اسلاید 244: قضیۀ گوس- مارکف با توجه به فرض‌های مدل کلاسیک رگرسیون خطی، تخمین‌زننده‌های حداقل مربعات در بین تخمین‌زننده‌های خطی، بدون تورش و دارای حداقل واریانس یعنی BLUE می‌باشند.

اسلاید 245: ضرائب تعیین r2 (معیار خوبی برازش) و ضریب همبستگی r2ضریب همبستگی:r می‌‌تواند مثبت یا منفی باشد.این کمیت بین دو مقدار 1+ و 1- می‌باشد.این کمیت ماهیتاً قرینه می‌باشد یعنی ضریب همبستگی بین x و y یعنی rxy معادل ضریب همبستگی بین y و x (ryx) است.این کمیت مستقل از مبدأ و مقیاس اندازه‌گیری است.اگر x و y از لحاظ آماری مستقل باشند ضریب همبستگی بین آنها صفر است و r = 0 به این معنا نیست که دو متغیر مستقلند (قسمتh شکل صفحه بعد)این کمیت صرفاً معیاری جهت همبستگی خطی یا وابستگی خطی است و برای توصیف ارتباطات غیرخطی قابل استفاده نیست. بنابراین در قسمت h Y=X2 بیانگر یک ارتباط دقیق است اما میزان r معادل صفر است.هرچندکه r معیار همبستگی خطی بین دو متغیر است ولی همانطور که قبلاً اشاره شد بیانگر هیچ‌گونه رابطۀ علت و معلولی نمی‌باشد.

اسلاید 246: الگوهای همبستگی

اسلاید 247: ضریب تعییندر زمینۀ رگرسیون، r2 معیار پرمعناتری از r است چرا که r2 نسبت تغییرات متغیر وابسته توضیح داده شده به وسیلۀ متغیرهای توضیحی را ارائه می‌دهد درحالیکه r فاقد چنین خصوصیتی است. به علاوه تعبیرr (R=) در یک مدل رگرسیون مرکب زیر سؤال می‌باشد.

اسلاید 248: کوشش برای حداکثرکردن R2 گاهی محققان سعی در حداکثرکردن R2 دارند یعنی انتخاب مدلی که بالاترین R2 را به دست می‌دهد اما انجام این کار ممکن است خطرناک باشد زیرا در تحلیل رگرسیون هدف ما آن نیست که تنها یک R2 بالا به دست آوریم. بلکه هدف بدست آوردن تخمین‌های قابل اطمینانی از ضرائب حقیقی رگرسیون جامعۀ اصلی و استنباط آماری دربارۀ آنهاست. در تحلیل‌های تجربی بدست آوردن یک R2 بسیار بالا چندان معمول نبوده بلکه حتی گاهی برخی از ضرائب تخمین‌زده شدۀ رگرسیون از لحاظ آماری بی‌معنی بوده یا دارای علامت‌هائی برخلاف انتظارات قبلی هستند. بنابراین محقق باید دقت بیشتری دربارۀ ارتباط منطقی یا تئوریکی متغیرهای توضیحی یا متغیر وابسته و معنی‌داری آماری آنها داشته باشد.اگر R2 بالا بدست آوریم خوب خواهد بود اما اگر R2 پایین باشد این امر به معنی بدی مدل نمی‌باشد.

اسلاید 249: فرض نرمال: مدل رگرسیون خطی نرمال کلاسیک

اسلاید 250: توزیع احتمالی اجزاء اخلال uiبرای کاربرد روش حداقل مربعات معمولی (OLS) در مدل کلاسیک رگرسیون خطی، هیچ فرضی در مورد توزیع احتمالی جزء اخلال ui ارائه نکردیم. تنها فروضی که در مورد ui مدنظر قرار گرفت عبارت بودند از این‌که اجزا مذکور دارای امید صفر، عدم همبستگی و واریانس ثابت هستند.

اسلاید 251: اگر هدف ما تنها تخمین پارامترها باشد در این‌صورت روش OLS کافی خواهد بود اما تأکید بر تخمین تنها یکی از جنبه‌های استنتاج آماری است و جنبۀ دیگر آزمون فرضیه می‌باشد.از آنجا که هدفمان هم تخمین پارامترها و هم آزمون فرضیه است، لذا احتیاج به تعیین توزیع احتمالی جزء اخلال ui خواهیم داشت.

اسلاید 252: فرض نرمال بودنميانگینواریانسکوواریانس ui ، uj

اسلاید 253: طبق قضیۀ مشهور آماری حدی مرکزی می‌توان نشان داد که اگر با تعداد زیادی از متغیرهای مستقل و تصادفی که دارای توزیع احتمالی یکسانی هستند مواجه باشیم، در این صورت به استثناء چند حالت خاص، با افزایش تعداد متغیرها به سمت بی‌نهایت توزیع مجموع آنها به سمت توزیع نرمال میل می‌کند.

اسلاید 254: خصوصیت تخمین‌زننده‌های OLS تحت فرض نرمال بودن بدون تورش هستنددارای حداقل واریانس هستند سازگاری: یعنی همانطور که حجم نمونه به سمت بینهایت افزایش می‌یابد، تخمین‌زننده‌ها نیز به مقادیر جامعه‌شان نزدیک می‌شوندبه طور نرمال توزیع شده است به طور نرمال توزیع شده است عبارت از توزیع کای‌دو با درجۀ آزادی (N-2) تبعیت می‌کند. و مستقل از توزیع شده‌اند. و در گروه تخمین‌زننده‌های بدون تورش خطی یا غیرخطی دارای حداقل واریانس هستند. بنابراین می‌توان گفت که تخمین‌زننده‌های حداقل مربعات بهترین تخمین‌زننده‌های بدون تورش (BLUE) هستند.

اسلاید 255:

اسلاید 256: رگرسیون دومتغیره: تخمین فاصله‌ای و آزمون فرضیه

اسلاید 257: فاصلة اطمیناناز آنجائیکه فاصلۀ اطمینان تصادفی است، احتمالهای بدست آمده می‌بایست در معنای درازمدت فهمیده شوند، یعنی نمونه‌گیری تکراری به طور مشخص‌تر به این معنی است که: اگر در نمونه‌گیری تکراری، فواصل اطمینانبراساس احتمال به تعداد زیاد ساخته شوند آن‌گاه در درازمدت به طور متوسط چنین فواصلی در مورد از تعداد کل موارد، مقدار حقیقی پارامتر را در بر می‌گیرند.

اسلاید 258: آزمون فرضیه و انتخاب سطح معنی‌داریخطای نوع اول: احتمال ردکردن فرضیۀ درست.خطای نوع دوم: احتمال قبول فرضیۀ نادرست.براساس هزینۀ هر کدام از خطاهای فوق، محقق اقدام به انتخاب سطح معنی‌داری خواهد نمود.

اسلاید 259: نقض فروض مدل کلاسیک مدل کلاسیک رگرسیون خطی نرمال براساس چند فرض ساده شده به شرح زیر است:فرض1: میانگین شرطی جزء اخلال جامعه مشروط به مقادیر مفروض متغیرهای توضیحی (xها) صفر است.فرض2: واریانس شرطی ui ثابت یا همسان است.فرض3: خودهمبستگی در اجزا اخلال وجود ندارد.فرض4: متغیرهای توضیحی غیرتصادفی‌اند. حتی اگر تصادفی هم باشند، مستقل از اجزا اخلال ui توزیع شده‌اند.فرض5: بین متغیرهای توضیحی (xها) همخطی مرکب وجود ندارد.فرض6: ui ها به طور طبیعی با میانگین و واریانس داده شده در فروض 1 و 2 توزیع شده‌اند.فرض7: مدل رگرسیون به طور صحیح تصریح شده است، یعنی تورش تصریح وجود ندارد.

اسلاید 260: با این فروض دیدیم که تخمین‌زنهای حداقل مربعات معمولی (OLS) ضرائب رگرسیون، بهترین تخمین‌زنهای بدون تورش خطی BLUE می‌باشند.فروض 1، 4 و 6 را به دلایل زیر به طور مفصل مورد بحث قرار نخواهیم داد:فرض1: امید صفر جزء اخلال: اگر این فرض تأمین شود نمی‌توان عرض از مبدأ اصلی را تخمین زد و چون در بسیاری از حالت‌های کاربردی، جزء عرض از مبدأ اهمیت ناچیزی دارد چندان تأثیری نخواهد داشت.فرض4: حالت تصادفی‌بودن متغیرهای توضیحی: اگر xها با وجود تصادفی‌بودن به طور مستقل از uها توزیع شوند آن‌گاه برای تمام مقاصد کاربردی، xها را می‌توان غیراستوکاستیک فرض کرد.فرض6: نرمال بودن u: اگر هدف ما صرفاً تخمین باشد، این فرض ضروری نیست. فرض نرمال بودن به منظور آزمون فرضیه و پیش‌بینی بسیار مهم است.

اسلاید 261: همخطی Multicollinearityیکی از فروض مدل کلاسیک رگرسیون خطی این است که هیچ‌گونه هم‌خطی مرکب بین متغیرهای توضیحی موجود در مدل وجود ندارد.توجه داشته باشید که هم‌خطی تنها ارتباطات خطی بین متغیرهای x را شامل می‌شود و ارتباطات غیرخطی بین آنها را در بر نمی‌گیرد.اگر هم‌خطی وجود داشته باشد ضرائب رگرسیونی متغیرهای x نامعین و انحراف معیارشان بی‌نهایت است. (هم‌‌خطی‌کامل) هم‌خطی ویژگی‌های BLUE بودن تخمین‌ها را نقض نمی‌کند.

اسلاید 262: نتایج عملی هم‌خطیالف- بزرگی واریانس و کوواریانسهای تخمین‌زنهای OLSب- فواصل اعتماد عریض‌تر: احتمال قبول شدن یک فرضیۀ غلط (مثلاً خطای نوع دوم)ج- نسبت‌های غیرمعنادار r: مقادیر t کوچک می‌شوند و فرضیۀ صفر به معنای صفر‌بودن پارامترهای جامعۀ واقعی مورد قبول واقع می‌شود.د- R2 بالا اما تعداد اندک نسبت‌های معنادار.هـ- حساسیت تخمین‌زنهای OLS و خطای معیار آنها نسبت به تغییرات اندک در داده‌ها

اسلاید 263: کشف هم‌خطیالف- در هم‌خطی سؤال از درجه است نه از نوع. تمایز معناداری بین حضور و عدم حضور هم‌خطی وجود ندارد، بلکه تمایز بین درجات گوناگون آن است.از آنجایی که هم‌خطی به شرایط متغیرهای توضیحی برمی‌گردد که فرض شده غیرتصادفی باشند لذا این حالت شکلی از نمونه است نه جامعه بنابراین ماآزمون برای هم‌خطی صورت نمی‌دهیم، بلکه می‌توان درجه‌اش را در نمونۀ مشخص اندازه‌گیری نمود.ب-1. R2 بالا اما تعداد کم نسبتهای t معنی‌دار2. همبستگی شدید بین دوبدو متغیرهای توضیحی3. امتحان ضرائب جزئی4. رگرسیونهای معین5. ریشۀ مشخصه (Eigenvalue) و شاخص وضعیت (Condition Index) در برنامۀ SAS از ریشۀ مشخصه و شاخص وضعیت برای تشخیص هم‌خطی استفاده می‌کنند.

اسلاید 264: رفع مشکل هم‌خطی:قاعدۀ محکم و دقیقی جهت چاره‌جوئی مشکل وجود ندارد، چراکه هم‌خطی الزاماً یک مشکل نمونه‌ای است.اطلاعات قبلی (تئوریکی)ترکیب کردن داده‌های مقطعی و سری‌های زمانی (داده‌های مرکب)حذف متغیرها و تورش تصریحتبدیل متغیرهاداده‌های جدید یا اضافی (افزایش حجم نمونه)

اسلاید 265: ناهمسانی واریانس Heteroscedasticity یکی از مهمترین فروض مدل رگرسیون خطی کلاسیک این است که اجزاء اخلال ui که بر تابع رگرسیون جامعه ظاهر می‌شوند، دارای واریانس همسان هستند. با افزایش یک متغیر (درآمد) متوسط متغیر دیگر (پس‌انداز) افزایش می‌یابد.«ناهمسانی واریانس»

اسلاید 266: اگر فرض ناهمسانی را جایگزین فرض همسانی نمائیم تخمین‌زن هنوز BLUE هست اما دیگر کارا یا بهترین نیست و دارای حداقل واریانس نیز نمی‌باشد در این حالت از روش تخمین معروف به حداقل مربعات تعمیم‌یافته (GLS) استفاده می‌نمائیم.نتایج کاربرد روش OLS در شرایط وجود ناهمسانی واریانس فاصلۀ اطمینان براساس بیش از حد لازم بزرگ خواهد شد و در نتیجه آزمون‌های t و F احتمالاً نتیج غلطی به ما خواهند داد.

اسلاید 267: کشف ناهمسانی واریانسروش ترسیمی: ابتدا رگرسیون را براساس فرض عدم ناهمسانی تحلیل کرده و سپس مجذور باقیمانده‌های تخمین‌زده شده ei2 را مورد بررسی قرار داد تا ببینیم چه الگوی سیستماتیک و منظمی را نشان می‌دهند.واریانس جزء اخلال به طور خطی یا متغیر x مربوط است.2. آزمون پارک: پارک روش گرافیکی را در قالب فرمول بیان داشته است.3. آزمون گلدفلد- کوانت4. آزمون گلچس5. آزمون بروج پاگانت6. آزمون وایت

اسلاید 268: خودهمبستگییکی از فروض مهم مدل کلاسیک این است که خودهمبستگی سریالی بین اجزاء اخلالی که در تابع رگرسیون جامعه وارد می‌شود وجود ندارد.ماهیت خودهمبستگی: همبستگی بین اعضای سری‌های مشاهداتی است که در زمان (سریهای زمانی) یا مکان (داده‌های مقطعی) ردیف شده‌اند.اگر محصول در یک فصل کم باشد دلیلی بر کم بودن محصول در فصل دیگر نمی‌باشد (عدم خودهمبستگی)

اسلاید 269: تخمین OLS در حالت وجود خودهمبستگیدر حالت خودهمبستگی تخمین‌زن GLS خصوصیت BLUE داشته و تخمین‌زن OLS چنین خصوصیتی ندارد. تخمین‌زن OLS از اطلاعات موجود بیشترین استفاده را می‌کند.درحالت وجود خودهمبستگی نیز همانند حالت ناهمسانی، تخمین‌زنهای OLS خطی و بدون تورش و لذا سازگارند ولی کارا نیستند (یعنی حداقل واریانس را ندارند)فواصل اعتماد بزرگتر از حالت معمول خواهد بود (OLS نسبت به GLS)

اسلاید 270: تخمین OLS بدون در نظر گرفتن خودهمبستگیاحتمالاً واریانس باقیمانده مقدار واقعی سیگما به توان دو را کمتر از حد تخمین می‌زند.در نتیجه R2 بیش از حد تخمین زده می‌شود.آزمونهای معنی‌داری t و F معتبر نیستند و اگر آنها را بکار ببریم نتایج بسیار غلطی در مورد معنی‌داری آماری ضرایب تخمین‌زده شدۀ رگرسیون به‌دست خواهیم آورد.

اسلاید 271: فروض زیربنایی آزمون D.W 1.مدل رگرسیون دارای جزء عرض از مبدأ است 2. متغیرهای توضیحی غیرتصادفی هستند 3. اجزاء اخلال به وسیلۀ الگوی خود رگرسیونی مرتبۀ اولحاصل می‌شوند. 4. مدل رگرسیون شامل مقادیر با وقفه‌ای از متغیر وابسته به عنوان یکی از متغیرهای توضیحی نیست. 5. هیچ مشاهدۀ مفقوده‌ای در داده‌ها وجود ندارد.کشف خودهمبستگی:-روش ترسیمی-آزمون تسلسل-آزمون دوربین واتسون : مشهورترین آزمون تشخیص همبستگی سریالی است DW

اسلاید 272: تصریح مدلیکی از فروض کلاسیک، تصریح مدل بود به عبارت دیگر فرض بر این بود که تورش یا خطای تصریح در مدل وجود ندارد. این موضوع بسیار گسترده و پیچیده می‌باشد و بسیاری از مباحث آن بالاتر از سطح مفروض ما می‌باشد.این قسمت دربرگیرندة مسائل زیر است:مدل خوب یا صحیح متضمن چه خصوصیاتی است؟فرض کنید که یک مدل صحیح برای تحلیل یک مسألة خاص ارائه شده است اما به علت در دسترس نبودن آمار و ارقام، سهل‌انگاری، ملاحظات هزینه‌ای یا سستی، مدل متفاوتی را بکار بردیم و بنابراین نسبت به مدل صحیح مرتکب خطای تصریح شده‌ایم. حال سؤال این است که در عمل وقوع چه نوعی از شکل‌های مختلف خطاهای تصریح وجود دارد؟نتایج انواع مختلف خطای تصریح کدامند؟طرق کشف این نوع خطاها کدامند؟اگر به ارتکاب خطای تصریح پی بردیم چه راههایی برای دستیابی و برگشت به مدل صحیح وجود دارد؟در 5 مورد بالا فرض بر این بود که یک مدل صحیح وجود دارد و ما مایل به دانستن مشکلات عارض شده در اثر کاربرد مدل دیگری بودیم اما اگر اصلا ندانیم که کدام مدل صحیح است دچار خطای تعیین غلط مدل می شویم که با خطای نوع قبلی یعنی خطای تصریح متفاوت است.

اسلاید 273: خصوصیات یک مدل خوبقلت منطقی متغیرهای توضیحی: یک فرضیه (مدل) زمانی با ارزش و مهم خواهد بود که مقدار زیادی از تغییرات را به وسیلة تعداد کمی از متغیرها بتوان توضیح داد.قابلیت تشخیص: برای مجموعه داده های معین، پارامترهای تخمین زده شده باید مقادیر منحصر بفردی را به دست دهند به عبارت دیگر تنها یک تخمین برای هر پارامتر مشخص به دست آید.خوبی برازش: سازگاری با تئوریقدرت تعمیم دهی و پیشنگری: تنها آزمون مناسب برای اعتبار یک فرضیه (مدل) مقایسة پیش بینی آن با تجارب است.

اسلاید 274: انواع خطای تصریححذف یک متغیر مهمواردکردن متغیر غیرلازمدرنظر گرفتن یک شکل تبعی غلطخطای در اندازه گیری

اسلاید 275: نتایج خطای تصریححذف یک متغیر مهم:ضرایب رگرسیون اشتباه برآورد می شوند (تورشدار، ناسازگار)واریانس جزء اخلال اشتباه تخمین زده می شود.نهایتاً فاصلة اطمینان و آزمون فرضیه نتایج گمراه کننده ای را راجع به معنادار بودن آماری پارامترهای تخمین زده شده به دست می دهند.لحاظ کردن یک متغیر نامربوطتخمینها ناتور و ناسازگارندواریانس خطا درست برآورد می شود.آزمون فرضیه و فاصلة اعتماد معتبر می باشند.به طور کلی ضرایب برآوردشده غیرکارا هستند یعنی واریانس آنها عموماً بزرگتر از واریانسهای ضرایب حقیقی می باشند. (دقت کم در استنتاجهای احتمالی پارامترها) (احتمال ایجادشدن مشکل همخطی را نیز زیاد می کند) (درجة آزادی را کم می کند)

اسلاید 276: آزمونهای کشف خطای تصریحکشف وجود متغیرهای غیرلازمآزمون معنادار بودن ضریب متغیر اضافه (آزمون F)آزمونهای راجع به متغیرهای حذف شده و شکل تبعی غلط استفاده از باقیمانده ها (ملاحظة گرافیک این باقیمانده ها)آزمون Reset رمزیآزمون نسبت راستنماییآزمون والدآزمون ضریب لاگرانژآزمون هاسمن

اسلاید 277: استفاده از باقیمانده‌ها (ملاحظة گرافیک این باقیمانده‌ها)

اسلاید 278: رگرسیون بر روی متغیرهای موهومیدر بسیاری از تحلیل‌های رگرسیونی، متغیر وابسته نه تنها تحت‌تأثیر متغیرهای کمی (مثل تولید، میزان کود مصرفی،...) با مقیاس‌های متداول است، بلکه از متغیرهای ماهیتاً کیفی (جنس، نژاد، ...) نیز تبعیت می‌کند.نظر به اینکه متغیرهای کیفی عموماً دلالت بر وجود یا عدم وجود کیفیت یا صفتی دارند، لذا یک روش برای کمی کردن این صفات،‌درنظر گرفتن متغیرهای ساختگی با قبول دو مقدار ضفر و یک می‌باشد که صفر بیانگر عدم وجود آن صفت و یک حاکی از وجود آن می‌باشد. به این ترتیب متغیرهایی که این مقادیر صفر و یک را اختیار می‌کنند، متغیرهای موهومی (Dummy Variable) نام دارند.اسامی دیگر این متغیرها عبارتند از متغیرهای دلالت‌کننده بر یک صفت، متغیرهای دوتایی، متغیرهای طبقه‌ای، متغیرهای کیفی، متغیرهای منقسم به دو، متغیرهای مجازی.

اسلاید 279: متغیرهای موهومی به همان سادگی متغیرهای کمی در تحلیل رگرسیونی به کار می‌روند.اگر چنانچه یک مدل رگرسیونی تنها بر حسب متغیرهای توضیحی موهومی یا کیفی بیان شده باشند، آن را مدل آنالیز واریانس می‌نامند.در بیشتر تحقیقات اقتصادی، معمولاً یک مدل رگرسیون شامل چندین متغیر توضیحی می‌باشد که تعدادی از آنها کمی و بقیه کیفی می‌باشند، این گونه مدل‌های رگرسیونی که شامل دو نوع متغیرهای کمی و کیفی هستند را مدل‌های آنالیز کوواریانس (ACOV) می‌نامند.قاعدة‌کلی برای تعداد متغیرهای موهومی: چنانچه متغیر کیفی موردنظر دارای m طبقه باشد، آنگاه بایستی فقط به تعداد m-1 متغیر موهومی در مدل منظور شود در غیر اینصورت در دام متغیر موهومی گرفتار خواهیم شد (همان حالت ایجاد همخطی کامل بین متغیرهای موهومی)

اسلاید 280: رگرسیون بر روی یک متغیر کمی و یک متغیر کیفی با بیش از دو طبقهپيش بيني تلفات برداشت گندم و تحليل داده ها به روش مدل متغيرهاي موهومي (کد مقاله653)احسان مصدری[1] ، محمد حسین عدالت[2] ، محمد جواد خلیلی[3] ، حمید طاهرپور کلانتری[4]مجموعه مقالات پنجمین کنگرة ملی مهندسی ماشین‌‌های کشاوزی و مکانیزاسیون

اسلاید 281: مدل متغيرهاي موهومي گونه اي از مدل هاي رگرسيوني است که بوسيله آن مي توان اثر متغيرهاي کيفي را بر روي متغير وابسته سنجيد. اين مدل ها مي توانند فقط از متغيرهاي موهومي (کيفي) تشکيل شده باشد که در اين صورت آن را مدل آناليز واريانس مي نامند و يا مي تواند ترکيبي از متغيرهاي موهومي و کمي باشد که در اين صورت آن را مدل آناليز کوواريانس مي نامند.در اين مدل تمام متغيرهاي کيفي را بايستي با استفاده از روش مناسب به صورت صفر و يک تبديل کرد. براي تخمين مدل در اين مطالعه از يک تابع خطي به شکل زير استفاده شده است.که در ان نشان دهنده متغيرهاي مستقل و نشان دهنده متغير وابسته و مقادير و ضرايبي است که در پي تخمين زدن هستيم. اين مدل با استفاده از روش OLS به راحتي قابل تخمين است .اما شيوه تفسير ضرايب متغيرهاي موهومي متفاوت خواهد بود. متغيرهاي مستقل وارد شده در اين مدل جهت تخمين رابطه ريزش شامل منطقه، واريته گندم، مدل کمباين، نوع کشت، عملکرد، عمر کمباين، تاريخ برداشت و ساعت برداشت مي‌باشد. متغير وابسته درصد ريزش است که حاصل جمع ربزش عمليات برداشت و ريزش طبيعي محصول مي‌باشد.

اسلاید 282: متغير منطقه داراي چهار حالت مشهد، تربت جام، خواف و تايباد مي باشد که از اين ميان منطقه مشهد به عنوان وضعيت پايه انتخاب شده و ساير مناطق به ترتيب با متغير هاي Torbatjam، Khaf و Taybad وارد الگو مي شود. در اين صورت چنانچه مقادير هر سه ناحيه برابر صفر باشد نشان دهنده شهرستان مشهد، اگر متغير Torbatjam برابر يک باشد و ساير متغيرها صفر باشند نشان دهنده تربت جام و اگر متغير Khaf برابر يک باشد و ساير متغيرها صفر باشد نشان دهنده شهرستان خواف و در نهايت اگر متغير Taybad برابر با يک و ساير متغير ها صفر باشد نشان دهنده شهرستان تايباد خواهد بود.به عبارت ساده تر براي هر شهرستان يک متغير کيفي تعريف شده است که مقدار يک، نشان دهنده برداشت در آن شهرستان و مقدار صفر نشان دهنده برداشت در يک شهرستان ديگر مي باشد. براي هر مشاهده حداکثر يک متغير برابر با يک مي شود و ساير مناطق صفر است. همانطور که قبلا گفته شد اگر مقدار هر سه متغير صفر باشد نشان دهنده شهرستان پايه يعني مشهد است.

اسلاید 283: به همين ترتيب براي واريته گندم که شامل چهار رقم فلات، روشن، سرداري و گاسكوژن است، واريته فلات به عنوان واريته پايه انتخاب شده و ارقام روشن، سرداري و گاسکوژن به وسيله متغيرهاي کيفي Roshan ، Sardary و Gaskojen وارد الگو شده است. مدل هاي کمباين شامل جاندير و سهند S68 است که به وسيله يک متغير کيفي با نام Model وارد الگو شده است. مقدار يک نشان دهنده استفاده از کمباين جاندير و مقدار صفر نشان دهنده کمباين S68 است. نوع کشت شامل دو وضعيت آبي و ديم است که به وسيله متغير Abideym مشخص شده است مقدار يک نشان دهنده کشت آبي و مقدار صفر نشان دهنده کشت ديم است.به اين ترتيب متغيرهاي مستقل کيفي شامل منطقه، واريته گندم، نوع کشت و مدل کمباين وارد الگو مي‌شوند، ساير متغيرها شامل عمر کمباين، تاريخ برداشت و ساعت برداشت متغيرهاي کمي هستند که به ترتيب با نام هاي Omr ، Tarikh ، Saat معرفي مي‌شوند.متغير Omr برحسب سال، متغير Tarikh برحسب شماره روز از ابتداي سال 84 و متغير Saat برحسب فاصله زماني از ساعت 12 شب که مقداري بين صفر تا يک مي باشد در نظر گرفته شده است. معني‌داري کلي رگرسيوني با استفاده از آزمون F و معني داري ضرايب با استفاده از آزمون t بررسي مي‌شود.

اسلاید 284: رگرسیون بر روی متغیر وابستة موهومیدر مدل‌های رگرسیونی دارای متغیر موهومی، این فرض ضمنی وجود داشت که متغیرهای توضیحی می‌توانند کمی، کیفی یا ترکیبی از آن دو باشند. در حالیکه متغیر به هر حال بایستی قابل اندازه‌گیری کمی باشد.در این قسمت مدل‌های رگرسیونی مورد نظر قرار می‌گیرند که در آنها متغیر وابسته یا تابع، خود ماهیتاً بیانگر دو گروه است که هر یک مقادیر 0 و 1 را اختیار می‌کنند.

اسلاید 285: عموماًًًًً برای تخمین این مدل‌ها سه روش وجود دارد:مدل احتمال خطی linear probability model (LPM)مدل لاجیت (Logit)مدل پروبیت (Probit)

اسلاید 286: مدل‌های معادلات همزمان

اسلاید 287: بسیاری از روابط آماری به وسیلة مدل‌های تک معادله‌ای قابل تبیین هستند. در این مدل‌ها یک متغیر (متغیر وابسته) به عنوان تابعی خطی از یک یا چند متغیر دیگر (متغیرهای توضیحی) درنظر گرفته می‌شوند. به این ترتیب به طور ضمنی فرض بر این است که رابطة علْی (درصورت وجود بین دو متغیر x و y یکطرفه می‌باشد یعنی متغیرهای توضیحی حکم علت و متغیر وابسته حکم معلول را دارا می‌باشد.اما مواردی وجود دارد که با جریانی دوطرفه از رابطة علی بین متغیرها مواجهیم یعنی یک متغیر در عین تأثیرگذاری بر متغیر(های) دیگر، از آن (آنها) نیز تأثیر می‌پذیرد. بدیهی است در این حالت، تحلیل رگرسیونی قبل (OLS) برای مطالعة چنین وضعی مناسب نخواهد بود چرا که دو متغیر متقابلاً بهم وابسته‌اند. به عبارت دیگر در این حالت به دو معادله احتیاج خواهیم داشت و همین ضرورت است که ما را متوجه مبحث معادلات همزمان می‌کند.

اسلاید 288: اگر در این حالت از سایر معادلات در سیستم چشم‌پوشی نماییم و پارامترهای هر معادله را به وسیلة روشی مانند حداقل مربعات معمولی تخمین بزنیم، این تخمین‌ها نه تنها تورشدار بلکه ناسازگار نیز خواهند بود چون یکی از فروض قاطع روش OLS ، داشتن توزیع مستقل متغیرهای توضیحی از جزء اخلال استوکاستیک است که در معادلات همزمان نقض می‌شود.در این حالت از روش‌های زیر استفاده می‌شود:روش حداقل مربعات دو مرحله (2SLS)روش حداقل مربعات سه‌مرحله‌ای (3SLS)روش حداقل مربعات سه مرحله‌ای تکراری (I3SLS)روش حداکثر راستنماییروش حداکثر راستنمایی با اطلاعات محدود (LIML)روش سیستمی حداکثر راستنمایی با اطلاعات کامل (FIML)

اسلاید 289: تحلیل مسیردر حوزة مطالعات اجتماعي و اقتصادي، روشهاي تحليل چندمتغيرة زيادي وجود دارند كه به بررسي اثرات و روابط بين متغيرهاي مورد مطالعه مي‌پردازند. اين روشها عمدتاًً اثرات مستقيم يك متغير بر متغير ديگر را مورد بررسي قرار مي‌دهد. اما در اين ميان تحليل مسير از جمله تكنيكهاي چندمتغيره است كه علاوه بر بررسي اثرات مستقيم متغيرهاي مستقل بر متغير وابسته، اثرات غيرمستقيم اين متغيرها را نيز مدنظر قرار مي‌دهد و روابط بين متغيرها را مطابق با واقعيتهاي موجود در تحليل وارد مي‌كند و با بيان منطقي، روابط و همبستگي مشاهده‌شدة بين آنها را تفسير مي‌كند.

اسلاید 290: خاستگاه تحلیل مسیرتوسط Sewell Wright توسعه یافت.Formulated in series of papers published in 1918, 1921, 1934, 1960برای استخراج اثرات مستقیم و غیرمستقیم در بین متغیرها ایجاد شد.تحلیل مسیر با ارتباطات تبعی در بین متغیرها سرو کار دارد.

اسلاید 291: اصل اساسی موردنظر در تحلیل مسیر این است که هر ضریب همبستگی بین دو متغیر را می‌توان به مجموعه‌ای از مسیرها تجزیه کرد.استفاده از تکنیک تحلیل مسیر مستلزم قبول پیش‌فرضی است مبنی بر اینکه روابط بین متغیرهایی که حداقل در مقیاس شبه‌فاصله‌ای هستند به طور خطی با افزایش متغیرها اضافه می‌گردد. هر متغیر وابسته بر اساس اثرات متغیرهای قبلی در دیاگرام مسیر و متغیر باقیمانده مورد تحلیل و تبیین قرار می‌گیرد.

اسلاید 292: تجزیة همبستگیهمبستگی = اثرات مستقیم + اثرات غیرمستقیم

اسلاید 293: براي ساختن يك مدل در بحث تحليل مسير، ده شرط مطرح شده است كه به كمك آنها، امكان تجزيه و تحليل علّي فراهم مي‌گردد. درده شرط موردبحث، هفت شرط اول مدل تئوريكي مناسبي را براي تجزيه و تحليل و استنتاج علّي فراهم مي‌سازد:بيان رسمي تئوري در قالب مدل ساختاريوجود منطق تئوريكي براي فرضيه‌هاي علّيمعين‌نمودن نظم علّيمشخص‌نمودن جهت روابط علّينوشتن معادلات توابعمشخص‌نمودن مرزهاي مدلثبات مدل ساختاريعملياتي‌كردن متغيرهاتأييد تجربي معادلات كاركرديبرازش مدل ساختاري با داده‌هاي تجربي

اسلاید 294: درتحليل مسيري به منظور بررسي روابط علت و معلولي بين متغيرها لازم است براي عيني شدن آنها و جلوگيري ازبروز اشتباهات، ازنمودارهاي مسيري استفاده ‌نمودكه اين كار را مي‌توان طي مراحل زيرنشان داد:الف- تعيين متغيرها: پيش از هرچيز بايد هريك از متغيرهاي مورد بررسي به لحاظ نقشي كه در سيستم ايفا مي‌نمايند، مشخص شده باشند. ازاين نظر دو نوع متغير وجوددارد:متغيربرونزا: به متغيرهايي از مجموعة متغيرهاي مورد بررسي اطلاق مي‌گردد كه تحت‌تأثير ساير متغيرها قرار نداشته باشند.متغيرهاي‌درونزا: به متغيرهايي ازمجموعه متغيرهاي موردبررسي اطلاق مي‌گردد كه تحت‌تأثير يك يا چند متغير ديگر قرارداشته باشند.

اسلاید 295: انواع مدل‌های مسیریدر تحليل مسيري با دو نوع مدل سروكار داريم (آذر، 1380):1- مدلهاي بازگشتي: به مدلهايي گفته مي‌شود كه در بين هيچ يك از متغيرهاي مورد بررسي، رابطة دوطرفه يا متقابل وجود نداشته باشد.2- مدلهاي‌غيربازگشتي: يعني مدلهايي كه درآنها رابطة بين برخي ازمتغيرها به صورت دوطرفه باشد.

اسلاید 296: مدل‌های مسیری بازگشتی ارتباطات علی یکطرفه می‌باشند.

اسلاید 297: مدل غیربازگشتی ارتباطات علی دوطرفه هستند

اسلاید 298: معنی مدل‌های مسیریفرض بر این است که مدل‌های مسیری نشاندهندة فرضیه‌های علّی می‌باشند.یک مدل مسیری معنی‌دار به معنی علیت نمی‌باشد.بلکه با استفاده از داده‌های تجربی از یک مدل برای آزمون علیت استفاده نمود.

اسلاید 299: اثرات غیرمستقیم و مستقیمدو راهی که یک متغیر پیش‌بینی‌کننده ممکن است بر یک منغیر واکنش تأثیر بگذارد.اول یک اثر مستقیم متغیر x بر روی متغیر y x1  yدوم یک اثر غیرمستقیم متغیر x بر روی y از طریق یک متغیر پیش‌بینی‌کنندة دیگر.

اسلاید 300: نمودار مسیر درونداد در مطالعة رضایت شغلی

اسلاید 301:

اسلاید 302:

اسلاید 303: بنابر آنچه گفته شد، پیکانها نشاندهندۀ پیوندهای علی مورد انتظار بین متغیرهاست این مدل از چپ به راست حرکت می‌کند تا از حجیت علی متغیرهائی را که به چپ نزدیک‌تر هستند را منعکس سازد، هر معرف نماد یک مسیر علی و بنابراین یک ضریب مسیر است که باید محاسبه شود. بر پایه این مدل ملاحظه می‌کنیم که: سن بر رضایت شغلی هم اثر مستقیم (P1 ) و هم اثر غیرمستقیم دارد. سن به گونه مستقیم بر درآمد اثر می‌گذارد (P5) که به نوبه خود در رضایت اثر دارد (P6) و بر خودفرمانی نیز اثر می‌گذارد (P2) که خود بر درآمد اثر مستقیم دارد (P4) و به نوبه خود رضایت را زیر نفوذ قرار می‌دهد (P6). علاوه بر این، خودفرمانی نیز بر رضایت شغلی هم اثر مستقیم (P3)، هم از طریق تأثیر بر درآمد (P4) بر آن اثر غیرمستقیم دارد (P6) سرانجام، درآمد بر رضایت اثر مستقیم دارد (P6) اما بر آن اثر غیرمستقیم ندارد.

اسلاید 304: مشاهده می‌شود که درآمد، خودفرمانی و رضایت شغلی دارای پیکانهای دیگری‌اند که مبدأ آنها خارج از حیطه آن متغیرهاست که مستقیم به آنها وصل شده‌اند این پیکانها معرف واریانس تبیین نشده برای هر متغیر می‌باشند بنابراین پیکان e1 به خودفرمانی (P7) بیانگر مقدار واریانس خودفرمانی است که از سوی سن، تبیین نمی‌شود. پیکان e2 به رضایت شغلی (P8) معرف مقداری از خطای ناشی از رضایت شغلی است که از سوی سن، خودفرمانی و درآمد توجیه نمی‌شود. سرانجام پیکان e3 به درآمد (P9) معرف مقداری از واریانس درآمد است که از سوی سن و خودفرمانی تبیین نشده است.این سه جملۀ خطا نشاندهندۀ این واقعیت است که متغیرهای دیگری وجود دارند که بر خودفرمانی و درآمد و رضایت شغلی اثر دارند اما در این نمودار مسیر گنجانده نشده است.

اسلاید 305: تحلیل مسیر اساساً با برآورد مقدار اتصالات بین متغیرها و کاربرد این برآوردها به منظور بدست آوردن اطلاعاتی دربارۀ فرایندهای علی زیربنائی سروکار دارد، هرچند این برآوردها را می‌توان از طریق روشهای گوناگونی بدست آورد اما ساده‌ترین راه برای محاسبۀ آنها، کاربرد روش رگرسیون معمولی است مشروط بر آن که مفروضه‌های رگرسیون به‌ویژه این مفروضه که متغیر پس‌ماند در معادلۀ ساختاری با متغیرهای تبیین‌کننده در آن معادله ناهمبسته است برقرار باشد برای بدست‌آوردن برآوردهای ضرائب اصلی مسیر کافی است هر متغیر وابسته (درونزا) به متغیرهائی که مستقیماً تحت تأثیر آن است بازگشت داده شود. به بیان دیگر برای برآوردهای هر یک از مسیرهای مشخص شده، ضرائب استانداردشده رگرسیون (یا ضرائب مسیر) محاسبه می‌شود. این ضرائب از طریق برقراری معادله‌های ساختاری یعنی معادله‌هائی که ساختار روابط مفروض در یک مدل را مشخص می‌سازد به دست می‌آیند.

اسلاید 306: بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود.e1 + (سن) x1 = خودفرمانیe2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلیe3 + (خودفرمانی) x2 + (سن) x1 = درآمد

اسلاید 307: بدین ترتیب، برای نمودار مسیر شکل لازم است سه معادله ساختاری، یکی برای خودفرمانی، یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغیر وابسته و متغیرهائی که در معادله آمده به عنوان متغیر وابسته) محاسبه شود.e1 + (سن) x1 = خودفرمانیe2 + (درآمد) x3 + (خودفرمانی) x2 + (سن) x1 = رضایت شغلیe3 + (خودفرمانی) x2 + (سن) x1 = درآمدضریب استاندارد برای سن در معادله (1) مقدار 2P: ضرائب سن، خودفرمانی و درآمد در معادله (2) به ترتیب مقادیر 1P ، 2P و 3P ؛ و سرانجام ضرائب سن و خودفرمانی در معادله (3) به ترتیب مقادیر 5P و 4P را به دست می دهد. بنابراین به منظور محاسبه ضرایب مسیر، ضرورت دارد سه معادله را به عنوان معادله‌های رگرسیون چندمتغیری در نظر بگیریم و ضرائب حاصل از آنها ضرائب مسیر را به‌دست می‌دهد.

اسلاید 308: . از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوم محاسبه می‌شود.باید توجه داشت که چون به منظور تکمیل مسیرها لازم است همه ضرائب مسیر محاسبه شود بنابراین نباید از روش رگرسیون گام به گام استفاده شود.

اسلاید 309:

اسلاید 310:

اسلاید 311: چون ضرایب مسیر ضرایب استاندارد هستند، این امکان وجود دارد که آنها را به گونة مستقیم با هم مقایسه کنیم. می‌توان دید که سن اثر مستقیم اما بسیار کوچک و منفی در رضایت شغلی دارد در حالیکه اثر غیرمستقیم آن مثبت و قابل توجه است.

اسلاید 312: بسیاری از پژوهشگران مایلند اثر کلی یک متغیر را بر متغیر دیگر محاسبه کنند برای مثال اثر کلی سن بر رضایت شغلی از طریق جمع اثر مستقیم (08/0 -) با مجموع آثار غیرمستقیم آن به دست می‌آيد. آثار غیرمستقیم از طریق حاصلضرب ضرائب هر مسیر سن به رضایت شغلی به طریق زیر محاسبه می‌شود:برای مسیرهای سن به درآمد به رضایت شغلی 27/0 = (47/0 ×57/0)برای مسیرهای سن به خودفرمانی به رضایت شغلی 16/0 = (58/0 × 28/0)برای مسیرهای سن به خودفرمانی به درآمد به رضایت شعلی 03/0 = (47/0 ×22/0 × 28/0)بنابراین جمع آثار عیرمستقیم سن بر رضایت شغلی 46/0 = 03/0 + 16/0 + 27/0 می‌باشد.و برای اثر کلی سن بر رضایت شغلی باید اثر مستقیم آن را با کل آثار غیرمستقیم آن جمع کنیم که حاصل آن برابر با 38/0 = 46/0 + 08/0 – خواهد بود. این تمرین نشان داد که اثر غیرمستقیم سن بر رضایت هماهنگ با اثر مستقیم آن نیست زیرا اثر مستقیم آن نزدیک به صفر و اثر غیرمستقیم آن مثبت است.

اسلاید 313:

اسلاید 314: برخی اوقات، جهت علی بین همه متغیرها را در نمودار مسیر نمی‌توان تعیین کرد. برای مثال، چنان که در شکل مشاهده می‌شود خودفرمانی و ماهیت کار همبسته‌اند، یعنی بین آنها ارجحیت علی یکی بر دیگری وجود ندارد، و اتصال بین آنها به وسیله یک پیکان دوسره نشان داده شده است. هر متغیر دارای یک اثر مستقیم (P5 و P4)، و یک اثر غیرمستقیم بر غیبت از طریق رضایت شغلی است: خودفرمانی به رضایت (P1) و رضایت به غیبت (P3)؛ ماهیت کار به رضایت (P2) و رضایت به غیبت (P3). به منظور محاسبه ضرایب لازم، نیاز به ضریب r‌ پیرسون برای خودفرمانی و ماهیت کار و نیز نیاز به ضرایب استانداردشده دو معادله زیر داریم:e1 + (ماهیت کار) x2 + (خودفرمانی) x1 + a= رضایتe2 + (رضایت) x3 + (ماهیت کار) x2 + (خودفرمانی) x1 = غیبت

اسلاید 315: پس از آن می‌توانیم کل آثار علی را هم برای متغیرهای خودفرمانی و ماهیت کار، و هم برای رضایت محاسبه و با هم مقایسه کنیم. اثر کلی می­تواند از جمع اثر مستقیم با کل آثار غیرمستقیم تشکیل شود. اثر کلی این سه متغیر بر غیبت عبارت است از:(p3)(p1) + (p5) = اثر کلی خودفرمانی(p3)(p2) + (p4) = اثر کلی ماهیت کار p3= اثر کلی رضایت شغلی

اسلاید 316: مدل غیربازگشتی

اسلاید 317: تفسیر ارتباطاتX1 بازگشتی و علی وابسته به x4 می‌باشدX1 ممکن است به طور غیرمستقیم از طریق x4 به 4 وابسته باشدX4 ممکن است به طور غیرمستقیم از طریق x1 به 1 وابسته باشد1 ممکن است به 4 وابسته باشد.اگر این وضعیت وجود داشته باشد ...فروض OLS نقض می‌شوند. در رگرسیون به روش OLS فرض بر ایت است که ارتباطات یکطرفه بوده و جملات خطا از یکدیگر مستقل می‌باشند.

اسلاید 318: در اینحالت باید از روش 2SLS یا روش حداقل مربعات دومرحله‌ای استفاده نمود.

اسلاید 319: تحلیل عاملیFactor Analysis

اسلاید 320: تحليل عاملي از تعدادی فنون آماری ترکیب شده و هدف آن ساده تر کردن مجموعه‌های پیچیدة داده‌هاست

اسلاید 321: تعریف ماتریس همبستگیماتریس همبستگی مجموعه‌ای از ضرایب همبستگی بین تعدادی از متغیرها است:فرض بر این است که هر متغیر با خودش همبستگی کامل دارد(عناصری که در قطرهای ماتریس همبستگی قرار می‌گیرند در فهم و تفسیر تحلیل‌های عاملی مهم هستند).زواید زیادی در ماتریس وجود دارد، بدین معنا که هر ضریب دوبار در ماتریس ظاهر می‌شود.تحلیل عاملی برای ساده‌کردن چنین ماتریس‌هایی طراحی شده استدر یک ماتریس بزرگ از همبستگی‌ها، منطقی است بپرسیم که چه چیزی ممکن است این همبستگی‌ها را تبیین کند.

اسلاید 322: تعریف عامل: اساساً عامل، بعد یا سازه‌ای است که روابط بین مجموعه‌ای متغیرها را به صورت خلاصه مطرح می‌کند بنا به عقیدة رویس (1963)، عامل، سازه‌ای است که عملاً از روی (یا بوسیلة) بارهای عاملی‌اش تعریف می‌شود.تعریف بارهای عاملی: همبستگی یک متغیر با یک عامل را بار عاملی گویند. فرض کنید کجموعه‌ای از آزمون‌های توانایی و پیشرفت تحصیلی را تحلیل عاملی کرده‌ایم. این مثال، سه عامل را در یک نوع تحلیل عاملی از تواناییها نشان می‌دهد. عاملهای دیگری نیز ممکن است وجود داشته باشد اما اینها ماهیت عوامل و بارهای عاملی را بهتر توضیح می‌دهند.

اسلاید 323: فایده تحلیل عاملیبه رغم اینکه می‌دانیم تحلیل عاملی برای خلاصه‌کردن ماتریس‌های همبستگی به کار برده می‌شود، هنوز یک سؤال مهم باقی است و آن این است که با تحلیل عاملی چه کارهایی را می‌توان انجام داد و این فن چگونه می‌تواند سودمند واقع گردد؟برای پاسخ به این پرسش، باید به این نکته توجه کرد که هنگام کاربرد این روش باید بین تحلیل اکتشافی (exploratory) و تأییدی (confirmatory) تمایز قائل شد.

اسلاید 324: تحلیل عاملی اکتشافی: یک مثالهدف از تحلیل عاملی اکتشافی، بررسی یک حوزه (field) برای کشف ابعاد یا سازه‌های اصلی آن حوزه است. به همین علت بود که اسپیرمن (1904) تحلیل عاملی را در حوزه تواناییهای انسان بوجود آورد. او سعی کرد به این سؤال که چرا بین تواناییهای انسان همیشه همبستگی مثبتی وجود دارد پاسخ دهد. (در تحلیل عاملی توانایی‌ها، این موضوع صورتبندی مثبت نامیده می‌شود بدین معنا که تمام همبستگی‌های ماتریس همبستگی، مثبت است).به طور کلی در تحلیل عاملی اکتشافی، قاعده بر این است که محققان تا حدامکان متغیرهای بسیاری را وارد تحلیل کنند تا ببینند کدام یک از آنها روی عامل موردنظر بار عاملی دارند

اسلاید 325: تحلیل عاملی تأییدیدر ابتدا تحلیل عاملی صرفاً یک روش آماری اکتشافی بود اما اخیراً این امکان بوجود آمده که با استفاده از تحلیل عاملی، فرض‌آزمایی کرد. این روش که بوسیلة یورس کوگ (1973) ابداع شده، تحلیل تأییدی نامیده می‌شود.

اسلاید 326: اشکالات وارده بر تحلیل عاملیایراد اصلی وارد بر تحلیل عاملی این است که بینهایت راه حل ریاضی معادل وجود دارد.تحلیل‌گران عاملی غالباً در تعیین مهمترین علامت‌های یک حوزه با هم اختلاف دارند.تکرار تحلیل‌های عاملی دشوار است.

اسلاید 327: انجام تحلیل عاملیيكي از آماره‌هايي كه محقق از طريق آن قادر به تعيين و تشخيص مناسب‌بودن داده‌ها براي تحليل عاملي مي‌باشد، آزمون KMO مي‌باشد كه مقدار آن همواره بين 0 و 1 درنوسان است. درصورتيكه مقدار KMO كمتر از 5/0 باشد، داده‌ها براي تحليل عاملي مناسب نخواهند بود. اگرمقدار آن بين 5/0 تا 69/0 باشد، مي‌توان با احتياط بيشتري به تحليل عاملي پرداخت. اما درصورتيكه مقدار آن بزرگتر از 7/0 باشد، همبستگي‌هاي موجود در بين داده‌ها براي تحليل‌عاملي مناسب خواهند بود.Kaiser-Meyer-Olkin

اسلاید 328: دررابطه با حجم نمونه نيز بايد تأكيد كرد كه تعداد نمونه نبايد كمتر از 50 مورد باشد و ترجيحاً حجم نمونه را بايد به بيش از 100 مورد افزايش داد. اولين تصميم در بكارگيري تحليل عاملي، محاسبة ماتريس همبستگي است. براي اينكار بايد مشخص شود كه آيا هدف، محاسبة همبستگي بين متغيرهاست يا بين پاسخگويان، اگر هدف مطالعه، تلخيص متغيرها باشد. در اين صورت بايد همبستگي بين متغيرها محاسبه شود. اين روش يكي از تكنيكهاي عمومي و پركاربرد در مطالعات مي‌باشد كه به تحليل عاملي نوع R معروف است.

اسلاید 329: در تحليل عاملي مدلهاي مختلفي وجود دارد كه از ميان آنها دو روش تحليل مؤلفه‌هاي اصلي و تحليل عاملي مشترك از پركاربردترين اين روشهاست. مدل تحليل مؤلفه‌هاي اصلي زماني مورد استفاده قرار مي‌گيرد؛ كه هدف محقق تلخيص متغيرها و دستيابي به تعداد محدودي عامل براي اهداف پيش‌بيني باشد.

29,000 تومان

خرید پاورپوینت توسط کلیه کارت‌های شتاب امکان‌پذیر است و بلافاصله پس از خرید، لینک دانلود پاورپوینت در اختیار شما قرار خواهد گرفت.

در صورت عدم رضایت سفارش برگشت و وجه به حساب شما برگشت داده خواهد شد.

در صورت بروز هر گونه مشکل به شماره 09353405883 در ایتا پیام دهید یا با ای دی poshtibani_ppt_ir در تلگرام ارتباط بگیرید.

افزودن به سبد خرید