صفحه 1:
1
فصل 12 : برو تك لهاي Roll-backRecovery
در سيستم كذر دهي ييام
درس طراحي سيتمهاي مطمئن
صفحه 2:
چارچوب مطالب
- @
۴ تعاریف
۴ پروتکلهاي checkpointing
۴ پروتکلهاي بر مبناي واقعهنگاري
۴ مقایسه
Rollback Fualt Tolerancy
صفحه 3:
معدمه :
امروزه سيستمهاي توزیع شده در همه جا موجود ميباشند و بدین سبب ما را قادر به
انجام بسياري از کارها مینماید. سيستمهاي 50۳۷0۲ ۲1006) و ۱۷۷۷۷۷ و محاسبات
علمي از جمله بسياري از آنها ميب
" يتانسيل اين سيستمها به خاطر
۰ :
تکنیکها شامل موارد زیر ميباشد:
Transactions 2
بر کابردهاي دده گرا مرک اد
Groupcommunications +
0 انتزاعي از يك سيتم ارتباطي ايدهآل كه برنامه نویس ميتواند برنامهاش را بصورت مطمئن بر روي آن توسعه دهده
ييشنهاد ميکند.
Roltback recovery 9
* بر روي کاربردهاي با مان اجراي طولاني تمرکزدر. ماد محاسات علمي و کابرهاي ارباطي
Rollback Fualt Tolerancy
صفحه 4:
مدل سیستم
سیستم گذر دهي پیام (59056610 00551110 006550806) شامل تعداد ثابتي فرایند که بین آنها
پیام رد و بدل ميشود. ميباشد. فرایندها براي اجراي برنامه كاربردي توزیع شده ضمن تعامل با جهان
خارج با دریافت پیام ورودي و ارسال پیام خروجي: با هم همكاري ميکنند.
Input message
Output message,
Outside wart
Message-passing system
Po
2
Figure 1. An example of a message-passing system with three proc
...سل well سوه سحن است
بدليل لاكم لاكردن لأحللت لاموقت لأخود يا لأتوقف []اجرالابر للاساس لأمدل لاتوقف [أبه لأمحض لآخرلبى:لاد
معرچار خرابي شود
Rollback Fualt Tolerancy
صفحه 5:
Rollback Recovery psgic در سيستمهاي توزیع شده
*_ در سیستم فوق تحملپذيري خطا با ذخیره حالت فرايندهاي سیستم در دورههاي خاص. زمان اجراي
عاري از خطا طبق سیاست معین. روي منبع ذخیره پایدار 500۳000 56060 و بازگشت به يكي از آن
حالات هنگام بروز خرايي میسر ميشود. این کار سبب کاهش محاسبات از دست رفته ميشود.
هر حالت ذخیره شده يك 66۵66001006 نام دارد. عملیات بازيافتي که فرایند به محض وقوع Uns
انجام ميدهد تا به يکي از این 10606۳01106) ها بازگشت نماید 26076۲۷ 0066))م
ميگویند.
2 11600۷0۳۷ 1)060:66 با سیستم توزیع شده ب عون مجموعهواز فرلیندها که در طولشبکه با
هودر ايتباط هسته يفتر مركت
" بروتكلهاي Kus 99 4 RollbackRecovery تقسيم مىشوندة
Checkpoint-based 3 7
* 0 براي جلوكيري از هدر رفتن محاسبات و عملیات. بر روي هر فرایند در مواردي طبق سیاست خاص از
وضعیت فرایند ۲666۳00108 گرفته ميشود. بسته به نحوه گرفتن 6666001108 به سه دسته
هماهنگ, ناهماهنگ و وایسته به ارتباط تقسیم ميشود.
د Cog-based
علاوه بر مورد بالا رخدادهاي غيرقطمي فرايندها را نيز ثبت ميكند تا مقدار بيشتري از عمليات انجام شده
را بازیافت نماید. بسته به نوع ثبت رخداد به سه فسته يذبرناتف وشبينانه. سببي تقسيم.موشوف
Rollback Fualt Tolerancy
صفحه 6:
چارچوب مطالب
© ميمه
" تعاريف
* پروتكلهاي checkpointing
۴ پروتکلهاي بر مبناي واقعهنگاري
* مقایسه
مراجع
Rollback Fualt Tolerancy
صفحه 7:
حالت سازگار سراسري سیستم
*_بدلیل انتقال پيام بین فرایندها در سیستم گاهي پیش ميآید که يك 6۵08۳018
نشاندهنده آن است که فرایند پيامي دريافت کرده. در حالي كه هيج 0866201816 از
فرايند فيكرق : نشاندهنده ارسال آن پیام نیست. چنین پيامي را یتیم 000070 ميگویند.
* در 1660۷6۳۷ به ترکیبی از RoCCBack» 45 ls Checkpoint بدست میآید.
حالت سیستم ميگویند. . ۱
این حالت بدلیل وجود پیام یتیم به دو دسته تقسیم میشوند:
"۲ حالتي كه در آن بيام يتيم وجود داشته باشد حالت ناسازكار 8006© 13160185656
نداشته باشد و يك اجراي درست را نشان دهد سازگار 60951516106
۴ در Gun Recovery پیدا کردن تركيبي از 686600106 ها بطوري که حالت سازکار
هآ محالنت ذر سیستم:مبباشد.
سراسري سیستم را نشان دهد. و باز
Rollback Fualt Tolerancy
صفحه 8:
oa lee cen, |
Inconsistent state
Po >
m
7 >
Py
()
Figure 2. An example ofa consistent and inconsistent state
۳۳۲۲۲۲ EES
e150
Rollback Fualt Tolerancy
صفحه 9:
؟ مسیر 2 (مسیر زيگزاگي) دنباله خاصي از پیامها است که دو 0606001106 را به هم متصل ميکند.
{m,,m,}, (m,m,}
* چرخه 2 مسیر 2 اي است که نقطه شروع و پایان آن یکی باشد. (بیای0]
؟ یک checkpoint درون چرخه 2 نميتواند بخشي از یک حالت سازگار در سيستمي که فقط از
US ge ool checkpoint باشد.
Z-cycle
Z-path
Figure 3. An example execution and Z-paths.
Rollback Fualt Tolerancy
صفحه 10:
پيامهاي گذرا
* وجود play گذرا بسته به لین است که کانال لّارتباطیلامن لاد لامدل سیستم فرض شده باشد يا
له
* فرض ارتباط لمن طراحي يروتكل را راحت ميكند اما يياده سازي را مشكل مي نمايد.
User applications
Reliable communication
protocol
Rollback-recovery
protocol
Unreliable
communication channel
0
igure 4, Implementation of rollback-recovery (a) on top of a reliable communication protocol; (b) direetly on
User applications
Rollback-recovery
protocol
Reliable communication
protocol
Unreliable
communication channel
6
top of unreliable communication channels,
40150
Rollback Fualt Tolerancy
صفحه 11:
2 7 7
اطلاعات 0000600101۷۷۵ و وابستگی
فرایندها
۴ در 0۵66۳00101۷08 هر فرایند حالت خود را به صورت دورهاي بر روي
6 6 فذخیره میکند. حللت ذخیره شده يك فرایند شامل اطلاعات
كافي براي شروع مجدد آن فرایند ميباشد.
در سیستم گذر دهي پیام بخاطر تبادل پیام بین فرایندها هنگام عملیات عاري از
خطاء وابستگي ایجاد ميشود. به همین دلیل داراي Rollback Recovery
پیچیده ميباشد.
۴ هر حللت سراسري سازگار از 60666001004 در سیستم ميتواند براي شروع مجدد
فرایندها به محض وقوع خطا بکار رود. ۱
* مجموعه 0۵06(0016) هاي سراسري سازگار در سیستم يك خط ارجاع را تشکیل
داده که به آن 11106 13660۷۵۲۷ گویند. لين خط هنگام amie Recovery
و سیستم به آن حالت برميگردد.
Rollback Fualt Tolerancy
صفحه 12:
۵ ۵0و09 ۲۲ ولثر دممینو
۴ فرایندها بسته به نیازشان هنگام اجرا با هم ارتباط برقرار ميکنند. بدینوسیله وابستگي بین
آنها ایجاد ميشود.
هنكام وقوع خرابي در يك يا چند فرایند. در زمان 10)]6006 . به خاطر وابستگي بین
فرایندها علاوه بر فرايندي که در آن خرابي رخ داده. ممکن است سایر فرایندها نیز مجبور به
شوند. Rollback Propagation orn cy! a 352
* حالت سراسري ساز كار Rollback Propagation wlio checkpoint ,|
محدود نماید.
* اگر در برخی سناريوهاي خرابی این ue Rollback Propagation به اين شود که
همه فرايندها به حالت اوليه 055 Domino Effect) guess ais Fy ,€ داده است.
وقوع اين يديده باعث از دست رفتن تمامي محاسبات قبل از خرابي گشته و سیستم را به
حالتي که هیچ عملياتي انجام نداده بود ميبرد. بدین جهت این پدیده نامطلوب است.
Rollback Fualt Tolerancy
صفحه 13:
براي اجتناب از اثر دومینو در سیستم. فرایندها باید 02060010011008» خود را بصورت هماهنگ انجام
داده که سبب پیشرفت 106] 1660۷6۳۱ ميشود. يا اینکه عملیات checkpointing خود را با
واقعه نگاري نگاري ترکیب کنند.
Domino Effect
Rollback
= ‘Propagation
Checkpoint
Failure
Figure $. Rollback propagation, recovery line and the domino efvet.
Rollback Fualt Tolerancy
صفحه 14:
9 ولثر دومینو
* هنگامی که هر فرایند مستقلاً عملیات checkpointing را انجام دهد میتواند
سبب پیدایش اثر دومینو شود( checkpointing lle ناهماهنگ) .
۴ يكي از روشهايي که سبب ميشود عملیات 10006001018 هماهنگ انجام
شود این است که سیستم در بعد وسیع حالت سازگار خود را ذخیره نماید.
"" راه ديكر اينكه 006612011161118 بر مبناي ارتباط باشد. به اين معنى که هر
فرايند را مجبور كند بر اساس اطلاعات سوار شده بر ييامهابي كه از فرايندهاي ديكر
دریافت ميکند. 6۵۲ خود را بكيرد. 06۵66۳01 هایی که در کل
سیستم به صورت سازگار گرفته شدهاند. هميشه بر روي 516/6510۲86
وجود دارند. بنابراین از اثر دومینو اجتناب ميشود.
Rollback Fualt Tolerancy
صفحه 15:
تعامل با دنياي خارج
يك سیستم گذردهي pl معمولا براي دریافت داده یا نشان دادن خروجي
محاسبات با دنياي خارج در تعامل است. با اين تفاوت که اگر خرابي رخ دهد
دنياي خارج نميتواند به 110116006 تکیه نماید.
© يتابراين بروتكلهاي 6 براي تعامل با دنياي خارج باید رفتار
خاصي را بر كزيند.
* قبل از ارسال خروجي به دنياي خارج aS (le og piles gly places
خروجي از آن ارسال ميشود. علیرغم خرابي در آینده. قابل بدست آوردن
all, Casal 5 صدور خروجی)
براي پيامهاي ورودی راه حل عبارت از ذخیره پیام ورودي بر روي
‘stable Storage قبل از اينکه به برنامه كاربردي اجازه پردازش آن
داده شود. میباشد.
Rollback Fualt Tolerancy
صفحه 16:
Logging Protocolsvs. Checkpointing
روش واقعه نگاري وقتي تعامل با دنياي خارج مکرر است. بیشتر استفاده ميشود. زیرا يك فرایند را قادر
ميسازد اجرایش را تکرار کند و با لرسال خروجي به دنياي خارج بدون داشتن هزینه گران
checkpointing قبل از ارسال خروجي سازگاري داشته باشد.
Maximum recovgrable state
۱ Replay delivery to recov Orphan
Pe - ١|“ message
Py
itficheckpointing
يم
¢
ins and mis lost upon failure
Figure 6, Message logging for deterministic replay.
Rollback Fualt Tolerancy
صفحه 17:
ات 5۵6۲۵5:0۲
۴ 6006260۷0۲۷])م از 50۲۵۵06 5۵6)6 بولیذخیرم
:20181 فرلیندهء ولقعه ن گايیو سایر لطاهاتمربوط به بازيابي
Collection ® © ب ریپ اك کرد ن|طاهاتب_زيابیب لالستفادم
Gsly. checkpoint jib Lly)og oe
Bic y Recovery line oo 5 a Garbage collection ly al)ch 3
تمامي اطلاعات مربوط به رخدادهايي که قبل از آن خط رخ داداند. ميباشد.
* اجراي الگوریتم خاص براي حذف اطلاعات بلا استفاده موجب سربار در
سیستم ميشود.
Rollback Fualt Tolerancy
صفحه 18:
۴ تعاریف
Checkpornting ce In"
پروتكلهاي بر مبناي واقعهنگاري *
مقایسه *
۴ مراجع
Rollback Fualt Tolerancy
صفحه 19:
Sabali Checkpointing
۴ 066201111118 ناهماهنكبه هر فرليد اجانه بيشترينخود
لستقلالیا بولیت صمیمگیریدر گرفتن/ 0606۳0011 میيهد.
9 مزیت آصلي این خود استقلالي عبارت از:
* هر فرایند. 06۵660001008 خود را زماني که قادر است. ميگيرد. براي مثال يك فرایند ميتواند سربار
checkpointing l |, در وقتی که قدار حالاتي sas 0 كوجك باشد. گاهش دهد
8 ار 5 5
۴ _ احتمال وقوع اثر دومینو که سیب از دست دادن مقدار وسيعي از کار انجام شده ميشود. وجود دارد.
فرایند ممکن است 20۵660010 بلا استفادهاي را که هرگز بخشی از يك حالت سازگار سراسري
نخواهد بود.بگیرد. 660۵6600408 مذکور مطلوب نیست زیرا موجب سربار شده و در پیشرفت عط
بازیافت دخالتي ندارد.
© 08666۳001768 نناهماهنگف رلینها را مجور به ن_گهداریچدین!60800600]10 میکند و
Sab checkpoint ir, acl Garbage cotCection باعطجرلودورملوا لكوييتم
مدتطولانی)ستفلده نشدماند. Spee 1
براي کاربردهايي که خروجي دارند مناسب نميباشد زیرا نیازمند يك هماهنگی سراسري براي محاسیه
خط بازیافت ميباشد. 5 5 5 5
Rollback Fualt Tolerancy
صفحه 20:
اطلاعات وابستگی
“Let C, be the x checkpoint of process P(X: Checkpoint index).
“cet J,,denote the interval between checkpoints C,,,&C,,.
“If Pat I, sendsmessage mto P, it will piggyback thepair (ix)on m.
“When Pyreceives min I,,it vecordsependendyinfowhen P,takes c,,.
x I 1
(i) Am
۳ I 1
co cu Cit cx
لهم د 4 لهم
Figure 7. Checkpoint index and checkpoint interval
Rollback Fualt Tolerancy
صفحه 21:
چگونه بازیافت انجام ميشود؟
DependencyInformation
7 :
‘Request for Rollback
اگر حالت كنوني در طول خط بازیافت بود اجرا ادامه مييابد.
hoy checkpoint 4 Sa! pe 59 خط بازیافت عقب
گرد ميکند.
24/50
Rollback Fualt Tolerancy
صفحه 22:
گراف وابستگي و گراف 606۳0110» در محاسبه خط بازیافت
ان
۳
a
Dependency og =
7
ره
Recovery tially
line Marked ark Marka
Checkpoint Graph
Rowovery
a Tine
© .م
Figure 8, (a) Example exceution: (b rollback-dependeney graph: () checkpoint graph
221/50
Rollback Fualt Tolerancy
صفحه 23:
Garbage Collection
* هر 66606۳001006 اي براي هر ترکیب ممکن از خرابي
باشد ميتواند جزو 9060066016061101 باشد.
فرایندها که قبل از 21706 106607671۷
oloai Rollback Propagation jbl» Soi 23 pin Recovery Line af lke ®
زيادي از 6060600106 هاي غیر ضروري لازم است نگهداري
Global recovery
Obs
checkpoints
line
{Go
7 Markallvolatilecheckpoints | Pal
S&removealledgesendingina | |
marked checkpoint.
ها رای رسیم Ose .©
ge collection based on global recovery line and obsolete cheekpoints.
Rollback Fualt Tolerancy
صفحه 24:
۷۷۵ هماهنگ
loan] 3 a5 ols jLi Kalen checkpointing JS5, ©
:610011 خود را به صورت هماهنگ در قالب يك حالت سراسري
سازگار بگیرند.
8 مزایا:
* سادهسازي در Recovery
۰
در آن اثر دومینو انتظار نمیرود. زیرا هميشه هر فرایند از آخرین 10660000۷» خود
شروع مجدد مينماید. .7
© هر فرايند فقط مجبور به نگهداري يك 06۵060100 در 5۲0666510۲006 ميباشد که
سبب کاهش سربار ذخیره. همچنین حذف نیاز به Garbage collection ميشود.
3 عيب عمده:
۴ تاخیر طولاني براي صدور خروجي. زیرا يك 6606001006> سراسري قبل از صدور خروجي
به دنياي خارج نیاز است.
Rollback Fualt Tolerancy
صفحه 25:
چگونه 02690 ها هماهنگ میشوند؟
Block communications while the checkpointing protocol executes
Takea checkpoint
اكه ةكد
Communicatio
Channet.
Take Tentative
Checkpoint
Commit message
‘Removeold
checkpoint
251/50
Rollback Fualt Tolerancy
صفحه 26:
Non-blocking Checkpoint Coordination
يك مساله ابتدائي در 0606060011011 هماهنگ جلوگيري فرایند از دریافت پیام ميباشد که
ميتواند 6001108 م0)عرط ناسازگار سازد.
Initiator Initiator Initiator
heckpoin request
teekpoint rues
request متيام لوي
oh Cis es
0 oy ©
Figure 11, Non-blocking coordinated checkpointing: (a) checkpoint inconsistency: (b) with FIFO
channels; (c) non-FIFO channels (short dashed line represents pizgybacked checkpoint request)
Rollback Fualt Tolerancy
صفحه 27:
کلاك سنکرون شده )00
۴ کلاك سنکرون ميتواند سبب تحريك عملیات 60۵06001۷18 محلي
همه فرایندهاء تقریبا در همان زمان بدون 61۵060010 شروع کننده
شود.
.
Checkpoint 2113 eh ميگیرد و براي مدتي که مساوي با مجموع
بیشترین انحراف بین کلاك و بیشترین زمان براي تشخیص خرابي در
فرايندهاي دیگر در سیستم میباشد. منتظر میماند.
فرایندها ميتوانند مطمئن باشند 45 checkpoint ao ها بدون نیاز به
تبادل هیچ پیامی به صورت هماهنگ گرفته شدهاند.
Rollback Fualt Tolerancy
صفحه 28:
Minimal Checkpoint Coordination
* براي 6620© هماهنك لازم است كه همه فرايندها در هر عمليات
9 شرکت کنند.
این نيازمندي به مفهوم مقیاس پذيري وابسته ميباشد. بنابراین کاهش تعداد فرايندهايي که
در 0606۳00106 هماهنگ شرکت دارند. مطلوب میباشد.
ل در طول فاز اول. 06600]06> آغاز کننده همه فرايندهايي که با آن )5 bs checkpoint
ارتباط داشته است را مشخص نموده و به آنها يك درخواست ميفرسند.
فرایند به محض دریافت درخواست. همه فرايندهايي که با آن فرایند از 606006۳00001 قبلی
ارتباط داشته است را مشخص نموده و به آنها يك درخواست میفرستد و به همین منوال تا اینکه
فرایند ديگري براي شناسايي نباشد.
3 در طول فاز دوم. همه فرايندهايي که در فاز اول شناسايي شدند 06606001106 ميگيرند.
Rollback Fualt Tolerancy
صفحه 29:
Communication-inducedCheckpointing
* از اثر دومینو جلوگيري مي كند با اينكه به فرايندها اجازه ميدهد برخي
:01 عع ها را مستقلا بكيرند.
* بهرحال فرايندهاي مستقل مجبور به ضمانت تحول پیشرفت خط بازیافت
ميباشد. بنابراین فرایندها مجبور به گرفتن 06001100ع0» اضافي ميباشند.
checkpoint) اجباري)
pl ychins only al I sulrcpelCheckpoint 3 | يردانِشكد كرفته
شود که موجبتساخیر و سربار زیاد مییّسود
7 در عوض با 006060010 گرفتن هماهنگ هیچ پیام خاصي رد و بدل نميشود
29/50
Rollback Fualt Tolerancy
صفحه 30:
چارچوب مطالب
© ميمه
" تعاريف
* پروتكلهاي checkpointing
* پروتگلهاي بر مبناي واقحهنگاري
۴ مقایسه
Rollback Fualt Tolerancy
صفحه 31:
Log-Based Rollback Recovery
= اجراي يك فرايند مي تواند با دنبالهاي از بازه حالات قطعي مدل شود
که شروع هر اجرا و بعبارتي بازه با يك رخداد غیر قطعي آغاز
ميشود.
7 شروع بازه قطعي فقط به دنبالهاي از رخدادهاي غیر قطعي که قبل از
شروع بازه ميباشد. بستگی دارد.
که
Rollback Fualt Tolerancy
صفحه 32:
-Log-Based Rollback Recovery Concepts
* این روش بر قطعیت تكهاي تکیه دارد. فرض ميکند همه رخدادهاي غیر قطعي
ميتواند مشخص شود و عاملهاي مربوطه مي تواند |
ذخیره شود.
ل با واقعه نگاري و پاسخ به رخدادهاي غیر قطعي به ترتیب اصلي خود. يك فرایند
قطعا ميتواند حالت قبل از خرابي خود را بازسازي کند حتي اگر این حالت
wl os checkpointing
* علي الخصوص براي كاربردهابي که با دنياي خارج در تعامل هستند که شامل وسایل
ورودي /خروجي که نميتواند 0618066 نماید. جذاب ميباشد.
*_ با این حال هر فرایند براي کاهش گسترش عقب گرد در checkpointing cab jb Jyb ,|
نجام ميدهد.
2 66ه۲6)م بر مبنایولقعه نگاييه حا تیف رلتر از eh checkpoint
ازگار لخير و ضمانتمیکند سیستم هیچ ف ولیند بتیميرا تولید ز
Rollback Fualt Tolerancy
صفحه 33:
واقعه نگاري بدبینانه در مقابل خوشبینانه
© در واقعه نگاري بدبینانه کاربرد بای بلوك شده و منتظر عاملهاي رخدادهاي
غيرق رخداد توسط بقیه فرایندها یا دنياي
تخارج:ديدة شود وأقحة نكاري شود.
خطا ميتواند بعد از هر رخداد غير قطعي رخ دهد.
در واقعه نگاري خوشبینانه. کاربرد بلوك نميشود. عاملها در يك ۲0۵ موقتي
نگهداري ميشود و به صورت آسنکرون در wh abs stable storage
لا واقعه نگاري قبل از ایجاد خطا کامل ميشود.
Rollback Fualt Tolerancy
صفحه 34:
20-6 بر لساسلینکه عاملعا چگونه نگاشته شوند
دارلیسه روشگوناگونلست
۴ پروتکل بدبینانه ضمائت ميکند که بخاطر خرابي يتيمي تولید نخواهد شد.
اين يروتكل سبب سادگي در Garbagecollection , recovery 9
خروجي با هزینه سربار كارايي بالاتر هنگام عاري از خطا بودن ميشود.
پروتکل خوشبینانه سربار كارايي بدون خطا بودن را کاهش ميدهد اما اجازه
ایجاد يتيم را بخاطر خطا ميدهد. احتمال داشتن یتیم بازیافت
7 »6 و خروجي را پیچیده ميکند.
پروتکل سببي سعي بر ترکیب مزاياي سربار پائین کارايي و خروجي سریع را
دارد. اما ممکن است نیازمند ۲۵60۷۵۳۷ و Garbagecollection
پیچیده گردد.
Rollback Fualt Tolerancy
صفحه 35:
چگونه بدبینانه بازیافت ميکند؟
‘Roll forwarduse determinant Cogs to موس
deliver same sequence of messages. و
determinant
5
(mmm) Po
Maximum recayerable state
(mmm) Py
(mm) Py
جح
Restartfrom Figure 12. Pessimistic logging
BothstateZYisconsistentwithX
‘Recoveryiscomplete
Rollback Fualt Tolerancy
صفحه 36:
در سيستم 08) كردن بدبينانه ....
® حالت قابل مشاهده هر فرايند هميشه قابل بازيافت است.
مزای:
9 فرایندها ميتواند بدون اجراي پروتکل خاصي به دنياي خارج خروجي صادر کنند.
3 فرايندها از :04866201511 اخير خود به محض وقوع خرابي مجدد شروع ميکنند
۴ محدود كردن كسترش اجراي sam
3 بازیافت ساده شد زیرا اثر خرابي فقط محصور به فرايندي که خراب شده ميشود.
© يك قرایند هیچ وقت يتيم نخواهد شد. زيرا فرايند هميشه به حالتي كه شامل تعامل اخير با فراينديهاي
دتگر با دنيای خارج استزباز مت گزدد. 1
2 اطلاعات بازیافت ميتواند به آساني دور ريخته شود.
© 6۵600 هاوقدیمنر و عاملهایرخدادهایغرقطمیقبلاز 0860600101 لخیر مین ولنند
حذفشود. 1 0 5 5 1
" هزينهاي كه براي اين مزايا بايد برداخت شود جريمه كارايي با واقعه نكاري سنكرون
مىباشد.
Rollback Fualt Tolerancy
صفحه 37:
کاهش سربار توسط روش:
Sender-Based Message Logging (SBML)
* ۹۵۷8 عاملهاي تناظر بالنتقلسيام 10 را در حافظه موقتف رستندم
ا عاملهاي 16 شامل محتوا و ترتيبي که ارسال شده در دو مرحله ثبت ميشود.
‘Before Sendingm
Sender Cogsitscontent
involatilememory
‘Then receiver respondswithanack.
includes order in which the message 0 و Che
delivered.
determinant
dering
information
مب وند كخرلبیا تحمل نماد و رخدادهایفبرقطعیداخلك OB
فرلیند را ن مت ولند حاماید.
Rollback Fualt Tolerancy
صفحه 38:
کاهش سربار توسط روش:
Relaxing Logging Atomicity
۴ باارسال پیام یا رخداد و تفاوت قائل شدن ميان ثبت آنها تا زماني که میزبان با
ميزبانهاي دیگر یا دنياي خارج ارتباط برقرار نماید.
۵ دررط ثبت پيامهاي اد تا زماني که با فرايندهاي دیگر یا دنياي خارج در ارتباط هستند.
تغییر ميکند.
9 پيامهاي sm, ,10 مجاز به اثر كذاري بر روي فرايند م2 مي باشند, اما این اتر محلي است و
فرایند ديگري يا دنياي خارح آن را نميتوانند ببینند تا اينكه ييام ثبت شود.
ثبت رخداد و ارسال آن در اين واقعهنگاري خوشبینانه نميتواند در عملیات يك
لحظداي انجام شود. 7 1
ee 8 ميتواند سربار را کاهش دهد. زیرا چندین رخداد ميتواند در يك عملکرد که باعث
کاهش تعدد دسترسي به 506665107086 ميشود. ثبت شود. تاخیر ارتباط بین فرايندي و
صدور خروجي کاهش نميیاید زیرا عملیات ثبت معمولا قبل از ارسال پیام نیاز است.
Rollback Fualt Tolerancy
صفحه 39:
اش ومد ریب مت کید
* پروتكلهاي خوشبینانه نیز به این دارد که چندین 060066001006 را نگهداري sales
* براي آسنکرون بودن صدورلاخروجي [نیازمند هماهنگي چندین میزیان ميباشد.
‘tog Por oll Back toundo
ask Need to
Commit output
P7become Orphan
ing
Orphan
Beforem, isCogged
P2rollback
Figure 13. Optimistic logging,
Rollback Fualt Tolerancy
Py
صفحه 40:
۷۷ سنکرمن
۴ همه فرایندها پروتکل 1060۷671۷ را براي محاسبه بیشترین حالت قابل بازیافت سیستم.
بر اساس وابستگي و اطلاعات نگاشته شده آنجام ميدهند. سپس 10)18066 را انجام
ميدهند. °
* وبستگي ستقیم
انديس بازه فرستنده بر روي هر ييام خروجي براي اينكه به دريافت كننده اجازه
دهد تا وابستگی که مستقیما بواسطه پیام ایجاد شده. ضبط نماید.
2
9 وابستگي متعدي عموما سبب ايجاد سربار بالاتري براي سوار شدن بر بيامها و
نگهداري بردار es مي شود. اما صدور خروجي و بازيافت سريعتري را به
ارمغان ميآورد. روش آن به شکل زیر است:
Eachprocess P.maintainsa size-Nvector TD,where TDlilis?,’s
current stateintervalindex,& TDIjlj i,records the highest index
ofany stateinterval of Pon which P, depends.
Rollback Fualt Tolerancy
صفحه 41:
Multipleincarnations of thesameprocessmay
coexist in the Asynchronous Recovery
Ifa single failure causes aprocess to roll backan exponential number of times
Ingeneral whichprocess P,, i> 0, rolls back 2“ timesin response to P,'sfailure.
Approachis to piggyback the original rof(backannouncement onany subsequent
rollbackannouncement (P,piggybacks ron r,).lix):x'"interval of
[1.2] Coses i“incarnation
Po
عمط
v,reaches?,
before,
Figure 14. Exponential rollbacks.
Rollback Fualt Tolerancy
صفحه 42:
Maximum recoverable state رح
Po
{Determinant ofeach
eventscontains:order
inwhichitsoriginal
receiver delivered the
corresponding message.
P, will beable to guide the
recovery ofP,,P,sinceit knows
the order inwhich, should
replaymessagesm,,m, toreach
the statefromwhich?, sends
é | ۱ ومد
Noticeinformation about m,m, isnot availableanywhere.
Figure 15. Causal logging. (a) Maximum recoverable states, and (b) antecedence graph of Pp at state X,
Rollback Fualt Tolerancy
صفحه 43:
چارچوب مطالب
© ميمه
" تعاريف
* پروتكلهاي checkpointing
۴ پروتکلهاي بر مبناي واقعهنگاري
* مقایسه
۴ مراجع
3/50
Rollback Fualt Tolerancy
صفحه 44:
مقایسه:
0 Causal
Logging Logging
-Pessimisite
Logging
Complex | Complex
Several
Possible
Possibly Last
1 | checkpoint
checkpoints
Yes Yes
Fastest Slow Fast
Comm
Induced
Checkpointing
No
Complex
Several
Possible
Possibly
several
checkpoints
Yes
Very slow
Coordinate
Very slow
Uneoontinated
Checkpeinting
No
Complex
Several
Possible
Possible
Lnbounded
Yes
Not possible
Table 1 Comparison between different flavors of rollback-recovery protocols
Rollback Fualt Tolerancy
PWD
assumed”
Garbage
collection
‘Checkpoint
process
Domino
oe
Orphan
processes
Rallback
extent
Complex
‘Ourput
commit
صفحه 45:
چارچوب مطالب
مقدمه
۴ تعاریف
* پروتكلهاي checkpointing
۴ پروتکلهاي بر مبناي واقعهنگاري
* مقایسه
ely
Rollback Fualt Tolerancy
صفحه 46:
| Survey
£. N.E(nozahy,D.B.Johnson,andy.M. Wang, A survey of
rollback-recovery protocolsin message-passing systems,
Tech. Rep. No. CMU-CS-96-787,Dept. of Computer Science,
Carnegie MefCon University, 1996.
= £.AlvisiandK. MarzulCo,
"Message Logging: Pessimistic, Optimistic,andCausal,’
Proceedings of the 5thIEEEInternational Conferenceon
Distributed Computing Systems. Vancouver,Canada, June
1995, Pp. 229-236.
Rollback Fualt Tolerancy
صفحه 47:
| Model & Consistency
* K.M.Chandyand£. Lamport, Distributed Snapshots: Determining Global States
of Distributed Systems, ACM Trans. on Computer Syst.,vol.3,n0.1,pp.63-75, Feb.
1985.
© VM. Wang A.Lowry andW. i. Fucks, شدای سس امه او نج ایو
direct dependency tracking, Information Processing Letters, Vol.50, No.4, pp.223-
230, May 1994.
= YM. Wang,“Maximumandminimum consistent global checkpointsand their
applications, in Proc. IEEE Symp. Reliable Distributed Syst. (SRDS), pp. 86--95,
Sept. 7995.
" JianXuand Robert H.B. Netzer, Necessary and Sufficient Conditions for
Consistent Global Snapshots, (cs93-32,ps), IEEE Trans. on PADS. Vol.6, No.2,
February 1995.
© D.ManivannanandM. Singhal,’A Low-overhead Recovery Technique Usin,
Quasi Synchronous Checkpotnting, In Proceedingsofthe sethinternational
Conference on Distributed Computing Systems, May 1996, pages 100-707.
© D.Manivannan, Robert H.B. Netzer andM. Singhal, Finding Consistent Global
Checkpointsina DistributedComputation, (OSU-CISRC-3/96-TR16) In IEEE
Transactions on Parallel and Distributed Systems, a(6):623-627, June 1997.
۶ D,ManivannanandM. Singhal, Quasi-Synchronous Checkpointing: Models,
Characterization andClassification, Submitted toIEEETransactionson
Parallel and Distributed Systems.(7999)
Rollback Fualt Tolerancy
صفحه 48:
| سس (No Cogging)
JianXuand Robert H.B. Netzer, AdaptiveIndependent Checkpointing
for Reducing Rollback Propagation, (cs93-25.ps)In Proc. sthIEEE Symp.
on Parallel and Distributed Processing pages 754-761, December 1993.
" B.Bhar qavaands. R. Lian, Independent Checkpointing andConcurrent
Rottbackfor Recovery An Optimistic Approach, In Proc. of IEEE Symp.
on Reliable Distributed Syst.,pp.2-12,1988.
= R,Kooands.Toueg,'Checkpointing and Rollback-Recovery for
DistributedSystems, IEEE Trans. on Software Eng.,vol.SE-13,no. 1,pp.
23-31,Jan.1997.
* [1.2.1000 و0 'ب6ته .4ه
in DistributedSystems, IEFETrans.on Parallel and DistributedSyst
Vol. 4,n0. 8, pp.955-960, Aug. 1993.
V.M.WangandW.K. Fuchs, Lazy checkpoint coordination for bounding
rollback propagation, in Proc. IEEE Symp. on Reliable Distributed
Systems (SRDS -72),pp.78--85,0ct.1993.
= y.M.Wang,?.y.Chung,I.J.Lin,andW.X. Pucks. “Checkpoint space
reclamation for uncoordinated check; ointing in message-passing
systems." IEEE Trans. Parallel and Distributed Syst.,6(5):546-554,May
1995.
Rollback Fualt Tolerancy
صفحه 49:
Implementation & Performance
© Emootazbellah Nabil ELnozahy, David B. Johnson and WillyZwaenepoel, ‘The
Berformanceof Consistent Checkpointing, In Proceedings of te thSymposiumon
Reliable Distributed Systems pp. 39-47, IEEE Computer Society, Houston, TX, October
1992.
© Y.dtuang,C.Kintala,andy.m. Wang, Software ToolsandLibrariesfor Fault
Tolerance, in Bulletin of the Technical Committeeon Operating Systemsand
Application Environment (TCOS), Vol.7, No.4,pp.5--9, Winter, 7995.
© V.M.Wang¥,duang,X.-P. Vo,P.y. Chung, andC. Kintala, 'Checkpointingandits
applications, in Proc. IEEE Fault-Tolerant Computing Symposium (FICS-25), pp.
22-37,June 1995.
* Roberto Baldoni,Jean Michel Helary, Achour Mostefaoui, Michel Raynal.
“Consistent Checkpointing in Message Passing Distributed’ ystems".Institut
National de RechercheenInformatiqueet en Automatique, Juin, 1995.
Gerard?. Kavanaughand William 4. Sanders. “Performance Analysisof two
Hime. Based Coordinated heckpointing Protocols.” Center for Reliable & High
Performance Computing Coordinated Science Laboratory, University of I(tinoisat
‘Urbana-Champaign, From PacficRimInternational Symposiumon Fault-
Tolerant Systems, Taipei, Taiwan, December 15-16,1997.
B.BhargavaandS.R. Lian. “Independent checkpointingandconcurrent rollback
for recovery -Anoptimistic approach." In Proc. IEEE Symp. Reliable Distributed
‘Syst.,pages 3-12, 1988.
Rollback Fualt Tolerancy
صفحه 50:
| MiscelCaneous
" £.Cohen,y.M. Wang,andG. Suri, "When piecewise determinismisalmost true, in
Fault-Tolerant Systems,pp.66--71, مع 0 رط
‘Dec. 1995.
boundon useful distributed عو وی با J .ته وتتبجقء ۱
System checkpoint, Tech. Rep. CRIC-99-16 CoordsnatedScience faboratary,
‘University of I(Cinoisat Urbana-Champaign, 7995.
Ramamurthy, B.,Upadhyaya,S.Bhargava,B.,"Designandanatysisofan
integrated checkpointirig and recovery scheme for distributed applications, IEEE
Transactions on KnowledgeandData Engineering, Volume: 72Issue:2,March-
April 2000 Pagels):174-186
Dan Pei, Dongsheng Wang, Meiming Shen, Weimin Zheng, "Designand
implementation ofa (ow overhead ilecheckpointingapproach, High Performance
Computingin the Asia-Pacific Region, 2000. Proceedings. The Fourt
International Conference/Exhibition on, Volume: 7,2000Page(s):439 -441vol.1
Meth, K.z.,Tuel,W.G,,"Parallel checkpoint /restart without message Clogging, =
International Workshops on Parallel Processing, 2000. Page(s):253-258
ViZhang, Jianping Hu'Checkpointing andprocessmigrationin network
computing environment, Info-techandInfo-net,2007. Proceedings. ICI 2007 -
‘Beijing. 2007 International Conferences on, Volume: 3,200
مهم كشا كهوحها عقعدة ]اه تفاهه وج اخ دادمو عع جنتعو]ء 5 ملاب ركوط ۱
distributed systems, Distributed Computing Systems, 2007. 27st International
Conferenceon.,2007 Page(s):39-46
Rollback Fualt Tolerancy
