آیا تا به حال چیزی درباره Data deduplication شنیده اید؟ در این مقاله قصد داریم تا به شما توضیح دهیم که Data deduplication چیست و انواع روش های Data deduplication را برای شما ذکر کنیم.
Data deduplication در واقع به شما کمک می کند تا به راحتی فایل های خود را با سرعت بسیار زیادی به سرور ابری انتقال دهید و بهترین خدمات را به کاربران خود ارائه دهید.
روش های Data deduplication مختلف است و امروز نیز در این مقاله، با انواع روش های Data deduplication آشنا خواهید شد و خواهید دانست که چگونه می توانید اقدام به پیاده سازی Data deduplication کنید.
در مبحث محاسبه، Data deduplication روشی برای از بین بردن نسخه های تکراری و اضافی داده ها است. در واقع شما با استفاده از این تکنولوژی می توانید از به وجود آمدن فایل های تکراری جلوگیری کنید و بار شبکه را بسیار سبک تر کنید و در واقع به به این روش نیز “نمونه تک از داده موجود” و یا به انگلیسی Single-Instance Data نیز گفته می شود.
دلیل استفاده از Data deduplication این است که به شما کمک می کند تا فضای ذخیره سازی داده و اطلاعات شما بهینه شود و همچنین تعداد بایت های ارسال شده به سمت سرور، بسیار کاهش پیدا کند.
نحوه کار کردن به این صورت است که در ابتدا طی یک فرایند، الگوهای بایت داده ها، شناسایی و تحلیل می شود و پس از آن، با تکه های دیگر با نسخه ذخیره شده فعلی مقایسه می شود، اگر احیانا دو فایل مشابه هم وجود داشته باشد، از ایجاد آن فایل در فضای ذخیره سازی جلوگیری می کند و اجازه نمی دهد تا چنین اتفاقی رخ دهد.
Deduplication در واقع با الگوریتم های فشرده سازی داده ها، مانند LZ77 و LZ78 متفاوت است. در حالی که الگوریتم های فشرده سازی، داده های اضافی را درون فایل ها شناسایی می کند و این داده های اضافی را رمزگذاری می کنند، هدف کلی آن، بهینه سازی فضای ذخیره سازی از بین بردن فایل های تکراری در سرور است که باعث می شود تا بار سرور بسیار سبک تر از قبل شود و از این جهت نیز، کارایی سرور بیشتر شود.
به عنوان مثال، یک سیستم ایمیل معمولی ممکن است حاوی ۱۰۰ نمونه از همان فایل پیوست (Attach) 1 مگابایتی باشد. هر بار که از بستر ایمیل نسخه پشتیبان تهیه شود، هر ۱۰۰ فایل پیوست شده ذخیره می شود و به ۱۰۰ مگابایت فضای ذخیره نیاز دارد. شما با استفاده از روش Data deduplication، فقط یک نمونه از فایل پیوست شده مواجه خواهید شد و دیگر نیازی نیست تا فضای اضافی، صرف فایل های تکراری کنید.
اختصاص داده های مبتنی بر ذخیره سازی از طریق deduplication، میزان ذخیره سازی مورد نیاز برای مجموعه ای از فایل ها را کاهش می دهد.
بیشترین کاربرد Data deduplication در برنامه هایی است که فایل های تکراری زیادی در یک فضای ذخیره سازی، اقدام به ذخیره شدن می شوند و از این جهت، در مورد پشتیبان گیری از داده ها، که به طور معمول برای محافظت در برابر از بین رفتن داده ها انجام می شود، با سرعت بیشتری صورت می گیرد و دیگر نیازی نیست تا از یک فایل، بیش از ۱۰۰ بار پشتیبان گیری صورت بگیرد و باعث می شود تا حجم عملیات کاهش و سرعت آن افزایش پیدا کند.
سیستم های پشتیبان (بکاپ گیری) سعی می کنند از این طریق با حذف فایل ها و اسنادی که تغییر نکرده اند بهره برداری کنند و سرعت خود را بالا ببرند.
با این حال، هیچ یک از روش های ذکر شده، افزونگی ها (یا به زبان انگلیسی Redundancies) را ثبت نمی کند.
سرورهای مجازی از deduplication بهره می برند زیرا باعث می شود تا به صورت عادی، فایل های سیستمی و فایل هایی که برای ماشین مجازی ایجاد شده است، در یک فضای ذخیره سازی جمع آوری شوند و در عین حال، می توانید به گونه ای تنظیم کنید که اگر فایل های تکراری در فضای ذخیره سازی جمع آوری شده اند، حذف یا جایگزین شوند.
اگر شما مسئول بخش آی تی یک شرکت هستید و هر از چند مدتی اقدام به تهیه نسخه پشتیبان و یا انتقال حجم زیادی از داده ها را برعهده دارید، به احتمال زیاد تا به امروز کلمه Deduplication را شنیده اید و این عمل باعث می شود تا از تکثیر داده تکراری جلوگیری شود و زمانی که شما از سرور ابری استفاده می کنید، می تواند هزینه های شما را بسیار پایین بیاورد.
در ساده ترین تعریف آن، Data deduplication به تکنیکی برای از بین بردن داده های تکراری در یک سرور و یا فضای ذخیره سازی گفته می شود.
در واقع نسخه های اضافی از همان فایل ها و داده ها حذف می شوند و فقط یک نسخه ذخیره می شود. داده ها برای شناسایی الگوهای بایت تکراری مورد استفاده قرار می گیرند تا اطمینان حاصل شود که نمونه واحد در واقع یک فایل کامل است و سپس، نسخه های تکراری با یک فایل مرجع جایگزین می شوند.
با توجه به اینکه همین الگوی بایت ممکن است دهها، صدها یا حتی هزاران بار اتفاق بیفتد، به تعداد دفعاتی که فقط در یک فایل تغییرات کوچکی ایجاد می کنید، مقدار داده های تکراری می تواند قابل توجه باشد.
در برخی از شرکت ها ۸۰% از داده ها کپی شده هستند و همین باعث می شود تا حجم کار، بدون هیچ دلیل خاصی بالا بروند و هزینه های زیادی برای فضای ذخیره سازی مصرف شود و از جهتی دیگر نیز، سرعت بکاپ گیری به شدت کاهش پیدا می کند و می تواند زمان زیادی را تلف کند.
پس از این جهت، به شما پیشنهاد می شود تا مسئله Data deduplication را در شرکت و یا سازمان خود، جدی بگیرید.
یکی از رایج ترین روش های Data deduplication با مقایسه تکه های داده برای تشخیص تکراری انجام می شود. برای اینکه این اتفاق بیفتد توسط یک بخش از نرم افزار سیستمی، در واقع اقدام به مقایسه هش ها و نحوه رمزگذاری فایل ها در کنار بایت های یک فایل می کند و پس از آن متوجه می شود که آیا فایل تکراری است یا نه.
در بسیاری از روش های Data deduplication، تصور می شود که اگر شناسایی داده ها و اطلاعات یکسان باشد، داده ها یکسان هستند و نیاز است تا فایل ها حذف شوند.
پیاده سازی های دیگر این مسئله را در نظر نمی گیرند که دو بلوک از داده ها با همان شناسه یکسان هستند، اما در واقع تایید می کنند که داده ها با همان شناسایی یکسان هستند.
پس از جمع آوری داده ها، پس از خواندن فایل مربوطه، در هر جایی که لینکی یافت شود، سیستم به سادگی جایگزین آن لینک با بخش داده های ارجاع شده می شود و اقدام به مقایسه کردن می کند.
یک روش برای جمع آوری داده ها به استفاده از توابع هش رمزنگاری برای شناسایی بخش های تکراری داده ها استفاده می شود. اگر دو قطعه مختلف اطلاعات یک مقدار هش یکسان ایجاد کنند، این به عنوان فایل تکراری برخورد می شود. معمولا زمانی یک فایل حذف می شود که طول هش ها و بایت ها با همدیگر یکسان باشد و بنابراین ممکن است یک هش تکراری ایجاد شود و از این جهت، فایل ها حذف شوند که در نتیجه ممکن است خسارت زیادی به کسب و کار شما وارد کند.
برای اینکه این عمل صورت نگیرد، معمولا به هنگام حذف فایل ها، نیازمند تایید کاربر است که آیا واقعا این دو فایل یکسان هستند و یا تفاوت هایی در داده وجود دارد.
برای بهبود عملکرد، برخی از سیستم ها هم از هش قوی و هم از هش ضعیف استفاده می کنند. هش ضعیف برای محاسبه بسیار سریعتر است اما خطر بیشتری برای برخورد و یا ایجاد خطا در سیستم وجود دارد.
سیستم هایی که از هش ضعیف استفاده می کنند در واقع یک هش قوی را محاسبه می کنند و از آن به عنوان عامل تعیین کننده این که آیا داده ها یکسان هستند یا خیر.
توجه داشته باشید که سربار سیستم (system overhead) مربوط به محاسبه و جستجوی مقدار هش در درجه اول تابعی از گردش کار deduplication است.
یک نگرانی دیگری وجود دارد که برای تعامل فشرده سازی و رمزگذاری است. هدف از رمزگذاری داده ها، از بین بردن هر الگوی قابل تشخیص در داده ها است. بنابراین داده های رمزگذاری شده را نمی توان دور زد، حتی اگر داده های اساسی ممکن است اضافی نباشند.
اگر هش های شما قابل حدس زدن باشد و دستگاه های مختلف بتوانند به راحتی هش های داده شما را حدس بزنند، باعث می شود تا امنیت فایل های شما از بین برود و از این جهت دسترسی های مختلفی به سیستم شما داشته باشند و یا بخواهند تا فایل ها را در سیستم شما از بین ببرند.
پس شما باید سعی کنید تا از رمزگذاری مناسب و همچنین هش نسبتا قوی در این مسئله استفاده کنید تا کسی نتواند امنیت شما را مختل کند.
Deduplication در سطح بلوک ۴ کیلوبایتی در کل حجم FlexVol و در بین کلیه حجم موجود در فضای ذخیره سازی، فعالیت می کند، بلوک های داده تکراری را حذف کرده و فقط بلوک های منحصر به فرد داده را ذخیره می کند و اجازه نمی دهد تا بار سرور، سنگین شود و از این جهت نیز کارها با سرعت بیشتری صورت می گیرد.
هنگامی که داده ها برای سیستم نوشته می شوند، موتور deduplication درون خطی بلوک های دریافتی را اسکن می کند و به صورت هش، اقدام به ذخیره سازی آن ها می کند و از این جهت می تواند متوجه شود که آیا این فایل تکراری است یا خیر.
Data deduplication مزایا و معایب مختلفی دارد که در ادامه به آن بیشتر می پردازیم.
زمانی که شما از روش های Data deduplication برای حذف فایل های تکراری استفاده می کنید، باید به نکاتی توجه داشته باشید که به ضرر شما تمام نشود.
مزایا استفاده از Data deduplication:
مشکلات به هنگام استفاده از Data deduplication:
حال می بینید که استفاده از روش های Data deduplication، می تواند برای شما مزایا و معایب در پی داشته باشد.
در رابطه با خط آخر که در قسمت مشکلات به هنگام استفاده از Data deduplication خواندید، باید ذکر شود که هیچ سیستم و الگوریتمی سازگاری ۱۰۰ درصدی ندارد و یک مبحث معروفی وجود دارد و این است که سیستم عامل ها به هیچ وجه پایدار نیستند و هرگز نباید خیال خود را بابت انجام Data deduplication راحت بگذارید و بلکه باید هر از چند مدتی موضوعات مختلف را در این زمینه بررسی کنید که ببینید آیا تمامی کارها به درستی پیش رفته است یا خیر.
Data deduplication در واقع روشی برای از بین بردن فایل های تکراری در فضای ابری و یا فضای ذخیره سازی داده ها است و از این جهت می تواند بار سرور را کم کند و همچنین به کارایی سرور کمک بیشتری کند. عملیات deduplication می تواند به شرکت ها کمک کند تا هزینه های اضافی را حذف کنند و خدمات بهتری به کاربران خود ارائه دهند زیرا باعث می شود تا سرعت کارایی آنها، بالا برود.
در واقع زمانی که بحث deduplication می شود، می توان به این مسئله اشاره کرد که این تکنولوژی با استفاده از عملیات مقایسه بین هش ها و بایت به بایت یک فایل، می تواند بفهمد که آیا دو فایل مقایسه شده، با همدیگر مشابه هستند یا خیر. اگر یک فایل مشابه بود، اقدام به حذف یکی از فایل ها می کند و فایل مرجع را در فضای ابری و یا فضای ذخیره سازی داده های خاص، اقدام به ذخیره کردن می کند.
خیر، زمانی که بحث مقایسه بین فایل ها می شود، می تواند در ابعاد گسترده تر از دو فایل باشد. چه بسا ممکن است زمانی برسد که عملیات مقایسه بین هزاران فایل صورت بگیرد و به این صورت است که می تواند حجم فضای ذخیره سازی داده ها را خالی کند و از این جهت بتوانید داده های بیشتر و عدم کپی در سرور خود جای دهید. از بین هزاران فایلی که مقایسه می کند، در واقع در ابتدا اقدام به مقایسه بین هش ها و بایت بایت فایل ها می کند و در صورت تشابه آن ها، اقدام به حذف فایل می کند و اجازه می دهد تا فایل مرجع در سرور ذخیره شود.
اگر بخواهیم که به تکنولوژی ها اطمینان ۱۰۰ درصدی داشته باشیم، در واقع اغراق کرده ایم و نمی توان گفت که ربات ها و تکنولوژی ها قرار است تا به صورت ۱۰۰ درصد یک کار را درست انجام دهند. احتمال اینکه امشب شما لپ تاپ خود را خاموش کنید و فردا دیگر سیستم عامل شما راه اندازی نشود، بسیار بالا است. هر چند این اتفاقات به ندرت رخ می دهد اما باز احتمال رخ دادن آن ها وجود دارد.
از این جهت، زمانی که شما اقدام به Data deduplication می کنید، ممکن است سیستم deduplication برخی از فایل هایی که واقعا کپی نیستند را یکسان ببیند و اقدام به حذف کردن آن ها کند که می تواند ضررهایی به کسب و کار شما وارد کند.
مثلا ممکن است تصادفی در هش ها به وجود بیاید و یا مقدار زیادی از فایل ها حجم یکسانی داشته باشند.
البته نیاز نیست نگران این مسئله باشید که حتما قرار است در آینده فایل های شما از این طریق حذف شوند، بلکه باید حواس خود را جمع کنید و هر از چندگاهی اقدام به پشتیبان گیری از فایل های خود کنید تا از وقوع هر حادثه ای که ممکن است رخ دهد، جلوگیری کنید.
ممکن است شما IT Man یک شرکت باشید و بخواهید هر از چند مدتی، اقدام به جا به جایی فایل و یا حتی پشتیبان گیری از داده های شرکت کنید و با حجم زیادی از فایل ها که احتمال دارد بسیاری از آن ها تکراری باشند، مواجه شوید.
از این جهت شما می توانید از عملیات Data deduplication استفاده کنید تا شناسایی فایل های تکراری صورت بگیرد و از این جهت، پروسه پشتیبان گیری و یا انتقال فایل ها، با سرعت زیاد انجام شود.
Data deduplication بهعنوان یک تکنیک کارآمد برای مدیریت و بهینهسازی فضای ذخیرهسازی دادهها، نه تنها از ایجاد فایلهای تکراری جلوگیری میکند، بلکه به کاهش بار سرورها، افزایش سرعت عملیات پشتیبانگیری و صرفهجویی در هزینههای ذخیرهسازی کمک میکند. بااینحال، مانند هر فناوری دیگر، این روش نیز چالشهای خاص خود را دارد؛ از جمله احتمال بروز خطا در تشخیص دادههای تکراری و ایجاد مشکلات در امنیت فایلها.
برای بهرهبرداری حداکثری از مزایای Data deduplication، لازم است که این تکنیک با دقت پیادهسازی شود و فرآیندها بهصورت منظم مورد بازبینی و پشتیبانگیری قرار گیرند. استفاده هوشمندانه از این فناوری میتواند نقش موثری در بهبود عملکرد سیستمهای ذخیرهسازی و سرورهای ابری ایفا کرده و به کسبوکارها کمک کند تا کارایی و بهرهوری خود را افزایش دهند.
در عصر حاضر، فناوری اطلاعات و هوش مصنوعی (AI) به سرعت در حال دگرگونسازی جنبههای…
دنیای تکنولوژی همیشه در حال تغییر است و هر روز یک فناوری تازه جایگزین روشهای…
آموزش جامع نصب Django روی اوبونتو مقدمه اگر به دنبال ساخت یک وبسایت یا اپلیکیشن…
آموزش گامبهگام حذف محدودیت Grace Period در Remote Desktop Services یکی از مشکلات رایج در…
پروتکل Remote Desktop Protocol (RDP) یکی از متداولترین روشها برای مدیریت سرورهای ویندوزی از راه…
شبکه های ارتباطی در طی چند دهه اخیر دچار تحولات بنیادینی شده اند. در آغاز،…