عمومی

یادگیری ماشین و فلسفه (قسمت 5)


در بخش قبلی بهترین فرضیه را در بین فرضیه های رقابتی برای توضیح “فرآیند تولید داده” بر اساس معیار “کوتاهترین برنامه برای تولید آن داده” تعیین می کنیم. این امر به ویژه برای انتقال داده ها دقیقاً مانند خواندن شماره تلفن شخص از طریق خط بسیار مهم است.

در سال های اولیه برقراری ارتباطات الکترونیکی و پیام های دیجیتال ، فشرده سازی داده ها به دلیل پهنای باند شبکه بسیار مهم بود. اگر پیامی می خواهید:

001001001001001 … 001001

اگر بتوانید در برنامه ای که تولید می کند فشرده سازی کنید ، ارسال آن همه احمقانه بود. این نگرانی ها باعث شد تا افرادی مانند کلود شانون ، ریاضیدان آمریکایی ، یک چارچوب نظری قوی ایجاد کنند که می تواند راه حلهای جامع برای فشرده سازی انواع داده ها در اختیار ما قرار دهد. تئوری اطلاعات در قلب این نیاز ایجاد شده است. شانون و همکاران دریافتند که الگوهای زیادی در داده های روزانه ما استفاده می کنیم که می توانند انتقال داده را از طریق فشرده سازی تسهیل کنند. اما این الگوها مانند سکانس فوق معمولاً ساده نیستند بلکه الگویی با تصادف هستند.

بیایید این را با یک مثال نشان دهیم. در زبانهای طبیعی مانند فارسی یا انگلیسی ، جملات و جملات دنباله ای از حروف هستند. اما این حروف به طور تصادفی توزیع نمی شوند: ساده ترین واقعیت این است که ما از بعضی حروف بیشتر از سایرین استفاده می کنیم ، برای مثال در F رایج ترین و کمترین مکرر “J” است.

توزیع حروف به زبان فارسی
توزیع حروف به زبان فارسی

این یک الگوی یا یک الگوی است! همین واقعیت به ما کمک می کند تا تعداد کمتری در ارتباط با کلمه مکرر و بیشتر برای کلمه کمتر مکرر اختصاص دهیم. این روش نسبت به روش دستیابی به طول بیت مساوی برای همه حروف موثرتر است. این نقص با استفاده از پهنای باند شبکه باعث می شود ما کارایی بیشتری داشته باشیم. کد هافمن یکی از راه های بهبود این امر است. البته ممکن است خنده دار به نظر برسید که زمان نگران ارسال پیام از طریق شبکه وجود داشت. امروزه شبکه های اینترنتی پر سرعت می توانند به راحتی از چند مگابایت به چند صدها مگابایت در ثانیه تغییر دهند. اما حتی با وجود چنین شبکه ها و بسیاری از کاربران نگرانی در مورد پخش فیلم ها به عنوان مثال در سایت های اشتراک گذاری ویدیو مانند YouTube وجود دارد. بار دیگر ، محققان علوم کامپیوتر متوجه شده اند که فیلم ، مانند زبان ، فقط مجموعه ای از داده های تصادفی نیست. درخواست در این فیلم به ما کمک می کند تا آن را فشرده سازی کنیم و انتشار آن را در وب آسان کنیم. در اینجا مثالی برای توضیح وجود دارد: هر فیلم یک سری فریم و هر فریم تصویر است. روش سنتی ناکارآمد ارسال فریم ها به صورت یک به یک به گیرنده در شبکه است ، اما هنگام تماشای یک فیلم ، همه تصاویر جابجا نمی شوند. به عنوان مثال ، در یک فیلم ویدیویی در حال حرکت ، ماشین فقط در حال حرکت است و در پشت صحنه تغییر نمی کند. بنابراین ، تا زمانی که نیازی به تغییر آن نباشد ، نیازی به ارسال بخشی از قاب تعمیر شده با فریم های زنجیر دار به شبکه نیست. این فناوری به فناوری IBP معروف است. قاب اول شامل یک قاب کامل است. فریم بعدی فریم P است که فقط بخشی از تصویر تغییر یافته را در خود جای داده است (در اینجا دایره های آبی رنگ هستند).

تنها روشی که نمی توان فیلم را فشرده کرد این است که فیلم کاملاً تصادفی است. فیلم تصادفی آدم برفی است که قبلاً در تلویزیون تماشا کرده اید! همین اصول در مورد فشرده سازی موسیقی mp3 و jpeg اعمال می شود. آهنگ هایی که می شنویم دست نخورده هستند و به همین دلیل می توانیم آنها را فشرده کنیم.

بنابراین داده ها با یک امکان واحد و منسجم ظاهر نمی شوند. شخصیت ها و کلمات زبانی با یک احتمال ظاهر نمی شوند و احتمالاً در بخش هایی از فیلم تغییر می کنند: به عنوان مثال ، ما انتظار نداریم لامپ شروع به حرکت در پشت صحنه کند! معمولاً چیزی تغییر می کند و انتظار داریم شخصیت اصلی در تصویر باشد. در میانه آهنگ ، انتظار نداشته باشید که ریتم همزمان تغییر کند. هیچ ترانه ای به هیچ وجه بدون ریتم قابل شنیدن نیست. فقط به صدایی که همراه با آستانه تلویزیون است گوش دهید! (سر و صدای سفید)

جهت دیدن مقالات بیشتردر مجموعه مطالب عمومی کلیک کنید 


منبع خبر: یادگیری ماشین و فلسفه (قسمت 5)

مسوولیت کلیه محتوای سایت بر عهده منابع اصلی بوده و بانک مشاغل اینفوجاب هیچ مسوولیتی در قبال محتوا ندارد.

دکمه بازگشت به بالا